The Journal of
the Korean Society on Water Environment

Bimonthly

ISSN : 2289-0971 (Print)
ISSN : 2289-098X (Online)
KCI Accredited Journal

Editorial Office

Tel. +82-2-389-2650
Fax. +82-2-385-3702
E-mail. kswe@kswe.org

[

Research Paper

]

The Journal of the Korean Society on Water Environment

JKSWE Vol. 41, No. 6, p.539-548

ISSN (print) :

2289-0971

ISSN (online) :

2289-098X

Received : 03 September 2025Revised : 27 October 2025Accepted : 01 November 2025

DOI :

https://doi.org/10.15681/KSWE.2025.41.6.539

MLR과 ANN 모델을 이용한 정삼투 막 모듈 성능예측

Performance Prediction of Forward Osmosis Membrane Module Using Multiple Linear Regression and Artificial Neural Network Models

이해룡 (Haelyong Lee) ^1aiD 누르하야티미타 (Mita Nurhayati) ^1biD 이승윤 (Sungyun Lee) ^2,^†iD

경북대학교 미래과학기술융합학부 건설 및 환경공학전공 (School of Advanced Science and Technology Convergence, Kyungpook National University)
경북대학교 환경안전공학과 (Department of Energy Chemical Engineering, Kyungpook National University)

^1a박사과정(Ph.D. Student), godkeepsme@naver.com, http://orcid.org/0009-0009-4482-163X

^1b박사과정(Ph.D. Student), nurhayatimita@gmail.com, http://orcid.org/0000-0003-3477-1674

^2,†Corresponding author, 교수(Professor), sungyunlee@knu.ac.kr, http://orcid.org/0000-0002-5812-8571

License :

This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/ licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

Abstract

Sustainable desalination technologies are gaining attention, with forward osmosis (FO) emerging as a promising alternative to reverse osmosis due to its low energy consumption and reversible fouling. However, accurately predicting FO module performance remains a challenge. This study developed and compared multiple linear regression (MLR) and artificial neural network (ANN) models to predict the performance of FO membrane modules using 69 datasets from pilot-scale plate-and-frame systems operating under varied conditions (membrane areas: 7–63 m²; feed concentrations: 10–30 g/L; draw concentrations: 70–150 g/L; flow rates: 5–20 L/min). Variable importance analysis revealed that membrane area and feed concentration are the primary factors affecting water flux. Both models exhibited high predictive accuracy (R² > 0.95). The MLR model demonstrated an R² of 0.9577 and a root mean square error (RMSE) of 0.6550 L m^-2 h^-1, with statistical validation (F = 228.74, p < 10^-32) and clear interpretability of variables. The ANN model achieved a slightly higher accuracy with an R² of 0.9886 and an RMSE of 0.3498 L m^-2 h^-1, along with improved generalization stability. For predicting recovery rates, both models reached an R² greater than 0.95, with the ANN model (0.9928) performing marginally better than the MLR model (0.9525). These results indicate that both methodologies provide reliable frameworks for predicting FO performance, with MLR offering interpretability and ANN delivering greater accuracy, making them suitable for different aspects of FO process design and scale-up.

Key words

Artificial neural network, Forward osmosis, Machine learning, Multiple linear regression, Performance prediction

1. Introduction

지속적인 인구 증가와 도시화, 산업화로 인해 물 수요는 급격히 증가하고 있으나, 기후변화에 따른 강수량 변동성과 가용 수자원의 한계로 인해 수자원 부족은 전 세계적으로 심화되고 있다. 국제기구는 2050년경 전 세계 인구의 약 57% 이상이 물 부족 지역에 거주할 것이라고 전망하고 있으며^{(Boretti and Rosa, 2019)}, 이에 따라 안정적이고 지속가능한 수자원 확보 기술에 대한 관심이 높아지고 있다. 이러한 배경에서 해수담수화는 지구 표면의 약 96.5%를 차지하는 해수를 담수로 전환할 수 있는 기술로 주목받고 있으며, 기후 조건에 의존하지 않고 안정적인 수원을 확보할 수 있다는 점에서 물 부족 문제 해결의 핵심 대안으로 평가된다^{(Elmakki et al., 2023;} ^{Mendoza et al., 2023;} ^{Zavahir et al., 2023)}.

현재 가장 널리 상용화된 해수담수화 기술은 역삼투(Reverse Osmosis, RO) 공정으로, 50-80 bar의 고압을 이용해 담수를 생산한다. 그러나 RO 공정은 높은 에너지 소비 (3-6 kWh/m³) 와 막 오염(fouling), 스케일링(scaling) 문제로 인해 경제성과 안정성 측면에서 한계를 가진다^{(Wang et al., 2023)}. 이러한 단점을 보완할 수 있는 대안으로 정삼투(Forward Osmosis, FO) 공정이 주목받고 있다. FO는 저농도 용액과 고농도 용액 사이의 삼투압 차를 구동력으로 하여 물을 투과시키는 막 분리 기술로, 외부 압력이 필요하지 않아 에너지 소비가 낮고, 막 오염이 주로 가역적(reversible) 특성을 가져 세정이 용이하다는 장점을 지닌다^{(Jasim et al., 2024;} ^{Van der Bruggen, 2018)}. 이와 같은 특성으로 FO는 해수담수화 전처리, 농축, 자원 회수 및 재이용 등 다양한 응용 가능성이 제시되고 있다.

그러나 FO 공정은 아직 상용화 초기 단계에 머물러 있으며, 복잡한 막 모듈 내부 거동으로 인해 성능 예측이 쉽지 않다. FO 막 모듈 내에서는 내부농도분극(Internal concentration polarization, ICP, 외부농도분극(External concentration polarization, ECP), 압력 손실, 농도 변화 등이 복합적으로 작용하여 수투과 특성이 비선형적으로 변동한다^{(Ma et al., 2023;} ^{Shi et al., 2022)}. 따라서 단순한 이론식만으로는 실제 성능을 정확히 설명하기 어렵다. 기존 연구는 크게 두 가지 접근법으로 분류된다. 첫째, 물질전달과 농도분극, 삼투압 변화를 수학적으로 모델링하는 이론적 접근법으로, 공정 원리에 대한 해석적 가치는 크지만 실제 규모 모듈의 거동을 완전히 반영하기 어렵고 복잡한 수치해석이 필요하다^{(Goi et al., 2025)}. 둘째, 실험 데이터를 기반으로 한 경험적 모델링 접근법으로, 통계적 회귀분석은 해석력이 뛰어나지만 다중 변수 간 복잡한 비선형 상호작용을 충분히 설명하지는 못한다^{(Wang et al., 2024)}.

최근에는 데이터 기반 기법이 이러한 한계를 보완할 수 있는 대안으로 주목받고 있다. 머신러닝(machine learning)은 변수 간 복잡한 비선형 관계를 학습하여 FO와 같은 다변량 시스템을 정밀하게 예측할 수 있으며, 충분한 데이터가 확보되면 높은 일반화 성능을 기대할 수 있다. 실제로 RO 및 UF 공정에서는 머신러닝을 적용한 운전 조건 최적화와 오염 예측 연구가 활발히 진행되고 있으며, FO 공정에도 점차 적용 가능성이 확대되고 있다^{(Cifuentes-Cabezas et al., 2023;} ^{Kovacs et al., 2022;} ^{Wang et al., 2025)}. 다중선형회귀(Multiple Linear Regression, MLR)는 입력 변수 기여도를 정량적으로 파악하는 데 유용하나 비선형성 반영에는 한계가 있고, 인공신경망(Artificial Neural Network, ANN)은 블랙박스 모델로 해석에는 제약이 있으나 복잡한 비선형 시스템 예측에는 강점을 가진다^{(Gosmann et al., 2022)}. 이와 같이 머신러닝은 막 공정 전반에서 활용 가능성이 입증되고 있으나, FO 분야에서는 특히 실규모 또는 파일럿 규모 데이터를 활용한 성능 예측 연구가 여전히 부족하다.

본 연구에서는 파일럿 규모 평판형 FO 막 모듈의 운전 데이터를 기반으로 MLR과 ANN 모델을 개발하고, 두 모델의 성능을 비교⋅평가하였다. 본 연구는 (1) 다양한 운전 조건에서 수집된 69개 실험 데이터를 활용한 변수 중요도 분석, (2) MLR과 ANN 모델의 최적 구조 도출 및 성능 평가, (3) K-fold 교차 검증을 통한 일반화 능력 검증, (4) 결정계수(Coefficient of determination, R²)와 평균제곱근오차(Root Mean Square Error, RMSE)를 이용한 정량적 성능 비교, (5) 예측된 플럭스를 활용한 회수율 평가를 포함한다. 이를 통해 FO 공정의 설계 및 스케일업 단계에서 적용 가능한 데이터 기반 모델의 가능성을 제시하고, 효율적 운영 전략 수립에 기여할 수 있는 기초 자료를 제공하고자 한다.

2. Materials and Methods

2.1 평판형 FO 파일럿 시스템 실험

본 연구에서는 파일럿 규모 정삼투 막 모듈 운전 데이터를 기반으로 하여, 여러 입력 변수를 정삼투 막 모듈의 플럭스의 상관관계분석을 통해 학습하여 예측 값과 실험 값의 비교를 통해 최적화된 모델을 개발하였다. 파일럿 규모 평판형 정삼투막 모듈(Porifera Inc., Hayward, CA, USA)을 사용하였으며, 단일 엘리먼트의 유효 막면적은 7 m²이며, 내부는 33개의 셀 프레임(cell frame)으로 구성되어 각 셀에 두 장의 평막이 장착되어 있다^{(Lee and Kim, 2018)}. 실험에서는 1개(7 m²), 3개(21 m²), 6개(42 m²) 엘리먼트를 직렬로 연결하여 총 막면적을 변화시켰으며, 필요 시 9개(63 m²)까지 확장 가능하도록 설계하였다(Fig. 1). 직렬 연결 시 각 모듈 출⋅입구에는 별도의 연결 배관을 사용하여 압력손실과 유량 불균형을 최소화하였다. 시스템의 공급수(feed solution, FS)와 유도용액(draw solution, DS) 유로에는 각각 원심펌프(CM1-2; Grundfos, Denmark)를 설치하고, PID(Proportional–Integral–Derivative) 제어와 가변 주파수 드라이브(VFD)로 유량을 정밀하게 조절하였다. 공급수와 유도용액 배관의 입⋅출구에는 유량계(KTM-800; Kometer, Korea), 전도도계(Signet; El Monte, CA, USA), 온도계가 설치되어 있으며, 압력계(P118; Wise Sensor, Korea)는 각 유로의 입구와 출구에 모두 부착하여 유로별 압력강하 및 막간 압력차를 모니터링하였다. 모든 계측 데이터는 데이터로거를 통해 10초 간격으로 자동 저장하였다. 정삼투 시스템은 막 제조사가 권고한 최대 작동 압력인 1 bar 및 막간 차압 0.21 bar 이내에서 운전되었으며, 공급수 출구측 밸브를 사용하여 공급 압력을 유도용액 압력보다 0∼0.14 bar 높게 유지하여 음의 막간 차압으로 인한 막 손상을 방지하고, 운전 압력에 따른 막 성능의 영향을 최소화하였다.

공급수와 유도용액은 수돗물(19.5 ± 1 °C)에 염화나트륨(Samchun Pure Chemical, Korea)을 용해하여 제조하였다. 공급수 농도(C_f)는 10, 20, 30 g/L, 유도용액 농도(C_d)는 70, 110, 150 g/L로 설정하였다. 공급수 유량(Q_f)은 10, 15, 20 L/min, 유도용액 유량(Q_d)은 5 또는 10 L/min으로 조합하여 다양한 운전 조건을 구현하였다. 모든 실험은 공급수 및 유도용액의 순환 없이 연속 모드로 수행하였다. FO 막 성능은 투과유량(Q_p), 수투과 플럭스(J_w), 회수율(%R)로 나타내었으며, 계산식은 다음과 같다.

(Eq. 1)

$Q_{p}=\dfrac{\left(Q_{f,\: in}-Q_{f,\: out}\right)+\left(Q_{d,\: out}-Q_{d,\: in}\right)}{2}$

(Eq. 2)

$J_{w}=\dfrac{Q_{p} \times 60}{A_{m}}$

(Eq. 3)

$\% R=\dfrac{Q_{p}}{Q_{f,\: in}}\times 100$

여기서, Q_f,in, Q_f,out은 공급수 유입⋅유출 유량, Q_d,in, Q_d,out은 유도용액 유입⋅유출 유량(L/min), A_m은 총 막면적(m²)이다. 전도도계 측정값은 NaCl 농도로 환산하여 농도 변화를 분석하였다.

Fig. 1. Schematic diagram of the plate-and-frame forward osmosis pilot system, equipped with monitoring instruments such as a conductivity meter, flow meter, temperature sensor, and pressure gauge.

2.2 FO 성능 예측 모델 개발 및 평가

2.2.1 변수 중요도 평가 및 선정

FO 공정의 수투과 플럭스는 막면적, 공급수 및 유도용액의 유량과 농도 등 여러 인자의 영향을 동시에 받는다. 따라서 모델 학습에 앞서, 입력 변수의 상대적 기여도를 정량적으로 평가하기 위해 F-검정(F-test)을 적용하였다. MATLAB 환경에서 각 독립변수에 대해 F-통계량과 p-값을 산출하였으며, 이를 통해 해당 변수가 종속변수(수투과 플럭스)의 변동을 설명하는 통계적 유의성을 검증하였다. 변수 중요도는 p-값을 –log₁₀(p)로 변환하여 점수화하였으며, p-값이 낮을수록 높은 점수를 부여받아 더 중요한 변수로 간주하였다^{(Song et al., 2017)}. 이러한 절차를 통해 도출된 변수 중요도 순위는 후속 모델(다중선형회귀, 인공신경망) 학습에서 입력 변수의 개수를 단계적으로 확장(2개∼5개)하며 모델 성능을 비교하는 기준으로 활용되었다.

2.2.2 다중선형회귀(Multiple Linear Regression, MLR) 모델

선형회귀분석법은 회귀모델 중 가장 일반적으로 사용되는 예측모델로, 주어진 데이터를 기반으로 입력 변수(X)와 출력 변수(Y) 간의 선형 관계를 나타내는 최적 직선을 찾아내는 기법이다. 본 연구에서는 막면적(A), 공급수 유량(Q_f,in), 유도용액 유량(Q_d,in), 공급수 농도(C_f,in), 유도용액 농도(C_d,in)를 독립변수로, 수투과 플럭스(J_w)를 종속변수로 설정하였다. MLR 모델은 다음과 같이 표현된다:

(Eq. 4)

$J_{w}= \beta_{0}+ \beta_{1}A+ \beta_{2}Q_{2}+ \cdots + \beta_{i}X_{i}+ \varepsilon$

여기서 β₀는 절편, β_i는 각 독립변수의 회귀계수, ε는 오차항을 의미한다. 회귀계수는 최소자승법(Ordinary Least Squares, OLS)을 통해 추정하였으며, MATLAB의 fitlm 함수를 사용하여 모델을 구축하였다. 모델 전체의 통계적 적합도는 분산분석(ANOVA)을 통해 검증하였다. 결정계수(R²), 수정 결정계수(Adjusted R²), F-통계량, 그리고 모델 전체 유의성에 대한 p-값을 산출하여, MLR 모델이 절편만 있는 귀무모델에 비해 통계적으로 유의미한지를 평가하였다. 또한 각 독립변수의 통계적 유의성은 회귀분석 과정에서 산출된 t-검정(t-test)과 p-값을 통해 평가하였다.

2.2.3 인공신경망(Artificial Neural Network, ANN) 모델

ANN은 복잡한 비선형성을 보이는 FO 공정의 특성을 반영하기 위해 적용하였다. 본 연구에서는 다층 신경망 구조를 채택하였으며, 입력층, 1개의 은닉층, 그리고 출력층으로 구성하였다. 입력층에는 운전 변수를 배치하였고, 출력층은 수투과 플럭스를 예측하도록 설계하였다. 은닉층의 초기 뉴런 수는 경험적으로 사용되는 (F/2) + 3의 식을 기준으로 결정하였으며, 여기서 F는 입력 변수의 개수를 의미한다^{(Rachmatullah et al., 2021)}. 본 연구에서는 이 기준을 참고하여 변수 수 최적화 및 뉴런 수 최적화를 단계적으로 수행하였다. 은닉층의 활성화 함수로는 하이퍼볼릭 탄젠트 함수를 사용하였다. 각 뉴런은 입력 데이터에 대해 가중치(weight)를 곱하고 편향(bias)을 더한 후, 활성화 함수를 통해 출력값을 계산한다. 이 출력값은 실측값과 비교되며, 역전파 알고리즘(backpropagation)을 이용하여 가중치와 편향이 반복적으로 조정된다. 데이터셋은 전체 69개 실험값을 학습용(70%), 검증용(15%), 테스트용(15%)으로 분할하였다. 학습 데이터는 모델 파라미터 학습에, 검증 데이터는 과적합 방지 및 하이퍼파라미터 조정에 활용하고, 테스트 데이터는 최종 성능 평가에 활용하였다. 모든 데이터는 변수 간 스케일 차이에 따른 영향을 최소화하고 학습 안정성을 확보하기 위해 min–max 정규화를 통해 [0,1] 범위로 변환하였다. 학습조건은 최대 epoch 1000회로 설정하였으며, 학습률은 0.001–0.01 범위에서 조정하였다. 초기 가중치는 무작위로 부여하였다.

Fig. 2. Variable importance analysis of input parameters for water flux prediction based on the F-test.

2.2.4 모델 성능 검증 방법

MLR 모델과 ANN 모델에 의해 예측된 값의 정확성을 평가하기 위해 실제 값과 예측 값 간의 차이를 평가하는 오차율 분석을 수행하였고, R²와 RMSE를 사용하였다. R²는 값이 높을수록, RMSE는 값이 낮을수록 모델의 예측 값과 실제 값 간의 차이가 적음을 의미하며, 이는 모델의 예측 성능이 우수함을 나타낸다. R²는 아래와 같이 나타낼 수 있다.

(Eq. 5)

$R^{2}=\dfrac{SSR}{SST}=1-\dfrac{SSE}{SST}=1-\dfrac{\sum_{i=1}^{n}\left(y_{i}-\hat{y_{i}}\right)^{2}}{\sum_{i=1}^{n}\left(y_{i}-\overline{y_{i}}\right)^{2}}$

여기서 $\hat{y_{i}}$는 예측 값, $y_{i}$는 실제 값, $\overline{y_{i}}$는 실제 데이터 값의 평균을 의미하며, SSE는 모델에 의해 설명되지 않는 변동을 나타낸다^{(Gosmann et al., 2022)}. RMSE는 예측 값과 실제 값의 차이를 제곱하여 평균한 후, 다시 제곱근을 취한 값으로, Eq. 6과 같이 나타낼 수 있다.

(Eq. 6)

$RMSE=\sqrt{\dfrac{1}{n}\sum_{i=1}^{n}\left(y_{i}-\hat{y_{i}}\right)^{2}}$

모델의 일반화 성능을 평가하기 위해 K-fold 교차 검증(K-fold cross validation)를 수행하였다. 본 연구에서는 k=5를 적용하여 전체 데이터를 다섯 개의 하위 집합으로 분할한 뒤, 각 집합을 번갈아가며 검증 데이터로 사용하고 나머지를 학습 데이터로 활용하였다. 이를 통해 과적합(overfitting)을 방지하고 모델의 신뢰성을 검증하였다^{(Nurhayati et al., 2023)}.

3. Results and Discussion

3.1 입력 변수 선정 및 모델 구조 최적화

정삼투 막 모듈의 성능을 예측하기 위해서는 먼저 입력 변수와 출력 변수 간의 관계를 정량적으로 분석하고, 모델의 복잡도를 적절히 조정하여 최적 구조를 도출하는 과정이 필요하다. 본 연구에서는 공급수 및 유도용액의 유량과 농도, 막면적을 포함한 다섯 가지 주요 변수를 입력 변수로 고려하였다. F-test를 이용하여 각 변수의 기여도를 평가한 결과, 막면적과 공급수 농도가 수투과 플럭스에 가장 큰 영향을 미치는 것으로 나타났으며, 그 다음으로 공급수 유량이 중요한 인자로 확인되었다. 반면 유도용액 농도와 유량은 상대적으로 낮은 기여도를 보여, 모델 예측에 미치는 영향은 제한적인 것으로 분석되었다(Fig. 2).

이러한 변수 중요도 순위는 기존 연구 결과와 차별화되는 특징을 보인다. 예를 들어, ^{Ma et al. (2023)}과 ^{Shi et al. (2022)}는 실험실 규모 연구에서 유도용액 농도 및 삼투압 차이를 가장 중요한 인자로 보고하였으나, 본 파일럿 규모 실험에서는 막면적이 더 중요한 제한 요소로 나타났다. 이는 실제 스케일업 과정에서 막면적 증가에 따른 농도분극 심화, 압력 손실 증가, 불균일한 유량 분포 등이 성능에 미치는 영향이 실험실 규모보다 크다는 것을 의미하며, FO 공정 설계 시 참고할 만한 결과로 판단된다.

또한 변수 중요도 순위를 기준으로 2개부터 5개까지 변수 조합을 달리하여 모델 성능을 평가한 결과, MLR과 ANN 모델 모두 5개 변수를 사용했을 때 R²가 가장 높고 RMSE가 가장 낮았다(Fig. 3). 반대로 변수를 줄일 경우 예측 성능이 저하되는 경향이 뚜렷하여, 단일 변수나 일부 변수만으로는 플럭스 변동성을 충분히 설명하기 어려운 것으로 나타났다. 이는 다섯 개 변수가 상호 보완적으로 FO 성능을 설명한다는 점을 보여준다. 따라서 본 연구에서는 막면적, 공급수 농도, 공급수 유량, 유도용액 농도 및 유량 등 다섯 개 운전 변수를 최종 입력 변수로 선정하였다.

Fig. 3. Model performance evaluation for FO water flux prediction using varying numbers of input variables: (a) coefficient of determination (R²) and (b) root mean squared error (RMSE). Both the MLR and ANN models exhibited optimal performance with all five variables. For the ANN model, the number of neurons was fixed at five to isolate the effect of input variable selection.

ANN 모델의 경우 은닉층 및 뉴런 수와 같은 구조적 복잡도가 모델 성능에 직접적인 영향을 미친다^{(Sheela and Deepa, 2013)}. 뉴런 수를 1-10개로 변화시키며 학습, 검증, 테스트 데이터셋에 대한 RMSE를 비교한 결과, 뉴런 수가 5개일 때 모든 데이터셋에서 오차가 최소화되어 최적의 구조로 도출되었다(Fig. 4). 뉴런 수가 지나치게 많아질 경우 학습 데이터에 대한 적합도는 높아지지만 검증 데이터에 대한 오차가 증가하는 과적합 현상이 발생하는 반면, 뉴런 수가 적을 경우에는 모델이 데이터의 특성을 충분히 반영하지 못하는 과소적합이 나타났다.

이러한 변수 선정과 모델 복잡도 최적화 과정을 통해 확보된 조건은 이후 MLR 및 ANN 모델 개발의 기반으로 활용되었다.

Fig. 4. Optimization of ANN structure (number of neurons) based on RMSE comparison.

3.2 MLR 모델 결과

다중선형회귀 분석을 통해 정삼투 막 모듈의 운전 변수와 수투과 플럭스 간의 관계를 수식화하였다. 최종적으로 도출된 회귀식은 다음과 같다(Eq. 7).

(Eq. 7)

$Y=0.3065-0.4370A+0.2010Q_{f,in}+0.2225Q_{d,in}-0.3546C_{f,in}+0.3682C_{d,in}$

여기서 A는 막면적, Q_f,in은 유입 공급용액의 유량, C_f,in은 유입 공급용액의 농도, Q_d,in은 유입 유도용액의 유량, C_d,in은 유입 유도용액의 농도를 의미한다. 계수 해석 결과, 막면적의 증가와 공급수 농도의 증가는 플럭스 감소에 기여하는 반면, 공급수와 유도용액 유량 및 유도용액 농도의 증가는 플럭스 증가에 긍정적인 영향을 주는 것으로 확인되었다. 이러한 경향은 실제 FO 시스템에서 막면적 확대에 따라 평균 플럭스가 감소하고, 삼투압 차가 커질수록 플럭스가 향상되는 기본적인 물리적 특성과 일치한다.

MLR 모델의 성능은 학습 및 테스트 데이터셋을 이용하여 평가하였다(Fig. 5). 학습 데이터(R²= 0.9589, RMSE=0.6381 L m^-2 h^-1)와 테스트 데이터(R²=0.9649, RMSE=0.7175 L m^-2 h^-1) 모두에서 실제 값과 예측 값 사이에 강한 상관성을 보였다. 전체 데이터셋에 대해서도 높은 예측 정확도(R²=0.9577, RMSE=0.6550 L m^-2 h^-1)를 나타내었다.

MLR 모델 전체의 통계적 적합도는 분산분석을 통해 검증하였다(Table 1). MATLAB의 ModelFitVsNullModel 함수를 이용하여 산출한 결과, R²는 0.9577, Adjusted R²는 0.9538로 나타났으며, F-통계량은 228.7429, p-값은 1.0021 × 10⁻³²로 도출되었다. 이는 MLR 모델이 절편만 있는 귀무모델에 비해 통계적으로 매우 유의미함을 나타낸다. 또한 각 독립변수의 통계적 유의성은 회귀분석 과정에서 산출된 t-검정을 통해 평가하였다(Table 1). 모든 변수의 p-값이 매우 낮아 (p < 10⁻⁸) 통계적으로 유의미한 것으로 확인되었으며, 특히 막면적(t = -22.31, p = 2.56 × 10⁻²⁷)과 공급수 농도(t = -18.63, p = 6.97 × 10⁻²⁴)가 가장 높은 통계적 유의성을 보였다. 이는 5개 운전 변수 모두가 수투과 플럭스 예측에 유의미하게 기여함을 의미한다.

MLR 모델은 입력 변수와 출력 변수 간의 선형적 관계를 명확히 제시할 수 있어 각 변수의 영향을 직관적으로 이해할 수 있다는 장점을 가진다. 높은 결정계수(R² > 0.95)는 선형 모델만으로도 FO 공정의 주요 거동을 충분히 설명할 수 있음을 보여준다.

Fig. 5. Water flux prediction (Jw, L m^-2 h^-1) performance of the multiple linear regression (MLR) model: (a) training dataset, (b) test dataset, and (c) combined dataset.

Table 1. Summary of the multiple linear regression (MLR) model and regression coefficients with statistical significance.

Model Statistics	Value
R²	0.9577
Adjusted R²	0.9538
F-statistic	228.7429
p-value (model)	1.0021 x 10^-32

Predictor	Coefficient	Std. Error	t-value	p-value
Intercept	0.3065	0.0313	9.7817	4.1678 x 10^-13
Membrane area	-0.4370	0.0196	-22.3100	2.5610 x 10^-27
Feed flow rate	0.2010	0.0303	6.6386	2.4083 x 10^-8
Draw flow rate	0.2225	0.0313	7.0987	4.6651 x 10^-9
Feed concentration	-0.3546	0.0190	-18.6331	6.9691 x 10^-24
Draw concentration	0.3682	0.0263	14.0188	8.9803 x 10^-19

3.3 ANN 모델 결과

ANN 모델은 정삼투 막 모듈의 성능을 보다 정밀하게 예측하기 위해 구축되었다. 본 연구에서 사용된 ANN은 다층 신경망 구조로, 입력층에는 막면적, 공급수 유량, 공급수 농도, 유도용액 유량, 유도용액 농도의 다섯 개 변수가 포함되었다. 은닉층은 최적화 과정을 통해 뉴런 수 5개를 배치하였으며, 출력층은 단일 뉴런으로 구성하여 수투과 플럭스를 예측하도록 하였다(Fig. 6). 활성화 함수로는 하이퍼볼릭 탄젠트 함수(tanh)를 적용하였고, 학습 알고리즘은 Levenberg–Marquardt 역전파 방식을 사용하였다. 데이터셋은 전체 69개 데이터 중 학습용 70%, 검증용 15%, 테스트용 15%로 분할되었으며, 상세한 학습 조건은 Table 2에 요약하였다.

Fig. 6. Structures for the application of ANN.

Table 2. Specifications and training parameters of the artificial neural network model.

Type	Transfer function	Method of learning
Multi-layer neural network	Tanh(hyperbolic tangent) function	Back-propagation
Algorithm of learning	Parameter search	Performance evaluation
Levenberg-Marquardt (LM)	Trial and error method	R² and RMSE
Epoch	Learning rate	Momentum constant
1000	0.01∼0.001	10^-10
Number of training data	Number of validation data	Number of test data
48(70%)	11(15%)	10(15%)

학습 결과, ANN 모델은 높은 예측 성능을 나타냈다. 학습 데이터셋에서의 R²는 0.9956으로 매우 높은 상관성을 보였으며, 검증 데이터셋에서는 0.9491, 테스트 데이터셋에서는 0.9649로 도출되어, 모델이 새로운 데이터에서도 안정적으로 플럭스를 예측할 수 있음을 확인하였다(Fig. 7). RMSE 값은 학습, 검증, 테스트 데이터셋에서 각각 0.2142, 0.6610, 0.4089 L m^-2 h^-1로 나타났으며, 전체 데이터셋 기준으로는 R²=0.9886, RMSE = 0.3498 L m^-2 h^-1을 기록하였다. 이는 ANN 모델이 데이터의 변동성을 효과적으로 추종하고, 평균적인 예측 오차가 매우 작은 수준임을 의미한다.

특히 학습 데이터에서 RMSE가 낮고 검증 및 테스트 데이터셋에서도 안정적인 예측 성능을 유지한 것은 ANN 모델이 과적합 문제없이 일반화 능력을 확보하였음을 보여준다. 또한 다섯 개의 입력 변수를 동시에 고려함으로써 비선형적 상호작용을 반영할 수 있었고, 이는 ANN 모델이 설명하기 어려운 복잡한 관계를 효과적으로 포착한 결과로 해석된다. 따라서 ANN 모델은 정삼투 막 모듈의 성능 예측에서 높은 신뢰성과 적용 가능성을 가지는 것으로 평가된다.

Fig. 7. Water flux prediction (Jw, L m^-2 h^-1) performance of the artificial neural network (ANN) model: (a) training dataset, (b) validation dataset, (c) test dataset, and (d) combined dataset.

3.4 모델 성능 비교 및 일반화 평가

앞선 3.2와 3.3 절에서 제시된 MLR과 ANN 모델의 성능을 비교하면, 두 모델 모두 정삼투 막 모듈의 수투과 플럭스를 높은 정확도로 예측하였다(두 모델 모두 R² > 0.95). 전체 데이터셋 기준으로 ANN은 MLR 모델 대비 R²가 약 3% (0.9577 → 0.9886), RMSE는 약 47% 감소하였다(0.6550 → 0.3498). ANN 모델이 MLR 모델보다 다소 높은 정확도를 보였으나, 두 모델 모두 실용적 관점에서 우수한 예측 성능을 보였다고 평가할 수 있다.

두 모델 간 성능 차이는 FO 공정에 내재된 비선형성의 정도와 관련이 있다. FO 공정에서는 내부농도분극(ICP)과 외부농도분극(ECP), 농도 구배에 따른 삼투압 변화, 유량과 압력 손실 간의 상호작용이 복합적으로 발생한다^{(Lee, 2020)}. MLR 모델이 선형 근사를 통해서도 R² = 0.9577의 높은 설명력을 보인 것은 주요 운전 변수들이 플럭스에 미치는 영향이 상당 부분 선형적 관계로 설명 가능함을 의미한다. 반대로 ANN은 입력 변수 간의 비선형적 관계를 포착하여 추가적인 예측 정확도 향상을 달성하였다. 특히 ANN은 검증 데이터셋에서 다소 성능 저하가 있었음에도 불구하고, 전반적으로 일관된 예측 결과를 유지하여 실질적인 활용 가능성을 뒷받침하였다. 이러한 결과는 ANN이 MLR에 비해 변수 간 비선형적 상호작용을 효과적으로 반영한다는 점에서 기존 문헌^{(Gosmann et al., 2022;} ^{Shi et al., 2022)}의 보고와 일치하며, 파일럿 규모 데이터에서도 ANN의 실효성을 입증한다.

모델의 일반화 성능을 추가적으로 검증하기 위해 수행한 5-fold 교차 검증에서도 두 모델 모두 높은 성능을 보였다(Fig. 8). ANN 모델은 모든 fold에서 일관되게 높은 R²를 보였으며, R²의 표준편차가 0.0095로 매우 낮게 나타나 데이터셋의 분할 방식과 관계없이 일관된 성능을 유지하였다. 반면, MLR 모델은 표준편차가 0.023으로 약 2.4배 높아 데이터셋에 따른 변동성이 상대적으로 컸다. 특히 ANN 모델의 최저 R² 값도 MLR 모델의 평균 R² 값보다 높아, ANN이 데이터 환경 변화에 대해서도 더 일관된 성능을 제공함을 보였다.

Fig. 8. K-fold cross-validation results comparing MLR and ANN model performance: (a) coefficient of determination (R²) and (b) root mean squared error (RMSE). The ANN model demonstrated more consistent performance with lower variance across validation folds.

이상의 비교 결과를 종합하면, 두 모델 모두 높은 정확도를 달성하였으나 각각 차별화된 강점을 가진다. MLR은 변수 기여도 분석과 통계적 검증 가능성에서, ANN은 예측 정확도와 일반화 안정성에서 각각 우위를 보였다. 따라서 기본적인 플럭스 예측과 공정 이해에는 MLR을, 정밀한 성능 예측과 회수율 최적화에는 ANN을 활용하는 것이 효과적이다.

3.5 회수율 예측 및 적용 가능성

수투과 플럭스 예측의 실용적 활용성을 평가하기 위해, 예측된 플럭스를 이용해 회수율을 계산하고 실제 측정값과 비교하였다. 회수율은 FO 시스템의 실질적인 처리 효율을 나타내는 핵심 지표로서, 공정 설계 및 운영 최적화에 직접적으로 활용된다. 회수율 예측에서 ANN 모델은 R² = 0.9928, RMSE = 0.0155, MLR 모델은 R² = 0.9525, RMSE = 0.0423으로 두 모델 모두 높은 예측 성능을 보였다(Fig. 9). ANN이 근소하게 더 높은 정확도를 나타냈으며, R² 차이는 약 4%, RMSE 절대 오차 차이는 약 0.027로 작은 수준이었다. 회수율은 예측된 플럭스를 기반으로 막면적과 유입 유량을 고려하여 계산되는 파생 지표이므로, 플럭스 예측에서 더 정확했던 ANN이 회수율 예측에서도 우수한 성능을 보이는 것은 자연스러운 결과이다.

이러한 결과는 두 모델 모두 회수율 예측에 실용적으로 활용 가능함을 보여준다(R² > 0.95). MLR은 각 변수의 영향을 명확히 제시하여 공정 이해와 운전 전략 수립에 유용하며, ANN은 약간 더 높은 예측 정밀도를 제공하여 정밀한 성능 최적화가 요구되는 경우에 적합하다. 따라서 두 모델은 FO 시스템의 설계 및 운전 최적화에서 목적과 요구사항에 따라 상호 보완적으로 활용될 수 있다.

Fig. 9. Recovery rate prediction performance based on predicted water flux from the optimized MLR and ANN models. Both models showed high accuracy for recovery rate prediction across all experimental conditions, with the ANN model achieving slightly higher performance (R² = 0.9928, RMSE = 0.0155) compared to the MLR model (R² = 0.9525, RMSE = 0.0423).

3.6. 시사점 및 성능 예측 모델 한계

본 연구에서는 파일럿 규모 정삼투(FO) 막 모듈 데이터를 기반으로, 다중선형회귀 모델과 ANN 모델을 비교하여 FO 성능 예측 가능성을 평가하였다. 기존 실험실 규모 연구^{(Ma et al., 2023;} ^{Shi et al., 2022)}에서는 유도용액 농도 및 삼투압 차이를 가장 중요한 인자로 보고되었으나, 본 파일럿 규모에서는 막면적이 더 중요한 제한 요소로 나타났다. 이는 스케일업 시 막면적 증가에 따른 유입수 농축 및 유도용액 희석으로 인한 삼투압차 감소, 막모듈 내부 압력 손실 증가, 불균일한 유량 분포 등이 실험실 규모보다 더 큰 영향을 미치기 때문으로 해석된다.

모델링 성능 측면에서, MLR과 ANN 모두 플럭스 및 회수율 예측에서 높은 정확도를 달성하였다(R² > 0.95). 이는 파일럿 규모에서도 데이터 기반 모델의 신뢰성이 유지됨을 보여주며, 적절히 구축된 선형 모델도 충분한 실용적 가치가 있음을 시사한다. 다만 모델의 활용에는 몇 가지 고려사항이 존재한다. 본 연구는 69개의 실험 데이터를 사용하였으며, 이는 머신러닝 모델 개발에 있어 상대적으로 제한적인 규모이다. 향후 더 다양한 운전 조건과 장기 데이터를 포함한다면 모델의 일반화 성능과 신뢰성을 향상시킬 수 있을 것이다^{(Shetty and Chellam, 2003)}. 또한 ANN은 복잡한 비선형 관계를 학습하는 데 강점을 가지지만, 개별 변수의 기여도를 직접적으로 해석하는 데는 한계가 있다. 본 연구에서는 F-test를 통해 주요 인자를 도출하였으나, 향후 연구에서는 SHAP(Shapley Additive exPlanations)과 같은 설명 가능한 인공지능(XAI) 기법을 적용하여 각 입력 변수의 기여도를 정량적으로 평가하고 모델의 예측 논리를 시각적으로 해석할 예정이다. 이러한 접근은 ANN 모델의 해석 가능성과 신뢰성을 강화함으로써, FO 공정의 설계 및 운전 의사결정 지원에 실질적 기여를 할 것으로 기대된다. 아울러, 막 오염, 성능 저하, 계절적 변화 등 장기 운전 특성을 반영한 모델 개발이 향후 과제로 남아 있다.

4. Conclusion

본 연구에서는 파일럿 규모 정삼투(FO) 막 모듈 데이터를 기반으로 다중선형회귀 모델과 ANN 모델을 비교하여 FO 성능을 예측하였다. 변수 중요도 분석 결과, 막면적과 공급수 농도가 플럭스에 가장 큰 영향을 미치는 인자로 확인되어, 기존 실험실 규모 연구에서 유도용액 농도를 가장 중요한 인자로 보고한 것과 차별화되는 스케일 의존적 특성을 보였다. 이는 파일럿 및 실규모 FO 공정 설계 시 막면적과 공급수 조건의 최적화가 중요한 고려사항임을 시사한다. 두 모델 모두 높은 예측 정확도를 달성하였다. MLR(R² = 0.9577)은 통계적 유의성이 검증되었고(F = 228.74, p < 10⁻³²), ANN(R² = 0.9886)은 회수율 예측(R² = 0.9928)과 교차 검증 안정성(표준편차 0.0095)에서 근소한 우위를 보였다. MLR은 해석력과 통계적 검증 가능성을, ANN은 높은 예측 정확도를 제공하므로, FO 시스템 설계 시 목적에 따라 선택적으로 활용할 수 있다. 본 연구는 데이터 기반 모델링이 FO 공정 최적화에 기여할 수 있음을 입증하였으며, 향후 대규모 데이터셋 구축과 설명 가능 AI 기법 적용을 통해 실용성을 더욱 향상시킬 수 있을 것으로 기대된다.

Acknowledgements

본 연구는 2021년도 정부(교육부)의 재원으로 한국연구재단의 지원(과제번호: 2020R1I1 A3069197) 및 2025학년도 경북대학교 KNU 기초연구지원사업 “More Action 개인 디딤돌 사업비”의 지원을 받아 수행된 연구입니다.

References

Boretti A., Rosa L., 2019, Reassessing the projections of the world water development report, npj Clean Water, Vol. 2, pp. 15

Cifuentes-Cabezas M., Bohórquez-Zurita J. L., Gil-Herrero S., Vincent-Vela M. C., Mendoza-Roca J. A., Alvarez-Blanco S., 2023, Deep study on fouling modelling of ultrafiltration membranes used for OMW treatment: Comparison between semi-empirical models, response surface, and artificial neural networks, Food and Bioprocess Technology, Vol. 16, pp. 2126-2146

Elmakki T., Zavahir S., Gulied M., Qiblawey H., Hammadi B., Khraisheh M., Shon H. K., Park H., Han D. S., 2023, Potential application of hybrid reverse electrodialysis (RED)-forward osmosis (FO) system to fertilizer-producing industrial plant for efficient water reuse, Desalination, Vol. 550, pp. 116374

Goi Y. K., Li M., Liang Y. Y., 2025, A comprehensive review on forward osmosis mass transfer and fouling: Mathematical modeling, mechanism, prediction and optimization, Journal of Water Process Engineering, Vol. 72, pp. 107677

Gosmann L., Geitner C., Wieler N., 2022, Data-driven forward osmosis model development using multiple linear regression and artificial neural networks, Computers & Chemical Engineering, Vol. 165, pp. 107933

Jasim H. K., Al-Ridah Z. A., Naje A. S., 2024, Graphene oxide–carbon nanotube composite membrane for enhanced removal of organic pollutants by forward osmosis, Desalination and Water Treatment, Vol. 318, pp. 100363

Kovacs D. J., Li Z., Baetz B. W., Hong Y., Donnaz S., Zhao X., Zhou P., Ding H., Dong Q., 2022, Membrane fouling prediction and uncertainty analysis using machine learning: A wastewater treatment plant case study, Journal of Membrane Science, Vol. 660, pp. 120817

Lee S., Kim Y. C., 2018, Performance analysis of plate-and-frame forward osmosis membrane elements and implications for scale-up design, Journal of Membrane Science, Vol. 550, pp. 219-229

Lee S., 2020, Exploring the operation factors that influence performance of a spiral-wound forward osmosis membrane process for scale-up design, Membranes, Vol. 10, No. 3, pp. 53

Ma S., Wu X., Fan L., Wang Q., Hu Y., Xie Z., 2023, Effect of different draw solutions on concentration polarization in a forward osmosis process: Theoretical modeling and experimental validation, Industrial & Engineering Chemistry Research, Vol. 62, pp. 3672-3683

Mendoza E., Blandin G., Castaño-Trias M., Alonso L. L., Comas J., Buttiglieri G., 2023, Rejection of organic micropollutants from greywater with forward osmosis: A matter of time, Journal of Environmental Chemical Engineering, Vol. 11, pp. 110931

Nurhayati M., You Y., Park J., Lee B. J., Kang H. G., Lee S., 2023, Artificial neural network implementation for dissolved organic carbon quantification using fluorescence intensity as a predictor in wastewater treatment plants, Chemosphere, Vol. 335, pp. 139032

Rachmatullah M. I. C., Santoso J., Surendro K., 2021, Determining the number of hidden layer and hidden neuron of neural network for wind speed prediction, PeerJ Computer Science, Vol. 7, pp. e724

Sheela K. G., Deepa S. N., 2013, Review on methods to fix number of hidden neurons in neural networks, Mathematical Problems in Engineering, Vol. 2013, pp. 425740

Shetty G. R., Chellam S., 2003, Predicting membrane fouling during municipal drinking water nanofiltration using artificial neural networks, Journal of Membrane Science, Vol. 217, pp. 69-86

Shi F., Lu S., Gu J., Lin J., Zhao C., You X., Lin X., 2022, Modeling and evaluation of the permeate flux in forward osmosis process with machine learning, Industrial & Engineering Chemistry Research, Vol. 61, pp. 18045-18056

Song Q., Jiang H., Liu J., 2017, Feature selection based on FDA and F-score for multi-class classification, Expert Systems with Applications, Vol. 81, pp. 22-27

Van der Bruggen B., 2018, Microfiltration, ultrafiltration, nanofiltration, reverse osmosis, and forward osmosis, Fundamental modelling of membrane systems, Fundamental Modelling of Membrane Systems, pp. 25-70

Wang H., Yang J., Zhang H., Zhao J., Liu H., Wang J., Li G., Liang H., 2023, Membrane-based technology in water and resources recovery from the perspective of water social circulation: A review, The Science of the Total Environment, pp. 168277

Wang L., Li Z., Fan J., Han Z., 2024, The intelligent prediction of membrane fouling during membrane filtration by mathematical models and artificial intelligence models, Chemosphere, Vol. 349, pp. 141031

Wang M., Ji Z., Dong Y., 2025, Machine learning-guided performance prediction of forward osmosis polymeric membranes for boron recovery, Water Research, Vol. 281, pp. 123700

Zavahir S., Elmakki T., Gulied M., Shon H. K., Park H., Kakosimos K. E., Han D. S., 2023, Integrated photoelectrochemical (PEC)-forward osmosis (FO) system for hydrogen production and fertigation application, Journal of Environmental Chemical Engineering, Vol. 11, pp. 110525

뒤로가기

No part of this publication may be reproduced or distributed in any form or any means, or stored in a data base or retrieval system, without the prior permission of the publisher ( www.kswe.org ).

JKSWE

JKSWE The Journal of
the Korean Society on Water Environment

Editorial Office

Journal XML

Journal Information

Performance Prediction of Forward Osmosis Membrane Module Using Multiple Linear Regression and Artificial Neural Network Models

Abstract

Key words

1. Introduction

2. Materials and Methods

2.1 평판형 FO 파일럿 시스템 실험

(Eq. 1)

(Eq. 2)

(Eq. 3)

2.2 FO 성능 예측 모델 개발 및 평가

2.2.1 변수 중요도 평가 및 선정

2.2.2 다중선형회귀(Multiple Linear Regression, MLR) 모델

(Eq. 4)

2.2.3 인공신경망(Artificial Neural Network, ANN) 모델

2.2.4 모델 성능 검증 방법

(Eq. 5)

(Eq. 6)

3. Results and Discussion

3.1 입력 변수 선정 및 모델 구조 최적화

3.2 MLR 모델 결과

(Eq. 7)

3.3 ANN 모델 결과

3.4 모델 성능 비교 및 일반화 평가

3.5 회수율 예측 및 적용 가능성

3.6. 시사점 및 성능 예측 모델 한계

4. Conclusion

Acknowledgements

References

Article Information (continued)

Key words

JKSWE The Journal ofthe Korean Society on Water Environment

Editorial Office

Journal XML

Journal Information

Performance Prediction of Forward Osmosis Membrane Module Using Multiple Linear Regression and Artificial Neural Network Models

Abstract

Key words

1. Introduction

2. Materials and Methods

2.1 평판형 FO 파일럿 시스템 실험

(Eq. 1)

(Eq. 2)

(Eq. 3)

2.2 FO 성능 예측 모델 개발 및 평가

2.2.1 변수 중요도 평가 및 선정

2.2.2 다중선형회귀(Multiple Linear Regression, MLR) 모델

(Eq. 4)

2.2.3 인공신경망(Artificial Neural Network, ANN) 모델

2.2.4 모델 성능 검증 방법

(Eq. 5)

(Eq. 6)

3. Results and Discussion

3.1 입력 변수 선정 및 모델 구조 최적화

3.2 MLR 모델 결과

(Eq. 7)

3.3 ANN 모델 결과

3.4 모델 성능 비교 및 일반화 평가

3.5 회수율 예측 및 적용 가능성

3.6. 시사점 및 성능 예측 모델 한계

4. Conclusion

Acknowledgements

References

Article Information (continued)

Key words

JKSWE The Journal of
the Korean Society on Water Environment