The Journal of
the Korean Society on Water Environment

The Journal of
the Korean Society on Water Environment

Bimonthly
  • ISSN : 2289-0971 (Print)
  • ISSN : 2289-098X (Online)
  • KCI Accredited Journal

Editorial Office


  1. 국립한국교통대학교 환경공학과 (Department of Environmental Engineering, Korea National University of Transportation)
  2. 성균관대학교 건설환경연구소 (Center for Built Environment (CBE), Sungkyunkwan University)
  3. 한국수자원조사기술원 하천정보실 (River information Department, Korea Institute of Hydrological Survey)



Chl-a, HLS, SHAP, TP, TSI, XGBoost

1. Introduction

전 세계적으로 가속화되는 기후변화로 인해 매년 여름철 고수온 현상이 심화되면서 하천 및 호소에서 녹조 현상이 빈번해지고 있다(Zhou et al., 2026). 녹조류의 성장은 온도, 수소이온농도(pH), 일사량 등 다양한 환경요인의 영향을 받으나, 특히 수중 영양염류 농도에 크게 의존한다(Kim et al., 2021). 이러한 녹조의 발생은 수질 악화와 취수 장애, 생태계 교란 등 다양한 환경적⋅경제적 피해를 유발한다. 이에, 녹조 상태를 파악하기 위해서는 총질소(Total Nitrogen, TN), 총인(Total Phosphorus, TP)과 같이 부영양화를 가속시키는 주요 인자들을 대상으로 한 모니터링 연구가 활발히 이루어지고 있다(Kim et al., 2019).

우리나라에서는 환경정책기본법 제 22조 및 물환경보존법을 토대로 다양한 수질 관측망을 운영하여 수질 인자를 측정하고 있다. 측정망의 종류에는 총량측정망, 수질측정망, 자동측정망 등이 포함되며, 각 측정망별 운영 목적 및 특성에 따라 상이한 수질 인자를 측정하고 있다. 하지만, 자동측정망을 제외한 대부분의 관측은 월 1∼4회 주기의 유인 관측에 의존하고 있어 접근성이 제한되는 지역에 대한 자료 확보가 어렵다. 이로 인해 미계측 유역이 발생하게 되고, 이는 광범위한 수역을 대표하는데 제한점으로 작용하여 시⋅공간적 변동성을 모의하는데 제약이 존재한다. 이를 보완하기 위해, Landsat (Chen et al., 2020), Aqua/Terra MODIS (Ali et al., 2016), Sentinel-2/3 (Salama et al., 2022) 등 다양한 광학 위성영상을 기반으로 한 수질 모니터링 연구가 활발히 이루어지고 있다(Yan et al., 2022).

Baik et al. (2020)에서는 Landsat 8 밴드를 입력자료로 다중회귀분석을 통해 대청호에서의 TP를 산정하였으며, 높은 결정계수(R2=0.96)와 낮은 평균제곱근 오차(Root Mean Square Error [RMSE]=0.001 mg/L)를 나타내었다. 그러나 지점 자료와 위성 관측 간 시간 불일치로 인해 학습 자료수가 제한적이었다. Chen et al. (2020)은 Landsat 8-OLI 영상의 밴드 비율을 이용하여 호소 내 Chl-a의 추정 알고리즘을 개발하였다. 전반적인 연구결과 K-means clustering 및 결정트리 분석을 통해 최적화된 Band1/Band2 모델이 Chlorophyll-a (Chl-a)와 높은 R2 (0.77∼0.92)와 낮은 Mean Absolute Percentage Error (MAPE) (15.82∼19.95%)를 나타내었다. 이러한 밴드 조합기반 알고리즘은 모델 구조가 단순한 장점이 있지만 내륙 호소 내 구성 물질 간 분광 신호 간섭과 공간적 전이성에서 한계가 존재한다(Gholizadeh et al., 2016). 이를 극복하고자 최근에는 머신러닝 기반 수질인자 산정이 활발히 수행되고 있다(Wang and Qin, 2025). 머신러닝은 입력 변수 간 복잡한 비선형 관계를 효과적으로 분석할 수 있으며, 빠른 연산속도를 기반으로 자연환경의 복잡한 패턴을 해석하는데 유용하게 활용된다(Olden et al., 2008). 이러한 장점을 기반으로 선행 연구들에서는 머신러닝을 활용하여 위성 자료 기반 녹조 및 수생태 모니터링 연구가 활발히 진행되고 있다. Shim et al. (2022)은 영산강 유역의 수질 측정망 자료를 활용하여 머신러닝 기반 Chl-a 예측 모형을 구축하였으며, R²가 0.9 이상으로 매우 높은 성능을 보였다. 또한, Pereyra-Laguna et al. (2025)은 멕시코의 Chapala 강을 대상으로 Landsat 반사도와 현장 자료를 활용하여 탁도 예측 모델을 구축하였다. 그 결과, 연간 주기별 홍수에 대해 R²가 0.65 정도로 허용 가능한 통계적 성능을 보였다. Shin and Kim (2025)은 옥청호를 대상으로 원격탐사기법과 Environmental Fluid Dynamic Code (EFDC) 모형을 결합해 Random Forest (RF) 기반 Chl-a 예측 모형을 개발하였다. 연구 결과, RF 모형은 MAE 1.67 mg/m³, RMSE 2.30 mg/m³, Relative Root Mean Squared Error (rRMSE) 41%로 기존 위성 기반 수질 산정치에 비해 우수한 성능을 나타났다. 그러나 이러한 연구들은 단일 수질 인자 예측에 국한되는 경우가 많아, 수계의 종합적인 영양 상태나 녹조의 천이 과정을 다각적으로 해석하는데 한계가 있다.

따라서 수체의 종합적인 부영양화 상태를 파악하기 위해서는 영양염류 뿐만 아니라 부영양화 지수(Trophic State Index, TSI)에 대한 정밀한 분석이 요구된다. 하지만 기존 TSI 기반 연구는 공간적 대표성이 부족한 지점 관측 자료에 의존하는 경우가 많다는 한계점이 존재한다(Lin et al., 2022). 이에 본 연구에서는 고해상도 HLS (Harmonized Landsat Sentinel-2) 위성 자료와 머신러닝 기법인 eXtreme Gradient Boosting (XGBoost)를 활용하여 대청호의 TP, Chl-a를 산정하였다. 이를 바탕으로 TSI를 계산함으로써 대청호 전역에 대한 영양 상태 분석 및 녹조 분포를 공간적으로 분석하고자 한다.

2. Materials and Methods

2.1 대상유역

대청호는 충청북도와 대전광역시에 걸쳐 조성된 다목적 댐에 의해 형성된 인공호로, 소양호와 충주호에 이어서 대한민국에서 세 번째로 큰 규모를 가진다(Fig. 1). 대청호의 유역 면적은 4,134 ㎢, 만수 면적이 72.8 ㎢, 호수 둘레는 약 86 km에 이르며, 대전권과 충청권의 핵심적인 유지용수 및 식수 공급원으로 활용되고 있다. 기상학적 특성을 살펴보면 1969년부터 2010년까지의 연평균 강우량은 828.7 mm이며, 1998년에 가장 높고, 2001년에 가장 낮은 것으로 나타났다. 특히 연구 기간에 해당하는 2023-2024에는 중부 지역에 400년 빈도 이상의 극한 호우가 발생하여, 이로 인해 다량의 부유물질이 유입되는 등의 문제가 발생하였다.

대청호는 상수원 보호구역으로 지정되어 엄격하게 관리되고 있으나, 상류로부터의 비점오염원 유입과 기후변화에 따른 기온 상승 등의 기상 요인이 복합적으로 작용하여 최근 몇 년간 대청호에서는 녹조 발생이 심화 되고 있다(ME, 2019). 실제로 2023년 8월 17일부터 10월 11일까지 총 56일간 조류경보제가 발령되었다. 이와 같이 대청호는 국토 중심부에 위치한 민감한 수계로서, 수질 악화 시 사회⋅경제적 파급효과가 매우 크기 때문에 위성을 활용한 광역적 모니터링이 필수적이다. 이에 본 연구에서는 대청호를 연구 지역으로 선정하였다.

Fig. 1. Geographical information of water quality stations in Daecheong Reservoir.

../../Resources/kswe/KSWE.2026.42.3.243/fig1.png

2.2 연구 데이터

2.2.1 Harmonized Landsat Sentinel-2(HLS)

HLS 자료는 National Aeronautics and Space Administration (NASA)와 United States Geological Survey (USGS)가 공동으로 운영하는 위성 자료 융합 프로젝트로 지표반사도(surface reflectance) 자료 획득 빈도 향상을 통한 지표 상태 모니터링을 주 목적으로 한다(Claverie et al., 2018). HLS 위성 자료는 2∼3일의 시간 해상도와 30 m의 공간 해상도를 가지고 있어 수질 모니터링 및 삼림 분석 등에 효과적으로 사용되고 있다(Lechler et al., 2020). HLS 지표 반사도는 NASA에서 운영하는 Landsat 8/9 OLI (Operational Land Imager)와 ESA (European Space Agency)에서 운영하는 Sentinel-2A/B MSI (Multispectral Instrument) 위성 자료를 시⋅공간적으로 통합하여 제공한다. 구체적으로, HLS 자료는 대기 보정(atmospheric correction) 및 구름 영향 제거, 좌표 보정(coordinate resampling), BRDF (Bidirectional Reflectance Distribution Function) 보정과 센서 간의 밴드폭(bandwidth) 조정 과정을 거쳐 최종 융합자료가 생성된다(Ju et al., 2025). HLS는 가시광선, 근적외선 등을 포함하여 총 13개의 밴드로 구성이 되어있다. 다양한 밴드 중 Landsat 및 Sentinel-2에서 공통적으로 관측되는 밴드들만 선별하여 분석에 활용하였으며(Table 1), 연구기간 동안 Sentinel-2 및 Landsat 각각 213장 및 109장을 사용하였다.

Table 1. Description of HLS spectral bands (Claverie et al., 2017).

L30 Band S30 Band OLI Band MSI Band Wavelength(㎛) Band name
band01 Band01 1 1 0.43 – 0.45 Coastal Aerosol
band02 Band02 2 2 0.45 – 0.51 Blue
band03 Band03 3 3 0.53 – 0.59 Green
band04 Band04 4 4 0.64 – 0.67 Red
- Band05 - 5 0.69 – 0.71 Red-Edge 1
- Band06 - 6 0.73 – 0.75 Red-Edge 2
- Band07 - 7 0.77 – 0.79 Red-Edge 3
- Band08 - 8 0.78 – 0.88 NIR Broad
band05 Band8A 5 8A 0.85 – 0.88 NIR Narrow
band06 Band11 6 11 1.57 – 1.65 SWIR 1
band07 Band12 7 12 2.11 – 2.29 SWIR 2
- Band09 - 9 0.93 – 0.95 Water Vapor
band09 Band10 9 10 1.36 – 1.38 Cirrus
band10 - 10 - 10.60 – 11.19 Thermal Infrared 1
band11 - 11 - 11.50 – 12.51 Thermal Infrared 2

2.2.2 수질 인자 자료

본 연구에서는 환경부 물 환경정보시스템(https://water.nier.go.kr/web)에서 제공하는 다양한 수질 인자 관측 자료를 활용하였다(NIER, 2026). 특히 일 단위로 연속적인 관측이 가능한 자동측정망 자료를 중심으로 지점 자료 구축을 하였다. 자동측정망은 일 단위로 수질 항목을 지속적으로 측정하는 자료이며, 수질 측정망은 주 단위 간격으로 측정된 자료이다. 해당 자료는 수온, pH, 전기전도도, 용존산소, 총 유기탄소 등 다양한 수질 항목을 포함한다. 다양한 인자 중 TSI 산정을 위해 대청호 유역 내 관측 자료 중 영양염류 항목인 TP와 Chl-a 항목을 수득했다. TP는 수체 내의 영양염류 부하를 직접적으로 반영하는 요소로서 부영양화 정도를 평가하는데 활용되며, Chl-a는 조류 발생 및 부영양화 상태를 나타내는 대표적인 지표이다.

자료 수집 기간은 2013년 4월부터 2024년까지로 설정하여 HLS 위성 영상의 획득 주기와 일치하도록 하였다. 위성 영상 자료와 관측값의 자료가 모두 존재하는 날짜에 한하여 분석을 수행하였고, 최종적으로 사용된 기간은 2013년 8월부터 2024년 12월까지이다. 자동측정망 자료는 회남 지점에서 취득하였고, 수질측정망 자료는 문의 지점과 추동 지점의 자료를 취득하였다. 다만 자료 특성의 일관성과 일반성을 확보하기 위하여, 회남 지점의 자료를 모델 학습(training) 및 검증(test)에 사용하였다. 문의 및 추동 지점 자료는 주 단위로 제공되어 시계열 연속성이 상대적으로 낮고, 위성 관측 시점과의 동시 관측 비율이 제한적이므로 머신러닝 학습 자료에서는 제외하였다(Fig. 1).

2.3 연구방법

2.3.1 XGBoost

XGBoost는 결정 트리를 기반으로 한 앙상블 학습 방법으로 각 단계에서 이전 모델의 오차를 최소화 하기 위해 새로운 트리를 추가함으로써 모델을 순차적으로 추가하는 gradient boosting 알고리즘을 기반으로 학습이 이루어진다(Chen and Guestrin, 2016; Friedman, 2001). 또한 기존 기법에서 발생할 수 있는 과적합 문제를 완화하도록 개선된 모델로 평가할 수 있다(Chen and Guestrin, 2016; Park et al., 2023). XGBoost는 트리 기반 모델의 구조적 특성을 활용하여 변수 간의 비선형 관계를 학습하는데 있어 유용하며, 결측값 처리와 변수 중요도 분석이 유리하다는 장점이 있다. 뿐만 아니라 대규모 자료에 대해서도 병렬 처리(parallel processing)를 지원하여 계산 효율성을 확보할 수 있다. 특히 XGBoost는 손실 함수(loss function)의 2차 미분 정보를 활용하는 최적화 기법을 적용함으로써 기존의 모델에 비해 수렴 속도와 예측 정확도 향상의 장점이 있어 다양한 분야에서 널리 활용되고 있다(Lu and Ma, 2020; Zhou et al., 2025). 이에 따라 지표 반사도와 수질 인자간의 비선형적 관계성을 고려하여 예측하기 위해 XGBoost 모형을 선정하였다.

2.3.2 모델 구성 및 학습

일반적으로 머신러닝 기반 수질 예측 모형 구축에 있어서 입력 변수의 선정은 모델 성능에 중요한 영향을 미친다. 과도한 변수 사용은 일반화 성능을 저하시키는 반면, 변수 수가 부족할 경우 충분한 학습이 이루어지지 않는다(Park et al., 2024). 이러한 특성을 반영하여 HLS 위성 단일 밴드 및 밴드 간 비선형 조합을 입력자료 후보군으로 고려하였다(Table 2). 하지만, 수질인자와의 상관성 분석 및 입력 자료 간 다중공선성(Multicollinearity)을 분석한 결과 비선형 지수들의 상관성이 기존 밴드별 지표 반사도에 비해 상관계수가 낮고 Variable Inflation Factor (VIF)가 5를 초과하는 결과가 나왔으며 이는 선행 연구에서도 유사한 결과가 도출되었다(Mpakairi et al., 2024; Yu et al., 2014). 이에 따라 본 연구에서는 밴드별 지표 반사도(Band 1, 2, 3, 4, 8A, 11, 12)를 최종 입력변수 후보군으로 선정하였고 Band들은 MSI band number를 기준으로 기술하였다.

XGBoost의 종속변수로는 수체 내의 부영양화 상태 판단에 대표적인 수질 인자인 Chl-a와 TP 관측치를 선정하였다. XGBoost 회귀 모델의 예측 정확도를 향상시키기 위해 2013년부터 2024년까지의 전체 데이터 중에서 80%의 학습 자료(training set)와 20%의 검증 자료(test set)로 분할하여 수행하였다. 학습 자료에 대해서는 K-fold Cross Validation (CV)을 통해 모델의 일반화 성능을 평가하고, Bayesian 최적화 기법을 통하여 초매개변수(hyperparameter)를 최적화 하였다. 최종 모델의 성능 평가는 독립적인 검증 자료를 이용하여 수행하였다.

Table 2. Spectral bands and band candidate combinations considered for modeling.

Category Variables
Original Bands B1, B2, B3, B4, B8A, B11, B12
Band Ratios NIR/Red, B3/B4, B8A/B4, B11/B12, NIR/Green, B2/B3, B1/B2, (B3-B2)/(B3+B2)
Spectral indices MNDWI [(Green-SWIR)/(Green+SWIR)]

2.3.3 SHAP(Shapley Additive Explanations)

최근 다양한 연구에서 머신러닝 모델이 폭넓게 활용되고 있으나, 모델 내부 계산 과정이 불투명하여 예측 결과에 대한 직접적인 해석에는 한계가 존재한다(Lundberg and Lee, 2017). 이에 따라 모델 자체에 대한 해석 가능성과 예측 성능의 신뢰성을 평가하는 것이 중요하다(Barredo Arrieta et al., 2020). 이러한 한계를 보완하기 위해 인공지능 모델의 예측 결과를 기반으로 입력 변수의 기여도를 정량적으로 평가하는 explainable artificial intelligence(XAI) 방법 중 SHAP 분석이 다수의 연구에서 활용하고 있다(Kim et al., 2022). SHAP은 게임이론(Game Theory)의 Shapley value 개념을 적용하여 각 입력 변수가 모델 예측값에 기여하는 정도를 산출할 수 있다(Lundberg and Lee, 2017). SHAP 기법은 독립변수의 기여도를 전반적인 데이터 분포뿐만 아니라 개별 데이터에 대해서도 평가가 가능하며, 개별 입력변수가 종속 변수에 미치는 영향을 양과 음으로 제시하여 기존의 단순 특성 중요도 기법보다 정교한 해석을 할 수 있다(Lee et al., 2021). 본 연구에서는 이러한 SHAP 기법을 적용하여 각 수질 인자별 및 밴드별 중요도를 분석하여 각 수질 인자별 최종 입력변수를 선정하였다.

2.3.4 부영양화 지수(TSI)

부영양화 지수는 수체의 생물학적 생산성 수준을 정량적으로 평가하기 위해 고안된 지표로, Carlson에 의해서 제안되어 일반적으로 TP, Chl-a, 투명도(Secchi Depth)를 기반으로 산정된다(Lin et al., 2022). TSI는 호소의 영양 상태 평가에만 주로 활용이 됐지만, 전반적인 수계에도 적용이 가능하여 다양한 수질 환경에서의 부영양화 정도 및 조류 발생 가능성을 판단하는데도 유용하게 사용된다. Chl-a를 사용한 식은 녹조의 현 상태를 파악하기에, 유용하고 TP를 사용한 식은 잠재적 녹조 현황을 파악하기 위해서 필요하다. TP 및 Chl-a 기반 TSI 산정은 아래의 식을 적용하였다.

(1)
$TSI(Chl-a) = 10(6 - \frac{2.04 - 0.68\ln Chl-a}{\ln 2})$
(2)
$TSI(TP) = 10(6 - \frac{\ln(48/TP)}{\ln 2})$

TSI 지수는 일반적으로 0∼100의 범위를 가지며 총 5단계로 나뉘는데 그 단계별 부영양화 지수는 Table 3과 같이 나타낼 수 있다. 이와 같이 산정된 위성 기반 TSI 지표를 통해 호소의 영양 상태를 평가하여 녹조 발생 수준을 판단하였다.

Table 3. Classification of trophic status based on TSI values.

TSI Classification of TSI
TSI < 20 UltraOligotrophic
20 ≤ TSI ≤ 44 Oligotrophic
45 ≤ TSI ≤ 52 Mesotrophic
53 ≤ TSI ≤ 70 Eutrophic
TSI > 70 Hypertrophic

2.3.5 통계적 지표

XGBoost 기반 수질 추정 모델의 성능을 정량적으로 평가하기 위해 상관계수(R), Root Mean Squared Error (RMSE), Mean Absolute Error (MAE)를 적용하여 판단하였다. R은 관측값과 예측값 간의 상대적 변동성과 경향성을 동시에 나타내는 지표로 절대값이 1에 가까울수록 모델의 예측 정확도가 높은 것으로 해석된다. 반대로 0에 가까울수록 두 변수간의 선형적 관계를 잘 모의하지 못한다는 것을 의미한다. RMSE와 MAE는 실제값과 예측값의 차이를 정량적으로 나타내는 지표로, 값이 작을수록 모델이 예측 성능이 우수함을 의미한다. 특히 RMSE는 오차의 제곱근을 평균하여 계산하는 지표로 큰 오차에 민감하게 반응하여, 예측값에 오차가 클수록 RMSE의 값이 크게 증가한다. 반면 MAE는 오차의 절대값을 평균하여 계산하기 때문에 상대적으로 이상치에 대한 민감도가 낮아 전반적인 평균 오차 수준을 평가하는데 유용하다. 이용되는 각 지표는 식 (3)-(5)을 통하여 산정하였다(Park et al., 2025; Willmott and Matsuura, 2005).

(3)
$R = \frac{\sum_{i=1}^{n}(M_i - \overline{M})(O_i - \overline{O})}{\sqrt{\sum_{i=1}^{n}(M_i - \overline{M})^2}\sqrt{\sum_{i=1}^{n}(O_i - \overline{O})^2}}$
(4)
$RMSE = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(M_i - O_i)^2}$
(5)
$MAE = \frac{1}{n}\sum_{i=1}^{n}|x_i - x|$

여기서 $\overline{M}$과 $\overline{O}$는 해당 자료의 산술평균을 뜻하며, n은 통계 산정에 사용된 총 표본 수를 말한다. $M_i$와 $O_i$는 각각 위성 기반 추정값과 지점 관측값의 i번째 값을 말하며, $x_i$와 $x$ 역시 동일하다.

3. Results and Discussion

3.1 입력변수 산정결과

본 절에서는 HLS 위성 밴드별 반사 지표도를 모두 활용하여 XGBoost를 구동하고, 이를 토대로 각 입력 변수별 SHAP 분석을 통하여 최적 입력자료를 구축하는 과정을 나타내었다. Fig. 2는 각 밴드별 SHAP value를 도시한 것으로 TP와 Chl-a 농도 추정에 미치는 영향 정도를 비교하여 양과 음으로 나타낸 그래프이다. 여기서 점으로 표시된 부분은 Feature value로 각 변수별 실제 입력값의 크기를 의미하며, 파란색은 낮은 값을, 빨간색은 높은 값을 나타낸다. SHAP value는 각 입력 변수가 예측값에 기여한 정도를 의미한다. SHAP 분석 결과 TP는 B3 > B1 > B8a > B12 > B2 > B4 > B11 순으로 중요도가 높게 나타났으며, Chl-a의 경우 B3 > B1 > B8a > B11 > B2 > B4 > B12 순으로 중요도가 높게 확인되었다. 특히, TP와 Chl-a 추정 모두에서 공통적으로 높은 중요도를 보인 B1, B3, B8A의 경우 SHAP value의 분포 폭이 상대적으로 넓게 나타난 반면, 중요도가 낮은 B2, B4, B11의 경우 SHAP value가 0 부근에 밀집된 경향을 보였다. SHAP value의 분포 폭이 넓다는 것은 모델 예측에 미치는 영향이 크다는 것을 의미하며, 이는 B1과 B3이 TP 및 Chl-a와 비선형적 관계를 갖고 있음을 시사한다. 반면 B11의 경우는 상대적으로 제한된 범위에 분포하여 모델의 예측에 미치는 영향이 미비한 것으로 나타났다.

다양한 선행 연구에서도 B1 (0.43∼0.45 µm) 및 B3 (0.53∼0.59 µm) 파장대 반사도를 사용하여 추정한 결과, 결정계수(R2) 0.63∼0.87의 높은 정확도를 나타냈다(Liang et al., 2022; Qin et al., 2025). 기본적으로 TP는 비광학적(non-optically active) 수질 인자로서 Chl-a의 증가 및 부유물질 및 탁도를 증가시킴에 따라 수체의 분광 특성을 변화시킨다(Busse et al., 2006). 식물 플랑크톤의 증가는 적색 및 청색에서는 강한 흡수가 발생하고, 녹색 영역대에서는 반사도가 상대적으로 증가하게 되어 TP 및 Chl-a 예측 결과에 영향을 미치는 것으로 판단된다. B1과 B11, 12는 수체 내 미세 부유입자 및 용존 유기물에 의해 지배되는 산란 및 흡수 특성에 민감함에 따라 TP 및 Chl-a 산정에 영향을 미친 것으로 판단된다(Song et al., 2011). 이러한 특성을 반영하여 TP에서는 B11을 제외하고, Chl-a에서는 B4와 B12를 제외하여 최종 입력자료로 선정하였다.

Fig. 2. SHAP analysis for input variables: (a) TP and (b) Chl-a.

../../Resources/kswe/KSWE.2026.42.3.243/fig2.png

3.2 모델 성능 평가

앞 절에서 선정한 각 수질 인자별 최종 입력 변수와 XGBoost를 활용하여 TP 및 Chl-a 예측 성능을 평가하기 위해 R, RMSE, MAE 값을 산정하여 Table 4에 제시하였다. Table 4에 제시된 통계 지표는 XGBoost 모형을 검증 자료를 적용하여 산정된 결과이다. 검증 결과 TP와 Chl-a 모두 상관계수는 0.62로 산정되어 두 인자 모두 일정 수준 이상의 상관성이 존재함을 확인하였다. TP 및 Chl-a 예측치에 대한 시계열(Fig. 3)을 분석한 결과 두 인자 모두 전반적인 농도 변화 추세는 잘 모의하는 것을 확인할 수 있다. 정량적 오차 지표를 확인해 본 결과 TP의 경우 RMSE와 MAE는 각각 0.0178 mg/L와 0.0102 mg/L로 비교적 낮은 오차 수준을 보였으며, Chl-a의 경우 RMSE가 0.0227 mg/L, MAE가 0.0112 mg/L로 나타났다. 시계열을 확인해보면 TP와 Chl-a 모두 여름철 고농도 구간에서는 peak 치를 과소 추정하는 경향성을 나타내었다(Fig. 3). 이는 극값에서의 자료의 수가 현저히 적어 학습에 필요한 샘플 수의 부족으로 인한 모델 학습의 한계인 것으로 볼 수 있다.

이를 토대로 Fig. 4에서는 각 인자별로 계절적 오차 특성을 분석하였다. 이를 위해 3∼5월, 6∼8월, 9∼11월, 12∼2월을 각각 봄, 여름, 가을, 겨울로 정의하여 분석하였다. 전반적으로 TP 모델의 경우 여름에 가장 높은 RMSE (0.0281 mg/L)와 MAE (0.0174 mg/L)로 나타났으며, 겨울철에 가장 낮은 RMSE (0.0033 mg/L)와 MAE (0.0029 mg/L)로 산정되었다. 이와 유사하게 Chl-a 산정 모형의 경우 여름철에 가장 높은 불확실성(RMSE: 0.0365 mg/L, MAE: 0.0218 mg/L)이 나타났으며, 겨울철에 가장 낮은 불확실성(RMSE: 0.0027 mg/L, MAE: 0.0023 mg/L)으로 나타났다. 이러한 결과는 여름철의 자료가 적어 극값을 잘 모의하지 못 하는 모델의 학습 한계와 호우로 인한 영양염류의 유입 증가에 따른 식물 플랑크톤의 증가 등 수체 환경의 계절적 특성이 복합적으로 작용한 것으로 해석할 수 있다.

특히 여름철에 TP 및 Chl-a 모두 높은 불확실성을 나타내는 원인은 수체 환경의 계절적 특성과 위성 기반 입력 자료의 한계가 복합적으로 작용한 결과로 해석된다. 일반적으로 여름철에는 수온 상승과 강한 일사 조건으로 인해 식물플랑크톤의 성장률이 급격히 증가하며, 외부 유입 및 내부 부하에 따른 영양염 공급이 단기간에 집중적으로 발생 단기간에 집중적으로 발생한다. 특히, 2023년과 2024년 중부 지방에 400년 빈도 이상의 극한 호우가 발생하게 되면서 다량의 부유물질이 유입되었다. Kim et al. (2023)에서 드론을 이용하여 대청호 내 부유 쓰레기 유입을 분석한 결과 평균적으로 4000에서 9000ton 정도의 부유물이 유입되었다. 특히, 2023년의 경우 집중 호우 이후 극심한 폭염으로 인해 대청호 수온이 30℃까지 상승하면서 유해 남조류 세포수가 급증하여 조류 경보를 발령하였다. 이러한 상황에서는 수체의 광학적 특성이 비선형적으로 변화하며, 고농도 Chl-a 조건에서는 가시광 및 적색 영역의 반사 신호가 포화(saturation)되는 현상이 발생할 수 있다. 이로 인해 위성 분광 정보가 실제 농도 변화를 충분히 반영하지 못하고, 결과적으로 예측값이 관측값에 비해 과소 추정되는 경향을 보이게 된다.

또한, 여름철 강우 및 유역 유출에 의해 발생하는 단기간의 부유물질 증가는 수체 반사도에 급격한 변화를 유발하지만, 위성 관측 주기와 시차로 인해 이러한 변동성이 입력 자료에 완전히 반영되지 못하는 한계가 존재한다. 아울러 여름철에는 수온 성층(stratification) 강화로 인해 표층과 저층 간의 수질 특성이 분리되는 경향을 보이는데, 위성 센서는 표층의 광학적 정보만을 관측하기 때문에 수체 전체를 대표하는 수질 상태를 완전히 반영하기 어렵다. 이러한 수직적 이질성은 특히 TP와 같이 광학적으로 직접 관측이 불가능한 수질 인자에 대해 예측 오차를 증가시키는 요인으로 작용한 것으로 판단된다.

Table 4. Statistical evaluation of TP and Chl-a estimates using XGBoost.

Variables R RMSE[mg/L] MAE[mg/L]
TP 0.62 0.0178 0.0102
Chl-a 0.62 0.0227 0.0112

Fig. 3. Time series comparison of observed and predicted (a) TP and (b) Chl-a during the test period (2023-2024) at Hoenam Station.

../../Resources/kswe/KSWE.2026.42.3.243/fig3.png

Fig. 4. Bar plot of RMSE and MAE of predicted (a) TP and (b) Chl-a over different seasons.

../../Resources/kswe/KSWE.2026.42.3.243/fig4.png

3.3 TSI 산정 모델 기반 공간적 분포

Fig. 5Fig. 6은 각각 2023년 9월 9일과 9월 24일을 대상으로 HLS 영상과 XGBoost 기반으로 추정한 TP 및 Chl-a 값을 이용하여 산정한 TSI의 공간 분포를 나타낸 것이다. 두 시기 모두 실제 조류 경보가 발생한 기간으로, 회남(2023.08.17.∼10.11), 문의(2023.08.10.∼11.16), 추동(2023.08.10.∼11.30)의 사례를 기준으로 선정하였다.

9월 9일 TP 기반 TSI 수치 분포(Fig. 5a)를 살펴보면 대청호의 상부와 댐 유입부 구간을 중심으로 TSI 수치가 29∼51 정도로 빈영양에서 중영양 상태를 보였으며, 중부 구간에서는 상대적으로 높은 TSI값(46∼49)이 나타나 중영양 상태가 우세하였다. 반면 Chl-a 기반 TSI는 전 구간에서 TP 기반 TSI보다 높은 값을 보였으며(Fig. 5b), 특히 중부 구간에서는 과영양 수준의 높은 TSI(69∼72)가 집중적으로 분포하였다. 이는 조류 경보가 실제 발령된 시기의 수환경 특성이 Chl-a 변화에 보다 민감하게 반영된 결과로 판단된다. 2023년 9월 24일에 산정된 TP 기반 TSI 수치 분포(Fig. 6a)를 살펴보면 전반적으로 9월 9일에 비해 낮은 값(29∼48)이 산정되었으며, 전 구간에서 빈영양 상태가 우세하게 나타났다. 반면 Chl-a 기반 TSI는 상부⋅댐 유입부 구간에서 비교적 높은 부영양 상태(65∼70)를 유지하였으며, 중부 구간에서도 부영양 수준의 값(59∼63)이 넓게 분포하였다.

두 시기의 공간분포를 비교하면 9월 9일에는 중부 구간의 TSI 값이 상부⋅댐 유입부 구간보다 상대적으로 높게 나타난 반면, 9월 24일에는 상부⋅댐 유입부 구간에서 높은 TSI 값이 분포하고 중부 구간에서는 상대적으로 낮은 값을 보이는 경향이 확인되었다. 이러한 공간적 차이는 강우 및 유입량 변화, 댐 방류량 조절, 체류시간 차이 등에 따른 수체 혼합 및 영양염 분포 변화의 영향을 받은 것으로 판단된다. 실제로 대청댐의 일 방류량은 2023년 9월 9일에 64.9 m³/s로 비교적 낮은 수준을 보인 반면 9월 21일부터 23일까지는 1,939.8 m³/s의 대규모 방류가 이루어졌다. 이와 같은 방류량 증가는 수체의 혼합을 촉진시키고 체류시간을 단축시켜 9월 24일에 산정된 TSI 공간 분포에서 중부 구간의 영양 상태가 상대적으로 낮게 나타난 것으로 판단된다.

TP 및 Chl-a 기반 TSI를 비교한 결과, 두 TSI 모두 실제 조류 발생 현황과 유사한 패턴을 보였지만, Chl-a 기반 TSI가 TP 기반 TSI보다 전반적으로 높은 TSI 값을 산정하였다. Chl-a는 살아있는 식물플랑크톤의 현존량을 판단하는 지표로서 수온, 일사량, 체류 시간, 수체 혼합 상태 등 단기적인 환경 변화에 민감하게 반응한다. 반면 총인은 비광학적 활성 변수로서 위성 반사도를 활용한 직접적인 추정에 한계가 존재하며, 이로 인해 TP 기반 TSI의 과소산정 가능성이 나타날 수 있다(Ngamile et al., 2025). 특히 Gao et al. (2015)에서 TP 농도가 0.1 mg/L 미만인 경우 추정 오차가 상대적으로 크게 나타난다는 연구결과도 보고된 바 있다. 따라서 산정된 TP 기반 TSI와 Chl-a 기반 TSI의 차이는 지표간 특성 차이와 추정 불확실성 등의 문제로 해석해볼 수 있다. 또한 해당 모델의 경우 단일 지점의 관측자료를 통해 학습되었고, 이를 대청호 전체 유역에 대하여 확장을 하여 적용하였기 때문에 공간적 대표성에 대한 불확실성이 존재할 수 있는 한계점이 있는 것으로 판단된다.

Fig. 5. Spatial distribution of TSI over Daecheong Lake on September 9, 2023: (a) TP-based and (b) Chl-a-based TSI.

../../Resources/kswe/KSWE.2026.42.3.243/fig5.png

Fig. 6. Estimated TSI distribution based on HLS within the study area on September 24, 2023: (a) TP-based TSI, (b) Chl-a-based TSI.

../../Resources/kswe/KSWE.2026.42.3.243/fig6.png

4. Conclusion

본 연구에서는 2013년부터 2024년까지의 HLS 영상을 기반으로 XGBoost 모델을 적용하여 대청호의 TP와 Chl-a를 예측하고, 이를 활용해 TSI를 산정함으로써 대청호의 부영양화 상태를 시.공간적으로 평가하였다. 특히, 입력변수 선정 과정에서는 SHAP 분석을 적용하여 밴드별 기여도를 분석한 후 최적 입력 변수를 선정하였다.

전반적인 분석 결과, TP와 Chl-a의 경우 모두 Aerosol(0.43∼0.45 µm)과 Green(0.53∼0.59 µm) 파장대에서 높은 중요도를 나타냈으며, 이는 해당 파장대가 조류의 농도와 부유물질에 민감하게 반응하는 특성에 기인한 것으로 해석된다. XGBoost 모델의 예측 성능 평가 결과, TP와 Chl-a의 R값은 동일하게 0.62로 나타났고, RMSE값은 0.0178 mg/L, 0.0227 mg/L, MAE값은 0.0102 mg/L, 0.0112 mg/L로 산정됐다. 두 인자 모두 전반적인 추세를 잘 따라갔지만, 여름철에 나타나는 극값에서는 예측값들이 과소추정되는 경향을 보였다.

이를 기반으로 대청호에서의 TSI 공간분포 결과, 두 인자 모두 실제 조류 경보가 발생한 시점의 전반적인 시⋅공간적 경향을 비교적 잘 반영하였다. 다만 TP 기반 TSI의 경우 일부 구간에서 과소 산정되는 결과를 보였으며 이는 TP의 비광학적 특성에 기인한 것으로 판단된다. 반면, Chl-a 기반 TSI는 단기적인 수체의 환경 변화를 잘 반영할 수 있어서 실제 조류 경보에 더 유사한 공간 분포를 산정한 것으로 판단된다.

이러한 결과는 HLS 영상을 활용한 XGBoost 기반 수질 인자 추정이 대청호의 부영양화의 경향성을 파악하는데 유효함을 시사한다. 그러나 TP나 Chl-a 모두 일부 극단값에서는 예측 정확도가 저하되는 한계점이 존재하였다. 이에 향후 연구에서는 관측 자료의 시간적 범위를 확대하고, TP 및 Chl-a에 따른 농도를 구간별 수질-반사도 간의 특성을 나누어 훈련하는 방법을 구축함으로써 예측 정확성을 더 향상시킬 필요가 있다. 더불어, 수위, 유입량, 방류량, 체류 시간 등의 수문 자료를 연계한 통합 분석을 수행함으로써 TSI의 공간 분포 변화 원인을 보다 정밀하게 규명하여 반영할 필요가 있다. 이를 토대로 위성 기반 수질 인자 산정 및 평가 기법의 신뢰성과 활용성을 더욱 향상시킬 수 있을 것으로 기대된다.

Acknowledgement

본 연구는 2025년도 교육부 및 충청북도의 재원으로 충북RISE센터의 지원을 받아 수행된 지역혁신중심대학지원체계(RISE) 글로컬대학30의 결과입니다. (2025-RISE-11-004).

References

1 
Ali K. A., Ortiz J., Bonini N., Shuman M., Sydow C., (2016), "Application of aqua MODIS sensor data for estimating chlorophyll a in the turbid case 2 waters of Lake Erie using bio-optical models," GIScience & Remote Sensing, vol. 53, no. 4, pp. 483-505. DOI
2 
Barredo Arrieta A., Díaz-Rodríguez N., Del Ser J., Bennetot A., Tabik S., Barbado A., Garcia S., Gil-Lopez S., Molina D., Benjamins R., Chatila R., Herrera F., (2020), "Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI," Information Fusion, vol. 58, pp. 82-115. DOI
3 
Baik J. J., Park J. M., Choi M. H., (2020), "Estimation and assessment of total phosphorus and trophic state index estimated from landsat 8 dataset on 2018 at Daecheong reservoir," Journal of Korean Society of Environmental Engineers, vol. 42, no. 9, pp. 415-423.[Korean Literature]. DOI
4 
Busse L. B., Simpson J. C., Cooper S. D., (2006), "Relationships among nutrients, algae, and land use in urbanized southern California streams," Canadian Journal of Fisheries and Aquatic Sciences, vol. 63, no. 12, pp. 2621-2638. DOI
5 
Chen Q., Huang M., Bai K., Li X., (2020), "An optimal two bands ratio model to monitor chlorophyll-a in urban lake using Landsat 8 data," E3S Web of Conferences, vol. 143, pp. 02003. DOI
6 
Chen T., Guestrin C., (2016), "Xgboost: A scalable tree boosting system," Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining, pp. 785-794. DOI
7 
Claverie M., Ju J., Masek J. G., Dungan J. L., Vermote E. F., Roger J. C., Justice C., (2018), "The harmonized landsat and sentinel-2 surface reflectance data set," Remote Sensing of Environment, vol. 219, pp. 145-161. DOI
8 
Claverie M., Masek J. G., Ju J., Dungan J. L., (2017), "Harmonized landsat-8 sentinel-2 (HLS) product user's guide," National Aeronautics and Space Administration (NASA), Washington, DC, USA, pp. 18. Google Search
9 
Friedman J. H., (2001), "Greedy function approximation: A gradient boosting machine," Annals of statistics, pp. 1189-1232. DOI
10 
Gao Y., Gao J., Yin H., Liu C., Xia T., Wang J., Huang Q., (2015), "Remote sensing estimation of the total phosphorus concentration in a large lake using band combinations and regional multivariate statistical modeling techniques," Journal of Environmental Management, vol. 151, pp. 33-43. DOI
11 
Gholizadeh M. H., Melesse A. M., Reddi L., (2016), "A comprehensive review on water quality parameters estimation using remote sensing techniques," Sensors, vol. 16, no. 8, pp. 1298. DOI
12 
Ju J., Zhou Q., Freitag B., Roy D. P., Zhang H. K., Sridhar M., Mandel J., Arab S., Schmidt G., Crawford C. J., Gascon F., Strobl P., Masek J. G., Neigh C. S. R., (2025), "The Harmonized Landsat and Sentinel-2 version 2.0 surface reflectance dataset," Remote Sensing of Environment, vol. 324, pp. 114723. DOI
13 
Kim S. H., Moon B. H., Song B. G., Park G. H., (2019), "Analysis of the feasibility of using UAV imagery to identify water quality characteristics of small streams in agricultural areas," Journal of the Korean Geographic Information Society, vol. 22, no. 3, pp. 10-20.[Korean Literature]. DOI
14 
Kim S. H., Park J. H., Kim B., (2021), "Prediction of cyanobacteria harmful algal blooms in reservoir using machine learning and deep learning," Journal of Korea Water Resources Association, vol. 54, no. 12, pp. 1167-1181. DOI
15 
Kim Y. W., Kim T., Shin J., Lee D. S., Park Y. S., Kim Y., Cha Y., (2022), "Validity evaluation of a machine-learning model for chlorophyll a retrieval using Sentinel-2 from inland and coastal waters," Ecological Indicators, vol. 137, pp. 108737. DOI
16 
Kim Y., Jang S. W., Kim H. M., Kim T. Y., Bak S., (2023), "Application of remote sensing techniques to survey and estimate the standing-stock of floating debris in the upper Daecheong Lake," Korean Journal of Remote Sensing, vol. 39, no. 5, pp. 589-597.[Korean Literature]. DOI
17 
Lechler S., Picoli M. C. A., Soares A. R., Sanchez A., Chaves M. E. D., Verstegen J., (2020), "Exploring Nasa's Harmonized Landsat and Sentinel-2 (HLS) dataset to monitor deforestation in the Amazon Rainforest," The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, vol. 43, pp. 705-711. DOI
18 
Lee J. J., Lee Y. R., Lim D. H., Ahn H. C., (2021), "A study on the employee turnover prediction using XGBoost and SHAP," Journal of Information Systems Research, vol. 30, no. 4, pp. 21-42.[Korean Literature]. DOI
19 
Liang Y., Yin F., Xie D., Liu L., Zhang Y., Ashraf T., (2022), "Inversion and monitoring of the TP concentration in Taihu Lake using the landsat-8 and sentinel-2 images," Remote Sensing, vol. 14, no. 24, pp. 6284. DOI
20 
Lin J. L., Karangan A., Huang Y. M., Kang S. F., (2022), "Eutrophication factor analysis using Carlson trophic state index (CTSI) towards non-algal impact reservoirs in Taiwan," Sustainable Environment Research, vol. 32, no. 1, pp. 25. DOI
21 
Lu H., Ma X., (2020), "Hybrid decision tree-based machine learning models for short-term water quality prediction," Chemosphere, vol. 249, pp. 126169. DOI
22 
Lundberg S. M., Lee S. I., (2017), "A unified approach to interpreting model predictions," Advances in neural information processing systems, pp. 4766-4777. DOI
23 
Ministry of Environment (ME), (2019), "Algae management policy direction presentation report," Ministry of Environment.[Korean Literature]. Google Search
24 
Mpakairi K. S., Muthivhi F. F., Dondofema F., Munyai L. F., Dalu T., (2024), "Chlorophyll-a unveiled: unlocking reservoir insights through remote sensing in a subtropical reservoir," Environmental Monitoring and Assessment, vol. 196, no. 4, pp. 401. DOI
25 
National Institute of Environmental Research (NIER), (2026), "Water Environment Information System (WEIS)."https://water.nier.go.kr/web (accessed March 2026). Google Search
26 
Ngamile S., Madonsela S., Kganyago M., (2025), "Trends in remote sensing of water quality parameters in inland water bodies: A systematic review," Frontiers in Environmental Science, vol. 13, pp. 1549301. DOI
27 
Olden J. D., Lawler J. J., Poff N. L., (2008), "Machine learning methods without tears: A primer for ecologists," The Quarterly Review of Biology, vol. 83, no. 2, pp. 171-193. DOI
28 
Park J. M., Park K. J., Kim Y. W., Kim B. K., (2025), "Estimation of high-resolution soil moisture using Sentinel-1 and LightGBM over the Miho River Watershed," Journal of the Korean Society of Hazard Mitigation, vol. 25, no. 6, pp. 65-73.[Korean Literature]. DOI
29 
Park S. S., Lee G. H., Seol S. J., Kim D. M., Kim S. J., Ko J. I., (2024), "Study on machine learning-based prediction of lime dosage for mine drainage treatment," Journal of the Korean Society of Mineral and Energy Resources Engineers, vol. 61, no. 5, pp. 333-346. DOI
30 
Park S., Son S., Bae J., Lee D., Seo D., Kim J., (2023), "Estimation of Chlorophyll-a concentration in Nakdong River using machine learning-based satellite data and water quality, hydrological, and meteorological factors," Korean Journal of Remote Sensing, vol. 39, no. 5, pp. 655-667.[Korean Literature]. DOI
31 
Pereyra-Laguna E., Ojeda-Castillo V., Herrera-López E. J., del Real-Olvera J., Hernández-Mena L., Vallejo-Rodríguez R., Díaz J., (2025), "Satellite-based prediction of water turbidity using surface reflectance and field spectral data in a dynamic tropical lake," Remote Sensing, vol. 17, no. 15, pp. 2595. DOI
32 
Qin H., Fang C., Liu G., Song K., Li Z., Li S., Yan Z., (2025), "Temperature is a key factor affecting total phosphorus and total nitrogen concentrations in northeastern lakes based on sentinel-2 images and machine learning methods," Remote Sensing, vol. 17, no. 2, pp. 267. DOI
33 
Salama M. S., Spaias L., Poser K., Peters S., Laanen M., (2022), "Validation of sentinel-2 (MSI) and sentinel-3 (OLCI) water quality products in turbid estuaries using fixed monitoring stations," Frontiers in Remote Sensing, vol. 2, pp. 808287. DOI
34 
Shim S., Kim Y., Lee H., Kim M., Choi J., (2022), "Comparison of chlorophyll-a prediction and analysis of influential factors in Yeongsan River using machine learning and deep learning," Journal of Korean Society on Water Environment, vol. 38, no. 6, pp. 292-305.[Korean Literature]. DOI
35 
Shin G., Kim T., (2025), "Application of machine learning based on remote sensing and water quality model to predict Chlorophyll a in reservoir," Journal of the Korean Society of Environmental Technology, vol. 26, no. 2, pp. 65-77.[Korean Literature]. DOI
36 
Song K., Wang Z., Blackwell J., Zhang B., Li F., Zhang Y., Jiang G., (2011), "Water quality monitoring using Landsat Thematic Mapper data with empirical algorithms in Chagan Lake, China," Journal of Applied Remote Sensing, vol. 5, no. 1, pp. 053506-053506. DOI
37 
Wang S., Qin B., (2025), "Application of optical remote sensing in harmful algal blooms in lakes: A review," Remote Sensing, vol. 17, no. 8, pp. 1381. DOI
38 
Willmott C. J., Matsuura K., (2005), "Advantages of the mean absolute error (MAE) over the root mean square error (RMSE) in assessing average model performance," Climate Research, vol. 30, no. 1, pp. 79-82. DOI
39 
Yan K., Li J., Zhao H., Wang C., Hong D., Du Y., Wang S., (2022), "Deep learning-based automatic extraction of cyanobacterial blooms from sentinel-2 MSI satellite data," Remote Sensing, vol. 14, no. 19, pp. 4763. DOI
40 
Yu G., Yang W., Matsushita B., Li R., Oyama Y., Fukushima T., (2014), "Remote estimation of Chlorophyll-a in inland waters by a NIR-Red-based algorithm: Validation in Asian lakes," Remote Sensing, vol. 6, no. 4, pp. 3492-3510. DOI
41 
Zhou C., Xu Q., Jia R., Zhang Z., Xu X., Liu H., Feng L., (2026), "Long‐term records reveal temperature‐driven nutrient limitation and predict intensified algal blooms in global lakes," Global Change Biology, vol. 32, no. 1, pp. e70719. DOI
42 
Zhou X., Liu G., Wu Y., Wang G., Xu Y., Liu T., (2025), "XGBoost-SHAP based multi-scale evaluation and nonlinear response of river health in Guangdong Province," Ecological Indicators, vol. 178, pp. 114138. DOI