**필수 라이브러리**

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib

**matplotlib 한글 설정**

- 운영체제에 따른 한글 지원 설정. 윈도우, 우분투, 구글 코랩 지원.
- 참고: [matplotlib에서 한글 지원하기](https://github.com/codingalzi/datapy/blob/master/matplotlib-korean.md)

In [2]:
import platform

if platform.system() == 'Windows': # 윈도우
    from matplotlib import font_manager, rc
    font_path = "C:/Windows/Fonts/NGULIM.TTF"
    font = font_manager.FontProperties(fname=font_path).get_name()
    rc('font', family=font)
elif platform.system() == 'Linux': # 우분투 또는 구글 코랩
    # please run the following commented out codes just once
#     if 'google.colab' in str(get_ipython()):
#         !apt-get install -y fonts-nanum*
#     else:
#         !sudo apt-get install -y fonts-nanum*
#     !fc-cache -fv
    
    applyfont = "NanumBarunGothic"
    import matplotlib.font_manager as fm
    if not any(map(lambda ft: ft.name == applyfont, fm.fontManager.ttflist)):
        fm.fontManager.addfont("/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf")
    plt.rc("font", family=applyfont)
    plt.rc("axes", unicode_minus=False)
    

**데이터**

데이터는 연도별로 정리되어 있음.

In [3]:
base_url = "https://github.com/codingalzi/water-data/raw/master/reservoirs/"

**영산강(엑셀) 자료를 데이터프레임으로 불러오기**

- `header=0`: 0번 행을 header로 지정, 즉 열 인덱스로 사용.
- `sheet_name=None`: 모든 워크시트 가져오기. 워크시트별로 하나의 df 생성. 반환값은 사전.
- `na_values=0`: 0으로 입력된 값도 결측치로 처리
- `index_col=1`: 측정일을 행 인덱스로 사용
- `parse_dates=True`: 행 인덱스로 사용되는 날짜 대상 파싱 실행

In [4]:
# 주의: 아래 모듈을 먼저 설치해야 할 수도 있다.

# !pip install openpyxl

모든 지역의 데이터 불러오기: 평동천, 광산, 장성천2, 문평천, 영산포2, 함평, 무안2

In [5]:
yeongsan = pd.read_excel(base_url+"Yeongsan.xlsx",
                            header=0, 
                            sheet_name=None,
                            na_values=0,
                            index_col=1, 
                            parse_dates=True)

측정소와 횟수 삭제

In [6]:
locations = yeongsan.keys()
locations

dict_keys(['1_평동천', '2_광산', '3_장성천2', '4_문평천', '5_영산포2', '6_함평', '7_무안2'])

**데이터 합치기**

모든 지역의 데이터를 단순히 합친다.

In [7]:
total_data = 0

for loc in locations:
    ys_loc = yeongsan[loc]
    total_data += ys_loc.shape[0]
    print(f"{loc}: \t{ys_loc.shape}")
    
print("총 데이터수:", total_data)

1_평동천: 	(440, 19)
2_광산: 	(510, 19)
3_장성천2: 	(435, 19)
4_문평천: 	(435, 19)
5_영산포2: 	(456, 19)
6_함평: 	(456, 19)
7_무안2: 	(534, 19)
총 데이터수: 3266


In [8]:
yongsan_total = pd.concat([yeongsan[loc] for loc in locations])
yongsan_total.shape

(3266, 19)

동일 날짜를 제외하면 1310개의 데이터에 불과하다.
하지만 장소가 다르기에 중복 날짜를 모두 인정한다. 

In [9]:
# 중복 날짜 수

yongsan_total.index.unique().shape

(1310,)

**날짜별로 정렬**

먼저 날짜별로 정렬한다.

In [10]:
yongsan_total = yongsan_total.sort_index()

**주요 특성**

수온, BOD, COD, TN, TP, 유량 등 6개의 주요 특성만을 이용하여 클로로필-A 예측하려 한다.
원 데이터셋에 포함된 특성은 다음과 같다.

In [11]:
yongsan_total.columns

Index(['측정소명', '회차', '수온(℃)', 'DO(㎎/L)', 'BOD(㎎/L)', 'COD(㎎/L)', '클로로필 a(㎎/㎥)',
       'TN(㎎/L)', 'TP(㎎/L)', 'TOC(㎎/L)', '수소이온농도', '전기전도도(μS/㎝)', '용존총질소(㎎/L)',
       '암모니아성 질소(㎎/L)', '질산성 질소(㎎/L)', '용존총인(㎎/L)', '인산염인(㎎/L)', 'SS(㎎/L)',
       '유량(㎥/s)'],
      dtype='object')

주요 특성 6개와 타깃으로 사용될 특성인 클로로필-A를 별도로 지정한다.

In [33]:
features_important = ['수온(℃)', 'BOD(㎎/L)', 'COD(㎎/L)', 'TN(㎎/L)', 'TP(㎎/L)', '유량(㎥/s)', '클로로필 a(㎎/㎥)']

- 입력데이터셋 특성 6개

In [34]:
six_features = features_important[:6]

* 타깃 특성: 클로로필-A

In [35]:
target_feature = features_important[-1]

먼저 클로로필-A 특성이 결측치인 샘플 데이터 48개는 제거한다.

In [36]:
mask = yongsan_total[target_feature].isna()
mask.sum()

48

In [37]:
ys_total = yongsan_total[~mask]

ys_total.shape

(3218, 19)

**핵심 특성만 사용**

In [39]:
ys_total = ys_total[features_important]

In [41]:
ys_total

Unnamed: 0_level_0,수온(℃),BOD(㎎/L),COD(㎎/L),TN(㎎/L),TP(㎎/L),유량(㎥/s),클로로필 a(㎎/㎥)
년/월/일,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2012-01-04,4.1,4.8,8.0,7.792,0.600,10.403,25.4
2012-01-05,4.2,1.1,4.9,2.863,0.089,,4.1
2012-01-09,5.9,4.7,8.4,10.901,0.888,12.313,25.4
2012-01-10,4.1,3.9,8.2,6.924,0.357,16.604,71.8
2012-01-10,3.4,5.4,8.9,8.250,0.364,13.449,88.2
...,...,...,...,...,...,...,...
2022-06-28,26.6,4.9,11.4,4.329,0.192,27.756,14.8
2022-06-28,26.4,5.6,9.5,3.125,0.165,24.727,23.0
2022-06-28,25.5,2.4,8.3,2.249,0.054,101.127,12.7
2022-06-29,24.7,1.6,6.4,2.855,0.079,0.138,7.6


**결측치 처리**

유량 특성만 335개의 결측치를 갖는다.

In [42]:
ys_total.isna().sum()

수온(℃)            0
BOD(㎎/L)         0
COD(㎎/L)         0
TN(㎎/L)          0
TP(㎎/L)          0
유량(㎥/s)        335
클로로필 a(㎎/㎥)      0
dtype: int64

335개는 전체 데이터셋의 10% 정도이다.

In [48]:
num_missing_values = ys_total.isna().sum().sum()

num_missing_values/ys_total.shape[0]

0.10410192666252331

유량 특성에만 있는 결측치는 모두 0으로 대체한다.
RNN 모델에 드롭아웃(dropout)을 적용하면 일부 특성이 어차피 0으로 지정된다.
따라서 입력 데이터셋의 결측치가 너무 많지 않다면
드롭아웃 효과에 의해 결측치의 영향이 묻히게 된다.

In [50]:
ys_total.fillna(0, inplace=True)

**훈련셋과 테스트셋 지정**

훈련셋과 테스트셋을 8:2의 비율로 나눈다.
단, 테스트셋은 날짜를 기준으로 나중에 측정된 데이터를 이용한다.

In [52]:
train_size = int(ys_total.shape[0] * 0.8)
train_size

2574

- 훈련셋

In [56]:
train_set = ys_total[six_features][:train_size]
train_targets = ys_total[target_feature][:train_size]

- 테스트셋

In [57]:
test_set = ys_total[six_features][train_size:]
test_targets = ys_total[target_feature][train_size:]

**모델 지정**