**AIVLE School 미니프로젝트**
### **공공데이터를 활용한 <span style="color:darkgreen">미세먼지 농도</span> 예측**
---

#### **<span style="color:red">[미션 안내]</span>**
* 개인 미션: 미세먼지 농도를 예측하는 머신러닝 모델을 만드세요. ([2-1]부터 [2-10], [3-1]부터 [3-2] 까지 미션 수행)
* 조별 미션: 개인 미션 수행한 내용에 대해 토론하여 발표 준비를 해주세요.

#### **<span style="color:red">[주피터 노트북 파일 안내]</span>**
1. 탐색적 데이터 분석(solution).ipynb: 미션 수행 대상 아님. 제공된 solution을 참고하여 [2-1]부터의 미션 수행을 위한 탐색적 데이터 분석 진행</br>
2. 데이터 전처리.ipynb: [2-1]부터 [2-8] 까지 미션 수행 대상</br>
3. 모델링(머신러닝).ipynb: [3-1]부터 [3-2] 까지 미션 수행 대상. [4-1]~[4-4]는 선택 사항임</br>

#### **<span style="color:red">[데이터 설명]</span>**

* air_2021.csv : 2021년 미세먼지 데이터
* air_2022.csv : 2022년 미세먼지 데이터
* weather_2021.csv : 2021년 날씨 데이터
* weather_2022.csv : 2022년 날씨 데이터
* 학습 데이터: 2021년의 미세먼지 농도 데이터, 테스트 데이터: 2022년의 미세먼지 농도 데이터

# [Step 1] 탐색적 데이터 분석

#### **<span style="color:blue">[1-1] 필요한 라이브러리 설치</span>**

In [1]:
# 필요한 라이브러리 설치 및 임포트
# %pip install pandas seaborn

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

In [2]:
plt.rcParams['font.family'] = 'Malgun Gothic'
plt.rcParams['axes.unicode_minus'] = False

---

# [Step 2] 데이터 전처리

#### **<span style="color:blue">[2-0] air_21, air_22, weather_21, weather_22 데이터 로딩</span>**

In [3]:
# 데이터 로딩
air_21 = pd.read_csv('air_2021.csv', sep=',', encoding='utf-8', index_col=0)
air_22 = pd.read_csv('air_2022.csv', sep=',', encoding='utf-8', index_col=0)

weather_21 = pd.read_csv('weather_2021.csv', sep=',', encoding='cp949')
weather_22 = pd.read_csv('weather_2022.csv', sep=',', encoding='cp949')

#### **<span style="color:blue">[2-1] air_21, air_22 의 '측정일시'를 활용하여 'time' 변수 생성</span>**

* air_21, air_22 의 '측정일시'를 활용하여 'time'변수 생성
* time 변수를 to_datetime으로 데이터 타입 변경
* 참고: 미세먼지 데이터는 1시-24시, 날씨 데이터는 0시-23시로 구성되어 있습니다. [2-5]에서 미세먼지와 날씨 데이터를 time 기준으로 합치려면 날씨 기준이 동일해야 합니다. 미세먼지 데이터에서 time 변수 생성 시 이를 미리 고려(예:측정일시 값 -1)하세요.

In [4]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.
# '측정일시'에서 1을 빼고 'time' 변수 생성
air_21['time'] = pd.to_datetime(air_21['측정일시'] - 1, format='%Y%m%d%H')
air_22['time'] = pd.to_datetime(air_22['측정일시'] - 1, format='%Y%m%d%H')

---

#### **<span style="color:blue">[2-2] weather_21, weather_22 의 '일시'를 활용하여 'time' 변수 생성</span>**

* weather_21, weather_22 의 '일시'를 활용하여 'time'변수 생성
* time 변수를 to_datetime으로 데이터 타입 변경

In [5]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.
weather_21['time'] = pd.to_datetime(weather_21['일시'], format='%Y-%m-%d %H:%M')
weather_22['time'] = pd.to_datetime(weather_22['일시'], format='%Y-%m-%d %H:%M')

---

#### **<span style="color:blue">[2-3] 'time' 기준으로 데이터 합치기</span>**

* 미세먼지 데이터와 날씨 데이터를 'time' 기준으로 합쳐보세요.
* df_21에는 'time' 기준으로 21년도 미세먼지, 날씨 데이터를 합쳐보세요.
* df_22에는 'time' 기준으로 22년도 미세먼지, 날씨 데이터를 합쳐보세요.

In [6]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.
# 21년도 데이터 합치기
df_21 = pd.merge(air_21, weather_21, on='time', how='inner')

# 22년도 데이터 합치기
df_22 = pd.merge(air_22, weather_22, on='time', how='inner')

In [7]:
df_21.head()

Unnamed: 0,지역,망,측정소코드,측정소명,측정일시,SO2,CO,O3,NO2,PM10,...,최저운고(100m ),시정(10m),지면상태(지면상태코드),현상번호(국내식),지면온도(°C),지면온도 QC플래그,5cm 지중온도(°C),10cm 지중온도(°C),20cm 지중온도(°C),30cm 지중온도(°C)
0,서울 종로구,도시대기,111123,종로구,2021100101,0.003,0.6,0.002,0.039,31.0,...,,2000,,,17.8,,22.3,22.3,22.7,22.9
1,서울 종로구,도시대기,111123,종로구,2021100102,0.003,0.6,0.002,0.035,27.0,...,,2000,,,17.4,,22.1,22.0,22.5,22.9
2,서울 종로구,도시대기,111123,종로구,2021100103,0.003,0.6,0.002,0.033,28.0,...,,2000,,,17.2,,21.8,21.8,22.4,22.8
3,서울 종로구,도시대기,111123,종로구,2021100104,0.003,0.6,0.002,0.03,26.0,...,,2000,,,17.0,,21.6,21.6,22.2,22.8
4,서울 종로구,도시대기,111123,종로구,2021100105,0.003,0.5,0.003,0.026,26.0,...,,2000,,,16.5,,21.3,21.4,22.0,22.7


In [8]:
df_22.head()

Unnamed: 0,지역,망,측정소코드,측정소명,측정일시,SO2,CO,O3,NO2,PM10,...,최저운고(100m ),시정(10m),지면상태(지면상태코드),현상번호(국내식),지면온도(°C),지면온도 QC플래그,5cm 지중온도(°C),10cm 지중온도(°C),20cm 지중온도(°C),30cm 지중온도(°C)
0,서울 종로구,도시대기,111123,종로구,2022010101,0.003,0.4,0.026,0.016,23.0,...,,2000,,,-7.0,,-1.0,-1.0,-0.2,1.0
1,서울 종로구,도시대기,111123,종로구,2022010102,0.003,0.4,0.022,0.02,20.0,...,,2000,,,-7.2,,-1.1,-1.1,-0.2,1.0
2,서울 종로구,도시대기,111123,종로구,2022010103,0.003,0.5,0.014,0.028,20.0,...,,2000,,,-7.5,,-1.3,-1.2,-0.2,1.0
3,서울 종로구,도시대기,111123,종로구,2022010104,0.003,0.5,0.016,0.027,19.0,...,,2000,,,-7.6,,-1.4,-1.2,-0.2,1.0
4,서울 종로구,도시대기,111123,종로구,2022010105,0.003,0.5,0.005,0.04,24.0,...,,2000,,,-7.6,,-1.4,-1.3,-0.3,1.0


---

#### **<span style="color:blue">[2-4] 사용하지 않을 변수 제거</span>**

* 머신러닝에 사용하지 않을 변수들을 제거해줍니다.
* df_21, df_22에 사용할 변수들만 넣어보세요.

In [9]:
# df_21, df_22에 사용할 변수들만 할당
df_21 = df_21[['time', 'SO2', 'CO', 'O3', 'NO2', '기온(°C)', '강수량(mm)', '풍속(m/s)', '풍향(16방위)', '습도(%)', '현지기압(hPa)', '해면기압(hPa)', '일조(hr)', '일사(MJ/m2)', '적설(cm)', '전운량(10분위)', '중하층운량(10분위)', '시정(10m)', '지면온도(°C)', '10cm 지중온도(°C)', '20cm 지중온도(°C)', '30cm 지중온도(°C)','PM10']]
df_22 = df_22[['time', 'SO2', 'CO', 'O3', 'NO2', '기온(°C)', '강수량(mm)', '풍속(m/s)', '풍향(16방위)', '습도(%)', '현지기압(hPa)', '해면기압(hPa)', '일조(hr)', '일사(MJ/m2)', '적설(cm)', '전운량(10분위)', '중하층운량(10분위)', '시정(10m)', '지면온도(°C)', '10cm 지중온도(°C)', '20cm 지중온도(°C)', '30cm 지중온도(°C)', 'PM10']]
df_21.head()

Unnamed: 0,time,SO2,CO,O3,NO2,기온(°C),강수량(mm),풍속(m/s),풍향(16방위),습도(%),...,일사(MJ/m2),적설(cm),전운량(10분위),중하층운량(10분위),시정(10m),지면온도(°C),10cm 지중온도(°C),20cm 지중온도(°C),30cm 지중온도(°C),PM10
0,2021-10-01 00:00:00,0.003,0.6,0.002,0.039,19.2,,1.3,360.0,83,...,,,0.0,0,2000,17.8,22.3,22.7,22.9,31.0
1,2021-10-01 01:00:00,0.003,0.6,0.002,0.035,18.7,,1.0,20.0,85,...,,,0.0,0,2000,17.4,22.0,22.5,22.9,27.0
2,2021-10-01 02:00:00,0.003,0.6,0.002,0.033,18.3,,0.3,0.0,89,...,,,0.0,0,2000,17.2,21.8,22.4,22.8,28.0
3,2021-10-01 03:00:00,0.003,0.6,0.002,0.03,17.7,,2.0,20.0,92,...,,,0.0,0,2000,17.0,21.6,22.2,22.8,26.0
4,2021-10-01 04:00:00,0.003,0.5,0.003,0.026,17.4,,1.0,50.0,91,...,,,0.0,0,2000,16.5,21.4,22.0,22.7,26.0


In [10]:
# time 변수를 index로 세팅
df_21 = df_21.set_index('time')
df_22 = df_22.set_index('time')
df_21.head()

Unnamed: 0_level_0,SO2,CO,O3,NO2,기온(°C),강수량(mm),풍속(m/s),풍향(16방위),습도(%),현지기압(hPa),...,일사(MJ/m2),적설(cm),전운량(10분위),중하층운량(10분위),시정(10m),지면온도(°C),10cm 지중온도(°C),20cm 지중온도(°C),30cm 지중온도(°C),PM10
time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2021-10-01 00:00:00,0.003,0.6,0.002,0.039,19.2,,1.3,360.0,83,998.8,...,,,0.0,0,2000,17.8,22.3,22.7,22.9,31.0
2021-10-01 01:00:00,0.003,0.6,0.002,0.035,18.7,,1.0,20.0,85,998.8,...,,,0.0,0,2000,17.4,22.0,22.5,22.9,27.0
2021-10-01 02:00:00,0.003,0.6,0.002,0.033,18.3,,0.3,0.0,89,998.9,...,,,0.0,0,2000,17.2,21.8,22.4,22.8,28.0
2021-10-01 03:00:00,0.003,0.6,0.002,0.03,17.7,,2.0,20.0,92,998.1,...,,,0.0,0,2000,17.0,21.6,22.2,22.8,26.0
2021-10-01 04:00:00,0.003,0.5,0.003,0.026,17.4,,1.0,50.0,91,997.9,...,,,0.0,0,2000,16.5,21.4,22.0,22.7,26.0


---

#### **<span style="color:blue">[2-5] 변수들의 결측치 처리</span>**

In [11]:
# df_21, df_22의 결측치 확인
df_21.isnull().sum()

SO2               112
CO                 80
O3                 97
NO2                80
기온(°C)              0
강수량(mm)          7810
풍속(m/s)             2
풍향(16방위)            2
습도(%)               0
현지기압(hPa)           0
해면기압(hPa)           0
일조(hr)           3968
일사(MJ/m2)        3968
적설(cm)           8380
전운량(10분위)           2
중하층운량(10분위)         0
시정(10m)             0
지면온도(°C)            5
10cm 지중온도(°C)       5
20cm 지중온도(°C)       5
30cm 지중온도(°C)       5
PM10              105
dtype: int64

In [12]:
df_22.isnull().sum()

SO2                21
CO                 21
O3                 21
NO2                21
기온(°C)              0
강수량(mm)          2079
풍속(m/s)             0
풍향(16방위)            0
습도(%)               0
현지기압(hPa)           0
해면기압(hPa)           0
일조(hr)           1089
일사(MJ/m2)        1089
적설(cm)           2020
전운량(10분위)           0
중하층운량(10분위)         0
시정(10m)             0
지면온도(°C)            0
10cm 지중온도(°C)       0
20cm 지중온도(°C)       0
30cm 지중온도(°C)       0
PM10               38
dtype: int64

In [13]:
# df_21, df_22의 변수 중 '강수량(mm)'의 결측치를 처리
df_21['강수량(mm)'] = df_21['강수량(mm)'].fillna(0)
df_22['강수량(mm)'] = df_22['강수량(mm)'].fillna(0)

In [14]:
# df_21, df_22의 남은 결측치를 처리
df_21['적설(cm)'] = df_21['적설(cm)'].fillna(0)
df_22['적설(cm)'] = df_22['적설(cm)'].fillna(0)

In [15]:
df_21['일조(hr)'] = df_21['일조(hr)'].fillna(0)
df_22['일조(hr)'] = df_22['일조(hr)'].fillna(0)

In [16]:
df_21['일사(MJ/m2)'] = df_21['일사(MJ/m2)'].fillna(0)
df_22['일사(MJ/m2)'] = df_22['일사(MJ/m2)'].fillna(0)

In [17]:
# df_21, df_22의 결측치 재확인
df_21.isnull().sum()

SO2              112
CO                80
O3                97
NO2               80
기온(°C)             0
강수량(mm)            0
풍속(m/s)            2
풍향(16방위)           2
습도(%)              0
현지기압(hPa)          0
해면기압(hPa)          0
일조(hr)             0
일사(MJ/m2)          0
적설(cm)             0
전운량(10분위)          2
중하층운량(10분위)        0
시정(10m)            0
지면온도(°C)           5
10cm 지중온도(°C)      5
20cm 지중온도(°C)      5
30cm 지중온도(°C)      5
PM10             105
dtype: int64

In [18]:
# df_21, df_22의 결측치 재확인
df_22.isnull().sum()

SO2              21
CO               21
O3               21
NO2              21
기온(°C)            0
강수량(mm)           0
풍속(m/s)           0
풍향(16방위)          0
습도(%)             0
현지기압(hPa)         0
해면기압(hPa)         0
일조(hr)            0
일사(MJ/m2)         0
적설(cm)            0
전운량(10분위)         0
중하층운량(10분위)       0
시정(10m)           0
지면온도(°C)          0
10cm 지중온도(°C)     0
20cm 지중온도(°C)     0
30cm 지중온도(°C)     0
PM10             38
dtype: int64

In [19]:
df_21.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 8759 entries, 2021-10-01 00:00:00 to 2021-09-30 23:00:00
Data columns (total 22 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   SO2            8647 non-null   float64
 1   CO             8679 non-null   float64
 2   O3             8662 non-null   float64
 3   NO2            8679 non-null   float64
 4   기온(°C)         8759 non-null   float64
 5   강수량(mm)        8759 non-null   float64
 6   풍속(m/s)        8757 non-null   float64
 7   풍향(16방위)       8757 non-null   float64
 8   습도(%)          8759 non-null   int64  
 9   현지기압(hPa)      8759 non-null   float64
 10  해면기압(hPa)      8759 non-null   float64
 11  일조(hr)         8759 non-null   float64
 12  일사(MJ/m2)      8759 non-null   float64
 13  적설(cm)         8759 non-null   float64
 14  전운량(10분위)      8757 non-null   float64
 15  중하층운량(10분위)    8759 non-null   int64  
 16  시정(10m)        8759 non-null   int64  
 17  지면온도(°C)       8

In [20]:
df_22.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 2160 entries, 2022-01-01 00:00:00 to 2022-03-31 23:00:00
Data columns (total 22 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   SO2            2139 non-null   float64
 1   CO             2139 non-null   float64
 2   O3             2139 non-null   float64
 3   NO2            2139 non-null   float64
 4   기온(°C)         2160 non-null   float64
 5   강수량(mm)        2160 non-null   float64
 6   풍속(m/s)        2160 non-null   float64
 7   풍향(16방위)       2160 non-null   int64  
 8   습도(%)          2160 non-null   int64  
 9   현지기압(hPa)      2160 non-null   float64
 10  해면기압(hPa)      2160 non-null   float64
 11  일조(hr)         2160 non-null   float64
 12  일사(MJ/m2)      2160 non-null   float64
 13  적설(cm)         2160 non-null   float64
 14  전운량(10분위)      2160 non-null   int64  
 15  중하층운량(10분위)    2160 non-null   int64  
 16  시정(10m)        2160 non-null   int64  
 17  지면온도(°C)       2

---

#### **<span style="color:blue">[2-6] 전일 같은 시간 변수 추가</span>**

* 모델링에 유용한 변수로 전일 같은 시간(24시간 전) 미세먼지 농도 변수를 추가합니다.
* 시계열 데이터 처리를 위한 shift 연산을 참고하세요.

In [21]:
# df_21, df_22의 index(time)를 month, day, hour 로 쪼개기 (year는 필요 없음)
df_21['month'] = df_21.index.month
df_21['day'] = df_21.index.day
df_21['hour'] = df_21.index.hour

In [22]:
df_22['month'] = df_22.index.month
df_22['day'] = df_22.index.day
df_22['hour'] = df_22.index.hour

In [23]:
# # 결측치 처리 함수
# def fill_nan_with_time_avg(df, columns):
#     for column in columns:
#         for idx in df[df[column].isna()].index:
#             # 앞뒤로 이틀 전, 하루 전, 하루 후, 이틀 후 시점을 선택
#             time_offsets = [-72, -48, -24, 24, 48, 72]  # 시간 오프셋 (하루는 24시간 간격으로 처리)
#             values = []
#             for offset in time_offsets:
#                 offset_time = idx + pd.Timedelta(hours=offset)
#                 if offset_time in df.index:  # 데이터프레임의 인덱스 범위에 존재하는 경우에만 추가
#                     value = df.loc[offset_time, column]
#                     if not pd.isna(value):  # 값이 NaN이 아닌 경우에만 추가
#                         values.append(value)
            
#             # 앞뒤로 유효한 값이 있는 경우 평균으로 결측치 대체
#             if values:
#                 df.at[idx, column] = sum(values) / len(values)
#     return df

# # 예시 사용 - SO2, CO, O3, NO2, PM10 열에 대해 결측치 채우기
# df_21 = fill_nan_with_time_avg(df_21, ['SO2', 'CO', 'O3', 'NO2', 'PM10'])
# df_22 = fill_nan_with_time_avg(df_22, ['SO2', 'CO', 'O3', 'NO2', 'PM10'])

In [24]:
# df_21, df_22에 전일 같은 시간 미세먼지 농도 변수(PM10_lag1) 추가
# 전일 같은 시간은 24시간 전 입니다.
df_21['PM10_lag1'] = df_21['PM10'].shift(24)
df_22['PM10_lag1'] = df_22['PM10'].shift(24)

---

#### **<span style="color:blue">[2-7] t+1 시점의 미세먼지 농도 데이터 생성</span>**

* t+1 시점은 1시간 후 입니다.
* t+1 시점의 미세먼지 농도 변수를 생성하세요.
* t+1 시점의 미세먼지 농도는 머신러닝 모델을 통해 예측하려는 y값(target) 입니다.

In [25]:
# df_21, df_22에 t+1 시점 변수(PM10_1) 추가
df_21['PM10_1'] = df_21['PM10'].shift(-1)
df_22['PM10_1'] = df_22['PM10'].shift(-1)

In [26]:
df_21.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 8759 entries, 2021-10-01 00:00:00 to 2021-09-30 23:00:00
Data columns (total 27 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   SO2            8647 non-null   float64
 1   CO             8679 non-null   float64
 2   O3             8662 non-null   float64
 3   NO2            8679 non-null   float64
 4   기온(°C)         8759 non-null   float64
 5   강수량(mm)        8759 non-null   float64
 6   풍속(m/s)        8757 non-null   float64
 7   풍향(16방위)       8757 non-null   float64
 8   습도(%)          8759 non-null   int64  
 9   현지기압(hPa)      8759 non-null   float64
 10  해면기압(hPa)      8759 non-null   float64
 11  일조(hr)         8759 non-null   float64
 12  일사(MJ/m2)      8759 non-null   float64
 13  적설(cm)         8759 non-null   float64
 14  전운량(10분위)      8757 non-null   float64
 15  중하층운량(10분위)    8759 non-null   int64  
 16  시정(10m)        8759 non-null   int64  
 17  지면온도(°C)       8

In [27]:
# 결측치가 있다면 처리
df_21 = df_21.dropna()
df_22 = df_22.dropna()
df_21.head()

Unnamed: 0_level_0,SO2,CO,O3,NO2,기온(°C),강수량(mm),풍속(m/s),풍향(16방위),습도(%),현지기압(hPa),...,지면온도(°C),10cm 지중온도(°C),20cm 지중온도(°C),30cm 지중온도(°C),PM10,month,day,hour,PM10_lag1,PM10_1
time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2021-10-02 00:00:00,0.002,0.3,0.046,0.012,17.0,0.6,2.9,50.0,90,999.6,...,17.8,21.8,22.6,23.0,10.0,10,2,0,31.0,9.0
2021-10-02 01:00:00,0.003,0.3,0.041,0.014,16.6,0.0,1.8,50.0,90,999.8,...,17.6,21.6,22.4,22.9,9.0,10,2,1,27.0,9.0
2021-10-02 02:00:00,0.003,0.3,0.039,0.015,16.8,0.0,0.9,20.0,91,1000.0,...,17.9,21.4,22.2,22.8,9.0,10,2,2,28.0,10.0
2021-10-02 03:00:00,0.003,0.4,0.029,0.016,16.6,0.0,0.9,50.0,93,1000.5,...,17.7,21.3,22.0,22.7,10.0,10,2,3,26.0,11.0
2021-10-02 04:00:00,0.002,0.4,0.029,0.016,16.7,0.0,1.3,20.0,93,1001.0,...,17.4,21.2,21.9,22.6,11.0,10,2,4,26.0,11.0


---

#### **<span style="color:blue">[2-8] train, test 데이터 분리</span>**

* 21년도 데이터(df_21)를 train 데이터로 저장하세요. y 값을 제외하고 train_x로 저장한 후 y 값은 train_y로 저장하세요.
* 22년도 데이터(df_22)를 test 데이터로 저장하세요. y 값을 제외하고 test_x로 저장한 후 y 값은 test_y로 저장하세요.
* 각각의 데이터프레임을 csv 파일로 저장하세요. (train_x.csv / train_y.csv / test_x.csv / test_y.csv)
* y값은 'PM10_1' 즉, t+1 시점의 미세먼지 농도입니다.

In [28]:
train_x = df_21.drop('PM10_1', axis=1)
train_y = df_21['PM10_1']

test_x = df_22.drop('PM10_1', axis=1)
test_y = df_22['PM10_1']

In [29]:
# 각각의 데이터프레임을 csv 파일로 저장 (train_x.csv / train_y.csv / test_x.csv / test_y.csv)
train_x.to_csv('train_x.csv', index=False)
train_y.to_csv('train_y.csv', index=False)
test_x.to_csv('test_x.csv', index=False)
test_y.to_csv('test_y.csv', index=False)

---

### 해당 데이터 전처리 과정을 진행하며 얻은 인사이트
- 해당 데이터 전처리 과정을 진행하며 결측치 처리를 위해 여러 시도를 진행해봄, 결측치들을 동시간대 기준으로 앞뒤 2일 또는 3일인 약 4-6개의 값을 가져와 평균을 내어 결측치를 처리해주었지만, 성능은 R2스코어 기준으로 0.932 -> 0.90까지 떨어짐
- 다른 컬럼들의 결측치는 어찌저찌 해결해보겠지만, 우리가 예측해야할 값인 PM10의 값이 결측치로 존재. 심지어 한두시간 없는 것이 아닌, 하루동안 결측치로 존재할 때도있음
- 위와 같은 경우는 측정 기기의 오류 또는 고장이라고 생각이 들었음.
- PM10 뿐만 아니라, SO2, CO, O3, NO2 네개의 컬럼이 동시에 약 27개의 row가 연속으로 다 NaN. 해당 ROW에서 PM10의 값까지 NaN인 경우도 다수 존재하여 어쩔 수 없이 drop 시켜줌