**AIVLE School 미니프로젝트**
### **공공데이터를 활용한 <span style="color:darkgreen">미세먼지 농도</span> 예측**
---

#### **<span style="color:red">[미션 안내]</span>**
* 개인 미션: 미세먼지 농도를 예측하는 머신러닝 모델을 만드세요. <br> ([1-1]부터 [1-2]까지, [2-1]부터 [2-8]까지, [3-1]부터 [3-2]까지 필수 수행, [4-1]부터 선택 수행)
* 조별 미션: 개인 미션 수행한 내용에 대해 토론하여 발표 준비를 해주세요.

#### **<span style="color:red">[데이터 설명]</span>**

* 학습 데이터
    * air_2021.csv : 2021년 미세먼지 데이터
    * weather_2021.csv : 2021년 날씨 데이터
* 테스트 데이터
    * air_2022.csv : 2022년 미세먼지 데이터
    * weather_2022.csv : 2022년 날씨 데이터

# [Step 1] 탐색적 데이터 분석

In [3]:
# 필요한 라이브러리 설치 및 임포트
import pandas as pd
import datetime
import matplotlib.pyplot as plt

---

#### **<span style="color:blue">[1-1] air_21, air_22, weather_21, weather_22 데이터 로딩</span>**

In [4]:
# 데이터 로딩
air_21 = pd.read_csv("air_2021.csv", sep=',', index_col = 0, encoding = 'utf-8' )
air_22 = pd.read_csv("air_2022.csv", sep=',', index_col = 0, encoding = 'utf-8' )

In [5]:
weather_21 = pd.read_csv("weather_2021.csv", sep = ',', encoding='cp949')
weather_22 = pd.read_csv("weather_2022.csv", sep = ',', encoding='cp949')

#### **<span style="color:blue">[1-2] 필요한 데이터 분석 진행 </span>**

In [6]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.
# head, tail, info, plot을 활용한 시각화 등 진행
print('============== air_21.info() ==============')
print(air_21.info())
print('\n============== air_22.info() ==============')
print(air_22.info())
print('\n============== weather_21.info() ==============')
print(weather_21.info())
print('\n============== weather_22.info() ==============')
print(weather_22.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 8760 entries, 0 to 8759
Data columns (total 12 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   지역      8760 non-null   object 
 1   망       8760 non-null   object 
 2   측정소코드   8760 non-null   int64  
 3   측정소명    8760 non-null   object 
 4   측정일시    8760 non-null   int64  
 5   SO2     8648 non-null   float64
 6   CO      8680 non-null   float64
 7   O3      8663 non-null   float64
 8   NO2     8680 non-null   float64
 9   PM10    8655 non-null   float64
 10  PM25    8663 non-null   float64
 11  주소      8760 non-null   object 
dtypes: float64(6), int64(2), object(4)
memory usage: 889.7+ KB
None

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2160 entries, 0 to 2159
Data columns (total 12 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   지역      2160 non-null   object 
 1   망       2160 non-null   object 
 2   측정소코드   2160 non-null   int64  
 3   측정소명    

# [Step 2] 데이터 전처리

#### **<span style="color:blue">[2-1] air_21, air_22 의 '측정일시'를 활용하여 'time' 변수 생성</span>**

* air_21, air_22  각각 '측정일시'를 활용하여 'time'변수 생성
    * 참고: 미세먼지 데이터는 1시-24시, 날씨 데이터는 0시-23시로 구성되어 있습니다. [2-3]에서 미세먼지와 날씨 데이터를 time 기준으로 합치려면 기준이 동일해야 합니다. 미세먼지 데이터에서 time 변수 생성 시 이를 미리 고려(예: air_21['측정일시'] -1)하세요.
* time 변수를 pd.to_datetime으로 데이터 타입 변경
    * 참고: format = '%Y%m%d%H'

In [None]:
air_21.info()

In [None]:
air_21_copy = air_21.copy()
air_22_copy = air_22.copy()

In [None]:
air_21_copy['측정일시'] = air_21_copy['측정일시'] - 1
air_22_copy['측정일시'] = air_22_copy['측정일시'] - 1
air_21_copy

In [None]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.
air_21_copy['time'] = pd.to_datetime(air_21_copy['측정일시'], format = '%Y%m%d%H')
air_22_copy['time'] = pd.to_datetime(air_22_copy['측정일시'], format = '%Y%m%d%H')
print(air_21_copy.info())
print(air_22_copy.info())

---

#### **<span style="color:blue">[2-2] weather_21, weather_22 의 '일시'를 활용하여 'time' 변수 생성</span>**

* weather_21, weather_22 의 '일시'를 활용하여 'time'변수 생성
* time 변수를 pd.to_datetime으로 데이터 타입 변경

In [None]:
weather_21.info()

In [None]:
weather_21_copy = weather_21.copy()
weather_22_copy = weather_22.copy()

In [None]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.
weather_21_copy['time'] = pd.to_datetime(weather_21_copy['일시'], format='%Y-%m-%d %H:%M')
weather_22_copy['time'] = pd.to_datetime(weather_22_copy['일시'], format='%Y-%m-%d %H:%M')

In [None]:
weather_21_copy.info()

In [None]:
weather_21_copy.head()

---

#### **<span style="color:blue">[2-3] 'time' 기준으로 데이터 합치기</span>**

* 미세먼지 데이터와 날씨 데이터를 'time' 기준으로 합쳐보세요.
    * df_21에는 'time' 기준으로 21년도 미세먼지, 날씨 데이터를 합쳐보세요.
    * df_22에는 'time' 기준으로 22년도 미세먼지, 날씨 데이터를 합쳐보세요.

In [None]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.
df_21 = pd.merge(air_21_copy, weather_21_copy)
df_22 = pd.merge(air_22_copy, weather_22_copy)

In [None]:
df_21.columns

#### **<span style="color:blue">[2-4] 사용하지 않을 변수 제거</span>**

* 머신러닝에 사용하지 않을 변수들을 제거해줍니다.
    * df_21, df_22에 사용할 변수들만 넣어보세요.
* time 변수를 index로 세팅하고 (set_index) 데이터가 정렬되어 있지 않으므로 index 기준으로 정렬하세요. (sort_index)

In [None]:
# 일단은 '일조(hr)', '일사(MJ/m2)' 빼고 진행

In [None]:
# df_21, df_22에 사용할 변수들만 할당
df_21 = df_21[['SO2', 'CO', 'O3', 'NO2', 'PM10', 'PM25', 'time','기온(°C)',
       '강수량(mm)', '풍속(m/s)', '풍향(16방위)', '습도(%)', '증기압(hPa)', '현지기압(hPa)',
       '해면기압(hPa)', '적설(cm)', '전운량(10분위)', '중하층운량(10분위)',
       '시정(10m)', '지면온도(°C)']]

In [None]:
df_22 = df_22[['SO2', 'CO', 'O3', 'NO2', 'PM10', 'PM25', 'time','기온(°C)',
       '강수량(mm)', '풍속(m/s)', '풍향(16방위)', '습도(%)', '증기압(hPa)', '현지기압(hPa)',
       '해면기압(hPa)', '적설(cm)','전운량(10분위)', '중하층운량(10분위)',
       '시정(10m)', '지면온도(°C)']]

In [None]:
# time 변수를 index로 세팅
df_21.sort_values('time', inplace=True)
df_22.sort_values('time', inplace=True)

In [None]:
df_21.set_index('time', inplace=True)
df_22.set_index('time', inplace=True)

---

#### **<span style="color:blue">[2-5] 변수들의 결측치 처리</span>**

In [None]:
# df_21, df_22의 변수 중 결측치를 처리 (ex: 강수량(mm))
df_21['강수량(mm)'].fillna(0, inplace=True)
df_22['강수량(mm)'].fillna(0, inplace=True)

In [None]:
# 적설 - NaN인 곳은 0으로 채우기
df_21['적설(cm)'].fillna(0, inplace=True)
df_22['적설(cm)'].fillna(0, inplace=True)

In [None]:
print(df_21.isna().sum())
print()
print(df_22.isna().sum())

In [None]:
# 대기 성분 결측치는 knn imputer로 채우기
from sklearn.impute import KNNImputer

#임퓨터 선언
imputer=KNNImputer(n_neighbors=3)

#임퓨터 사용
filled_df_21 = imputer.fit_transform(df_21)
filled_df_22 = imputer.fit_transform(df_22)

#사용하면 array값으로 나오기때문에 dataframe으로 바꿔주고 컬럼을가져옴
filled_df_21 = pd.DataFrame(filled_df_21, columns=df_21.columns)
filled_df_22 = pd.DataFrame(filled_df_22, columns=df_22.columns)

In [None]:
filled_df_21.set_index(df_21.index, inplace=True)
filled_df_22.set_index(df_22.index, inplace=True)

In [None]:
df_21 = filled_df_21.copy()
df_22 = filled_df_22.copy()

In [None]:
df_21.head()

In [None]:
df_22.head()

In [None]:
print(df_21.isna().sum())
print()
print(df_22.isna().sum())

---

#### **<span style="color:blue">[2-6] 전일 같은 시간 미세먼지 농도 변수 추가</span>**

* 먼저 df_21, df_22에 month, day, hour 변수를 추가하세요.
    * 예) dt.month, dt.day, dt.hour 사용 또는 datetimeindex에서는 df.index.month 등 사용 가능
* 모델링에 유용한 변수로 전일 같은 시간(24시간 전) 미세먼지 농도 변수를 추가하세요.
    * 시계열 데이터 처리를 위한 shift 연산을 참고하세요.

In [None]:
df_21_copy = df_21.copy()
df_22_copy = df_22.copy()

In [None]:
# df_21, df_22의 index(time)를 month, day, hour 로 쪼개기 (year는 필요 없음). 이후에 저장 시 index(time)은 포함하지 않음.
df_21_copy.head()

In [None]:
df_21_copy['month'] = df_21_copy.index.month
df_22_copy['month'] = df_22_copy.index.month

df_21_copy['day'] = df_21_copy.index.day
df_22_copy['day'] = df_22_copy.index.day

df_21_copy['hour'] = df_21_copy.index.hour
df_22_copy['hour'] = df_22_copy.index.hour

df_21_copy.reset_index(inplace=True)
df_22_copy.reset_index(inplace=True)

df_21_copy.drop('time', axis=1, inplace=True)
df_22_copy.drop('time', axis=1, inplace=True)

In [None]:
# df_21, df_22에 전일 같은 시간 미세먼지 농도 변수(PM10_lag1) 추가
# 전일 같은 시간은 24시간 전 입니다.
df_21_copy['PM10_lag1'] = df_21_copy['PM10'].shift(24)
df_22_copy['PM10_lag1'] = df_22_copy['PM10'].shift(24)

---

#### **<span style="color:blue">[2-7] t+1 시점의 미세먼지 농도 데이터 생성</span>**

* t+1 시점은 1시간 후 입니다.
* t+1 시점의 미세먼지 농도 변수(PM10_1)를 생성하세요.
* t+1 시점의 미세먼지 농도는 머신러닝 모델을 통해 예측하려는 y값(target) 입니다.

In [None]:
# df_21, df_22에 t+1 시점 변수(PM10_1) 추가
df_21_copy['PM10_1'] = df_21_copy['PM10'].shift(-1)
df_22_copy['PM10_1'] = df_22_copy['PM10'].shift(-1)

In [None]:
# 결측치가 있다면 처리
df_21_copy.dropna(axis=0, inplace=True)
df_22_copy.dropna(axis=0, inplace=True)

In [None]:
df_21_copy.head()

---

#### **<span style="color:blue">[2-8] train, test 데이터 분리</span>**

* 21년도 데이터(df_21)를 train 데이터로 저장하세요. y 값을 제외하고 train_x로 저장한 후 y 값은 train_y로 저장하세요.
* 22년도 데이터(df_22)를 test 데이터로 저장하세요. y 값을 제외하고 test_x로 저장한 후 y 값은 test_y로 저장하세요.
* 각각의 데이터프레임을 csv 파일로 저장하세요. (train_x.csv / train_y.csv / test_x.csv / test_y.csv) (단, 인덱스 제외)
* y값은 'PM10_1' 즉, t+1 시점의 미세먼지 농도입니다.

In [None]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.
from sklearn.model_selection import train_test_split
train_x = df_21_copy.drop('PM10_1', axis=1)
train_y = df_21_copy.loc[:, 'PM10_1']
test_x = df_22_copy.drop('PM10_1', axis=1)
test_y = df_22_copy.loc[:, 'PM10_1']

In [None]:
print(train_x.shape)
print(train_y.shape)
print(test_x.shape)
print(test_y.shape)

In [None]:
# 각각의 데이터프레임을 csv 파일로 저장 (train_x.csv / train_y.csv / test_x.csv / test_y.csv)
train_x.to_csv('train_x.csv')
train_y.to_csv('train_y.csv')
test_x.to_csv('test_x.csv')
test_y.to_csv('test_y.csv')