In [172]:
# 필요한 라이브러리 설치 및 임포트
# !pip install pandas
import pandas as pd
import datetime
import numpy as np

---

# [Step 2] 데이터 전처리

#### **<span style="color:blue">[2-0] air_21, air_22, weather_21, weather_22 데이터 로딩</span>**

In [245]:
air_21 = pd.read_csv("air_2021.csv", sep = ",", index_col = 0, encoding = "utf-8")
air_22 = pd.read_csv("air_2022.csv", sep = ",", index_col = 0, encoding = "utf-8")

In [246]:
weather_21 = pd.read_csv("weather_2021.csv", sep = ",", encoding = "cp949")
weather_22 = pd.read_csv("weather_2022.csv", sep = ",", encoding = "cp949")

#### **<span style="color:blue">[2-1] air_21, air_22 의 '측정일시'를 활용하여 'time' 변수 생성</span>**

* air_21, air_22 의 '측정일시'를 활용하여 'time'변수 생성
* time 변수를 to_datetime으로 데이터 타입 변경
* 참고: 미세먼지 데이터는 1시-24시, 날씨 데이터는 0시-23시로 구성되어 있습니다. [2-5]에서 미세먼지와 날씨 데이터를 time 기준으로 합치려면 날씨 기준이 동일해야 합니다. 미세먼지 데이터에서 time 변수 생성 시 이를 미리 고려(예:측정일시 값 -1)하세요.

In [247]:
air_21.drop(["지역", "망", "측정소코드", "주소", "측정소명"], axis = 1, inplace = True)

In [248]:
air_21["time"] = pd.to_datetime(air_21["측정일시"] - 1, format = "%Y%m%d%H")

In [213]:
air_21.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 8760 entries, 0 to 8759
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   측정일시    8760 non-null   int64         
 1   SO2     8648 non-null   float64       
 2   CO      8680 non-null   float64       
 3   O3      8663 non-null   float64       
 4   NO2     8680 non-null   float64       
 5   PM10    8655 non-null   float64       
 6   PM25    8663 non-null   float64       
 7   time    8760 non-null   datetime64[ns]
dtypes: datetime64[ns](1), float64(6), int64(1)
memory usage: 615.9 KB


In [249]:
air_22.drop(["지역", "망", "측정소코드", "주소", "측정소명"], axis = 1, inplace = True)
air_22["time"] = pd.to_datetime(air_22["측정일시"] - 1, format = "%Y%m%d%H")

---

#### **<span style="color:blue">[2-2] weather_21, weather_22 의 '일시'를 활용하여 'time' 변수 생성</span>**

* weather_21, weather_22 의 '일시'를 활용하여 'time'변수 생성
* time 변수를 to_datetime으로 데이터 타입 변경

In [250]:
weather_21["time"] = pd.to_datetime(weather_21["일시"])
weather_22["time"] = pd.to_datetime(weather_22["일시"])

---

#### **<span style="color:blue">[2-3] 'time' 기준으로 데이터 합치기</span>**

* 미세먼지 데이터와 날씨 데이터를 'time' 기준으로 합쳐보세요.
* df_21에는 'time' 기준으로 21년도 미세먼지, 날씨 데이터를 합쳐보세요.
* df_22에는 'time' 기준으로 22년도 미세먼지, 날씨 데이터를 합쳐보세요.

In [344]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.
df_21 = pd.merge(air_21, weather_21, on = "time")

In [345]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.
df_22 = pd.merge(air_22, weather_22, on = "time")

---

#### **<span style="color:blue">[2-4] 사용하지 않을 변수 제거</span>**

* 머신러닝에 사용하지 않을 변수들을 제거해줍니다.
* df_21, df_22에 사용할 변수들만 넣어보세요.

In [346]:
# df_21, df_22에 사용할 변수들만 할당
df_21.drop(["기온 QC플래그", "지면온도 QC플래그", "지면상태(지면상태코드)", "3시간신적설(cm)", "적설(cm)", 
            "해면기압 QC플래그", "현지기압 QC플래그", "습도 QC플래그", "풍향 QC플래그", "풍속 QC플래그",
           "강수량 QC플래그", "일조(hr)", "일조 QC플래그", "일사(MJ/m2)", "일사 QC플래그", "운형(운형약어)",
            "최저운고(100m )", "현상번호(국내식)", "측정일시"], axis = 1, inplace = True)

In [347]:
# time 변수를 index로 세팅
df_21 = df_21.set_index("time")

In [329]:
df_21.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 8759 entries, 2021-10-01 00:00:00 to 2021-09-30 23:00:00
Data columns (total 31 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   SO2            8759 non-null   float64
 1   CO             8759 non-null   float64
 2   O3             8759 non-null   float64
 3   NO2            8759 non-null   float64
 4   PM10           8759 non-null   float64
 5   PM25           8759 non-null   float64
 6   지점             8759 non-null   int64  
 7   지점명            8759 non-null   object 
 8   일시             8759 non-null   object 
 9   기온(°C)         8759 non-null   float64
 10  강수량(mm)        8759 non-null   float64
 11  풍속(m/s)        8759 non-null   float64
 12  풍향(16방위)       8759 non-null   float64
 13  습도(%)          8759 non-null   int64  
 14  증기압(hPa)       8759 non-null   float64
 15  이슬점온도(°C)      8759 non-null   float64
 16  현지기압(hPa)      8759 non-null   float64
 17  해면기압(hPa)      8

In [348]:
df_21.drop(["지점", "지점명"], axis = 1, inplace = True)

In [349]:
df_21.drop("일시", axis = 1, inplace = True)

In [337]:
df_21.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 8759 entries, 2021-10-01 00:00:00 to 2021-09-30 23:00:00
Data columns (total 28 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   SO2            8759 non-null   float64
 1   CO             8759 non-null   float64
 2   O3             8759 non-null   float64
 3   NO2            8759 non-null   float64
 4   PM10           8759 non-null   float64
 5   PM25           8759 non-null   float64
 6   기온(°C)         8759 non-null   float64
 7   강수량(mm)        8759 non-null   float64
 8   풍속(m/s)        8759 non-null   float64
 9   풍향(16방위)       8759 non-null   float64
 10  습도(%)          8759 non-null   int64  
 11  증기압(hPa)       8759 non-null   float64
 12  이슬점온도(°C)      8759 non-null   float64
 13  현지기압(hPa)      8759 non-null   float64
 14  해면기압(hPa)      8759 non-null   float64
 15  전운량(10분위)      8759 non-null   float64
 16  중하층운량(10분위)    8759 non-null   int64  
 17  시정(10m)        8

In [350]:
df_22.drop(["지점", "지점명", "일시"], axis = 1, inplace = True)

In [339]:
df_22.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 2160 entries, 2022-01-01 00:00:00 to 2022-03-31 23:00:00
Data columns (total 28 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   SO2            2160 non-null   float64
 1   CO             2160 non-null   float64
 2   O3             2160 non-null   float64
 3   NO2            2160 non-null   float64
 4   PM10           2160 non-null   float64
 5   PM25           2160 non-null   float64
 6   기온(°C)         2160 non-null   float64
 7   강수량(mm)        2160 non-null   float64
 8   풍속(m/s)        2160 non-null   float64
 9   풍향(16방위)       2160 non-null   int64  
 10  습도(%)          2160 non-null   int64  
 11  증기압(hPa)       2160 non-null   float64
 12  이슬점온도(°C)      2160 non-null   float64
 13  현지기압(hPa)      2160 non-null   float64
 14  해면기압(hPa)      2160 non-null   float64
 15  전운량(10분위)      2160 non-null   int64  
 16  중하층운량(10분위)    2160 non-null   int64  
 17  시정(10m)        2

#### **<span style="color:blue">[2-5] 변수들의 결측치 처리</span>**(df_21)

In [351]:
# df_21, df_22의 변수 중 '강수량(mm)'의 결측치를 처리
df_21["강수량(mm)"].fillna(0, inplace = True)

In [352]:
# df_21, df_22의 남은 결측치를 처리
df_21["지면온도(°C)"].fillna(df_21["지면온도(°C)"].mean(), inplace = True)
df_21["5cm 지중온도(°C)"].fillna(df_21["5cm 지중온도(°C)"].mean(), inplace = True)
df_21["10cm 지중온도(°C)"].fillna(df_21["10cm 지중온도(°C)"].mean(), inplace = True)
df_21["20cm 지중온도(°C)"].fillna(df_21["20cm 지중온도(°C)"].mean(), inplace = True)
df_21["30cm 지중온도(°C)"].fillna(df_21["30cm 지중온도(°C)"].mean(), inplace = True)
df_21["SO2"].fillna(df_21["SO2"].mean(), inplace = True)
df_21["CO"].fillna(df_21["CO"].mean(), inplace = True)
df_21["O3"].fillna(df_21["O3"].mean(), inplace = True)
df_21["NO2"].fillna(df_21["NO2"].mean(), inplace = True)
df_21["PM25"].fillna(df_21["PM25"].mean(), inplace = True)
df_21["풍속(m/s)"].fillna(df_21["풍속(m/s)"].mean(), inplace = True)

In [269]:
df_21["풍향(16방위)"].value_counts(dropna = True)

50.0     1656
270.0    1350
70.0      880
250.0     804
290.0     763
20.0      543
200.0     531
230.0     429
320.0     277
90.0      257
180.0     252
110.0     223
0.0       181
360.0     171
340.0     156
140.0     145
160.0     139
Name: 풍향(16방위), dtype: int64

In [353]:
df_21["풍향(16방위)"].fillna(50.0, inplace = True)

In [271]:
df_21["전운량(10분위)"].value_counts(dropna = True)

0.0     2404
10.0    1458
9.0      952
8.0      895
7.0      663
6.0      517
1.0      449
4.0      366
3.0      364
2.0      354
5.0      335
Name: 전운량(10분위), dtype: int64

In [354]:
df_21["전운량(10분위)"].fillna(0.0, inplace = True)

In [355]:
df_21["PM10"].fillna(method = "ffill", inplace = True)

In [356]:
df_21.isnull().sum()

SO2              0
CO               0
O3               0
NO2              0
PM10             0
PM25             0
기온(°C)           0
강수량(mm)          0
풍속(m/s)          0
풍향(16방위)         0
습도(%)            0
증기압(hPa)         0
이슬점온도(°C)        0
현지기압(hPa)        0
해면기압(hPa)        0
전운량(10분위)        0
중하층운량(10분위)      0
시정(10m)          0
지면온도(°C)         0
5cm 지중온도(°C)     0
10cm 지중온도(°C)    0
20cm 지중온도(°C)    0
30cm 지중온도(°C)    0
dtype: int64

#### **<span style="color:blue">[2-5] 변수들의 결측치 처리</span>**(df_22)

In [357]:
# df_21, df_22에 사용할 변수들만 할당
df_22.drop(["기온 QC플래그", "지면온도 QC플래그", "지면상태(지면상태코드)", "3시간신적설(cm)", "적설(cm)", 
            "해면기압 QC플래그", "현지기압 QC플래그", "습도 QC플래그", "풍향 QC플래그", "풍속 QC플래그",
           "강수량 QC플래그", "일조(hr)", "일조 QC플래그", "일사(MJ/m2)", "일사 QC플래그", "운형(운형약어)",
            "최저운고(100m )", "현상번호(국내식)", "측정일시"], axis = 1, inplace = True)

In [358]:
# time 변수를 index로 세팅
df_22 = df_22.set_index("time")

In [284]:
df_22.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 2160 entries, 2022-01-01 00:00:00 to 2022-03-31 23:00:00
Data columns (total 26 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   SO2            2139 non-null   float64
 1   CO             2139 non-null   float64
 2   O3             2139 non-null   float64
 3   NO2            2139 non-null   float64
 4   PM10           2122 non-null   float64
 5   PM25           2135 non-null   float64
 6   지점             2160 non-null   int64  
 7   지점명            2160 non-null   object 
 8   일시             2160 non-null   object 
 9   기온(°C)         2160 non-null   float64
 10  강수량(mm)        81 non-null     float64
 11  풍속(m/s)        2160 non-null   float64
 12  풍향(16방위)       2160 non-null   int64  
 13  습도(%)          2160 non-null   int64  
 14  증기압(hPa)       2160 non-null   float64
 15  이슬점온도(°C)      2160 non-null   float64
 16  현지기압(hPa)      2160 non-null   float64
 17  해면기압(hPa)      2

In [285]:
df_22.isnull().sum()

SO2                21
CO                 21
O3                 21
NO2                21
PM10               38
PM25               25
지점                  0
지점명                 0
일시                  0
기온(°C)              0
강수량(mm)          2079
풍속(m/s)             0
풍향(16방위)            0
습도(%)               0
증기압(hPa)            0
이슬점온도(°C)           0
현지기압(hPa)           0
해면기압(hPa)           0
전운량(10분위)           0
중하층운량(10분위)         0
시정(10m)             0
지면온도(°C)            0
5cm 지중온도(°C)        0
10cm 지중온도(°C)       0
20cm 지중온도(°C)       0
30cm 지중온도(°C)       0
dtype: int64

---

#### **<span style="color:blue">[2-5] 변수들의 결측치 처리</span>**

In [359]:
# df_21, df_22의 변수 중 '강수량(mm)'의 결측치를 처리
df_22["강수량(mm)"].fillna(0, inplace = True)

In [360]:
# df_21, df_22의 남은 결측치를 처리
df_22["SO2"].fillna(df_22["SO2"].mean(), inplace = True)
df_22["CO"].fillna(df_22["CO"].mean(), inplace = True)
df_22["O3"].fillna(df_22["O3"].mean(), inplace = True)
df_22["NO2"].fillna(df_22["NO2"].mean(), inplace = True)
df_22["PM25"].fillna(df_22["PM25"].mean(), inplace = True)

In [361]:
df_22["PM10"].fillna(method = "ffill", inplace = True)

In [362]:
df_22.isnull().sum()

SO2              0
CO               0
O3               0
NO2              0
PM10             0
PM25             0
기온(°C)           0
강수량(mm)          0
풍속(m/s)          0
풍향(16방위)         0
습도(%)            0
증기압(hPa)         0
이슬점온도(°C)        0
현지기압(hPa)        0
해면기압(hPa)        0
전운량(10분위)        0
중하층운량(10분위)      0
시정(10m)          0
지면온도(°C)         0
5cm 지중온도(°C)     0
10cm 지중온도(°C)    0
20cm 지중온도(°C)    0
30cm 지중온도(°C)    0
dtype: int64

---

#### **<span style="color:blue">[2-6] 전일 같은 시간 변수 추가</span>**

* 모델링에 유용한 변수로 전일 같은 시간(24시간 전) 미세먼지 농도 변수를 추가합니다. 
* 시계열 데이터 처리를 위한 shift 연산을 참고하세요.

In [363]:
# df_21, df_22의 index(time)를 month, day, hour 로 쪼개기 (year는 필요 없음)
df_21["month"] = df_21.index.month
df_21["day"] = df_21.index.day
df_21["hour"] = df_21.index.hour
df_22["month"] = df_22.index.month
df_22["day"] = df_22.index.day
df_22["hour"] = df_22.index.hour

In [364]:
# df_21, df_22에 전일 같은 시간 미세먼지 농도 변수(PM10_lag1) 추가
# 전일 같은 시간은 24시간 전 입니다.
df_21["PM10_lag1"] = df_21["PM10"].shift(24)
df_22["PM10_lag1"] = df_22["PM10"].shift(24)

---

#### **<span style="color:blue">[2-7] t+1 시점의 미세먼지 농도 데이터 생성</span>**

* t+1 시점은 1시간 후 입니다.
* t+1 시점의 미세먼지 농도 변수를 생성하세요.
* t+1 시점의 미세먼지 농도는 머신러닝 모델을 통해 예측하려는 y값(target) 입니다.

In [365]:
# 결측치가 있다면 처리
df_21.isnull().sum()

SO2               0
CO                0
O3                0
NO2               0
PM10              0
PM25              0
기온(°C)            0
강수량(mm)           0
풍속(m/s)           0
풍향(16방위)          0
습도(%)             0
증기압(hPa)          0
이슬점온도(°C)         0
현지기압(hPa)         0
해면기압(hPa)         0
전운량(10분위)         0
중하층운량(10분위)       0
시정(10m)           0
지면온도(°C)          0
5cm 지중온도(°C)      0
10cm 지중온도(°C)     0
20cm 지중온도(°C)     0
30cm 지중온도(°C)     0
month             0
day               0
hour              0
PM10_lag1        24
dtype: int64

In [366]:
df_21["PM10_lag1"].fillna(0, inplace = True)

In [367]:
df_21["PM10_1"] = df_21["PM10"].shift(1)

In [368]:
df_21["PM10_1"].fillna(0, inplace = True)

In [369]:
df_22["PM10_lag1"].fillna(0, inplace = True)
df_22["PM10_1"] = df_22["PM10"].shift(1)
df_22["PM10_1"].fillna(0, inplace = True)

---

#### **<span style="color:blue">[2-8] train, test 데이터 분리</span>**

* 21년도 데이터(df_21)를 train 데이터로 저장하세요. y 값을 제외하고 train_x로 저장한 후 y 값은 train_y로 저장하세요.
* 22년도 데이터(df_22)를 test 데이터로 저장하세요. y 값을 제외하고 test_x로 저장한 후 y 값은 test_y로 저장하세요.
* 각각의 데이터프레임을 csv 파일로 저장하세요. (train_x.csv / train_y.csv / test_x.csv / test_y.csv)
* y값은 'PM10_1' 즉, t+1 시점의 미세먼지 농도입니다.

In [371]:
# 각각의 데이터프레임을 csv 파일로 저장 (train_x.csv / train_y.csv / test_x.csv / test_y.csv)
df_21_x = df_21.drop("PM10_1", axis = 1)
df_21_y = df_21.loc[:, "PM10_1"]
df_22_x = df_22.drop("PM10_1", axis = 1)
df_22_y = df_22.loc[:, "PM10_1"]

In [372]:
df_21_x.to_csv("train_x.csv", index = False)
df_21_y.to_csv("train_y.csv", index = False)
df_22_x.to_csv("test_x.csv", index = False)
df_22_y.to_csv("test_y.csv", index = False)