## **AIVLE School 미니프로젝트 5기 AI트랙 2차** ##
## **공공데이터를 활용한 <span style="color:skyblue">미세먼지 농도</span> 예측**
---
## [step 1,2] 데이터 분석 및 전처리

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


## **0.프로젝트 소개**

### (1) 수행 목표
- 미세먼지 농도를 예측하는 머신러닝 모델을 만드세요.

#### 우리가 풀어야 하는 문제는 무엇인가요?
* 서울 지역의 미세먼지 데이터와 날씨 데이터를 활용하여, 미세먼지 예측에 관련 있는 데이터 항목으로 데이터를 구성, 전처리 하여 미세먼지 농도를 예측하는 머신러닝 모델 구현

### (2) 데이터 소개

#### 1) 기본 데이터

* 학습 데이터
    * air_2022.csv : 2022년 미세먼지 데이터
    * weather_2022.csv : 2022년 날씨 데이터
* 테스트 데이터
    * air_2023.csv : 2023년 미세먼지 데이터
    * weather_2023.csv : 2023년 날씨 데이터

#### 2) 데이터셋의 변수 소개(weather_2022,2023)

* 증기압: 증기가 고체 또는 액체와 동적 평형 상태에 있을 때 증기의 압력 (증기가 되려는 힘)
* 이슬점 온도: 불포화 상태의 공기가 냉각될 때, 포화 상태에 도달하여 수증기의 응결이 시작되는 온도
* 일조: 일정한 물체나 땅의 겉면에 태양 광선이 비치는 시간 (1시간 중 비율)
* 일사(량): 태양으로부터 오는 태양 복사 에너지가 지표에 닿는 양 (면적당 에너지 량)
* 전운량: 하늘을 육안으로 관측하여 전부 구름일 때 10, 구름이 덮고 있는 하늘의 비율에 따라 0~10
* 중하층운량: 중층과 하층에 있는 구름의 분포량(중하층 구름이 날씨에 영향 주므로 따로 표기)
* 운형(운형약어): 구름의 종류. 약어 코드로 기재됨
* 최저운고: 가장 낮은 구름의 높이
* 현상번호(국내식): 비, 소낙비, 싸락눈, 눈보라 등의 기상현상을 나타낸 코드번호
* 지면온도: 지면 0cm 온도
* 지중온도: 땅 속 온도변수1

## **1.환경설정**

* 세부 요구사항
    - 경로 설정 : 다음의 두가지 방법 중 하나를 선택하여 폴더를 준비하고 데이터를 로딩하시오.
        * 1) 로컬 수행(Ananconda)
            * 제공된 압축파일을 다운받아 압축을 풀고
            * anaconda의 root directory(보통 C:/Users/< ID > 에 project 폴더를 만들고, 복사해 넣습니다.)
        * 2) 구글 코랩
            * 구글 드라이브 바로 밑에 project 폴더를 만들고,
            * 데이터 파일을 복사해 넣습니다.
            
    - 기본적으로 필요한 라이브러리를 import 하도록 코드가 작성되어 있습니다.
        * 필요하다고 판단되는 라이브러리를 추가하세요.

### (1) 경로 설정
* 로컬환경 또는 구글 코랩 중 하나를 사용하시면 됩니다.

#### 1) 로컬 수행(Anaconda)
* project 폴더에 필요한 파일들을 넣고, 본 파일을 열었다면, 별도 경로 지정이 필요하지 않습니다.

#### 2) 구글 코랩 수행

* 구글 드라이브 연결

In [None]:
# from google.colab import drive
# drive.mount('/content/drive')

In [None]:
# path = '/content/drive/MyDrive/project/'

### (2) 라이브러리 설치 및 불러오기

#### 1) 라이브러리 설치 및 로딩

In [3]:
# 필요한 라이브러리 설치 및 불러오기

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime

from statsmodels.graphics.mosaicplot import mosaic
from scipy import stats as spst
import statsmodels.api as sm
import joblib

# 더 필요한 라이브러리를 아래에 추가합니다.



In [4]:
# 시각화 한글폰트 설정을 위해 아래 코드를 실행하세요.
plt.rc('font', family='Malgun Gothic')
sns.set(font="Malgun Gothic",#"NanumGothicCoding",
        rc={"axes.unicode_minus":False}, # 마이너스 부호 깨짐 현상 해결
        style='darkgrid')

### (3) 데이터 불러오기
* Pandas 라이브러리를 활용해서 'air_2022.csv'파일을 'air_22' 변수에,'air_2023.csv'파일을 'air_23' 변수에 저장하고 그 데이터를 확인하세요.
<br> ( 구분자(sep) : ',' / encoder = 'utf-8' / index_col = 0 )

* Pandas 라이브러리를 활용해서 'weather_2022.csv'파일을 'weather_22' 변수에,'weather_2023.csv'파일을 'weather_23' 변수에 저장하고 그 데이터를 확인하세요.
<br> ( 구분자(sep) : ',' / encoder = 'cp949' )

In [8]:
air_22 = '/content/drive/MyDrive/KTaivle/2차미니프로젝트/air_2022.csv'
air_23 = '/content/drive/MyDrive/KTaivle/2차미니프로젝트/air_2023.csv'
weather_22 = '/content/drive/MyDrive/KTaivle/2차미니프로젝트/weather_2022.csv'
weather_23 = '/content/drive/MyDrive/KTaivle/2차미니프로젝트/weather_2023.csv'

#### 1) 데이터로딩

In [9]:
air_22 = pd.read_csv(air_22, sep=',', encoding='utf-8', index_col=0)
air_23 = pd.read_csv(air_23, sep=',', encoding='utf-8', index_col=0)

weather_22 = pd.read_csv(weather_22, sep=',', encoding='cp949')
weather_23 = pd.read_csv(weather_23, sep=',', encoding='cp949')

#### 2) 기본 정보 조회
- 데이터를 head, tail. describe, info 등을 활용하여 확인하세요.

In [14]:
# 아래에 실습코드를 작성하고 결과를 확인합니다.

print("Air data for 2022:")
# print(air_22.head())
# print(air_22.tail())
# print(air_22.describe())
print(air_22.info())

print("\nAir data for 2023:")
# print(air_23.head())
# print(air_23.tail())
# print(air_23.describe())
print(air_23.info())

print("\nWeather data for 2022:")
# print(weather_22.head())
# print(weather_22.tail())
# print(weather_22.describe())
print(weather_22.info())

print("\nWeather data for 2023:")
# print(weather_23.head())
# print(weather_23.tail())
# print(weather_23.describe())
print(weather_23.info())

# 결측치가 절반 이상인 것은 과감하게 버리자.
# air : 없음
# weather : 기온 QC플래그, 강수량(mm), 강수량 QC플래그, 풍속 QC플래그, 풍향 QC플래그, 습도 QC플래그, 현지기압 QC플래그, 해면기압 QC플래그, 일조 QC플래그, 일사 QC플래그, 적설(cm), 3시간신적설(cm), 지면상태(지면상태코드), 현상번호(국내식), 지면온도 QC플래그

Air data for 2022:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 8760 entries, 0 to 8759
Data columns (total 12 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   지역      8760 non-null   object 
 1   망       8760 non-null   object 
 2   측정소코드   8760 non-null   int64  
 3   측정소명    8760 non-null   object 
 4   측정일시    8760 non-null   int64  
 5   SO2     8673 non-null   float64
 6   CO      8673 non-null   float64
 7   O3      8673 non-null   float64
 8   NO2     8673 non-null   float64
 9   PM10    8604 non-null   float64
 10  PM25    8655 non-null   float64
 11  주소      8760 non-null   object 
dtypes: float64(6), int64(2), object(4)
memory usage: 889.7+ KB
None

Air data for 2023:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 5832 entries, 0 to 5831
Data columns (total 12 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   지역      5832 non-null   object 
 1   망       5832 non-null   object 
 2   측정소코드  

## **2.EDA 1단계 - 데이터 기본 탐색 및 분석**

* 단변량 분석은 데이터분석의 매우 기초적인 분석기법으로, 독립적인 개별 변수가 가지고있는 특성들을 이해하는 과정입니다.

    * <span style="color: green"> 개별 변수에 대해 아래 사항들을 분석해보세요. </span>

        1. 변수가 내포하고 있는 의미
        2. 변수가 수치형인지, 범주형인지
        3. 결측치 존재 여부 및 조치 방안
        4. 기초 통계량 확인
        5. 데이터 분포 확인
        6. 위 정보로부터 파악한 내용 정리
        7. 추가 분석사항 도출

### (1) 변수별 단변량 분석
- 4 ~ 5개 변수를 선택해서 위 1~6번을 확인해보세요 (7번은 선택)

#### **[예시] 1) Feature1 : 측정일시**

-----------**아래에 추가로 3-4개의 변수를 같은 방법으로 고민해보기!** -----------------------

## **3.EDA 2단계 - 데이터 전처리**
- 진행한 개별 변수 분석에 맞추어 데이터를 전처리 하겠습니다.

In [19]:
columns_to_drop = ['기온 QC플래그', '강수량(mm)', '강수량 QC플래그', '풍속 QC플래그', '풍향 QC플래그',
                   '습도 QC플래그', '현지기압 QC플래그', '해면기압 QC플래그', '일조 QC플래그', '일사 QC플래그',
                   '적설(cm)', '3시간신적설(cm)', '지면상태(지면상태코드)', '현상번호(국내식)', '지면온도 QC플래그']

weather_22 = weather_22.drop(columns=columns_to_drop)
weather_23 = weather_23.drop(columns=columns_to_drop)

In [22]:
air_22.describe()

Unnamed: 0,측정소코드,측정일시,SO2,CO,O3,NO2,PM10,PM25
count,8760.0,8760.0,8673.0,8673.0,8673.0,8673.0,8604.0,8655.0
mean,111123.0,2022067000.0,0.003133,0.473458,0.030759,0.021319,31.756044,19.284575
std,0.0,34502.16,0.0007,0.183086,0.019796,0.013473,22.466954,14.172678
min,111123.0,2022010000.0,0.001,0.2,0.001,0.003,3.0,1.0
25%,111123.0,2022040000.0,0.003,0.4,0.017,0.011,19.0,10.0
50%,111123.0,2022070000.0,0.003,0.4,0.029,0.017,28.0,16.0
75%,111123.0,2022100000.0,0.003,0.5,0.042,0.028,40.0,25.0
max,111123.0,2022123000.0,0.008,1.8,0.144,0.074,385.0,121.0


In [23]:
air_23.describe()

Unnamed: 0,측정소코드,측정일시,SO2,CO,O3,NO2,PM10,PM25
count,5832.0,5832.0,5588.0,5798.0,5771.0,5798.0,5792.0,5793.0
mean,111123.0,2023047000.0,0.003085,0.480479,0.03543,0.020211,40.767438,20.727257
std,0.0,22991.44,0.000636,0.174263,0.022049,0.01291,33.555825,16.573257
min,111123.0,2023010000.0,0.0017,0.21,0.0013,0.0032,3.0,1.0
25%,111123.0,2023030000.0,0.0027,0.36,0.02,0.0113,21.0,10.0
50%,111123.0,2023050000.0,0.003,0.44,0.0327,0.01625,32.0,17.0
75%,111123.0,2023070000.0,0.0034,0.55,0.0472,0.0243,50.0,26.0
max,111123.0,2023083000.0,0.0093,1.47,0.1859,0.0801,346.0,142.0


In [21]:
weather_22.describe()

Unnamed: 0,지점,기온(°C),풍속(m/s),풍향(16방위),습도(%),증기압(hPa),이슬점온도(°C),현지기압(hPa),해면기압(hPa),일조(hr),일사(MJ/m2),전운량(10분위),중하층운량(10분위),최저운고(100m ),시정(10m),지면온도(°C),5cm 지중온도(°C),10cm 지중온도(°C),20cm 지중온도(°C),30cm 지중온도(°C)
count,8760.0,8760.0,8760.0,8760.0,8760.0,8760.0,8760.0,8760.0,8760.0,4791.0,4791.0,8760.0,8760.0,4455.0,8760.0,8759.0,8759.0,8759.0,8759.0,8759.0
mean,108.0,13.293687,2.370651,190.046804,64.513014,12.602785,6.18476,1006.004475,1016.256849,0.485327,1.11187,4.824886,3.054909,15.313805,1772.655251,14.939171,14.560521,14.155257,14.000434,14.347037
std,0.0,11.336825,1.147396,105.888658,18.538028,9.203198,12.514194,8.227316,8.669122,0.447143,0.991453,4.018643,3.536585,14.066694,463.688136,13.450504,10.514654,10.404981,10.041081,9.676601
min,108.0,-13.7,0.0,0.0,17.0,1.0,-22.9,983.3,993.0,0.0,0.0,0.0,0.0,1.0,44.0,-10.5,-2.4,-2.4,-1.4,-0.3
25%,108.0,4.2,1.6,70.0,50.0,4.7,-3.6,999.0,1008.9,0.0,0.24,0.0,0.0,7.0,1912.75,3.6,2.8,2.7,3.3,4.6
50%,108.0,14.8,2.2,230.0,65.0,10.1,7.1,1006.6,1016.8,0.5,0.84,5.0,1.0,10.0,2000.0,15.0,15.5,15.3,15.2,15.5
75%,108.0,23.2,3.0,270.0,79.0,19.0,16.7,1012.6,1023.3,1.0,1.85,9.0,7.0,16.0,2000.0,24.7,24.2,23.6,23.1,23.05
max,108.0,35.6,8.8,360.0,100.0,35.2,26.8,1024.0,1035.3,1.0,3.77,10.0,10.0,77.0,2000.0,59.8,33.3,31.9,30.2,29.2


In [24]:
weather_23.describe()

Unnamed: 0,지점,기온(°C),풍속(m/s),풍향(16방위),습도(%),증기압(hPa),이슬점온도(°C),현지기압(hPa),해면기압(hPa),일조(hr),일사(MJ/m2),전운량(10분위),중하층운량(10분위),최저운고(100m ),시정(10m),지면온도(°C),5cm 지중온도(°C),10cm 지중온도(°C),20cm 지중온도(°C),30cm 지중온도(°C)
count,5832.0,5832.0,5832.0,5832.0,5832.0,5832.0,5832.0,5832.0,5832.0,3343.0,3343.0,5832.0,5832.0,3143.0,5832.0,5832.0,5832.0,5832.0,5832.0,5832.0
mean,108.0,15.269462,2.298182,187.042181,65.725309,14.217438,8.181944,1003.996039,1014.150926,0.461891,1.14933,5.044239,3.437757,15.374483,1663.644204,16.701938,15.478069,15.18119,14.634019,14.7393
std,0.0,11.100204,1.079776,103.020643,20.220581,9.793513,12.398161,8.712943,9.160569,0.436187,1.025481,3.958769,3.667388,14.69092,547.207001,13.647934,10.839872,10.895837,10.453547,10.116525
min,108.0,-17.2,0.0,0.0,15.0,0.7,-26.2,981.4,990.9,0.0,0.0,0.0,0.0,1.0,23.0,-11.4,-3.6,-3.5,-2.2,-0.4
25%,108.0,6.1,1.5,70.0,51.0,5.2,-2.2,997.2,1006.9,0.0,0.215,0.0,0.0,6.0,1435.0,3.8,4.3,4.0,3.6,3.8
50%,108.0,17.6,2.2,230.0,67.0,11.25,8.75,1003.0,1013.0,0.4,0.86,6.0,2.0,10.0,2000.0,18.0,16.8,16.3,15.5,15.35
75%,108.0,24.8,2.9,270.0,82.0,24.6,20.8,1010.7,1021.2,1.0,1.94,9.0,7.0,16.0,2000.0,25.6,25.4,25.2,24.4,24.5
max,108.0,35.8,7.6,360.0,100.0,34.8,26.6,1027.1,1038.0,1.0,3.7,10.0,10.0,76.0,2000.0,58.0,32.9,32.0,30.0,29.1


In [31]:
air_22.rename(columns={'측정일시': '일시'}, inplace=True)
air_23.rename(columns={'측정일시': '일시'}, inplace=True)

In [29]:
weather_22['일시']

0       2022-01-01 00:00
1       2022-01-01 01:00
2       2022-01-01 02:00
3       2022-01-01 03:00
4       2022-01-01 04:00
              ...       
8755    2022-12-31 19:00
8756    2022-12-31 20:00
8757    2022-12-31 21:00
8758    2022-12-31 22:00
8759    2022-12-31 23:00
Name: 일시, Length: 8760, dtype: object

In [32]:
air_22['일시']

0       2022010101
1       2022010102
2       2022010103
3       2022010104
4       2022010105
           ...    
8755    2022123120
8756    2022123121
8757    2022123122
8758    2022123123
8759    2022123124
Name: 일시, Length: 8760, dtype: int64

### (1) air_22, air_23, weather_22, weather_23 데이터 전처리
* air_22, air_23  각각 '측정일시'를 활용하여 'time'변수 생성
    * 참고: 미세먼지 데이터는 1시-24시, 날씨 데이터는 0시-23시로 구성되어 있습니다. 미세먼지와 날씨 데이터를 time 기준으로 합치려면 기준이 동일해야 합니다. 미세먼지 데이터에서 time 변수 생성 시 이를 미리 고려(예: air_22['측정일시'] -1)하세요.
* time 변수를 pd.to_datetime으로 데이터 타입 변경
    * 참고: format = '%Y%m%d%H'

#### 1) air_22, air_23 의 '측정일시'를 활용하여 'time' 변수 생성

In [33]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.
air_22["time"] = air_22["일시"] - 1
air_22["time"] = pd.to_datetime(air_22["time"], format="%Y%m%d%H")
air_23["time"] = air_23["일시"] - 1
air_23["time"] = pd.to_datetime(air_23["time"], format="%Y%m%d%H")

In [36]:
# 결과확인
air_22["time"]

0      2022-01-01 00:00:00
1      2022-01-01 01:00:00
2      2022-01-01 02:00:00
3      2022-01-01 03:00:00
4      2022-01-01 04:00:00
               ...        
8755   2022-12-31 19:00:00
8756   2022-12-31 20:00:00
8757   2022-12-31 21:00:00
8758   2022-12-31 22:00:00
8759   2022-12-31 23:00:00
Name: time, Length: 8760, dtype: datetime64[ns]

#### 2) weather_22, weather_23 의 '일시'를 활용하여 'time' 변수 생성
* weather_22, weather_23 의 '일시'를 활용하여 'time'변수 생성
* time 변수를 pd.to_datetime으로 데이터 타입 변경

In [38]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.

weather_22["time"] = weather_22["일시"]
weather_22["time"] = pd.to_datetime(weather_22["time"])
weather_23["time"] = weather_23["일시"]
weather_23["time"] = pd.to_datetime(weather_23["time"])

In [39]:
# 결과확인
weather_22["time"]

0      2022-01-01 00:00:00
1      2022-01-01 01:00:00
2      2022-01-01 02:00:00
3      2022-01-01 03:00:00
4      2022-01-01 04:00:00
               ...        
8755   2022-12-31 19:00:00
8756   2022-12-31 20:00:00
8757   2022-12-31 21:00:00
8758   2022-12-31 22:00:00
8759   2022-12-31 23:00:00
Name: time, Length: 8760, dtype: datetime64[ns]

#### 3) 'time' 기준으로 데이터 합치기
* 미세먼지 데이터와 날씨 데이터를 'time' 기준으로 합쳐보세요.
    * df_22에는 'time' 기준으로 22년도 미세먼지, 날씨 데이터를 합쳐보세요.
    * df_23에는 'time' 기준으로 23년도 미세먼지, 날씨 데이터를 합쳐보세요.

In [40]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.
df_22 = pd.merge(air_22, weather_22, on='time')
df_23 = pd.merge(air_23, weather_23, on='time')

In [45]:
df_22.drop(columns=["일시_x", "일시_y"], inplace=True)
df_23.drop(columns=["일시_x", "일시_y"], inplace=True)

In [46]:
# 결과확인
df_22.columns

Index(['지역', '망', '측정소코드', '측정소명', 'SO2', 'CO', 'O3', 'NO2', 'PM10', 'PM25',
       '주소', 'time', '지점', '지점명', '기온(°C)', '풍속(m/s)', '풍향(16방위)', '습도(%)',
       '증기압(hPa)', '이슬점온도(°C)', '현지기압(hPa)', '해면기압(hPa)', '일조(hr)',
       '일사(MJ/m2)', '전운량(10분위)', '중하층운량(10분위)', '운형(운형약어)', '최저운고(100m )',
       '시정(10m)', '지면온도(°C)', '5cm 지중온도(°C)', '10cm 지중온도(°C)', '20cm 지중온도(°C)',
       '30cm 지중온도(°C)'],
      dtype='object')

In [47]:
df_23.columns

Index(['지역', '망', '측정소코드', '측정소명', 'SO2', 'CO', 'O3', 'NO2', 'PM10', 'PM25',
       '주소', 'time', '지점', '지점명', '기온(°C)', '풍속(m/s)', '풍향(16방위)', '습도(%)',
       '증기압(hPa)', '이슬점온도(°C)', '현지기압(hPa)', '해면기압(hPa)', '일조(hr)',
       '일사(MJ/m2)', '전운량(10분위)', '중하층운량(10분위)', '운형(운형약어)', '최저운고(100m )',
       '시정(10m)', '지면온도(°C)', '5cm 지중온도(°C)', '10cm 지중온도(°C)', '20cm 지중온도(°C)',
       '30cm 지중온도(°C)'],
      dtype='object')

#### 4) 사용하지 않을 변수 제거

* 머신러닝에 사용하지 않을 변수들을 제거해줍니다.
    * df_22, df_23에 여러분들이 사용할 변수들만 넣어보세요.
* time 변수를 index로 세팅하고 (set_index) 데이터가 정렬되어 있지 않으므로 index 기준으로 정렬하세요. (sort_index)

In [48]:
# df_22, df_23에 사용할 변수들만 할당
missing_ratio_22 = df_22.isnull().mean()
missing_ratio_23 = df_23.isnull().mean()

# 결측치 비율이 절반 이상인 열 선택
columns_to_drop_22 = missing_ratio_22[missing_ratio_22 >= 0.5].index
columns_to_drop_23 = missing_ratio_23[missing_ratio_23 >= 0.5].index

# 열 삭제
df_22.drop(columns=columns_to_drop_22, inplace=True)
df_23.drop(columns=columns_to_drop_23, inplace=True)

df_22.columns

Index(['지역', '망', '측정소코드', '측정소명', 'SO2', 'CO', 'O3', 'NO2', 'PM10', 'PM25',
       '주소', 'time', '지점', '지점명', '기온(°C)', '풍속(m/s)', '풍향(16방위)', '습도(%)',
       '증기압(hPa)', '이슬점온도(°C)', '현지기압(hPa)', '해면기압(hPa)', '일조(hr)',
       '일사(MJ/m2)', '전운량(10분위)', '중하층운량(10분위)', '운형(운형약어)', '최저운고(100m )',
       '시정(10m)', '지면온도(°C)', '5cm 지중온도(°C)', '10cm 지중온도(°C)', '20cm 지중온도(°C)',
       '30cm 지중온도(°C)'],
      dtype='object')

In [49]:
df_23.columns

Index(['지역', '망', '측정소코드', '측정소명', 'SO2', 'CO', 'O3', 'NO2', 'PM10', 'PM25',
       '주소', 'time', '지점', '지점명', '기온(°C)', '풍속(m/s)', '풍향(16방위)', '습도(%)',
       '증기압(hPa)', '이슬점온도(°C)', '현지기압(hPa)', '해면기압(hPa)', '일조(hr)',
       '일사(MJ/m2)', '전운량(10분위)', '중하층운량(10분위)', '운형(운형약어)', '최저운고(100m )',
       '시정(10m)', '지면온도(°C)', '5cm 지중온도(°C)', '10cm 지중온도(°C)', '20cm 지중온도(°C)',
       '30cm 지중온도(°C)'],
      dtype='object')

In [50]:
# time 변수를 index로 세팅
df_22.set_index('time', inplace=True)
df_23.set_index('time', inplace=True)

#### 5) 변수들의 결측치 처리

In [51]:
# df_22, df_23의 결측치 확인

missing_values_22 = df_22.isnull().sum()
missing_values_23 = df_23.isnull().sum()

print("df_22 결측치:\n", missing_values_22)
print("\ndf_23 결측치:\n", missing_values_23)

df_22 결측치:
 지역                  0
망                   0
측정소코드               0
측정소명                0
SO2                87
CO                 87
O3                 87
NO2                87
PM10              156
PM25              105
주소                  0
지점                  0
지점명                 0
기온(°C)              0
풍속(m/s)             0
풍향(16방위)            0
습도(%)               0
증기압(hPa)            0
이슬점온도(°C)           0
현지기압(hPa)           0
해면기압(hPa)           0
일조(hr)           3969
일사(MJ/m2)        3969
전운량(10분위)           0
중하층운량(10분위)         0
운형(운형약어)         3945
최저운고(100m )      4305
시정(10m)             0
지면온도(°C)            1
5cm 지중온도(°C)        1
10cm 지중온도(°C)       1
20cm 지중온도(°C)       1
30cm 지중온도(°C)       1
dtype: int64

df_23 결측치:
 지역                  0
망                   0
측정소코드               0
측정소명                0
SO2               244
CO                 34
O3                 61
NO2                34
PM10               40
PM25               39
주소              

In [53]:
df_22.drop(columns=['운형(운형약어)', '최저운고(100m )'], inplace=True)

df_23.drop(columns=['운형(운형약어)', '최저운고(100m )'], inplace=True)

In [54]:
df_22.columns
df_23.columns

Index(['지역', '망', '측정소코드', '측정소명', 'SO2', 'CO', 'O3', 'NO2', 'PM10', 'PM25',
       '주소', '지점', '지점명', '기온(°C)', '풍속(m/s)', '풍향(16방위)', '습도(%)', '증기압(hPa)',
       '이슬점온도(°C)', '현지기압(hPa)', '해면기압(hPa)', '일조(hr)', '일사(MJ/m2)',
       '전운량(10분위)', '중하층운량(10분위)', '시정(10m)', '지면온도(°C)', '5cm 지중온도(°C)',
       '10cm 지중온도(°C)', '20cm 지중온도(°C)', '30cm 지중온도(°C)'],
      dtype='object')

In [57]:
# df_22, df_23의 변수 중 결측치를 처리(결측치 처리 방법은 다양!)
# 선택해서 결측치를 처리해보세요.

mode_fill_columns = ['SO2', 'CO', 'O3', 'NO2', 'PM10', 'PM25', '지면온도(°C)', '5cm 지중온도(°C)', '10cm 지중온도(°C)', '20cm 지중온도(°C)', '30cm 지중온도(°C)']
for column in mode_fill_columns:
    mode_value = df_22[column].mode()[0]
    df_22[column].fillna(mode_value, inplace=True)
    mode_value = df_23[column].mode()[0]
    df_23[column].fillna(mode_value, inplace=True)

mean_fill_columns = ['일조(hr)', '일사(MJ/m2)']
for column in mean_fill_columns:
    mean_value_22 = df_22[column].mean()
    df_22[column].fillna(mean_value_22, inplace=True)
    mean_value_23 = df_23[column].mean()
    df_23[column].fillna(mean_value_23, inplace=True)

In [58]:
# df_22, df_23의 결측치 처리 후 재확인 해보기

missing_values_22 = df_22.isnull().sum()
missing_values_23 = df_23.isnull().sum()

print("df_22 결측치:\n", missing_values_22)
print("\ndf_23 결측치:\n", missing_values_23)

df_22 결측치:
 지역               0
망                0
측정소코드            0
측정소명             0
SO2              0
CO               0
O3               0
NO2              0
PM10             0
PM25             0
주소               0
지점               0
지점명              0
기온(°C)           0
풍속(m/s)          0
풍향(16방위)         0
습도(%)            0
증기압(hPa)         0
이슬점온도(°C)        0
현지기압(hPa)        0
해면기압(hPa)        0
일조(hr)           0
일사(MJ/m2)        0
전운량(10분위)        0
중하층운량(10분위)      0
시정(10m)          0
지면온도(°C)         0
5cm 지중온도(°C)     0
10cm 지중온도(°C)    0
20cm 지중온도(°C)    0
30cm 지중온도(°C)    0
dtype: int64

df_23 결측치:
 지역               0
망                0
측정소코드            0
측정소명             0
SO2              0
CO               0
O3               0
NO2              0
PM10             0
PM25             0
주소               0
지점               0
지점명              0
기온(°C)           0
풍속(m/s)          0
풍향(16방위)         0
습도(%)            0
증기압(hPa)         0
이슬점온도(°C)        0
현지기압(hPa)   

#### 6) 전일 같은 시간 미세먼지 농도 변수 추가

* 먼저 df_22, df_23에 month, day, hour 변수를 추가하세요.
    * 예) dt.month, dt.day, dt.hour 사용 또는 datetimeindex에서는 df.index.month 등 사용 가능
* 모델링에 유용한 변수로 전일 같은 시간(24시간 전) 미세먼지 농도 변수를 추가하세요.
    * 시계열 데이터 처리를 위한 shift 연산을 참고하세요.

In [59]:
# df_22, df_23의 index(time)를 month, day, hour 로 쪼개기 (year는 필요 없음).

df_22['month'] = df_22.index.month
df_22['day'] = df_22.index.day
df_22['hour'] = df_22.index.hour

df_23['month'] = df_23.index.month
df_23['day'] = df_23.index.day
df_23['hour'] = df_23.index.hour

In [60]:
# 확인해보기

print(df_22.head())
print(df_23.head())

                         지역     망   측정소코드 측정소명    SO2   CO     O3    NO2  \
time                                                                       
2022-01-01 00:00:00  서울 종로구  도시대기  111123  종로구  0.003  0.4  0.026  0.016   
2022-01-01 01:00:00  서울 종로구  도시대기  111123  종로구  0.003  0.4  0.022  0.020   
2022-01-01 02:00:00  서울 종로구  도시대기  111123  종로구  0.003  0.5  0.014  0.028   
2022-01-01 03:00:00  서울 종로구  도시대기  111123  종로구  0.003  0.5  0.016  0.027   
2022-01-01 04:00:00  서울 종로구  도시대기  111123  종로구  0.003  0.5  0.005  0.040   

                     PM10  PM25  ... 중하층운량(10분위)  시정(10m) 지면온도(°C)  \
time                             ...                                 
2022-01-01 00:00:00  23.0  12.0  ...           0     2000     -7.0   
2022-01-01 01:00:00  20.0   9.0  ...           0     2000     -7.2   
2022-01-01 02:00:00  20.0   9.0  ...           0     2000     -7.5   
2022-01-01 03:00:00  19.0  10.0  ...           0     2000     -7.6   
2022-01-01 04:00:00  24.0  11.0  ...           

In [67]:
# df_22, df_23에 전일 같은 시간 미세먼지 농도 변수 추가
# 전일 같은 시간은 24시간 전 입니다. (shift 함수 활용)

df_22['전날_미세먼지'] = df_22['PM10'].shift(24)
df_23['전날_미세먼지'] = df_23['PM10'].shift(24)

In [68]:
#확인해보기

print(df_22.head())
print(df_23.head())

                         지역     망   측정소코드 측정소명    SO2   CO     O3    NO2  \
time                                                                       
2022-01-01 00:00:00  서울 종로구  도시대기  111123  종로구  0.003  0.4  0.026  0.016   
2022-01-01 01:00:00  서울 종로구  도시대기  111123  종로구  0.003  0.4  0.022  0.020   
2022-01-01 02:00:00  서울 종로구  도시대기  111123  종로구  0.003  0.5  0.014  0.028   
2022-01-01 03:00:00  서울 종로구  도시대기  111123  종로구  0.003  0.5  0.016  0.027   
2022-01-01 04:00:00  서울 종로구  도시대기  111123  종로구  0.003  0.5  0.005  0.040   

                     PM10  PM25  ... 시정(10m)  지면온도(°C) 5cm 지중온도(°C)  \
time                             ...                                  
2022-01-01 00:00:00  23.0  12.0  ...    2000      -7.0         -1.0   
2022-01-01 01:00:00  20.0   9.0  ...    2000      -7.2         -1.1   
2022-01-01 02:00:00  20.0   9.0  ...    2000      -7.5         -1.3   
2022-01-01 03:00:00  19.0  10.0  ...    2000      -7.6         -1.4   
2022-01-01 04:00:00  24.0  11.0  ...    2

#### 7) t+1 시점의 미세먼지 농도 데이터 생성
* t+1 시점은 1시간 후 입니다.
* t+1 시점의 미세먼지 농도 변수(PM10_1)를 생성하세요.
* t+1 시점의 미세먼지 농도는 머신러닝 모델을 통해 예측하려는 y값(target) 입니다.

In [71]:
# df_22, df_23에 t+1 시점 변수(PM10_1) 추가
# shift 함수 활용 해보기!

df_22['PM10_1'] = df_22['PM10'].shift(-1)
df_23['PM10_1'] = df_23['PM10'].shift(-1)

In [79]:
pm10_next_day = df_22['PM10'].tail(24)

df_23.iloc[:24, df_23.columns.get_loc('전날_미세먼지')] = pm10_next_day.values

In [83]:
pm10_first_row_df23 = df_23.iloc[0]['PM10']

df_22.at[df_22.index[-1], 'PM10_1'] = pm10_first_row_df23

In [None]:
# 결측치가 있다면 처리하고 확인해보기!


### (2) train, test 데이터 분리 및 저장

* 22년도 데이터(df_22)를 train 데이터로 저장하세요. y 값을 제외하고 train_x로 저장한 후 y 값은 train_y로 저장하세요.
* 23년도 데이터(df_23)를 test 데이터로 저장하세요. y 값을 제외하고 test_x로 저장한 후 y 값은 test_y로 저장하세요.
* 각각의 데이터프레임을 csv 파일로 저장하세요. (train_x.csv / train_y.csv / test_x.csv / test_y.csv) (단, 인덱스 제외)
* y값은 'PM10_1' 즉, t+1 시점의 미세먼지 농도입니다.

In [None]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.


In [86]:
# 각각의 데이터프레임을 csv 파일로 저장 (train_x.csv / train_y.csv / test_x.csv / test_y.csv)

train_x = df_22.drop(columns=['PM10_1'])
train_y = df_22['PM10_1']

# train_x.to_csv('train_x.csv', index=False)
# train_y.to_csv('train_y.csv', index=False)

test_x = df_23.drop(columns=['PM10_1'])
test_y = df_23['PM10_1']

# test_x.to_csv('test_x.csv', index=False)
# test_y.to_csv('test_y.csv', index=False)

# 고생하셨습니다👍👍