## **AIVLE School 미니프로젝트 5기 AI트랙 2차** ##
## **공공데이터를 활용한 <span style="color:skyblue">미세먼지 농도</span> 예측**
---
## [step 1,2] 데이터 분석 및 전처리

## **0.프로젝트 소개**

### (1) 수행 목표
- 미세먼지 농도를 예측하는 머신러닝 모델을 만드세요.

#### 우리가 풀어야 하는 문제는 무엇인가요?
* 서울 지역의 미세먼지 데이터와 날씨 데이터를 활용하여, 미세먼지 예측에 관련 있는 데이터 항목으로 데이터를 구성, 전처리 하여 미세먼지 농도를 예측하는 머신러닝 모델 구현

### (2) 데이터 소개

#### 1) 기본 데이터

* 학습 데이터
    * air_2022.csv : 2022년 미세먼지 데이터
    * weather_2022.csv : 2022년 날씨 데이터
* 테스트 데이터
    * air_2023.csv : 2023년 미세먼지 데이터
    * weather_2023.csv : 2023년 날씨 데이터

#### 2) 데이터셋의 변수 소개(weather_2022,2023)

* 증기압: 증기가 고체 또는 액체와 동적 평형 상태에 있을 때 증기의 압력 (증기가 되려는 힘)
* 이슬점 온도: 불포화 상태의 공기가 냉각될 때, 포화 상태에 도달하여 수증기의 응결이 시작되는 온도
* 일조: 일정한 물체나 땅의 겉면에 태양 광선이 비치는 시간 (1시간 중 비율)
* 일사(량): 태양으로부터 오는 태양 복사 에너지가 지표에 닿는 양 (면적당 에너지 량)
* 전운량: 하늘을 육안으로 관측하여 전부 구름일 때 10, 구름이 덮고 있는 하늘의 비율에 따라 0~10
* 중하층운량: 중층과 하층에 있는 구름의 분포량(중하층 구름이 날씨에 영향 주므로 따로 표기)
* 운형(운형약어): 구름의 종류. 약어 코드로 기재됨
* 최저운고: 가장 낮은 구름의 높이
* 현상번호(국내식): 비, 소낙비, 싸락눈, 눈보라 등의 기상현상을 나타낸 코드번호
* 지면온도: 지면 0cm 온도
* 지중온도: 땅 속 온도변수1

## **1.환경설정**

* 세부 요구사항
    - 경로 설정 : 다음의 두가지 방법 중 하나를 선택하여 폴더를 준비하고 데이터를 로딩하시오.
        * 1) 로컬 수행(Ananconda)
            * 제공된 압축파일을 다운받아 압축을 풀고
            * anaconda의 root directory(보통 C:/Users/< ID > 에 project 폴더를 만들고, 복사해 넣습니다.)
        * 2) 구글 코랩
            * 구글 드라이브 바로 밑에 project 폴더를 만들고, 
            * 데이터 파일을 복사해 넣습니다.
            
    - 기본적으로 필요한 라이브러리를 import 하도록 코드가 작성되어 있습니다. 
        * 필요하다고 판단되는 라이브러리를 추가하세요.

### (1) 경로 설정
* 로컬환경 또는 구글 코랩 중 하나를 사용하시면 됩니다.

#### 1) 로컬 수행(Anaconda)
* project 폴더에 필요한 파일들을 넣고, 본 파일을 열었다면, 별도 경로 지정이 필요하지 않습니다.

In [1]:
# path = '프로젝트/미니 프로젝트 2차/'

#### 2) 구글 코랩 수행

* 구글 드라이브 연결

In [2]:
# from google.colab import drive
# drive.mount('/content/drive')

In [3]:
# path = '/content/drive/MyDrive/project/'

### (2) 라이브러리 설치 및 불러오기

#### 1) 라이브러리 설치 및 로딩

In [4]:
# 필요한 라이브러리 설치 및 불러오기

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime

from statsmodels.graphics.mosaicplot import mosaic
from scipy import stats as spst
import statsmodels.api as sm
import joblib

# 더 필요한 라이브러리를 아래에 추가합니다.



In [5]:
# 시각화 한글폰트 설정을 위해 아래 코드를 실행하세요.
plt.rc('font', family='Malgun Gothic')
sns.set(font="Malgun Gothic",#"NanumGothicCoding", 
        rc={"axes.unicode_minus":False}, # 마이너스 부호 깨짐 현상 해결
        style='darkgrid')

### (3) 데이터 불러오기
* Pandas 라이브러리를 활용해서 'air_2022.csv'파일을 'air_22' 변수에,'air_2023.csv'파일을 'air_23' 변수에 저장하고 그 데이터를 확인하세요.
<br> ( 구분자(sep) : ',' / encoder = 'utf-8' / index_col = 0 )

* Pandas 라이브러리를 활용해서 'weather_2022.csv'파일을 'weather_22' 변수에,'weather_2023.csv'파일을 'weather_23' 변수에 저장하고 그 데이터를 확인하세요.
<br> ( 구분자(sep) : ',' / encoder = 'cp949' )

#### 1) 데이터로딩

In [6]:
%pwd

'C:\\Users\\User\\KT_AIVLE\\Project\\미니 프로젝트 2차'

In [7]:
# 아래에 실습코드를 작성하고 결과를 확인합니다.
air_train = pd.read_csv('./air_2022.csv')
air_test = pd.read_csv('./air_2023.csv')
weather_train = pd.read_csv('./weather_2022.csv', encoding='cp949')
weather_test = pd.read_csv('./weather_2023.csv', encoding='cp949')
weather_train.head()

Unnamed: 0,지점,지점명,일시,기온(°C),기온 QC플래그,강수량(mm),강수량 QC플래그,풍속(m/s),풍속 QC플래그,풍향(16방위),...,최저운고(100m ),시정(10m),지면상태(지면상태코드),현상번호(국내식),지면온도(°C),지면온도 QC플래그,5cm 지중온도(°C),10cm 지중온도(°C),20cm 지중온도(°C),30cm 지중온도(°C)
0,108,서울,2022-01-01 00:00,-8.5,,,,1.9,,320,...,,2000,,,-7.0,,-1.0,-1.0,-0.2,1.0
1,108,서울,2022-01-01 01:00,-9.2,,,,1.8,,270,...,,2000,,,-7.2,,-1.1,-1.1,-0.2,1.0
2,108,서울,2022-01-01 02:00,-9.5,,,,1.2,,270,...,,2000,,,-7.5,,-1.3,-1.2,-0.2,1.0
3,108,서울,2022-01-01 03:00,-9.3,,,,1.4,,290,...,,2000,,,-7.6,,-1.4,-1.2,-0.2,1.0
4,108,서울,2022-01-01 04:00,-9.6,,,,1.7,,340,...,,2000,,,-7.6,,-1.4,-1.3,-0.3,1.0


#### 2) 기본 정보 조회
- 데이터를 head, tail. describe, info 등을 활용하여 확인하세요.

In [8]:
# tail
display(air_train.tail())
display(weather_train.tail())


Unnamed: 0.1,Unnamed: 0,지역,망,측정소코드,측정소명,측정일시,SO2,CO,O3,NO2,PM10,PM25,주소
8755,8755,서울 종로구,도시대기,111123,종로구,2022123120,0.004,1.5,0.002,0.07,71.0,59.0,서울 종로구 종로35가길 19
8756,8756,서울 종로구,도시대기,111123,종로구,2022123121,0.005,1.6,0.002,0.07,76.0,62.0,서울 종로구 종로35가길 19
8757,8757,서울 종로구,도시대기,111123,종로구,2022123122,0.004,1.7,0.002,0.072,76.0,66.0,서울 종로구 종로35가길 19
8758,8758,서울 종로구,도시대기,111123,종로구,2022123123,0.005,1.8,0.002,0.072,77.0,67.0,서울 종로구 종로35가길 19
8759,8759,서울 종로구,도시대기,111123,종로구,2022123124,0.004,1.6,0.002,0.07,76.0,67.0,서울 종로구 종로35가길 19


Unnamed: 0,지점,지점명,일시,기온(°C),기온 QC플래그,강수량(mm),강수량 QC플래그,풍속(m/s),풍속 QC플래그,풍향(16방위),...,최저운고(100m ),시정(10m),지면상태(지면상태코드),현상번호(국내식),지면온도(°C),지면온도 QC플래그,5cm 지중온도(°C),10cm 지중온도(°C),20cm 지중온도(°C),30cm 지중온도(°C)
8755,108,서울,2022-12-31 19:00,-0.2,,,9.0,1.8,,20,...,,1211,,,-0.9,,-0.1,-0.5,-0.5,0.6
8756,108,서울,2022-12-31 20:00,-0.8,,,9.0,1.4,,20,...,14.0,1171,,,-1.8,,-0.1,-0.5,-0.5,0.6
8757,108,서울,2022-12-31 21:00,-1.0,,,9.0,0.9,,340,...,13.0,1134,,,-2.8,,-0.2,-0.5,-0.5,0.6
8758,108,서울,2022-12-31 22:00,-0.8,,,9.0,0.5,,290,...,13.0,1094,,,-2.2,,-0.3,-0.5,-0.5,0.6
8759,108,서울,2022-12-31 23:00,-0.2,,,9.0,1.3,,230,...,14.0,1314,,,-2.1,,-0.3,-0.5,-0.5,0.6


In [9]:
# 결측치 확인
print(air_train.isna().sum())
print(weather_train.isna().sum())

Unnamed: 0      0
지역              0
망               0
측정소코드           0
측정소명            0
측정일시            0
SO2            87
CO             87
O3             87
NO2            87
PM10          156
PM25          105
주소              0
dtype: int64
지점                  0
지점명                 0
일시                  0
기온(°C)              0
기온 QC플래그         8760
강수량(mm)          7821
강수량 QC플래그        7192
풍속(m/s)             0
풍속 QC플래그         8760
풍향(16방위)            0
풍향 QC플래그         8760
습도(%)               0
습도 QC플래그         8760
증기압(hPa)            0
이슬점온도(°C)           0
현지기압(hPa)           0
현지기압 QC플래그       8760
해면기압(hPa)           0
해면기압 QC플래그       8760
일조(hr)           3969
일조 QC플래그         4791
일사(MJ/m2)        3969
일사 QC플래그         4790
적설(cm)           8271
3시간신적설(cm)       8729
전운량(10분위)           0
중하층운량(10분위)         0
운형(운형약어)         3945
최저운고(100m )      4305
시정(10m)             0
지면상태(지면상태코드)     8760
현상번호(국내식)        7033
지면온도(°C)            1
지면온도 QC플래그       8745
5cm 지

In [10]:
weather_train.loc[weather_train['일사 QC플래그']!=np.nan,:]

Unnamed: 0,지점,지점명,일시,기온(°C),기온 QC플래그,강수량(mm),강수량 QC플래그,풍속(m/s),풍속 QC플래그,풍향(16방위),...,최저운고(100m ),시정(10m),지면상태(지면상태코드),현상번호(국내식),지면온도(°C),지면온도 QC플래그,5cm 지중온도(°C),10cm 지중온도(°C),20cm 지중온도(°C),30cm 지중온도(°C)
0,108,서울,2022-01-01 00:00,-8.5,,,,1.9,,320,...,,2000,,,-7.0,,-1.0,-1.0,-0.2,1.0
1,108,서울,2022-01-01 01:00,-9.2,,,,1.8,,270,...,,2000,,,-7.2,,-1.1,-1.1,-0.2,1.0
2,108,서울,2022-01-01 02:00,-9.5,,,,1.2,,270,...,,2000,,,-7.5,,-1.3,-1.2,-0.2,1.0
3,108,서울,2022-01-01 03:00,-9.3,,,,1.4,,290,...,,2000,,,-7.6,,-1.4,-1.2,-0.2,1.0
4,108,서울,2022-01-01 04:00,-9.6,,,,1.7,,340,...,,2000,,,-7.6,,-1.4,-1.3,-0.3,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8755,108,서울,2022-12-31 19:00,-0.2,,,9.0,1.8,,20,...,,1211,,,-0.9,,-0.1,-0.5,-0.5,0.6
8756,108,서울,2022-12-31 20:00,-0.8,,,9.0,1.4,,20,...,14.0,1171,,,-1.8,,-0.1,-0.5,-0.5,0.6
8757,108,서울,2022-12-31 21:00,-1.0,,,9.0,0.9,,340,...,13.0,1134,,,-2.8,,-0.2,-0.5,-0.5,0.6
8758,108,서울,2022-12-31 22:00,-0.8,,,9.0,0.5,,290,...,13.0,1094,,,-2.2,,-0.3,-0.5,-0.5,0.6


In [11]:
# 아래에 실습코드를 작성하고 결과를 확인합니다.
display(air_train.info())
display(weather_train.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8760 entries, 0 to 8759
Data columns (total 13 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  8760 non-null   int64  
 1   지역          8760 non-null   object 
 2   망           8760 non-null   object 
 3   측정소코드       8760 non-null   int64  
 4   측정소명        8760 non-null   object 
 5   측정일시        8760 non-null   int64  
 6   SO2         8673 non-null   float64
 7   CO          8673 non-null   float64
 8   O3          8673 non-null   float64
 9   NO2         8673 non-null   float64
 10  PM10        8604 non-null   float64
 11  PM25        8655 non-null   float64
 12  주소          8760 non-null   object 
dtypes: float64(6), int64(3), object(4)
memory usage: 889.8+ KB


None

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8760 entries, 0 to 8759
Data columns (total 38 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   지점             8760 non-null   int64  
 1   지점명            8760 non-null   object 
 2   일시             8760 non-null   object 
 3   기온(°C)         8760 non-null   float64
 4   기온 QC플래그       0 non-null      float64
 5   강수량(mm)        939 non-null    float64
 6   강수량 QC플래그      1568 non-null   float64
 7   풍속(m/s)        8760 non-null   float64
 8   풍속 QC플래그       0 non-null      float64
 9   풍향(16방위)       8760 non-null   int64  
 10  풍향 QC플래그       0 non-null      float64
 11  습도(%)          8760 non-null   int64  
 12  습도 QC플래그       0 non-null      float64
 13  증기압(hPa)       8760 non-null   float64
 14  이슬점온도(°C)      8760 non-null   float64
 15  현지기압(hPa)      8760 non-null   float64
 16  현지기압 QC플래그     0 non-null      float64
 17  해면기압(hPa)      8760 non-null   float64
 18  해면기압 QC플

None

## **2.EDA 1단계 - 데이터 기본 탐색 및 분석**

* 단변량 분석은 데이터분석의 매우 기초적인 분석기법으로, 독립적인 개별 변수가 가지고있는 특성들을 이해하는 과정입니다.

    * <span style="color: green"> 개별 변수에 대해 아래 사항들을 분석해보세요. </span>

        1. 변수가 내포하고 있는 의미
        2. 변수가 수치형인지, 범주형인지
        3. 결측치 존재 여부 및 조치 방안
        4. 기초 통계량 확인
        5. 데이터 분포 확인
        6. 위 정보로부터 파악한 내용 정리
        7. 추가 분석사항 도출

### (1) 변수별 단변량 분석
- 4 ~ 5개 변수를 선택해서 위 1~6번을 확인해보세요 (7번은 선택)
*  PM10, 기온, 풍향, 습도(%), 증기압

In [12]:
air_train.shape

(8760, 13)

In [13]:
air_train.loc[air_train['PM10'].isnull(),:]

Unnamed: 0.1,Unnamed: 0,지역,망,측정소코드,측정소명,측정일시,SO2,CO,O3,NO2,PM10,PM25,주소
63,63,서울 종로구,도시대기,111123,종로구,2022010316,,,,,,,서울 종로구 종로35가길 19
64,64,서울 종로구,도시대기,111123,종로구,2022010317,,,,,,,서울 종로구 종로35가길 19
65,65,서울 종로구,도시대기,111123,종로구,2022010318,0.004,0.5,0.004,0.043,,,서울 종로구 종로35가길 19
150,150,서울 종로구,도시대기,111123,종로구,2022010707,,,,,,,서울 종로구 종로35가길 19
151,151,서울 종로구,도시대기,111123,종로구,2022010708,,,,,,,서울 종로구 종로35가길 19
...,...,...,...,...,...,...,...,...,...,...,...,...,...
8171,8171,서울 종로구,도시대기,111123,종로구,2022120712,,,,,,,서울 종로구 종로35가길 19
8299,8299,서울 종로구,도시대기,111123,종로구,2022121220,0.003,0.5,0.006,0.035,,13.0,서울 종로구 종로35가길 19
8532,8532,서울 종로구,도시대기,111123,종로구,2022122213,,,,,,,서울 종로구 종로35가길 19
8533,8533,서울 종로구,도시대기,111123,종로구,2022122214,,,,,,,서울 종로구 종로35가길 19


In [14]:
# PM10 -> 미세먼지
# 수치형
# 결측치 확인
air_train['PM10'].isna().sum() # 156
# 결측치 제거 -> 연속 결측치가 많아 선형보간으로 할 경우 데이터 신뢰성 떨어짐
# air_copy = air_train.copy()
# air_train = air_copy.copy() 
air_train = air_train.loc[air_train['PM10'].isnull()==False,:]

NameError: name 'air_copy' is not defined

In [None]:
# 기초 통계량확인
air_train['PM10'].describe() 

In [None]:
# 분포 확인
plt.figure(figsize=(15,5))
plt.subplot(1,2,1)
plt.plot(air_train['PM10'])

plt.subplot(1,2,2)
sns.histplot(air_train['PM10'],bins=30, kde=True) # 대부분은 10~50 의 미세먼지 데이터를 가지고 있다.

* 기온

In [None]:
# 내포의미 -> 1시간 동안 평균 기온
# 수치형
# 결측치 확인
weather_train['기온(°C)'].isna().sum() #없음

In [None]:
# 기초 통계량 확인
weather_train['기온(°C)'].describe() # 평균 기온 13도

In [None]:
# 분포 확인
feature = '기온(°C)'
plt.figure(figsize=(15,5))
plt.subplot(1,2,1)
plt.plot(weather_train[feature])

plt.subplot(1,2,2)
sns.histplot(weather_train[feature],bins=30, kde=True)
# 기온 분퐉 고르지 못하고 25~30 도 구간에 많이 몰려있다.

* 풍향

In [None]:
# 의미, 바람이 불어오는 방향
feature = '풍향(16방위)'
weather_train[feature].unique()

# 범주형

In [None]:
# 결측치 확인
weather_train[feature].isna().sum() # 없음

In [None]:
# 기초 통계량 확인
weather_train[feature].value_counts() # 서쪽과 북동풍이 많이 푼다.

In [None]:
# 시각화
sns.countplot(x=feature, data = weather_train)

In [None]:
# 미세먼지와 이변량 분석, 범주 -> 수치, 시각화(barplot), 분산 분석(anode) -> 아직 데이터 안 합쳐서 안 되네..

* 습도

In [None]:
# 1시간동안 평균 습도 0~100%
# 수치형
# 결측치 확인
feature = '습도(%)'
weather_train[feature].isna().sum()

In [None]:
# 통계량 확인
weather_train[feature].describe() # 평균 습도 65%로 높은편

In [None]:
# 시각화 (데이터 분포 확인)
plt.figure(figsize=(15,5))
plt.subplot(1,2,1)
plt.plot(weather_train[feature])

plt.subplot(1,2,2)
sns.histplot(weather_train[feature],bins=30, kde=True) # 여름은 대체적으로 습도가 높고, 겨울은 강우 여부에 따라 다른것으로 보인다.

#### **[예시] 1) Feature1 : 측정일시**

**1. 변수가 내포하고 있는 의미**

In [None]:
# 고민하고 확인해봅시다.

**2. 변수가 수치형인지 범주형인지**
  - 날짜는 범주형? 수치형?

In [None]:
# 고민하고 확인해봅시다.

**3. 변수의 결측치 존재 여부 및 조치 방안**

In [None]:
# 고민하고 확인해봅시다.

**4.변수의 기초 통계량 확인**

In [None]:
# 고민하고 확인해봅시다.

**5. 변수의 분포 확인**

In [None]:
# 고민하고 확인해봅시다.


**6. 위 정보로 부터 파악한 내용 정리**

In [None]:
# 고민하고 확인해봅시다.

-----------**아래에 추가로 3-4개의 변수를 같은 방법으로 고민해보기!** -----------------------

## **3.EDA 2단계 - 데이터 전처리**
- 진행한 개별 변수 분석에 맞추어 데이터를 전처리 하겠습니다.

### (1) air_22, air_23, weather_22, weather_23 데이터 전처리
* air_22, air_23  각각 '측정일시'를 활용하여 'time'변수 생성
    * 참고: 미세먼지 데이터는 1시-24시, 날씨 데이터는 0시-23시로 구성되어 있습니다. 미세먼지와 날씨 데이터를 time 기준으로 합치려면 기준이 동일해야 합니다. 미세먼지 데이터에서 time 변수 생성 시 이를 미리 고려(예: air_22['측정일시'] -1)하세요.
* time 변수를 pd.to_datetime으로 데이터 타입 변경
    * 참고: format = '%Y%m%d%H'

#### 1) air_22, air_23 의 '측정일시'를 활용하여 'time' 변수 생성

In [None]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.
# air_train['측정일시'].astype(str)
air_train['time'] = pd.to_datetime(air_train['측정일시']-1,format='%Y%m%d%H')
air_test['time'] = pd.to_datetime(air_test['측정일시']-1,format='%Y%m%d%H')

In [None]:
# 결과확인
air_test.head()


#### 2) weather_22, weather_23 의 '일시'를 활용하여 'time' 변수 생성
* weather_22, weather_23 의 '일시'를 활용하여 'time'변수 생성
* time 변수를 pd.to_datetime으로 데이터 타입 변경

In [None]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.
weather_train['time'] = pd.to_datetime(weather_train['일시'])
weather_test['time'] = pd.to_datetime(weather_test['일시'])

In [None]:
# 결과확인
weather_test.head(2)

#### 3) 'time' 기준으로 데이터 합치기
* 미세먼지 데이터와 날씨 데이터를 'time' 기준으로 합쳐보세요.
    * df_22에는 'time' 기준으로 22년도 미세먼지, 날씨 데이터를 합쳐보세요.
    * df_23에는 'time' 기준으로 23년도 미세먼지, 날씨 데이터를 합쳐보세요.

In [None]:
#help(pd.merge)

In [None]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.
data_train = pd.merge(air_train, weather_train, how='inner')
data_test = pd.merge(air_test, weather_test, how='inner')

In [None]:
# 결과확인
pd.merge(air_test, weather_test, how='inner').columns

#### 4) 사용하지 않을 변수 제거

* 머신러닝에 사용하지 않을 변수들을 제거해줍니다.
    * df_22, df_23에 여러분들이 사용할 변수들만 넣어보세요.
* time 변수를 index로 세팅하고 (set_index) 데이터가 정렬되어 있지 않으므로 index 기준으로 정렬하세요. (sort_index)

In [None]:
# 이변량 분석 수치 -> 수치 : 상관도
# 범주 -> 수치 : barplot, t test, anode
r = 50
plt.figure(figsize=(15,10))
target = 'PM10'
feature = '현상번호(국내식)'
# sns.scatterplot(x=feature, y=target, data = data_train)
plt.subplot(2,3,1)
sns.barplot(x=feature, y=target, data = data_train)
plt.xticks(rotation=r)

feature = '풍향(16방위)'
plt.subplot(2,3,2)
sns.barplot(x=feature, y=target, data = data_train)
plt.xticks(rotation=r)

feature = '전운량(10분위)'
plt.subplot(2,3,3)
sns.barplot(x=feature, y=target, data = data_train)
plt.xticks(rotation=r)

feature = '현지기압(hPa)'
plt.subplot(2,3,4)
sns.scatterplot(x=feature, y=target, data = data_train)
spst.pearsonr(data_train[feature], data_train[target])
plt.xticks(rotation=r)

feature = '현지기압(hPa)'
plt.subplot(2,3,5)
sns.scatterplot(x=feature, y='해면기압(hPa)', data = data_train)
plt.xticks(rotation=r)

feature = 'SO2'
plt.subplot(2,3,6)
sns.scatterplot(x=feature, y=target, data = data_train)
spst.pearsonr(data_train[feature], data_train[target])
plt.xticks(rotation=r)
plt.show()

In [None]:
data_train['SO2'].unique()

In [None]:
# df_22, df_23에 사용할 변수들만 할당
sel_cols=['time','CO', 'NO2', 'PM10', 'PM25', '풍속(m/s)', '풍향(16방위)', '습도(%)', '현지기압(hPa)', '시정(10m)', '지면온도(°C)',]
# data_train_copy = data_train.copy()
# data_test_copy = data_test.copy()
data_train = data_train_copy.copy()
data_test = data_test_copy.copy()
data_train = data_train.loc[:,sel_cols]
data_test = data_test.loc[:,sel_cols]

In [None]:
# time 변수를 index로 세팅
data_train.set_index('time', inplace =True)
data_test.set_index('time', inplace =True)

In [None]:
data_train.head(2)

#### 5) 변수들의 결측치 처리

In [None]:
# df_22, df_23의 결측치 확인
print(data_train.isna().sum())
print(data_test.isna().sum())

In [None]:
# 결측치 제거
data_train.dropna(inplace=True)
data_test.dropna(inplace=True)
print(data_train.isna().sum())
print(data_test.isna().sum())

#### 6) 전일 같은 시간 미세먼지 농도 변수 추가

* 먼저 df_22, df_23에 month, day, hour 변수를 추가하세요.
    * 예) dt.month, dt.day, dt.hour 사용 또는 datetimeindex에서는 df.index.month 등 사용 가능
* 모델링에 유용한 변수로 전일 같은 시간(24시간 전) 미세먼지 농도 변수를 추가하세요.
    * 시계열 데이터 처리를 위한 shift 연산을 참고하세요.

In [None]:
# df_22, df_23의 index(time)를 month, day, hour 로 쪼개기 (year는 필요 없음).
data_train['month'] = data_train.index.month
data_train['day'] = data_train.index.day
data_train['hour'] = data_train.index.hour
data_train.head()

data_test['month'] = data_test.index.month
data_test['day'] = data_test.index.day
data_test['hour'] = data_test.index.hour
data_test.head()

In [None]:
# 전날 농도 변수 추가
data_train['전날 미세먼지'] = data_train.shift(24).loc[:,'PM10']
data_test['전날 미세먼지'] = data_test.shift(24).loc[:,'PM10']
data_train

In [None]:
# 결측치 제거
data_train.dropna(inplace=True)
data_test.dropna(inplace=True)
data_train

#### 7) t+1 시점의 미세먼지 농도 데이터 생성
* t+1 시점은 1시간 후 입니다.
* t+1 시점의 미세먼지 농도 변수(PM10_1)를 생성하세요.
* t+1 시점의 미세먼지 농도는 머신러닝 모델을 통해 예측하려는 y값(target) 입니다.

In [None]:
# df_22, df_23에 t+1 시점 변수(PM10_1) 추가
# shift 함수 활용 해보기!
data_train['PM10_1']=data_train['PM10'].shift(-1)
data_test['PM10_1']=data_test['PM10'].shift(-1)

In [None]:
#확인해보기!
data_train.dropna(inplace=True)
data_test.dropna(inplace=True)

In [None]:
# 결측치가 있다면 처리하고 확인해보기!
data_train.head()

### (2) train, test 데이터 분리 및 저장

* 22년도 데이터(df_22)를 train 데이터로 저장하세요. y 값을 제외하고 train_x로 저장한 후 y 값은 train_y로 저장하세요.
* 23년도 데이터(df_23)를 test 데이터로 저장하세요. y 값을 제외하고 test_x로 저장한 후 y 값은 test_y로 저장하세요.
* 각각의 데이터프레임을 csv 파일로 저장하세요. (train_x.csv / train_y.csv / test_x.csv / test_y.csv) (단, 인덱스 제외)
* y값은 'PM10_1' 즉, t+1 시점의 미세먼지 농도입니다.

In [None]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.
target = 'PM10_1'

X_train = data_train.drop(target, axis=1)
X_test = data_test.drop(target, axis=1)
y_train = data_train.loc[:,target]
y_test = data_test.loc[:,target]

In [None]:
# 각각의 데이터프레임을 csv 파일로 저장 (train_x.csv / train_y.csv / test_x.csv / test_y.csv)
X_train.to_csv('train_x.csv')
X_test.to_csv('test_x.csv')
y_train.to_csv('train_y.csv')
y_test.to_csv('test_y.csv')

In [None]:
print(X_train.shape)
print(y_train.shape)
print(X_test.shape)
print(y_test.shape)

In [None]:
y_test.isna()

# 고생하셨습니다👍👍 

In [None]:
sns.scatterplot(x='PM10', y='PM25', data = data_train)
spst.pearsonr(data_train['PM10'], data_train['PM25'])

In [15]:
air_train = pd.read_csv('./air_2022.csv')
air_test = pd.read_csv('./air_2023.csv')
weather_train = pd.read_csv('./weather_2022.csv', encoding='cp949')
weather_test = pd.read_csv('./weather_2023.csv', encoding='cp949')

In [16]:
air_train['SO2'].describe()

count    8673.000000
mean        0.003133
std         0.000700
min         0.001000
25%         0.003000
50%         0.003000
75%         0.003000
max         0.008000
Name: SO2, dtype: float64

In [17]:
air_train['SO2'].isna().sum()

87

In [18]:
air_train['PM25'].describe()

count    8655.000000
mean       19.284575
std        14.172678
min         1.000000
25%        10.000000
50%        16.000000
75%        25.000000
max       121.000000
Name: PM25, dtype: float64