## **AIVLE School 미니프로젝트 5기 AI트랙 2차** ##
## **공공데이터를 활용한 <span style="color:skyblue">미세먼지 농도</span> 예측**
---

## [step 3] 모델링

## **0.프로젝트 소개**

### (1) 수행 목표
- 미세먼지 농도를 예측하는 머신러닝 모델을 만드세요.

#### 우리가 풀어야 하는 문제는 무엇인가요?
* 서울 지역의 미세먼지 데이터와 날씨 데이터를 활용하여,
미세먼지 예측에 관련 있는 데이터 항목으로 데이터를 구성, 전처리 하여
미세먼지 농도를 예측하는 머신러닝 모델 구현


### (2) 데이터 소개

#### 1) 기본 데이터

* 학습 데이터
    * air_2022.csv : 2022년 미세먼지 데이터
    * weather_2022.csv : 2022년 날씨 데이터
* 테스트 데이터
    * air_2023.csv : 2023년 미세먼지 데이터
    * weather_2023.csv : 2023년 날씨 데이터

#### 2) 데이터셋의 변수 소개(weather_2022,2023)

* 증기압: 증기가 고체 또는 액체와 동적 평형 상태에 있을 때 증기의 압력 (증기가 되려는 힘)
* 이슬점 온도: 불포화 상태의 공기가 냉각될 때, 포화 상태에 도달하여 수증기의 응결이 시작되는 온도
* 일조: 일정한 물체나 땅의 겉면에 태양 광선이 비치는 시간 (1시간 중 비율)
* 일사(량): 태양으로부터 오는 태양 복사 에너지가 지표에 닿는 양 (면적당 에너지 량)
* 전운량: 하늘을 육안으로 관측하여 전부 구름일 때 10, 구름이 덮고 있는 하늘의 비율에 따라 0~10
* 중하층운량: 중층과 하층에 있는 구름의 분포량(중하층 구름이 날씨에 영향 주므로 따로 표기)
* 운형(운형약어): 구름의 종류. 약어 코드로 기재됨
* 최저운고: 가장 낮은 구름의 높이
* 현상번호(국내식): 비, 소낙비, 싸락눈, 눈보라 등의 기상현상을 나타낸 코드번호
* 지면온도: 지면 0cm 온도
* 지중온도: 땅 속 온도변수1

## **1.환경설정**

* 세부 요구사항
    - 경로 설정 : 다음의 두가지 방법 중 하나를 선택하여 폴더를 준비하고 데이터를 로딩하시오.
        * 1) 로컬 수행(Ananconda)
            * 제공된 압축파일을 다운받아 압축을 풀고
            * anaconda의 root directory(보통 C:/Users/< ID > 에 project 폴더를 만들고, 복사해 넣습니다.
        * 2) 구글코랩
            * 구글 드라이브 바로 밑에 project 폴더를 만들고,
            * 데이터 파일을 복사해 넣습니다.
            
    - 기본적으로 필요한 라이브러리를 import 하도록 코드가 작성되어 있습니다.
        * 필요하다고 판단되는 라이브러리를 추가하세요.

### (1) 경로 설정
* 로컬환경 또는 구글 코랩 중 하나를 사용하시면 됩니다.

#### 1) 로컬 수행(Anaconda)
* project 폴더에 필요한 파일들을 넣고, 본 파일을 열었다면, 별도 경로 지정이 필요하지 않습니다.

In [None]:
path = 'C:/Users/User/project/'

#### 2) 구글 코랩 수행

* 구글 드라이브 연결

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


### (2) 라이브러리 설치 및 불러오기

#### 1) 라이브러리 설치 및 로딩

In [17]:
# 필요한 라이브러리 설치 및 불러오기
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime

from statsmodels.graphics.mosaicplot import mosaic
from scipy import stats as spst
import statsmodels.api as sm
import joblib

# 더 필요한 라이브러리를 아래에 추가합니다.

import pandas as pd

from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression, Lasso, Ridge, ElasticNet
from sklearn.tree import DecisionTreeRegressor as DTR
from sklearn.ensemble import RandomForestRegressor as RFR
from sklearn.ensemble import GradientBoostingRegressor as GBR
from sklearn.metrics import mean_squared_error as mse
from sklearn.metrics import r2_score
from sklearn.metrics import f1_score
from sklearn.metrics import accuracy_score as acc
from sklearn.metrics import recall_score as recall
import joblib

In [5]:
# 시각화 한글폰트 설정을 위해 아래 코드를 실행하세요.
plt.rc('font', family='Malgun Gothic')
sns.set(font="Malgun Gothic",#"NanumGothicCoding",
        rc={"axes.unicode_minus":False}, # 마이너스 부호 깨짐 현상 해결
        style='darkgrid')

### (3) 데이터 불러오기
* 주어진 데이터셋
    * 미세먼지 및 날씨 데이터 : train_x.csv / train_y.csv / test_x.csv / test_y.csv

#### 1) 데이터 로딩

In [None]:
# train_x.csv / train_y.csv / test_x.csv / test_y.csv 4개의 데이터 로딩


#### 2) 기본 정보 조회
* 로딩한 데이터의 기본 정보를 확인 합니다(info 등..)

In [23]:
# 아래에 실습코드를 작성하고 결과를 확인합니다.

train_x.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 8760 entries, 2022-01-01 00:00:00 to 2022-12-31 23:00:00
Data columns (total 30 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   측정소코드          8760 non-null   int64  
 1   SO2            8760 non-null   float64
 2   CO             8760 non-null   float64
 3   O3             8760 non-null   float64
 4   NO2            8760 non-null   float64
 5   PM10           8760 non-null   float64
 6   PM25           8760 non-null   float64
 7   지점             8760 non-null   int64  
 8   기온(°C)         8760 non-null   float64
 9   풍속(m/s)        8760 non-null   float64
 10  풍향(16방위)       8760 non-null   int64  
 11  습도(%)          8760 non-null   int64  
 12  증기압(hPa)       8760 non-null   float64
 13  이슬점온도(°C)      8760 non-null   float64
 14  현지기압(hPa)      8760 non-null   float64
 15  해면기압(hPa)      8760 non-null   float64
 16  일조(hr)         8760 non-null   float64
 17  일사(MJ/m2)      8

## **2.머신러닝 모델링**

### (1) 모델링: LinearRegression

* Train과 Test로 나눈 데이터를 기준으로 LinearRegression 모델링을 진행하고 평가를 해주세요.
* 그리고 모델 파일을 pkl로 저장해주세요.
* 성능지표 : MSE, R-squared Score(소수점 5째자리까지)

In [37]:
from sklearn.impute import SimpleImputer

# 평균값으로 결측치 대체
imputer = SimpleImputer(strategy='mean')
train_x = imputer.fit_transform(train_x)
test_x = imputer.transform(test_x)

# LinearRegression 모델 학습
model = LinearRegression()
model.fit(train_x, train_y)

In [38]:
# predict로 예측하여 y_pred_LR에 저장해보세요.

y_pred_LR = model.predict(test_x)

In [39]:
# test_y 데이터와 y_pred_LR 데이터로 성능을 평가하여 출력해보세요.
# 성능지표는 mse와 r2를 이용하세요.

test_y.fillna(0, inplace=True)
mse_value = mse(test_y, y_pred_LR)
r2_value = r2_score(test_y, y_pred_LR)

print("MSE:", mse_value)
print("R-squared Score:", round(r2_value, 5))

MSE: 47.70150373074605
R-squared Score: 0.9574


In [None]:
# 학습한 모델을 pkl 파일로 저장해보세요.(joblib 활용)

# joblib.dump(model, 'linear_regression_model.pkl')

### (2) 모델링: 랜덤포레스트

* 랜덤포레스트: 배깅의 일종으로 의사결정나무(Decision Tree) 여러 개를 모아서 숲을 랜덤으로 구성하고 이를 종합해서 최종 모델을 산출하는 기법
* Train과 Test로 나눈 데이터를 기준으로 렌덤포레스트로 모델을 학습을 진행하고 평가를 해주세요.
* 그리고 모델 파일을 pkl로 저장해주세요.
* 성능지표 : MSE, R-squared Score(소수점 5째자리까지)

In [44]:
# 랜덤포레스트로 모델 학습 진행 하고 성능을 평가하여 출력해 보세요.
# 성능평가는 MSE, R-Squared Score

model = RFR()
model.fit(train_x, train_y)

y_pred_LR = model.predict(test_x)

mse_value = mse(test_y, y_pred_LR)
r2_value = r2_score(test_y, y_pred_LR)

print("MSE:", mse_value)
print("R-squared Score:", round(r2_value, 5))

MSE: 70.39589195816187
R-squared Score: 0.93713


### (2-1) 랜덤포레스트 feature_importances 확인
* 렌덤포레스트로 학습한 모델의 feature_importances를 구해보세요.

In [53]:
# 렌덤포레스트로 학습한 모델의 feature_importances를 구해보세요.
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.
print(model.feature_importances_)
max_importance_index = np.argmax(model.feature_importances_)
print("가장 큰 중요도를 가진 인덱스:", max_importance_index) # NO2

[0.00000000e+00 9.00560227e-04 2.22241679e-03 3.48489518e-03
 3.00828035e-03 9.26307073e-01 3.60529677e-03 0.00000000e+00
 1.88151551e-03 3.50610233e-03 2.11543926e-03 4.04447880e-03
 1.56171909e-03 2.13487331e-03 9.03848246e-03 4.61992777e-03
 1.02224320e-03 3.50096622e-03 1.29765574e-03 1.07535879e-03
 4.07909660e-03 2.67853518e-03 1.53322111e-03 1.71408289e-03
 1.21568924e-03 1.32155104e-03 2.72875544e-03 2.31282017e-03
 3.41623335e-03 3.67273027e-03]
가장 큰 중요도를 가진 인덱스: 5


In [None]:
# 확인 후 알수 있었던 인사이트가 있었으면 정리해보세요!


### (3) 모델링: GradientBoosting

* GradientBoosting: 앞선 모델의 에러를 다음 모델의 예측 값으로 활용하면서 가중치 업데이트 하는데 경사하강법(Gradient Descent)를 활용해서 최적 모델을 만드는 기법
* Train과 Test로 나눈 데이터를 기준으로 그라디언트부스팅으로 모델을 학습을 진행하고 평가를 해주세요.
* 그리고 모델 파일을 pkl로 저장해주세요.
* 성능지표 : MSE, R-squared Score(소수점 5째자리까지)

In [54]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.

# 랜덤포레스트로 모델 학습 진행 하고 성능을 평가하여 출력해 보세요.
# 성능평가는 MSE, R-Squared Score

model = GBR()
model.fit(train_x, train_y)

y_pred_LR = model.predict(test_x)

mse_value = mse(test_y, y_pred_LR)
r2_value = r2_score(test_y, y_pred_LR)

print("MSE:", mse_value)
print("R-squared Score:", round(r2_value, 5))

MSE: 85.05735179148051
R-squared Score: 0.92404


In [None]:
# 학습한 모델을 파일로 저장해보세요.(joblib 활용)




### (3-1) 그라디언트부스팅 feature_importances 확인
* 학습한 모델의 feature_importances를 구해보세요.

In [55]:
# 그라디언트부스팅으로 학습한 모델의 feature_importances를 구해보세요.
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.

print(model.feature_importances_)
max_importance_index = np.argmax(model.feature_importances_)
print("가장 큰 중요도를 가진 인덱스:", max_importance_index) # NO2

[0.00000000e+00 8.74919744e-05 2.50947544e-03 1.28088749e-03
 8.91456348e-04 9.70912924e-01 8.62058274e-04 0.00000000e+00
 9.96954041e-05 4.49197095e-04 4.32359566e-04 9.36515487e-04
 8.37202861e-05 1.06315147e-03 1.33383569e-02 6.72460585e-04
 5.47320620e-04 9.93569974e-04 2.80516715e-04 4.65100665e-05
 9.88141821e-04 3.42945847e-04 7.44521289e-05 0.00000000e+00
 2.65210824e-05 1.39778734e-04 2.72772278e-04 3.84782595e-05
 1.97094944e-03 6.58292950e-04]
가장 큰 중요도를 가진 인덱스: 5


In [None]:
# 확인 후 알수 있었던 인사이트가 있었으면 정리해보세요!


### (4) 모델링: Self Choice Model

* Self Choice Model: 앞선 교육과정에서 배운 머신러닝 모델 중 어떤 것이든 좋습니다. 원하는 모델을 선택해서 학습을 시켜보세요.
* Train과 Test로 나눈 데이터를 기준으로 Self Choice Model로 모델을 학습을 진행하고 평가를 해주세요.
* 그리고 모델 파일을 pkl로 저장해주세요.
* 성능지표 : MSE, R-squared Score(소수점 5째자리까지)

In [57]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.

from sklearn.ensemble import VotingRegressor
from sklearn.metrics import mean_squared_error, r2_score

models = [
    ('knn', KNeighborsRegressor()),
    ('lr', LinearRegression()),
    ('lasso', Lasso()),
    ('ridge', Ridge()),
    ('elastic_net', ElasticNet()),
    ('decision_tree', DTR()),
    ('random_forest', RFR()),
    ('gradient_boosting', GBR())
]

voting_regressor = VotingRegressor(models)

voting_regressor.fit(train_x, train_y)

y_pred = voting_regressor.predict(test_x)

mse_value = mean_squared_error(test_y, y_pred)
r2_value = r2_score(test_y, y_pred)

print("MSE:", mse_value)
print("R-squared Score:", round(r2_value, 5))


MSE: 55.73796390843093
R-squared Score: 0.95022


In [58]:
print(model.feature_importances_)
max_importance_index = np.argmax(model.feature_importances_)
print("가장 큰 중요도를 가진 인덱스:", max_importance_index) # NO2

[0.00000000e+00 8.74919744e-05 2.50947544e-03 1.28088749e-03
 8.91456348e-04 9.70912924e-01 8.62058274e-04 0.00000000e+00
 9.96954041e-05 4.49197095e-04 4.32359566e-04 9.36515487e-04
 8.37202861e-05 1.06315147e-03 1.33383569e-02 6.72460585e-04
 5.47320620e-04 9.93569974e-04 2.80516715e-04 4.65100665e-05
 9.88141821e-04 3.42945847e-04 7.44521289e-05 0.00000000e+00
 2.65210824e-05 1.39778734e-04 2.72772278e-04 3.84782595e-05
 1.97094944e-03 6.58292950e-04]
가장 큰 중요도를 가진 인덱스: 5


# 고생하셨습니다👍👍