<center><img src='https://raw.githubusercontent.com/Jangrae/img/master/ml_python.png' width=600/></center>

<img src = "https://github.com/Jangrae/img/blob/master/air.png?raw=true" width=800 align="left"/>

# 실습 내용

- 머신러닝 모델링을 위한 코딩은 무조건 할 수 있어야 합니다.
- 코딩 내용을 자세히 알지 못해도 **무작정** 코딩을 진행해봅니다.
- AirQuality 데이터를 대상으로 모델링을 진행합니다.
- LinearRegression 알고리즘을 사용합니다.
- 다양한 방법으로 모델 성능을 평가합니다.

# 1.환경 준비

- 기본 **라이브러리**와 대상 **데이터**를 가져와 이후 과정을 준비합니다.

<img src = "https://github.com/Jangrae/img/blob/master/code_11.png?raw=true" width=700 align="left"/>

In [1]:
# 라이브러리 불러오기
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

%config InlineBackend.figure_format = 'retina'

In [2]:
# 데이터 읽어오기
path = 'https://raw.githubusercontent.com/Jangrae/csv/master/airquality_simple.csv'
data = pd.read_csv(path)

In [3]:
data.to_csv('test.csv')

In [4]:
data.to_excel('test.xlsx')

In [5]:
test = pd.read_excel('test.xlsx')

# 2.데이터 이해

- 분석할 데이터를 **충분히 이해**할 수 있도록 다양한 **탐색** 과정을 수행합니다.

<img src = "https://github.com/Jangrae/img/blob/master/code_12.png?raw=true" width=700 align="left"/>

In [3]:
# 상위 몇 개 행 확인
data.head()

Unnamed: 0,Ozone,Solar.R,Wind,Temp,Month,Day
0,41,190.0,7.4,67,5,1
1,36,118.0,8.0,72,5,2
2,12,149.0,12.6,74,5,3
3,18,313.0,11.5,62,5,4
4,19,,14.3,56,5,5


In [4]:
# 하위 몇 개 행 확인
data.tail()

Unnamed: 0,Ozone,Solar.R,Wind,Temp,Month,Day
148,30,193.0,6.9,70,9,26
149,23,145.0,13.2,77,9,27
150,14,191.0,14.3,75,9,28
151,18,131.0,8.0,76,9,29
152,20,223.0,11.5,68,9,30


In [5]:
# 변수 확인
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 153 entries, 0 to 152
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Ozone    153 non-null    int64  
 1   Solar.R  146 non-null    float64
 2   Wind     153 non-null    float64
 3   Temp     153 non-null    int64  
 4   Month    153 non-null    int64  
 5   Day      153 non-null    int64  
dtypes: float64(2), int64(4)
memory usage: 7.3 KB


In [6]:
# 기초통계량 확인
data.describe()

Unnamed: 0,Ozone,Solar.R,Wind,Temp,Month,Day
count,153.0,146.0,153.0,153.0,153.0,153.0
mean,42.052288,185.931507,9.957516,77.882353,6.993464,15.803922
std,30.156127,90.058422,3.523001,9.46527,1.416522,8.86452
min,1.0,7.0,1.7,56.0,5.0,1.0
25%,20.0,115.75,7.4,72.0,6.0,8.0
50%,34.0,205.0,9.7,79.0,7.0,16.0
75%,59.0,258.75,11.5,85.0,8.0,23.0
max,168.0,334.0,20.7,97.0,9.0,31.0


In [7]:
# 상관관계 확인
data.corr()

Unnamed: 0,Ozone,Solar.R,Wind,Temp,Month,Day
Ozone,1.0,0.280068,-0.605478,0.683372,0.174197,0.004419
Solar.R,0.280068,1.0,-0.056792,0.27584,-0.075301,-0.150275
Wind,-0.605478,-0.056792,1.0,-0.457988,-0.178293,0.027181
Temp,0.683372,0.27584,-0.457988,1.0,0.420947,-0.130593
Month,0.174197,-0.075301,-0.178293,0.420947,1.0,-0.007962
Day,0.004419,-0.150275,0.027181,-0.130593,-0.007962,1.0


# 3.데이터 준비

- **전처리** 과정을 통해 머신러닝 알고리즘에 사용할 수 있는 형태의 데이터를 준비합니다.

<img src = "https://github.com/Jangrae/img/blob/master/code_13.png?raw=true" width=700 align="left"/>

**1) 결측치 처리**

- 결측치가 있으면 제거하거나 적절한 값으로 채웁니다.

In [8]:
# 결측치 확인
data.isnull().sum()

Ozone      0
Solar.R    7
Wind       0
Temp       0
Month      0
Day        0
dtype: int64

In [9]:
# 전날 값으로 결측치 채우기
data.fillna(method='ffill', inplace=True)

# 확인
data.isnull().sum()

Ozone      0
Solar.R    0
Wind       0
Temp       0
Month      0
Day        0
dtype: int64

**2) 변수 제거**

- 분석에 의미가 없다고 판단되는 변수는 제거합니다.

In [10]:
# 변수 제거
col_x = ['Month', 'Day']
data.drop(col_x, axis=1, inplace=True)

# 확인
data.head()

Unnamed: 0,Ozone,Solar.R,Wind,Temp
0,41,190.0,7.4,67
1,36,118.0,8.0,72
2,12,149.0,12.6,74
3,18,313.0,11.5,62
4,19,313.0,14.3,56


**3) x, y 분리**

- target 변수를 명확히 지정합니다.
- target을 제외한 변수를 x 데이터프레임으로 선언합니다.
- y 데이터프레임은 target 변수만을 가집니다.

In [11]:
# target 확인
target = 'Ozone'

# 데이터 분리
x = data.drop(target, axis=1)
y = data[target]

**4) 학습용, 평가용 데이터 분리**

- 학습용, 평가용 데이터를 적절한 비율로 분리합니다.
- 반복 실행 시 동일한 결과를 얻기 위해 random_state 옵션을 지정합니다.

In [12]:
# 모듈 불러오기
from sklearn.model_selection import train_test_split

# 7:3으로 분리
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=2022)  

# 4.모델링

- 본격적으로 모델을 **선언**하고 **학습**하고 **평가**하는 과정을 진행합니다.
- 우선 **회귀** 문제인지 **분류** 문제인지 명확히 구분합니다.

<img src = "https://github.com/Jangrae/img/blob/master/code_14.png?raw=true" width=700 align="left"/>

- 회귀 문제 인가요? 분류 문제인가요?
- 회귀인지 분류인지에 따라 사용할 알고리즘과 평가 방법이 달라집니다.
- 우선 다음 알고리즘을 사용합니다.
    - 알고리즘: LinearRegression

In [13]:
# 1단계: 불러오기
from sklearn.linear_model import LinearRegression

In [14]:
# 2단계: 선언하기
model = LinearRegression()

In [15]:
# 3단계: 학습하기
model.fit(x_train, y_train)

LinearRegression()

In [16]:
# 4단계: 예측하기
y_pred = model.predict(x_test)

# 5.회귀 성능 평가 --> MAE 와 R2_score 는 평가지표로 확인해보자

- 다양한 성능 지표로 회귀 모델 성능을 평가합니다.
- 평가지표는 sklearn.metrics 에있다

**1) MAE(Mean Absolute Error)**

In [21]:
# 모듈 불러오기
from sklearn.metrics import mean_absolute_error

# 성능 평가
print('MAE : ',mean_absolute_error(y_test,y_pred))

MAE :  13.377390093696068


**2) MSE(Mean Squred Error)**

In [22]:
# 모듈 불러오기
from sklearn.metrics import mean_squared_error

# 성능 평가
print('MSE : ',mean_squared_error(y_test,y_pred))

MSE :  298.7074379241612


**3) RMSE(Root Mean Squred Error)**

In [27]:
# 모듈 불러오기
from sklearn.metrics import mean_squared_error
import numpy as np

# 성능 평가
print('RMSE : ',mean_squared_error(y_test,y_pred)**0.5)
print('RMSE : ',np.sqrt(mean_squared_error(y_test,y_pred)))
print('RMSE : ',mean_squared_error(y_test,y_pred,squared=False))

RMSE :  17.283154744552892
RMSE :  17.283154744552892
RMSE :  17.283154744552892


**4) MAPE(Mean Absolute Percentage Error)**

In [24]:
# 모듈 불러오기
from sklearn.metrics import mean_absolute_percentage_error

# 성능 평가
print('MAPE : ',mean_absolute_percentage_error(y_test,y_pred))

MAPE :  0.6789087709628866


**5) R2-Score**

In [28]:
# 모듈 불러오기
from sklearn.metrics import r2_score

# 성능 평가
print('R2 : ',r2_score(y_test,y_pred))

R2 :  0.6673645301519783


In [29]:
# 모듈 불러오기
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_percentage_error
from sklearn.metrics import r2_score

# 성능 평가
print('MAE : ',mean_absolute_error(y_test,y_pred))
print('MSE : ',mean_squared_error(y_test,y_pred))
print('RMSE : ',mean_squared_error(y_test,y_pred)**0.5)
print('MAPE : ',mean_absolute_percentage_error(y_test,y_pred))
print('R2 : ',r2_score(y_test,y_pred))

MAE :  13.377390093696068
MSE :  298.7074379241612
RMSE :  17.283154744552892
MAPE :  0.6789087709628866
R2 :  0.6673645301519783


In [8]:
test.tail()

Unnamed: 0.1,Unnamed: 0,Ozone,Solar.R,Wind,Temp,Month,Day
154,154,,275.0,7.4,86,7,29
155,155,,253.0,7.4,83,7,30
156,156,,254.0,9.2,81,7,31
157,157,,255.0,11.0,79,7,32
158,158,,256.0,12.8,77,7,33


In [11]:
test = pd.read_excel('test.xlsx')
test.drop(columns = 'Unnamed: 0', axis=1 ,inplace = True)
test.tail()

Unnamed: 0,Ozone,Solar.R,Wind,Temp,Month,Day
154,,275.0,7.4,86,7,29
155,,253.0,7.4,83,7,30
156,,254.0,9.2,81,7,31
157,,255.0,11.0,79,7,32
158,,256.0,12.8,77,7,33


In [14]:
test['Solar.R'].fillna(test['Solar.R'].mean() , inplace = True)
test.isna().sum()

Ozone      6
Solar.R    0
Wind       0
Temp       0
Month      0
Day        0
dtype: int64

In [23]:
test.fillna(method = 'ffill', inplace = True)

In [24]:
test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 159 entries, 0 to 158
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Ozone    159 non-null    float64
 1   Solar.R  159 non-null    float64
 2   Wind     159 non-null    float64
 3   Temp     159 non-null    int64  
 4   Month    159 non-null    int64  
 5   Day      159 non-null    int64  
dtypes: float64(3), int64(3)
memory usage: 7.6 KB


In [25]:
# 라이브러리 불러오기
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

%config InlineBackend.figure_format = 'retina'

In [26]:
# target 확인
target = 'Ozone'

# 데이터 분리
x = test.drop(target, axis=1)
y = test[target]

# 모듈 불러오기
from sklearn.model_selection import train_test_split

# 7:3으로 분리
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=2022)  

In [27]:
# 1단계: 불러오기
from sklearn.linear_model import LinearRegression

# 2단계: 선언하기
model = LinearRegression()

# 3단계: 학습하기
model.fit(x_train, y_train)

# 4단계: 예측하기
y_pred = model.predict(x_test)


In [35]:
df_tmp = pd.DataFrame(y_pred)
df_tmp.columns = ['y_pred']
df_tmp.head()

Unnamed: 0,y_pred
0,-21.678048
1,68.130512
2,47.385517
3,53.043584
4,62.421545


In [36]:
df_tmp['y_test']= pd.DataFrame(y_test)
df_tmp

Unnamed: 0,y_pred,y_test
0,-21.678048,41.0
1,68.130512,36.0
2,47.385517,
3,53.043584,
4,62.421545,
5,76.04477,28.0
6,41.179282,23.0
7,55.220064,
8,15.47491,8.0
9,-28.752062,


In [30]:
print(x_test)

     Solar.R  Wind  Temp  Month  Day
17      78.0  18.4    57      5   18
155    253.0   7.4    83      7   30
115    212.0   9.7    79      8   24
43     148.0   8.0    82      6   13
30     279.0   7.4    76      5   31
68     267.0   6.3    92      7    8
158    256.0  12.8    77      7   33
99     229.0  10.3    90      8    8
22      25.0   9.7    61      5   23
8       19.0  20.1    61      5    9
136     24.0  10.9    71      9   14
36     264.0  14.3    79      6    6
58      98.0  11.5    80      6   28
0      190.0   7.4    67      5    1
157    255.0  11.0    79      7   32
78     285.0   6.3    84      7   18
74     291.0  14.9    91      7   14
146     49.0  10.3    69      9   24
104    273.0  11.5    82      8   13
40     323.0  11.5    87      6   10
71     139.0   8.6    82      7   11
5      313.0  14.9    66      5    6
153    213.0   7.4    88      7   28
129    252.0  10.9    80      9    7
135    238.0   6.3    77      9   13
89     275.0   7.4    86      7   29
3