# 지도학습 - 단순선형 회귀분석을 이용한 예측 문제 해결

한개의 종속변수(y)와 한 개의 독립변수(x)로 구성되는 선형회귀이다.

- 회귀선은 회귀모델을 1차 함수식으로 만들어주는 역할을 하며, 단순 선형 회귀는 기울기 a와 절편b가 회귀계수이다.
## y=ax+b

- 실제값과 회귀모델에 의해 예측한 값과 차이를 잔차(오류)라고 하며 잔차의 합이 최소가 되는 최적의 회귀 계수를 찾아내는 것이 회귀모델의 목표이다.

- 잔차는 + 또는 -가 될 수 있기 때문에, 잔차의 제곱의 합을 최소로하는 최소제곱법을 이용하여 잔차의 합이 최소가 되는 모델을 만든다.

In [1]:
# 단순선형회귀 분석

import numpy as np
import pandas as pd
import sklearn
import matplotlib.pyplot as plt

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

In [2]:
df = pd.read_csv("https://raw.githubusercontent.com/YoungjinBD/dataset/main/auto-mpg.csv")

In [3]:
df # 종속변수: mpg , 독립변수 후보: 나머지 6개 컬럼

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model-year
0,18.0,8,307.0,130.0,3504,12.0,70
1,15.0,8,350.0,165.0,3693,11.5,70
2,18.0,8,318.0,150.0,3436,11.0,70
3,16.0,8,304.0,150.0,3433,12.0,70
4,17.0,8,302.0,140.0,3449,10.5,70
...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.0,2790,15.6,82
394,44.0,4,97.0,52.0,2130,24.6,82
395,32.0,4,135.0,84.0,2295,11.6,82
396,28.0,4,120.0,79.0,2625,18.6,82


### corr 상관계수 파악하기

- 상관계수는 0.7이 넘으면 강한 양의 상관관계이며, -0.7 이하이면 강한 음의 상관관계이다.

- 상위 4개의 컬럼이 mpg와 상관관계가 있음을 알 수 있다.
- 6개의 변수 중에서 mpg와 weight사이에 강한 음의 상관관계가 있음을 알 수 있어, 이 두변수로 선형회귀모델을 만들어볼 수 있다.

In [4]:
corr = df.corr(method ='pearson')
print(corr)

                   mpg  cylinders  displacement  horsepower    weight  \
mpg           1.000000  -0.775396     -0.804203   -0.777575 -0.831741   
cylinders    -0.775396   1.000000      0.950721    0.843751  0.896017   
displacement -0.804203   0.950721      1.000000    0.897787  0.932824   
horsepower   -0.777575   0.843751      0.897787    1.000000  0.864350   
weight       -0.831741   0.896017      0.932824    0.864350  1.000000   
acceleration  0.420289  -0.505419     -0.543684   -0.687241 -0.417457   
model-year    0.579267  -0.348746     -0.370164   -0.420697 -0.306564   

              acceleration  model-year  
mpg               0.420289    0.579267  
cylinders        -0.505419   -0.348746  
displacement     -0.543684   -0.370164  
horsepower       -0.687241   -0.420697  
weight           -0.417457   -0.306564  
acceleration      1.000000    0.288137  
model-year        0.288137    1.000000  


In [5]:
df = df.dropna(axis=0)

In [6]:
X= df[['mpg']]
y=df['weight']

In [7]:
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size = 0.2)

In [8]:
lr = LinearRegression()
lr.fit(X_train,y_train)

In [9]:
print('기울기 a:',lr.coef_)
print('y절편:',lr.intercept_)

기울기 a: [-88.594764]
y절편: 5037.273274460682


In [10]:
pred = lr.predict(X_test)

In [11]:
# 회귀분석은 결정계수 (R2) 사용
from sklearn.metrics import r2_score

score = r2_score(y_test,pred)
print(score)

0.7418399503076643


In [12]:
# 학습데이터 셋을 대상으로 학습의 정확도를 알 수 있다.

pred= lr.predict(X_train)
score = r2_score(y_train,pred)
print(score)

0.677958000799183


# 다중 선형회귀 분석을 이용한 예측

- 하나가 아닌 여러 개의 독립변수를 사용한 회귀분석이다.

- 독립변수(x)가 2개 이상이고 종속변수(y)가 하나인 선형회귀분석이다.


In [23]:
import numpy as np
import pandas as pd
import sklearn

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

In [24]:
df = pd.read_csv("https://raw.githubusercontent.com/YoungjinBD/dataset/main/housing.csv")
df

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY
...,...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,INLAND
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,INLAND
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7000,92300.0,INLAND
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND


In [25]:
df = df.dropna()

In [26]:
# 범주형 값은 분석에서 제외
df = df.drop(columns='ocean_proximity',axis=1)
df

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0
...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7000,92300.0
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0


In [27]:
corr = df.corr(method ='pearson')
print(corr)

                    longitude  latitude  housing_median_age  total_rooms  \
longitude            1.000000 -0.924616           -0.109357     0.045480   
latitude            -0.924616  1.000000            0.011899    -0.036667   
housing_median_age  -0.109357  0.011899            1.000000    -0.360628   
total_rooms          0.045480 -0.036667           -0.360628     1.000000   
total_bedrooms       0.069608 -0.066983           -0.320451     0.930380   
population           0.100270 -0.108997           -0.295787     0.857281   
households           0.056513 -0.071774           -0.302768     0.918992   
median_income       -0.015550 -0.079626           -0.118278     0.197882   
median_house_value  -0.045398 -0.144638            0.106432     0.133294   

                    total_bedrooms  population  households  median_income  \
longitude                 0.069608    0.100270    0.056513      -0.015550   
latitude                 -0.066983   -0.108997   -0.071774      -0.079626   
housing_

In [30]:
X= df.drop(columns='median_house_value',axis=1)
y= df['median_house_value']

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2)

In [31]:
lr = LinearRegression()
lr.fit(X_train,y_train)

In [33]:
print('기울기:',lr.coef_)
print('y절편:',lr.intercept_)

기울기: [-4.24628950e+04 -4.23377156e+04  1.14332107e+03 -7.75451123e+00
  1.11586857e+02 -3.76025119e+01  4.67708169e+01  4.02210338e+04]
y절편: -3559718.326412006


### 일반적인 기준

| R² 값           | 해석                                      |
| -------------- | --------------------------------------- |
| **> 0.9**      | 매우 높은 설명력 (정밀한 예측이 중요한 과학·공학 분야 등에서 기대) |
| **0.7 \~ 0.9** | 꽤 좋은 설명력, 실무에서 신뢰 가능                    |
| **0.5 \~ 0.7** | 보통 수준, 설명력은 있으나 예측력은 다소 낮을 수 있음         |
| **< 0.5**      | 낮은 설명력, 다른 변수나 모델이 필요할 수 있음             |

하지만 이 수치는 어느 상황이냐에 따라 해석이 다를수 있음.

In [36]:
pred =lr.predict(X_test)

from sklearn.metrics import r2_score
score = r2_score(y_test,pred)
print(score)

0.6390651802303948


# 의사결정나무를 활용한 예측문제 해결

- 의사결정을 위한 규칙을 나무 모양으로 조합하여 목표변수(종속변수)에 대한 예측을 수행하는 기법

- 이전에 학습한 분류 기능과 다르게 각 항목에서 범주를 예측하는 것이 아니라 어떠한 값 자체를 예측하는 것이며, 의사결정나무를 학습하는 것은 최종적으로 회귀나무를 구축하는 과정이다.

- 수치데이터와 범주데이터 모두 사용이 가능하다.
- 과대적합의 가능성이 높기 때문에 학습 모델이 과대적합(또는 과소적합) 되지 않도록 적절히 조절되어야 한다.

In [37]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split

In [40]:
dtr = DecisionTreeRegressor(max_depth=3)
dtr.fit(X_train,y_train)

In [41]:
pred = dtr.predict(X_test)

의사결정나무의 분석평가는 평균제곱오차(MSE)로 예측하여 정확도를 판단할 수 있다.
-> MSE값이 작을수록 모형의 예측 능력이 좋다고 할 수 있다.

In [42]:
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_test,pred)
print(mse)

6833543220.034736


# 랜덤포레스트를 이용한 예측 문제 해결

- 다수의 의사결정나무를 배깅하여 분류 또는 회귀하는 앙상블 기법이다.
- 각 트리는 전체 학습 데이터 중 서로 다른 데이터를 샘플링하여 일부 데이터를 제외한 후 최적의 특징을 찾아 트리를 분기한다.
- 모델의 편향을 증가시켜 과대적합의 위험을 감소시킨다.

In [44]:
from sklearn.ensemble import RandomForestRegressor

rfr = RandomForestRegressor(max_depth=3)
rfr.fit(X_train,y_train)

In [45]:
pred = rfr.predict(X_test)

In [46]:
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_test,pred)
print(mse)

6478358454.398837


In [47]:
# 앞의 의사결정나무보다 예측력이 개선되었음을 알 수 있다.