In [2]:
# 회귀는 독립변수로 종속변수를 예측하는 것
# 대표적으로는
    # 선형/비선형 회귀
    # 로지스틱 회귀
    # 의사결정나무 회귀 등이 있다.

**PART 03** 제2유형: 데이터 분석

> **CHAPTER 03** 지도학습 - 회귀(예측)
 > >**01 단순 선형 회귀분석을 이용한 예측 문제 해결**

In [3]:
# 독립변수는 상관관계를 분석해서 선택
# 분할은 8:2
# mpg 를 예측하는 모델 반들기
# 단순 선형 회귀를 모델로 사용
# 지표는 r2_score 사용 (클 수록 좋음)

In [4]:
# 기본
import pandas as pd
import numpy as np
import sklearn
# 시각화
import matplotlib.pyplot as plt
# 전처리
from sklearn.model_selection import train_test_split
# 모델
from sklearn.linear_model import LinearRegression
# 지표
from sklearn.metrics import r2_score

In [5]:
# auto_mpg 데이터 불러오기
df = pd.read_csv('C:/Engineer_Big_Data_Analysis/DATAS/이기적데이터/auto-mpg.csv')
df

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model-year
0,18.0,8,307.0,130.0,3504,12.0,70
1,15.0,8,350.0,165.0,3693,11.5,70
2,18.0,8,318.0,150.0,3436,11.0,70
3,16.0,8,304.0,150.0,3433,12.0,70
4,17.0,8,302.0,140.0,3449,10.5,70
...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.0,2790,15.6,82
394,44.0,4,97.0,52.0,2130,24.6,82
395,32.0,4,135.0,84.0,2295,11.6,82
396,28.0,4,120.0,79.0,2625,18.6,82


In [6]:
# 결측값 확인
print(df.isna().sum())
# 결측값 있는 행 떨구고
df.dropna(inplace=True)
print(df.isna().sum())

mpg             0
cylinders       0
displacement    0
horsepower      2
weight          0
acceleration    0
model-year      0
dtype: int64
mpg             0
cylinders       0
displacement    0
horsepower      0
weight          0
acceleration    0
model-year      0
dtype: int64


In [7]:
# 상관관계 분석
# df.corr(method=방법)으로 사용가능하고 피어슨 pearson 상관관계를 가장 많이 사용함
display(df.corr(method='pearson'))
# 결과에서 mpg와 상관관계가 절댓값으로 0.7이 넘어야 관계성이 있다고 판단
# 여러 독립변수 중 가장 상관성이 높은 weight를 독립변수로 사용하기로 결정

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model-year
mpg,1.0,-0.77568,-0.804711,-0.777575,-0.832725,0.421159,0.581144
cylinders,-0.77568,1.0,0.950706,0.843751,0.896058,-0.504844,-0.352554
displacement,-0.804711,0.950706,1.0,0.897787,0.932729,-0.542713,-0.37462
horsepower,-0.777575,0.843751,0.897787,1.0,0.86435,-0.687241,-0.420697
weight,-0.832725,0.896058,0.932729,0.86435,1.0,-0.415462,-0.311774
acceleration,0.421159,-0.504844,-0.542713,-0.687241,-0.415462,1.0,0.294588
model-year,0.581144,-0.352554,-0.37462,-0.420697,-0.311774,0.294588,1.0


In [8]:
# 데이터 준비
X = df[['weight']] # 독립변수는 여러개가 들어갈 수 있으므로 2차원으로 들어가야 함(Expected a 2-dimensional containe)
y = df['mpg']
# 8:2
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=10)
print(x_train.shape, x_test.shape)
print(y_train.shape, y_test.shape)

(316, 1) (80, 1)
(316,) (80,)


In [9]:
# 모델 생성
model = LinearRegression()
# 학습
model.fit(x_train, y_train)
# 최적의 선형 회귀식의 계수 a,b 확인
print(f'기울기 a:{model.coef_}')
print(f'y절편 b:{model.intercept_}')

기울기 a:[-0.00774371]
y절편 b:46.625018347980465


In [10]:
# 예측
y_pred = model.predict(x_test)
# 성능
r2 = r2_score(y_test, y_pred)
r2

0.7015633872576374

* 추가 작업) horsepower를 독립변수로 진행해보기

In [12]:
X = df[['horsepower']]
y = df['mpg']

x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=311)

model = LinearRegression()
model.fit(x_train, y_train)
y_pred = model.predict(x_test)
r2 = r2_score(y_test, y_pred)

r2

0.5863350936229577