In [None]:
%config InlineBackend.figure_formats = {'png', 'retina'}
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import pickle
import warnings
warnings.filterwarnings('ignore')

### 다중회귀분석
- 프리미어리그 데이터
- MAE 
    - 득점 : 5.5
    - 실점 : 8.05

In [None]:
# 1. 데이터 로드

In [None]:
with open("./data/premierleague.pkl", "rb") as file:
    datas = pickle.load(file)
df = pd.DataFrame(datas, columns=["name", "gf", "ga", "points"])
df.tail(2)

In [None]:
# 2. 데이터 전처리 : feature, target

In [None]:
feature = df[["gf", "ga"]]
target = df["points"]

In [None]:
# 3. 모델 학습

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
%%time
model = LinearRegression().fit(feature, target)

In [None]:
# 4. 모델 평가 : MAE

In [None]:
from sklearn.metrics import mean_absolute_error

In [None]:
# 득점 : 5.5, 실점 : 8.05
pred = np.round(model.predict(feature))
mae = mean_absolute_error(target, pred)
mae

In [None]:
# 5. 모델 사용
# 토트넘이 득점을 10점 더 하면 맨유를 앞지를수 있었을까?
# 토트넘 : 77, 맨유 : 81

In [None]:
df.head(3)

In [None]:
sample_data = feature.loc[2:2]
sample_data = sample_data.reset_index(drop=True)
sample_data["gf"] = 84
# sample_data["ga"] = 31
sample_data

In [None]:
np.round(model.predict(sample_data))

In [None]:
# 회귀계수확인 : y = 56.9 + 0.57 * x1 - 0.67 * x2

In [None]:
model.intercept_, model.coef_

In [None]:
# 6. 모델 저장 : RAM > HD

In [None]:
# 모델 저장
with open("./data/model.pkl", "wb") as file:
    pickle.dump(model, file)

In [None]:
%ls datas

In [None]:
# 모델 로드
with open("./data/model.pkl", "rb") as file:
    load_model = pickle.load(file)

In [None]:
# 로드 모델 사용
np.round(load_model.predict(sample_data))

In [None]:
# 7. statsmodels 패키지 사용 : 회귀분석 요약표 확인
# statsmodels : 더 자세하고 디테일하게 설정 및 모델 학습 결과 요약표를 확인 : 코드 사용이 조금 더 복잡
# sklearn : 코드가 간단 : 요약표와 같은 기능을 제공 X

In [None]:
import statsmodels.api as sm

In [None]:
df = pd.read_csv("./data/premierleague.csv")
df.tail(2)

In [None]:
# 데이터 전처리 : feature에 상수항 추가
feature = df[["gf","ga"]]
target = df["points"]
sm_feature = sm.add_constant(feature) 
sm_feature.tail(2)

In [None]:
# 모델 학습

In [None]:
model = sm.OLS(target, sm_feature).fit()

In [None]:
# 요약표 확인

In [None]:
# y = 56.9 + 0.57 * x1 - 0.67 * x2
print(model.summary())

In [None]:
# 모델 사용

In [None]:
model.params

In [None]:
pred = np.round(np.dot(sm_feature, model.params))
pred[:5]

In [None]:
mean_absolute_error(target, pred)