### 선형회귀 분석
- 프리미어리그 데이터(득점, 실점, 승점)
- 득점, 실점 -> 승점 예측 하는 모델
- scikit-learn 패키지
    - 데이터 마이닝 및 데이터 분석, 모델을 위한 도구
    - 상업적으로 사용이 가능한 오픈소스

In [7]:
import pickle
# 선형회귀 모델
from sklearn import linear_model
# 학습 데이터와 테스트 데이터를 나눠주는 모듈
from sklearn.model_selection import train_test_split
# 모델을 평가해주는 모듈
from sklearn.metrics import mean_absolute_error
import pandas as pd
import numpy as np

#### 분석 절차
- 데이터 로드
- 데이터 전처리
    - 독립변수와 종속변수를 나눠줌
    - 학습 데이터와 테스트 데이터를 나눠줌
- 데이터 분석 : 선형회귀 모델
- 성능평가 : MAE
- 예측 코드 작성

In [9]:
# 1. 데이터 로드
p_df = pd.read_csv("data/premierleague.csv")
p_df.tail(1)

Unnamed: 0,name,gf,ga,points
19,West Bromwich Albion,31,56,31


In [22]:
p_df

Unnamed: 0,name,gf,ga,points
0,Manchester City,106,27,100
1,Manchester United,68,28,81
2,Tottenham Hotspur,74,36,77
3,Liverpool,84,38,75
4,Chelsea,62,38,70
5,Arsenal,74,51,63
6,Burnley,36,39,54
7,Everton,44,58,49
8,Leicester City,56,60,47
9,Newcastle United,39,47,44


In [23]:
# 2. 데이터 전처리 1 : 독립변수, 종속변수 나누기
df_x = p_df[["gf","ga"]]
df_y = p_df[["points"]]

In [24]:
# 2. 데이터 전처리 2 : 학습 데이터와 테스트 데이터로 나누기
train_x, test_x, train_y, test_y = train_test_split(
    df_x, df_y, test_size=0.2, random_state=1234)

In [25]:
# 3. 데이터 분석 : 선형 회귀 모델
model = linear_model.LinearRegression()

In [26]:
model.fit(train_x, train_y)

LinearRegression()

In [27]:
# 4. 성능 평가 : MAE

In [28]:
pred_y = model.predict(test_x)
pred_y

array([[80.7291084 ],
       [39.48577501],
       [76.20087983],
       [40.80603755]])

In [29]:
test_y["points"].values

array([75, 41, 77, 36])

In [30]:
pred_y = np.around(pred_y.flatten()).astype("int")
pred_y

array([81, 39, 76, 41])

In [31]:
mae = mean_absolute_error(test_y, pred_y)
round(mae, 2)

3.5

In [25]:
# 5. 예측 함수
def make_df(gf, ga):
    return pd.DataFrame({"gf":[gf], "ga":[ga]})

In [34]:
gf, ga = 80, 30
result = int(model.predict(make_df(gf, ga)).flatten()[0])
result

83

In [36]:
# 6. pickle 파일로 모델 저장하기
with open("datas/p_model.pkl", "wb") as f:
    pickle.dump(model, f)

In [37]:
with open("datas/p_model.pkl", "rb") as f:
    load_model = pickle.load(f)

In [38]:
gf, ga = 80, 30
result = int(load_model.predict(make_df(gf, ga)).flatten()[0])
result

83

In [39]:
load_model

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)