### 선형 회귀 분석
- 프리미어리그 데이터(득점, 실점, 승점)
- 득점, 실점 -> 승점 예측 하는 모델
- sckit-learn 패키지
    - 데이터 마이닝 및 데이터 분석, 모델을 위한 도구
    - 상업적으로 사용이 가능한 오픈 소스

In [2]:
import pickle
import numpy as np
import pandas as pd
#선형 회귀 모델
from sklearn import linear_model

In [3]:
# 학습 데이터와 테스트 데이터를 나눠주는 모듈
from sklearn.model_selection import train_test_split
# 모델을 평가해주는 모델
from sklearn.metrics import mean_absolute_error

### 분석 절차
- 데이터 로드
- 데이터 전처리
    - 독립변수와 종속변수를 나눠줌
    - 학습 데이터와 테스트 데이터를 나눠줌
- 데이터 분석 : 선형회귀 모델
- 성능평가 : MAE 
- 예측 코드 작성

In [10]:
# 1. 데이터 로드
p_df = pd.read_csv('02_numpy_pandas/datas/premierleague.csv')

In [12]:
p_df.tail(2)

Unnamed: 0,name,gf,ga,points
18,Stoke City,35,68,33
19,West Bromwich Albion,31,56,31


In [14]:
#2. 데이터 전처리 1. 독립변수, 종속변수 나누기

df_x = p_df[['gf','ga']]
df_y = p_df[['points']]
            

In [15]:
# 2. 데이터 전처리 2: 학습 데이터와 테스트 데이터로 나누기
train_x, test_x, train_y, test_y = train_test_split(df_x,df_y,
                                                    test_size=0.3,random_state=1)

In [18]:
len(train_x)

14

In [19]:
# 3. 데이터 분석 : 선형 회귀 모델
model = linear_model.LinearRegression()

In [20]:
model.fit(train_x, train_y)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [21]:
# 4. 성능 평가 : MAE

In [23]:
pred_y = model.predict(test_x)
pred_y

array([[80.88065736],
       [40.79778662],
       [50.9467527 ],
       [46.31419247],
       [76.04209484],
       [40.23228639]])

In [25]:
test_y['points'].values

array([75, 36, 54, 44, 77, 40], dtype=int64)

In [29]:
pred_y = np.around(pred_y.flatten()).astype('int')
pred_y

array([81, 41, 51, 46, 76, 40])

In [27]:
pred_y.flatten() # 차원축소

array([81., 41., 51., 46., 76., 40.])

In [31]:
mae = mean_absolute_error(test_y, pred_y)
mae # 오차율 확인

2.8333333333333335

In [32]:
round(mae, 2)

2.83

In [33]:
# 5. 예측 함수

def make_df(gf, ga):
    return pd.DataFrame({'gf':[gf], 'ga':[ga]})

In [38]:
gf, ga = 80, 30
result = int(model.predict(make_df(gf,ga)).flatten()[0])
result

83

In [39]:
p_df.head()

Unnamed: 0,name,gf,ga,points
0,Manchester City,106,27,100
1,Manchester United,68,28,81
2,Tottenham Hotspur,74,36,77
3,Liverpool,84,38,75
4,Chelsea,62,38,70


In [46]:
# 학습된 데이터가 파일형태로 저장됨
# pickle 파일로 모델 저장하기
with open('02_numpy_pandas/p_model.pkl','wb') as f:
    pickle.dump(model, f)

In [47]:
with open('02_numpy_pandas/p_model.pkl','rb') as f:
    load_model =pickle.load(f)

In [48]:
gf,ga = 80,30
result = int(load_model.predict(make_df(gf,ga)).flatten()[0])
result

83