### 선형회귀 분석
- 프리미어리그 데이터(득점, 실점, 승점)
- 득점, 실점 -> 승점 예측하는 모델
- sckit-learn 패키지
        - 데이터 마이닝 및 데이터 분석 모델을 위한 도구 
        - 상업적으로 사용이 가능한 오픈소스

In [16]:
import pickle
# 선형회귀 모델
from sklearn import linear_model
# 학습 데이터와 테스트 데이터를 나눠주는 모듈
from sklearn.model_selection import train_test_split
# 모델을 평가해주는 모듈
from sklearn.metrics import mean_absolute_error

#### 분석 절차 
- 데이터 로드
- 데이터 전처리
    - 독립변수와 종속변수를 나눠줌
    - 학습데이터와 테스트데이터를 나눠줌
- 데이터 분석 : 선형회귀 모델
- 성능평가 : MAE
- 예측코드 작성

In [12]:
# 1. 데이터 로드
p_df = pd.read_csv("02_numpy_pandas/data/premierleague.csv")
p_df.tail()

Unnamed: 0,name,gf,ga,points
15,Huddersfield Town,28,58,37
16,Southampton,37,56,36
17,Swansea City,28,56,33
18,Stoke City,35,68,33
19,West Bromwich Albion,31,56,31


In [14]:
# 2. 데이터 전처리 1 : 독립변수 종속변수 나누기
df_x = p_df[["gf", "ga"]]
df_y = p_df[["points"]]

In [17]:
# 2. 데이터 전처리 2 : 학습데이터와 테스트 데이터로 나누기
train_x, test_x, train_y, test_y = train_test_split(
    df_x, df_y, test_size=0.3, random_state=1)

In [21]:
# 3. 데이터 분석 : 선형회귀 모델
model = linear_model.LinearRegression()

In [22]:
model.fit(train_x, train_y)

LinearRegression()

In [23]:
# 4. 성능 평가 : MAE(Mean Absolute Error - 각 차이의 절댓값)
pred_y = model.predict(test_x)

In [29]:
pred_y

array([[80.88065736],
       [40.79778662],
       [50.9467527 ],
       [46.31419247],
       [76.04209484],
       [40.23228639]])

In [33]:
pred_y = np.around(pred_y.flatten()).astype("int")
pred_y

array([81, 41, 51, 46, 76, 40])

In [26]:
test_y["points"].values

array([75, 36, 54, 44, 77, 40])

In [35]:
mae = mean_absolute_error(test_y, pred_y)
round(mae, 2)  # 2.83정도의 오차가 있다는 뜻.

2.83

In [37]:
# 5. 예측 함수
# pred함수가 df에 넣어줘야 동작이 됨.
def make_df(gf, ga):
    return pd.DataFrame({"gf": [gf], "ga": [ga]})

In [45]:
gf, ga = 78, 30
result = int(model.predict(make_df(gf, ga)).flatten())
result

82

In [46]:
p_df.head()

Unnamed: 0,name,gf,ga,points
0,Manchester City,106,27,100
1,Manchester United,68,28,81
2,Tottenham Hotspur,74,36,77
3,Liverpool,84,38,75
4,Chelsea,62,38,70


### 만든 모델을 파일로 저장
- pickle 파일로 저장
- pickle 이라는것 자체가 객체를 저장하고 가져올때 파이썬에서 사용하는 모듈

In [48]:
with open("pickle_file/p_model.pkl", "wb") as f:
    pickle.dump(model, f)

#### load 해보기

In [49]:
with open("pickle_file/p_model.pkl", "rb") as f:
    load_model = pickle.load(f)

In [50]:
gf, ga = 78, 30
result = int(model.predict(make_df(gf, ga)).flatten())
result

82