### 선형회귀 분석
- 데이터 : 프리미어리그 데이터(득점, 실점, 승점)
- 분석 : 득점, 실점 -> 승점 예측
- 패키지 : scikit-learn
    - 데이터 마이닝 및 데이터 분석 모델을 위한 도구
    - 상업적으로 사용이 가능한 오픈 소스

In [5]:
# 선형회귀 모델
from sklearn import linear_model
# 학습 데이터와 테스트 데이터 나눠주는 모듈
from sklearn.model_selection import train_test_split
# 모델을 평가해주는 모듈
from sklearn.metrics import mean_absolute_error

# 데이터 전처리
import pandas as pd
import numpy as np
import pickle

#### 분석 절차
1. 데이터 로드
2. 데이터 전처리 
    - 독립변수(샘플데이터)와 종속변수(결과데이터) 나누기
    - 학습 데이터와 테스트 데이터 나누기
3. 데이터 분석 : 선형회귀 모델
4. 성능평가 : MAE(Mean Absolute Error)
5. 예측 코드 작성

In [8]:
# 1. 데이터 로드
df_p = pd.read_csv("./datas/premierleague.csv")
df_p.tail(5)

Unnamed: 0,name,gf,ga,points
15,Huddersfield Town,28,58,37
16,Southampton,37,56,36
17,Swansea City,28,56,33
18,Stoke City,35,68,33
19,West Bromwich Albion,31,56,31


In [9]:
# 2. 데이터 전처리 1 : 독립변수, 종속변수 나누기

df_x = df_p[["gf", "ga"]]
df_y = df_p[["points"]]

In [11]:
# 2. 데이터 전처리 2 : 학습 데이터, 테스트 데이터 나누기
# test_size = df_x, df_y 중 테스트 데이터의 비율 입력 (예, 0.3 이라면 전체의 30%가 테스트 데이터로 추출)
# random_state = random.seed 값 지정
train_x, test_x, train_y, test_y = train_test_split(df_x, df_y, test_size=0.3, random_state=1)

In [13]:
len(train_x), len(test_x)

(14, 6)

In [16]:
# 3. 데이터 분석 : 선형회귀 모델
model = linear_model.LinearRegression()
model.fit(X=train_x, y=train_y)

LinearRegression()

In [24]:
# 4. 성능평가 : MAE 방식 사용
pred_y = model.predict(test_x)

In [26]:
pred_y = np.around(pred_y.flatten()).astype("int")
pred_y

array([81, 41, 51, 46, 76, 40])

In [21]:
test_y["points"].values

array([75, 36, 54, 44, 77, 40], dtype=int64)

In [30]:
# 약 2.83 정도의 오차로 예측 모델 성능 평가
mae = mean_absolute_error(y_true=test_y, y_pred=pred_y)
round(mae, 2)

2.83

In [32]:
# 5. 예측 함수
def make_df(gf, ga):
    # gf : 득점
    # ga : 실점
    return pd.DataFrame({"gf":[gf], "ga":[ga]})

In [38]:
gf, ga = 80, 30
result = model.predict(make_df(gf, ga))
result = int(result.flatten())
result

83

In [39]:
df_p

Unnamed: 0,name,gf,ga,points
0,Manchester City,106,27,100
1,Manchester United,68,28,81
2,Tottenham Hotspur,74,36,77
3,Liverpool,84,38,75
4,Chelsea,62,38,70
5,Arsenal,74,51,63
6,Burnley,36,39,54
7,Everton,44,58,49
8,Leicester City,56,60,47
9,Newcastle United,39,47,44
