### 선형회귀 분석
- 프리미어리그 데이터(득점, 실점, 승점)
- 득점, 실점 -> 승점 예측 하는 모델
- scikit-learn 패키지
    - 데이터 마이닝 및 데이터 분석, 모델을 위한 도구
    - 상업적으로 사용이 가능한 오픈소스

In [2]:
import pickle
# 선형회귀 모델
from sklearn import linear_model
# 학습, 테스트 데이터 분리 모듈
from sklearn.model_selection import train_test_split
# 모델 평가지표
from sklearn.metrics import mean_absolute_error

#### 분석 절차
- 데이터 로드
- 데이터 전처리 : 
    - 독립변수와 종속변수를 나눠줌
    - 학습데이터와 테스트 데이터 분리
- 데이터 분석 : 선형회귀 모델 
- 성능평가 : MAE(Mean Absolute Error)
- 예측 코드 작성

In [5]:
# 1. 데이터 로드
p_df = pd.read_csv('datas/premierleague.csv')
p_df.head(3)

Unnamed: 0,name,gf,ga,points
0,Manchester City,106,27,100
1,Manchester United,68,28,81
2,Tottenham Hotspur,74,36,77


In [6]:
# 2. 데이터 전처리 : 독립변수, 종속변수 나누기

x_features = p_df[['gf','ga']]
y_target = p_df[['points']]

In [7]:
# 2. 데이터 전처리 : 학습 데이터, 테스트 데이터 나누기

X_train, X_test, y_train, y_test = train_test_split(x_features, y_target, test_size = 0.3, random_state = 1)

In [13]:
X_train.size, X_test.size

(28, 12)

In [14]:
# 3. 데이터 분석 : 선형 회귀 모델
lr_model = linear_model.LinearRegression()

In [15]:
# 모델 학습
lr_model.fit(X_train, y_train)

LinearRegression()

In [22]:
# test데이터 예측
pred = lr_model.predict(X_test)
pred

array([[80.88065736],
       [40.79778662],
       [50.9467527 ],
       [46.31419247],
       [76.04209484],
       [40.23228639]])

In [35]:
# 차원 축소 및 스케일 조정
pred = np.around(pred.flatten()).astype('int')
pred

array([81, 41, 51, 46, 76, 40])

In [41]:
# 4. 성능 평가 : MAE
mae = mean_absolute_error(y_test, pred)
print("MAE : ", np.round(mae,3))

MAE :  2.833


2.83 정도의 오차가 평균적으로 있다는 의미이다.

In [43]:
# 5. 예측 함수 작성

def make_df(gf, ga):
    return pd.DataFrame({'gf':[gf],
                       'ga':[ga]})

In [49]:
gf, ga = 80, 30
result = int(lr_model.predict(make_df(gf, ga)).flatten()[0])
result

83

모델은 RAM에 저장되므로 사용시 fit() 메소드를 이용해 재학습 시켜야 한다.
따라서 pickle 파일로 모델 객체를 저장하여 사용할 수 있다.

In [51]:
# pickle 파일로 모델 저장하기
# wb = write binary : 2진수로 저장

with open('datas/p_model.pkl', 'wb') as f:
    pickle.dump(lr_model, f)

In [52]:
# 모델을 로드해서 재사용 가능
# 모델 로드

with open('datas/p_model.pkl', 'rb') as f:
    load_model = pickle.load(f)
load_model

LinearRegression()

In [54]:
# load_model 사용

gf, ga = 80, 30
result = int(load_model.predict(make_df(gf, ga)).flatten()[0])
result

83