### 선형회귀 분석
- 프리미어리그 데이터(득점, 실점, 승점)
- 득점, 실점 -> 승점 예측하는 모델
- scikit-earn 패키지
    - 데이터 마이닝 및 데이터 분석, 모델을 위한 도구
    - 상업적 사용이 가능한 오픈 소스

In [3]:
import pickle
# 선형회귀 모델
from sklearn import linear_model
# 학습 데이터와 테스트 데이터를 나눠주는 모델
from sklearn.model_selection import train_test_split
# 모델을 평가해주는 모델
from sklearn.metrics import mean_absolute_error

### 분석 절차
- 데이터 로드
- 데이터 전처리
    - 독립변수와 종속변수를 나눠줌
    - 학습 데이터와 테스트 데이터를 나눠줌
- 데이터 분석 : 선형 회귀 모델
- 성능 평가 : MAE
- 예측 코드 작성

In [5]:
# 1. 데이터 로드
p_df = pd.read_csv("datas/premierleague.csv")
p_df.tail(1)

Unnamed: 0,name,gf,ga,points
19,West Bromwich Albion,31,56,31


In [6]:
# 2. 데이터 전처리1 : 독립변수, 종속변수 나누기
df_x = p_df[["gf", "ga"]]
df_y = p_df[["points"]]

In [7]:
# 2. 데이터 전처리2 : 학습 데이터와 테스트 데이터로 나누기
train_x, test_x, train_y, test_y = train_test_split(df_x, df_y, test_size=0.3, random_state=1)
# 위부터 끊어주면 성적순으로 끊기기 때문에 random_state=1로 씨드 값 주는 것

In [8]:
len(train_x)

14

In [9]:
# 3. 데이터 분석 : 선형 회귀 모델
model = linear_model.LinearRegression() # 객체생성

In [10]:
# class tmp(linear_model.LinearRegression): tmp는 위의 기능이랑 추가된 기능도 같이 가지고 있다고 뭔 소리야...

In [11]:
model.fit(train_x, train_y) # 학습시키는 함수, 학습 결과는 객체 안에 저장됨

LinearRegression()

In [12]:
# 4. 성능 평가 : MAE(Mean Absolute Error)

In [13]:
pred_y = model.predict(test_x)
pred_y

array([[80.88065736],
       [40.79778662],
       [50.9467527 ],
       [46.31419247],
       [76.04209484],
       [40.23228639]])

In [14]:
test_y["points"].values
# 예측데이터 80, 실데이터75 순으로 때려맞췄음

array([75, 36, 54, 44, 77, 40], dtype=int64)

In [15]:
pred_y = np.around(pred_y.flatten()).astype("int")
# flatten() 차원을 축소시켜주는 함수
pred_y

array([81, 41, 51, 46, 76, 40])

In [16]:
mae = mean_absolute_error(test_y, pred_y)
round(mae, 2)

2.83

In [17]:
# 5. 예측 함수

def make_df(gf, ga):
    return pd.DataFrame({"gf":[gf], "ga":[ga]})

In [18]:
gf, ga = 80, 30
# Tottenham 이 승점 6점 더, 실점 6점 덜 했으면 83점 얻었을 거다를 예측
result = int(model.predict(make_df(gf, ga)).flatten()[0])
result

83

In [19]:
p_df.head()

Unnamed: 0,name,gf,ga,points
0,Manchester City,106,27,100
1,Manchester United,68,28,81
2,Tottenham Hotspur,74,36,77
3,Liverpool,84,38,75
4,Chelsea,62,38,70


In [24]:
# pickle 파일로 모델 저장하기/ 객체 저장할 때 피클로 저장하기!
with open("datas/p_model.pkl", "wb") as f:
    pickle.dump(model, f)
    # 저장 안 하면 매번 fit 해줘야 함

In [25]:
with open("datas/p_model.pkl", "rb") as f:
    load_model = pickle.load(f)

In [26]:
gf, ga = 80, 30
result = int(load_model.predict(make_df(gf, ga)).flatten()[0])
result

83