### 선형회귀 분석
- 프리미어리그 데이터(득점,실점,승점)
- 득점, 실점 -> 승점 예측하는 모델
- scikit-learn 패키지
    - 데이터 마이닝 및 데이터 분석, 모델을 위한 도구

In [2]:
import pickle
#선형회귀모델
from sklearn import linear_model
#학습 데이터와 테스트 데이터를 나눠주는 모듈
from sklearn.model_selection import train_test_split
#모델을 평가해주는 모듈
from sklearn.metrics import mean_absolute_error

### 분석 절차
- 데이터 로드
- 데이터 전처리
    - 독립변수와 종속변수를 나눠줌
    - 학습 데이터와 테스트 데이터
- 데이터 분석 : 선형휘귀 모델
- 성능평가 : MAE
- 예측 코드 작성

In [3]:
# 1. 데이터 로드
p_df = pd.read_csv("datas/premierleague.csv")
p_df.tail(1)

Unnamed: 0,name,gf,ga,points
19,West Bromwich Albion,31,56,31


In [6]:
# 2. 데이터 전처리: 독립,종속변수 나누기
df_x = p_df[["gf","ga"]]
df_y = p_df[["points"]]

In [7]:
# 2. 데이터 전처리: 학습,테스트 데이터 나누기
train_x, test_x, train_y, test_y = train_test_split(
    df_x,df_y,test_size=0.3,random_state=1)

In [10]:
# 3. 데이터 분석 : 선형 회귀 모델
model = linear_model.LinearRegression()

In [11]:
#학습
model.fit(train_x,train_y)

LinearRegression()

In [12]:
# 4. 성능 평가 : MAE(Mean Absolute Error)
pred_y=model.predict(test_x)
pred_y

array([[80.88065736],
       [40.79778662],
       [50.9467527 ],
       [46.31419247],
       [76.04209484],
       [40.23228639]])

In [13]:
test_y["points"].values

array([75, 36, 54, 44, 77, 40], dtype=int64)

In [17]:
#차원축소,정수변환
pred_y = np.around(pred_y.flatten()).astype("int")
pred_y

array([81, 41, 51, 46, 76, 40])

In [21]:
mae=mean_absolute_error(test_y,pred_y)
round(mae,2)

2.83

In [22]:
# 5. 예측 함수
def make_df(gf,ga):
    return pd.DataFrame({"gf":[gf],"ga":[ga]})

In [25]:
gf,ga=80,30
result= int(model.predict(make_df(gf,ga)).flatten()[0])
result

83

In [26]:
p_df.head()

Unnamed: 0,name,gf,ga,points
0,Manchester City,106,27,100
1,Manchester United,68,28,81
2,Tottenham Hotspur,74,36,77
3,Liverpool,84,38,75
4,Chelsea,62,38,70


In [28]:
# picle 파일로 모델 저장하기 - wb는 write binary
with open("datas/p_model.pkl","wb") as f:
    pickle.dump(model,f)

In [29]:
with open("datas/p_model.pkl","rb") as f:
    load_model=pickle.load(f)

In [30]:
gf,ga=80,30
result= int(load_model.predict(make_df(gf,ga)).flatten()[0])
result

83