### 선형회귀 분석
- 프리미어리그 데이터(득점, 실점, 승점)
- 득점, 실점 -> 승점을 예측하는 모델
- scikit-learn 패키지
   - 데이터 마이닝 및 데이터 분석, 모델을 위한 도구
   - 상업적으로 사용이 가능한 오픈소스

In [47]:
# 파일을 저장하고 객체로 가져올떄 파이썬에서 사용해주는 모듈
# 안써도 가능하나, 쓰면 빠름
import pickle
# 선형회귀 모델
from sklearn import linear_model
# 학습 데이터와 테스트 데이터를 나눠주는 모듈
from sklearn.model_selection import train_test_split
# 모델을 평가해주는 모듈
from sklearn.metrics import mean_absolute_error

#### 분석절차
- 데이터 로드 : (득점, 실점, 승점)

- 데이터 전처리
    - 독립변수와 종속변수를 나눠줌 독립 - 득점, 실점, 종속 - 승점 
      (득점과 실점으로 승점을 예측하기 때문에)
    
- 데이터 분석 : 선형회귀 모델을 생성
    - 학습데이터와 테스트 데이터를 나눠줌 train_X, train_Y, test_X, test_Y
    - train X,Y를 가지고 모델을 만들고(학습) test_X를 모델에 대입하여 pred_y를 만듬

- 성능 평가 : MAE (민 앱솔루트 에러)
    - 모델로 생성된 pred_Y로 test_Y랑 실제로 비교함
    
- 예측 코드 작성

In [7]:
# 1. 데이터 로드
p_df = pd.read_csv("datas/premierleague.csv")
p_df.tail(2)

Unnamed: 0,name,gf,ga,points
18,Stoke City,35,68,33
19,West Bromwich Albion,31,56,31


In [10]:
# 2. 데이터 전처리 1) 독립변수, 종속변수 나누기
df_x = p_df[["gf", "ga"]]
df_y = p_df[["points"]]

In [13]:
# 2. 데이터 전처리 2) 학습 데이터와 테스트 데이터로 나누기
train_x, test_x, train_y, test_y = train_test_split(
    df_x, df_y, test_size=0.3, random_state=1)

In [17]:
# 3. 데이터 분석 : 선형회귀 모델
model = linear_model.LinearRegression()
model

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [18]:
model.fit(train_x, train_y)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [19]:
# 4. 성능 평가 : MAE (민 앱솔루트 에러)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [20]:
pred_y = model.predict(test_x)
pred_y

array([[80.88065736],
       [40.79778662],
       [50.9467527 ],
       [46.31419247],
       [76.04209484],
       [40.23228639]])

In [21]:
test_y["points"].values

array([75, 36, 54, 44, 77, 40], dtype=int64)

In [30]:
# 소수점 제거 = aorund()
# 차원 축소 = flatten()
# int로 타입 변경 = astype("int")
pred_y = np.around(pred_y.flatten()).astype("int")
pred_y

array([81, 41, 51, 46, 76, 40])

In [31]:
# mae 는 수치가 낮을수록 좋은듯?
mae = mean_absolute_error(test_y, pred_y)
mae

2.8333333333333335

In [33]:
# 소수점 2자리까지 출력
round(mae,2 )

2.83

In [38]:
# 5. 예측 함수
# 예측 함수를 사용하여, 예측 모델이 제대로 작동하는지 확인

def make_df(gf,ga) :
    return pd.DataFrame({"gf" : [gf], "ga" : [ga]})

In [39]:
# 예측모델의 작동 확인, make_df 함수를 model.predict으로 예측한 뒤 
gf, ga = 78, 30
result =model.predict(make_df(gf, ga))
result

array([[82.28128127]])

In [44]:
# flatten()으로 1차원 축소 후 [0]번째 데이터를 int로 형변환, 사실 0번째 데이터만 따로 안골라도 답은 똑같이 나옴
result =int(model.predict(make_df(gf, ga)).flatten()[0])
result

82

In [52]:
# 6. model의 save, load
# ram에 저장되어있는 model의 fit이 오래걸릴수 있으므로 pickle파일로 model을 저장함
# wb 는 라이트 바이러니
with open("datas/p_model.pkl", "wb") as f:
    pickle.dump(model, f)

In [53]:
# model의 로드
# rb는 read 바이러니
with open("datas/p_model.pkl", "rb") as f:
    load_model = pickle.load(f)

In [54]:
# load확인, load된 모델로 다시 예측함수로 확인
gf = 80
ga = 30
result =int(load_model.predict(make_df(gf, ga)).flatten()[0])
result

83