# 회귀분석

In [1]:
import time
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import statsmodels.formula.api as sm
from statsmodels.sandbox.regression.predstd import wls_prediction_std 

In [2]:
train= pd.read_csv('train.csv')

In [3]:
train = train.fillna(0)

In [4]:
# 회귀분석및 모델 훈련 결과를 얻기위해 필요한 컬럼만 남긴다
train = train [['assists', 'boosts', 'heals', 'damageDealt','DBNOs', 'kills', 'headshotKills', 'killStreaks','longestKill', 'rideDistance','walkDistance','weaponsAcquired', 'winPlacePerc']]

In [5]:
re = sm.ols(formula = 'winPlacePerc ~ assists+ boosts+ heals+ damageDealt+DBNOs+ kills+ headshotKills+ killStreaks+longestKill+ rideDistance+walkDistance+weaponsAcquired', data = train).fit()
re.summary()

0,1,2,3
Dep. Variable:,winPlacePerc,R-squared:,0.716
Model:,OLS,Adj. R-squared:,0.716
Method:,Least Squares,F-statistic:,205400.0
Date:,"Tue, 01 Sep 2020",Prob (F-statistic):,0.0
Time:,17:21:35,Log-Likelihood:,380830.0
No. Observations:,975959,AIC:,-761600.0
Df Residuals:,975946,BIC:,-761500.0
Df Model:,12,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,0.1661,0.000,526.496,0.000,0.165,0.167
assists,0.0103,0.000,32.641,0.000,0.010,0.011
boosts,0.0216,0.000,147.502,0.000,0.021,0.022
heals,0.0017,7.52e-05,23.116,0.000,0.002,0.002
damageDealt,0.0001,2.38e-06,56.991,0.000,0.000,0.000
DBNOs,-0.0244,0.000,-108.922,0.000,-0.025,-0.024
kills,-0.0016,0.000,-5.297,0.000,-0.002,-0.001
headshotKills,-0.0023,0.000,-6.102,0.000,-0.003,-0.002
killStreaks,0.0374,0.000,92.776,0.000,0.037,0.038

0,1,2,3
Omnibus:,88800.062,Durbin-Watson:,2.0
Prob(Omnibus):,0.0,Jarque-Bera (JB):,397114.763
Skew:,0.353,Prob(JB):,0.0
Kurtosis:,6.044,Cond. No.,5590.0


위 결과에서 R-squared 값은 71.6%로 설명력이 높으며 모형에 대한 p-value 또한 0.05보다 낮으므로 통계적으로 유의하다.

In [6]:
print(re.summary()) 

                            OLS Regression Results                            
Dep. Variable:           winPlacePerc   R-squared:                       0.716
Model:                            OLS   Adj. R-squared:                  0.716
Method:                 Least Squares   F-statistic:                 2.054e+05
Date:                Tue, 01 Sep 2020   Prob (F-statistic):               0.00
Time:                        17:21:35   Log-Likelihood:             3.8083e+05
No. Observations:              975959   AIC:                        -7.616e+05
Df Residuals:                  975946   BIC:                        -7.615e+05
Df Model:                          12                                         
Covariance Type:            nonrobust                                         
                      coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------------------------------------------------
Intercept           0.1661      0.000    5

## 모형 적합도
- R-squared: 0.716

 -  R제곱
 - 모형 적합도(혹은 설명력)
 - 승률의 분산을 각각의 컬림들이 약 71.6%를 설명한다
 - 각 사례마다 승률 차이가 있다.
<br>
<br>
- Adj. R-squared: 0.716

 - 독립변수가 여러 개인 다중회귀분석에서 사용
 - 독립변수의 개수와 표본의 크기를 고려하여 R-squared를 보정
 - 서로 다른 모형을 비교할 때는 이 지표가 높은 쪽은 선택한다
<br>
<br>
- F-statistic: 2.054e+05, Prob(F-statistic):  0.00

 - 회귀모형에 대한 (통계적) 유의미성 검증 결과, 유의미함 (p < 0.05)
 - 즉, 이 모형은 주어진 표본 뿐 아니라 모집단에서도 의미있는 모형이라 할 수 있음
 <br>
 <br>
- 로그 우도: 종속변수가 정규분포라 가정했을 때 그 우도

 - 로그우도도 R제곱과 마찬가지로 독립변수가 많아지면 증가한다
 - AIC, BIC: 로그우도를 독립변수의 수로 보정한 값 (작을 수록 좋다)

Coef는 데이터로부터 얻은 계수의 추정치를 말한다.

절편(Intercept)의 추정치는  0.1661로, speed가 0일 때 dist의 값이다.

- assists     계수 추정치는 0.0103  assists 1    증가할 때마다 dist가 0.0103  증가한다는 것을 의미한다.
- boosts      계수 추정치는 0.0216 boosts 1      증가할 때마다 dist가  0.0216 증가한다는 것을 의미한다.
- heals       계수 추정치는 0.0017 heals 1       증가할 때마다 dist가 0.0017  증가한다는 것을 의미한다.
- damageDealt 계수 추정치는 0.0001 damageDealt 1 증가할 때마다 dist가 0.0001  증가한다는 것을 의미한다.
- DBNOs       계수 추정치는 -0.0245 DBNOs  1        증가할 때마다 dist가 -0.0245    증가한다는 것을 의미한다.
- kills       계수 추정치는  -0.0015  speed가 1       증가할 때마다 dist가  -0.0015     증가한다는 것을 의미한다.
- headshotKills      계수 추정치는 -0.0022 speed가 1       증가할 때마다 dist가 -0.0022    증가한다는 것을 의미한다.
- killStreaks      계수 추정치는 0.0374  speed가 1       증가할 때마다 dist가 0.0374     증가한다는 것을 의미한다.
- longestKill       계수 추정치는 8.299e-05 speed가 1       증가할 때마다 dist가 8.299e-05    증가한다는 것을 의미한다.
- rideDistance        계수 추정치는 1.218e-05 speed가 1       증가할 때마다 dist가 1.218e-05    증가한다는 것을 의미한다.
- walkDistance       계수 추정치는 0.0002 speed가 1       증가할 때마다 dist가 0.0002    증가한다는 것을 의미한다.
- weaponsAcquired        계수 추정치는  0.0203 speed가 1       증가할 때마다 dist가  0.0203    증가한다는 것을 의미한다.
<br>

**회귀분석을 실시한 결과, train 데이터의 컬럼의 P-vlaue의 값들은 0.000이기 때문에 회귀모형은 통계적으로 유의미하였다(p < 0.05).**

## 모델 만들기 

In [7]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
print(tf.__version__)

2.2.0


In [8]:
def build_model():
    model = keras.Sequential([
    layers.Dense(64, activation='relu', input_shape=[len(train.keys())]),
    layers.Dense(64, activation='relu'),
    layers.Dense(1)
  ])

    optimizer = tf.keras.optimizers.RMSprop(0.001)

    model.compile(loss='mse',
                optimizer=optimizer,
                metrics=['mae', 'mse'])
    return model

In [9]:
build_model()

<tensorflow.python.keras.engine.sequential.Sequential at 0x1fa88512f08>

In [10]:
model = build_model()

## 모델 확인

In [11]:
model.summary()

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_3 (Dense)              (None, 64)                896       
_________________________________________________________________
dense_4 (Dense)              (None, 64)                4160      
_________________________________________________________________
dense_5 (Dense)              (None, 1)                 65        
Total params: 5,121
Trainable params: 5,121
Non-trainable params: 0
_________________________________________________________________


In [12]:
example_batch = train[:10]
example_result = model.predict(example_batch)
example_result

array([[  9.951249 ],
       [ 12.329904 ],
       [  3.8231533],
       [  6.681641 ],
       [  1.3682511],
       [ 16.246046 ],
       [ 93.01383  ],
       [100.917786 ],
       [ 53.02483  ],
       [  8.213918 ]], dtype=float32)

## 모델 훈련 >> 선형회귀 모델

In [13]:
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
boston = load_boston()

In [14]:
x = train.iloc[:,:-1]
y = train.iloc[:,-1]

In [15]:
x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.3, random_state =12)

In [16]:
import sklearn
from sklearn import linear_model
from sklearn.linear_model import LinearRegression

In [17]:
lr = LinearRegression()

In [18]:
lr.fit(x_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [19]:
print('훈련 세트 점수 : {:.8f}'.format(lr.score(x_train, y_train)))

훈련 세트 점수 : 0.71582186


In [20]:
print('테스트 세트 점수:{:.8f}'.format(lr.score(x_test, y_test)))

테스트 세트 점수:0.71753098


## 적합도 검증

In [21]:
X = train[['assists', 'boosts', 'heals', 'damageDealt', 'DBNOs', 'kills',
       'headshotKills', 'killStreaks', 'longestKill', 'rideDistance',
       'walkDistance', 'weaponsAcquired']]                   
# 독립변수들을 따로 변수에 저장. "data"데이터 프레임 안에 독립변수 "x1"과 "x2"를 "X"라는 변수에 저장.

y = train['winPlacePerc']

In [22]:
linear_regression = linear_model.LinearRegression()
linear_regression.fit(X = pd.DataFrame(X), y = y)
prediction = linear_regression.predict(X = pd.DataFrame(X))
print('a value = ', linear_regression.intercept_)
print('b value = ', linear_regression.coef_)

a value =  0.1660504844392902
b value =  [ 1.03076162e-02  2.16060661e-02  1.73840624e-03  1.35755290e-04
 -2.43997448e-02 -1.59734897e-03 -2.29412127e-03  3.74410242e-02
  8.34484193e-05  1.21737102e-05  1.50851522e-04  2.03435692e-02]


In [23]:
# 적합도 검증 - 잔차

residuals = train["winPlacePerc"] - prediction
residuals.describe()

count    9.759590e+05
mean     4.435277e-17
std      1.637935e-01
min     -4.702035e+00
25%     -1.203090e-01
50%     -1.022598e-02
75%      1.018960e-01
max      8.547149e-01
Name: winPlacePerc, dtype: float64

In [24]:
# 적합도 검증 - 결정계수

SSE = (residuals**2).sum()
SST = ((y-y.mean())**2).sum()
R_squared = 1 - (SSE/SST)
print('R_squared = ', R_squared)

R_squared =  0.7163372016717134


R_squared는 71.6%는 독립변수들이 종속변수에 상당한 영향을 주는 것을 말한다.