# 로지스틱 회귀분석
* 로지스틱 회귀분석은 1로 설정한 범주형 변수가 나타날 확률을 나타내는 것
* .map({사전})을 활용해서 더미변수를 지정해주어야 한다
* Pseudo R-squ과 aic / bic를 활용해서 적합도 확인 가능

In [109]:
from statsmodels.formula.api import logit
from  statsmodels.formula.api import ols
import pandas as pd

In [34]:
df = pd.read_excel('small_used_car.xlsx')
df.head(1)

Unnamed: 0,mileage,model,price,year,my_car_damage,other_car_damage
0,63608,K3,970,2017,0,564596


In [35]:
df['md'] = df['model'].map({'K3':1, 'Avante': 0})
df.head(5)

Unnamed: 0,mileage,model,price,year,my_car_damage,other_car_damage,md
0,63608,K3,970,2017,0,564596,1
1,69336,K3,1130,2015,1839700,1140150,1
2,36000,K3,1380,2016,446520,2244910,1
3,19029,K3,1390,2017,889000,4196110,1
4,97090,K3,760,2015,2339137,2029570,1


In [102]:
res = logit('md ~ mileage + price + year', df).fit()
res.summary()

Optimization terminated successfully.
         Current function value: 0.539595
         Iterations 7


0,1,2,3
Dep. Variable:,md,No. Observations:,274.0
Model:,Logit,Df Residuals:,270.0
Method:,MLE,Df Model:,3.0
Date:,"Fri, 23 Oct 2020",Pseudo R-squ.:,0.04383
Time:,19:51:41,Log-Likelihood:,-147.85
converged:,True,LL-Null:,-154.63
Covariance Type:,nonrobust,LLR p-value:,0.003578

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
Intercept,-643.2888,215.572,-2.984,0.003,-1065.801,-220.776
mileage,-4.779e-06,4.93e-06,-0.969,0.332,-1.44e-05,4.89e-06
price,-0.0016,0.001,-1.827,0.068,-0.003,0.000
year,0.3198,0.107,2.980,0.003,0.109,0.530


In [103]:
# Pseudo R-squ와 동일하다
res.prsquared*100

4.3831781198843345

In [104]:
# aic와 bic는 이렇게도 구할 수 있다

res.aic

303.69828531628326

# 예측
* 로지스틱 회귀분석 예측결과를 확률로 알 수 있고, 이 확률을 문턱값과 비교해서 로지스틱 회귀분석이 맞는지 틀리는지 확인

In [37]:
import numpy as np

In [38]:
prob = res.predict(df)
prob

# 1로 설정한 K3일 확률이 각 차에 대해 아래와 같다

0      0.476482
1      0.266082
2      0.282609
3      0.366676
4      0.363306
         ...   
269    0.039457
270    0.103207
271    0.054605
272    0.091657
273    0.059491
Length: 274, dtype: float64

In [133]:
# 확률을 가지고 기준값과 비교를 해야한다
# 0.3이 확률의 기준값이고 기준에 맞으면 1, 아니면 0

prediction = np.where(prob > 0.3, 1, 0)
prediction

array([1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1,
       0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0,
       1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0,
       0, 0, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1,
       0, 1, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 0, 0,
       1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0,
       0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

# 혼동행렬

In [49]:
from sklearn.metrics import confusion_matrix

In [134]:
# 실제와 예측을 비교해주는 매트릭스를 만들어주는 것
# 141은 실제로도 0이고 예측도 0인경우, 64는 실제로는 0인데 K3로 예측된 것
# 38은 실제로는 K3인데 아반떼로, 31은 실제로 K3고 예측도 K3로 된 것

confusion_matrix(df['md'], prediction)

array([[141,  64],
       [ 38,  31]], dtype=int64)

# 우도, 로그우도

#### 위의 중고차 데이터에서 로그우도를 활용해 모델에서 구해진 파라미터(=기울기)가 도출되었을 때 우리가 가진 데이터가 나올 확률을 구하는 법
* 점진적 개선 (대입해보는 것)을 통한 로그우도 개선 방법

In [135]:
np.exp(-147.85)
# 6.2% 정도라는 것, 그리고 이게 최대로그우도이고, 그 때 도출되는 파라미터가 위의 기울기

6.159718291577813e-65

In [51]:
from scipy.optimize import minimize

In [64]:
def coin(p):
    print(p)
    # 중간에 어떤걸 대입하고 있는 것인지를 보기 위해서 print(p)해줌, 없어도 됨
    return -2*np.log(p)-np.log(1-p)

In [65]:
# minimize 함수밖에 없음, 따라서 minimize를 쓰기 위해 함수에 다 (-) 값을 붙여준 것
# x: array([0.66666704]) 요게 최대우도일 때의 파라미터

minimize(coin, x0=0.5, bounds =[(0.01,0.99)])

[0.5]
[0.50000001]
[0.99]
[0.98999999]
[0.68671295]
[0.68671296]
[0.66381664]
[0.66381665]
[0.66657652]
[0.66657653]
[0.66666704]
[0.66666705]


      fun: array([1.9095425])
 hess_inv: <1x1 LbfgsInvHessProduct with dtype=float64>
      jac: array([5.12923035e-06])
  message: b'CONVERGENCE: NORM_OF_PROJECTED_GRADIENT_<=_PGTOL'
     nfev: 12
      nit: 4
     njev: 6
   status: 0
  success: True
        x: array([0.66666704])

# 학습-테스트 데이터

In [69]:
from sklearn.model_selection import train_test_split

In [87]:
train_df, test_df = train_test_split(df, test_size = .2,random_state = 42)
# 20%를 테스트 데이터로 쓰겠다
# random_state은 똑같은 숫자를 설정해주면 돌릴때마다 다른 값이 나오는게 아니라 처음 돌렸던 값

In [90]:
train_df.shape

(219, 7)

In [77]:
test_df.shape

(55, 7)

In [137]:
res2 = ols('price ~ mileage', data = train_df).fit()

In [139]:
res3 = ols('price ~ mileage + year', data = train_df).fit()

In [142]:
# 여러 회귀모델을 만들어두고, test data로 나온 값을 실제 값 차이 (차의 제곱을 해주는 것은 마이너스 값이 되니까)구함
# 두 모델간 비교를 이렇게도 할 수도 있다는 것 (AIC BIC 비교하는 것과 비슷)

In [138]:
np.sum((res2.predict(test_df)-test_df['price'])**2)

4089758.3390101204

In [141]:
np.sum((res3.predict(test_df)-test_df['price'])**2) # 차이가 이게 더 크니까 mileage만 넣은 모델이 더 좋구만!

1443950.739222408