In [99]:
# テストデータの登録
import pandas as pd
import numpy as np

data = pd.DataFrame({'性別': [1, 1, 0, 1, 0, 0, 1, 1, 0, 0],
                     '学生': [0, 0, 0, 0, 1, 0, 0, 1, 0, 1],
                     '滞在時間(秒)': [34, 28, 98, 70, 67, 23, 67, 56, 41, 90],
                     'ユーザー登録': [0, 0, 1, 0, 1, 0, 1, 1, 0, 1]},)
data

Unnamed: 0,性別,学生,滞在時間(秒),ユーザー登録
0,1,0,34,0
1,1,0,28,0
2,0,0,98,1
3,1,0,70,0
4,0,1,67,1
5,0,0,23,0
6,1,0,67,1
7,1,1,56,1
8,0,0,41,0
9,0,1,90,1


In [100]:
# ロジスティック回帰分析
from sklearn import linear_model
model = linear_model.LogisticRegression()

# 説明変数にユーザー登録以外を利用
X = data.drop("ユーザー登録", axis=1)
# 目的変数にユーザー登録を利用
Y = data['ユーザー登録'].values

# 予測モデルを作成
model.fit(X, Y)
print(pd.DataFrame({"説明変数":X.columns,
                    "result":model.coef_[0]}).sort_values(by='result'))

      説明変数    result
0       性別 -0.076838
2  滞在時間(秒)  0.111983
1       学生  0.644331


In [113]:
# statsmodelsを使ったロジスティック回帰分析
from sklearn.linear_model import LogisticRegression
import statsmodels.api as sm

# 説明変数にユーザー登録以外を利用
X = data[['性別', '学生', '滞在時間(秒)']]
# 目的変数にユーザー登録を利用
Y = data['ユーザー登録'].values

model = sm.Logit(Y, sm.add_constant(X))
result = model.fit(disp=0)
print('---サマリー---')
print(result.summary())

print('---対数オッズ---')
print(result.params)

print('---p値---')
print(result.pvalues)

print('---変数が1単位増加したとき、事象が発生する確率が何%に増加するか(量的評価)---')
print('滞在時間(秒):', 1 / (1 + np.exp(-result.params['滞在時間(秒)'])))
print('滞在時間(秒):', np.exp(result.params['滞在時間(秒)']) / (1 + np.exp(result.params['滞在時間(秒)'])))

print('---変数が1になると事象が発生する確率は、事象が発生しない確率の何倍か(質的評価)---')
print('性別:', np.exp(result.params['性別']))
print('学生:', np.exp(result.params['学生']))

---サマリー---
                           Logit Regression Results                           
Dep. Variable:                      y   No. Observations:                   10
Model:                          Logit   Df Residuals:                        6
Method:                           MLE   Df Model:                            3
Date:                Fri, 20 Mar 2020   Pseudo R-squ.:                  0.7610
Time:                        10:12:42   Log-Likelihood:                -1.6565
converged:                      False   LL-Null:                       -6.9315
Covariance Type:            nonrobust   LLR p-value:                   0.01443
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
const         -9.5614     10.745     -0.890      0.374     -30.622      11.499
性別             0.1543      5.170      0.030      0.976      -9.979      10.287
学生            22.7574   3.26e+04      0.0



In [68]:
1 / (1 + np.exp(-result.params['学生']))

0.9999999999537279