### 解释逻辑回归的结果

在这个 notebook 与 测试题中，你将做一些解释逻辑回归系数的练习。在前面的视频中看到的内容，应该有助于你完成该 notebook 。

该数据集包含四个变量： `admit`、 `gre`、 `gpa` 与 `prestige`

* `admit` 是一个二元变量，它表明一个候选人是否被 UCLA 录取，录取=1，不被录取=0 。
* `gre` 代表 GRE 成绩，GRE 指的是研究生入学考试。
* `gpa` 代表平均学分绩点 （Grade Point Average）。
* `prestige` 代表申请人母校（此次申请之前申请人曾就读的学校）的声誉，其中1代表最高（声誉最高），4代表最低（没有声誉）。

首先，让我们导入必要的库和数据。

In [1]:
import numpy as np
import pandas as pd
import statsmodels.api as sm

df = pd.read_csv("./admissions.csv")
df.head()

  from pandas.core import datetools


Unnamed: 0,admit,gre,gpa,prestige
0,0,380,3.61,3
1,1,660,3.67,3
2,1,800,4.0,1
3,1,640,3.19,4
4,0,520,2.93,4


In [3]:
df[['prest_1', 'prest_2', 'prest_3','prest_4']] = pd.get_dummies(df['prestige'])
df.head()

Unnamed: 0,admit,gre,gpa,prestige,prest_1,prest_2,prest_3,prest_4
0,0,380,3.61,3,0,0,1,0
1,1,660,3.67,3,0,0,1,0
2,1,800,4.0,1,1,0,0,0
3,1,640,3.19,4,0,0,0,1
4,0,520,2.93,4,0,0,0,1


In [6]:
df['prestige'].value_counts()

2    148
3    121
4     67
1     61
Name: prestige, dtype: int64

In [7]:
df['intercept'] = 1

logit_mod = sm.Logit(df['admit'], df[['intercept','gre', 'gpa', 'prest_2', 'prest_3', 'prest_4']])
results = logit_mod.fit()
results.summary()

Optimization terminated successfully.
         Current function value: 0.573854
         Iterations 6


0,1,2,3
Dep. Variable:,admit,No. Observations:,397.0
Model:,Logit,Df Residuals:,391.0
Method:,MLE,Df Model:,5.0
Date:,"Sat, 16 Jun 2018",Pseudo R-squ.:,0.08166
Time:,07:05:51,Log-Likelihood:,-227.82
converged:,True,LL-Null:,-248.08
,,LLR p-value:,1.176e-07

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
intercept,-3.8769,1.142,-3.393,0.001,-6.116,-1.638
gre,0.0022,0.001,2.028,0.043,7.44e-05,0.004
gpa,0.7793,0.333,2.344,0.019,0.128,1.431
prest_2,-0.6801,0.317,-2.146,0.032,-1.301,-0.059
prest_3,-1.3387,0.345,-3.882,0.000,-2.015,-0.663
prest_4,-1.5534,0.417,-3.721,0.000,-2.372,-0.735


In [9]:
1/np.exp(-1.5534),1/np.exp(-1.3387),1/np.exp(-0.6801),np.exp(0.7793),np.exp(0.0022)

(4.7275164443987272,
 3.81408197450317,
 1.9740751298733885,
 2.1799457692483717,
 1.0022024217756431)

In [14]:
#另一种方法
np.exp(results.params)

intercept    0.020716
gre          1.002221
gpa          2.180027
prest_2      0.506548
prest_3      0.262192
prest_4      0.211525
dtype: float64

In [11]:
#取上述值的倒数1/_

intercept    48.272116
gre           0.997784
gpa           0.458710
prest_2       1.974147
prest_3       3.813995
prest_4       4.727566
dtype: float64

这里有几种不同的方法，你可以选择其中一个在这个数据集中使用 `prestige` 列。对于这个数据集，我们希望从声誉1到声誉2，有一个录取率；从声誉3变为声誉4，有一个不同的录取率。

1. 有了上述的想法之后，创建几个虚拟变量，这几个变量可以把声誉改成一个分类变量，而不是定量，然后回答下面的测试1。

2. 现在，拟合一个逻辑回归模型，使用 `gre`、 `gpa` 以及使用基准值为 `1`的  `prestige` 来预测一个人是否会被录取。根据你的结果来回答下面的测试2和3。 不要忘记添加一个截距。