## Logistic regression with Scikit-learn

ในบทนี้เราจะทำการประมาณการข้อมูล ซึ่งข้อมูลของเราในที่นี้คือ ปัจจัยที่ทำให้เกิดเบาหวาน หากคุณเป็นเบาหวาน y=1 แต่ถ้าไม่เป็นเบาหวาน y=0 เราจะใช้ scikit-learn ในการประมาณการ โดยจะมีการแบ่งข้อมูลออกเป็น training set และ testing set เพื่อที่จะดูว่า model ที่เราใช้ แม่นยำพอที่จะไปใช้กับข้อมูลอื่นได้หรือไม่ และเราจะตรวจสอบความแม่นยำของข้อมูลโดยใช้ confusion matrix 

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
data=pd.read_csv('https://github.com/Siriratkant/Logistic-regression/raw/master/diabetes2.csv')
data.sample(20)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
596,0,67,76,0,0,45.3,0.194,46,0
563,6,99,60,19,54,26.9,0.497,32,0
611,3,174,58,22,194,32.9,0.593,36,1
675,6,195,70,0,0,30.9,0.328,31,1
580,0,151,90,46,0,42.1,0.371,21,1
207,5,162,104,0,0,37.7,0.151,52,1
714,3,102,74,0,0,29.5,0.121,32,0
252,2,90,80,14,55,24.4,0.249,24,0
223,7,142,60,33,190,28.8,0.687,61,0
500,2,117,90,19,71,25.2,0.313,21,0


In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
Pregnancies                 768 non-null int64
Glucose                     768 non-null int64
BloodPressure               768 non-null int64
SkinThickness               768 non-null int64
Insulin                     768 non-null int64
BMI                         768 non-null float64
DiabetesPedigreeFunction    768 non-null float64
Age                         768 non-null int64
Outcome                     768 non-null int64
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


In [4]:
data.Outcome.value_counts()

0    500
1    268
Name: Outcome, dtype: int64

In [5]:
y = data.Outcome.values
x_data = data.drop(['Outcome'], axis = 1)

In [6]:
x = (x_data - np.min(x_data)) / (np.max(x_data) - np.min(x_data)).values #คือการทำให้ข้อมูลไม่มีหน่วย  และปรับค่าของข้อมูลทั้งหมดให้อยู่ระหว่าง 0-1

In [7]:
from patsy import dmatrices
import statsmodels.api as sm

In [8]:
data.columns

Index(['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin',
       'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome'],
      dtype='object')

In [9]:
y, x  = dmatrices('Outcome ~ Pregnancies + Glucose + BloodPressure + SkinThickness + Insulin + BMI + DiabetesPedigreeFunction + Age', data=data, return_type = 'dataframe')

In [10]:
model = sm.Logit(y, x).fit()
model.summary()

Optimization terminated successfully.
         Current function value: 0.470993
         Iterations 6


0,1,2,3
Dep. Variable:,Outcome,No. Observations:,768.0
Model:,Logit,Df Residuals:,759.0
Method:,MLE,Df Model:,8.0
Date:,"Fri, 12 Jun 2020",Pseudo R-squ.:,0.2718
Time:,09:36:45,Log-Likelihood:,-361.72
converged:,True,LL-Null:,-496.74
,,LLR p-value:,9.652e-54

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
Intercept,-8.4047,0.717,-11.728,0.000,-9.809,-7.000
Pregnancies,0.1232,0.032,3.840,0.000,0.060,0.186
Glucose,0.0352,0.004,9.481,0.000,0.028,0.042
BloodPressure,-0.0133,0.005,-2.540,0.011,-0.024,-0.003
SkinThickness,0.0006,0.007,0.090,0.929,-0.013,0.014
Insulin,-0.0012,0.001,-1.322,0.186,-0.003,0.001
BMI,0.0897,0.015,5.945,0.000,0.060,0.119
DiabetesPedigreeFunction,0.9452,0.299,3.160,0.002,0.359,1.531
Age,0.0149,0.009,1.593,0.111,-0.003,0.033


* **Insulin** ที่ผลออกมาว่าไม่ส่งผลต่อโรคเบาหวานนั้น อาจจะเกิดจากความไม่สมบูรณ์ของข้อมูล ที่มี missing value อยู่มาก 

In [11]:
model.params

Intercept                  -8.404696
Pregnancies                 0.123182
Glucose                     0.035164
BloodPressure              -0.013296
SkinThickness               0.000619
Insulin                    -0.001192
BMI                         0.089701
DiabetesPedigreeFunction    0.945180
Age                         0.014869
dtype: float64

# เฉลย 4.3.1 ตอบข้อ ก.

In [12]:
model.predict(x)

0      0.721727
1      0.048642
2      0.796702
3      0.041625
4      0.902184
5      0.146632
6      0.066578
7      0.644570
8      0.709358
9      0.036336
10     0.219635
11     0.897753
12     0.784430
13     0.628598
14     0.627557
15     0.400893
16     0.371178
17     0.196611
18     0.357505
19     0.234200
20     0.392436
21     0.316639
22     0.940424
23     0.294746
24     0.701997
25     0.441283
26     0.737435
27     0.045773
28     0.538999
29     0.277786
         ...   
738    0.163620
739    0.225471
740    0.768611
741    0.167195
742    0.094806
743    0.662213
744    0.930485
745    0.311007
746    0.695348
747    0.311140
748    0.827939
749    0.573959
750    0.545524
751    0.275590
752    0.106005
753    0.665938
754    0.725689
755    0.441711
756    0.480928
757    0.317855
758    0.164099
759    0.902103
760    0.096267
761    0.936088
762    0.087253
763    0.317115
764    0.318969
765    0.170416
766    0.284976
767    0.072014
Length: 768, dtype: floa

In [13]:
model.predict(x).apply(lambda p: 0 if p < .5 else 1)

0      1
1      0
2      1
3      0
4      1
5      0
6      0
7      1
8      1
9      0
10     0
11     1
12     1
13     1
14     1
15     0
16     0
17     0
18     0
19     0
20     0
21     0
22     1
23     0
24     1
25     0
26     1
27     0
28     1
29     0
      ..
738    0
739    0
740    1
741    0
742    0
743    1
744    1
745    0
746    1
747    0
748    1
749    1
750    1
751    0
752    0
753    1
754    1
755    0
756    0
757    0
758    0
759    1
760    0
761    1
762    0
763    0
764    0
765    0
766    0
767    0
Length: 768, dtype: int64

In [14]:
model.predict([[1, 5,180,80,35,180,33,0.5,30]])

array([0.76187558])

In [15]:
xx =model.predict([[1, 5,180,80,35,180,33,0.5,30]])
xx

array([0.76187558])

In [16]:
P_negative = 1- xx
P_negative

array([0.23812442])

# เฉลย 4.3.2 ตอบ ง.

In [17]:
model.pred_table()

array([[445.,  55.],
       [112., 156.]])

# เฉลย 4.3.3 ตอบ ก.

In [18]:
TN, FP, FN, TP = model.pred_table().ravel()

In [19]:
Acurracy=(TP+TN)/(TP+TN+FP+FN)
Acurracy

0.7825520833333334

In [20]:
Precision =(TP)/(TP+FP)
Precision

0.7393364928909952

In [21]:
Recall = (TP)/(TP+FN)
Recall

0.582089552238806

In [22]:
F_measure = 2 * ( Recall*Precision) / (Recall+Precision)
F_measure

0.651356993736952