# Notebook 7-2 Logistic Regression

โมเดลวิเคราะห์การถดถอยแบบโลจิสติก ใช้ค่าของตัวแปรต้นแบบต่อเนื่อง (continuous) และแบบจัดประเภท (categorical) เพื่อทำนายค่าผลลัพธ์ที่มีชนิดเป็นแบบจัดประเภท (categorical outcome) ในกรณีที่ค่าผลลัพธ์มีค่าที่เป็นไปได้สองค่า เราจะเรียกว่า binary logistic regression ส่วนกรณีที่ค่าผลลัพธ์ที่เราต้องการทำนายมีค่าที่เป็นไปได้มากกว่าสองค่า เราจะเรียกว่า multinomial logistic regression 
หลักการของการวิเคราะห์การถดถอยแบบโลจิสติก คือการแปลงค่าผลลัพธ์ของการวิเคราะห์การถดถอยแบบเชิงเส้น (linear regression) ให้อยู่ในช่วง (0,1] โดยใช้การแปลงแบบลอการิทึม (logarithmic transformation) สมการของโมเดล logistic regression สำหรับกรณีที่มีตัวแปรต้นเพียงหนึ่งตัว สามารถเขียนได้ดังนี้

<br>
<center>
$P(Y) = \frac{1}{1+e^{-(\alpha+\beta x)}}$
</center>
<br>

เมื่อ P(Y) คือค่าความน่าจะเป็นของการเกิดขึ้นของผลลัพธ์ Y, e คือ ฐานของลอการิทึมธรรมชาติ, 𝛼 คือค่าจุดตัด (ค่า y เมื่อ x=0) และ 𝛽 คือค่าความชัน ส่วน x คือตัวแปรต้น (independent variables) จะเห็นได้ว่าค่าเลขยกกำลัง 𝛼+𝛽𝑥 ก็คือ ค่าผลลัพธ์ของการวิเคราะห์การถดถอยแบบเชิงเส้นนั่นเอง 
ในกรณีที่ตัวแปรต้นของการทำนายมีหลายตัวแปร สมการของโมเดลวิเคราะห์การถดถอยแบบโลจิสติก จะอยู่ในรูปดังนี้

<br>
<center>
$P(Y) = \frac{1}{1+e^{-(\alpha+\beta_1 x_{i1} + \beta_2 x_{i2} + ... + \beta_p x_{ip})}}$
</center>
<br>
 

จะเห็นได้ว่า ในการวิเคราะห์การถดถอยแบบเชิงเส้น (linear regression) นั้น เราตั้งสมมติฐานว่ามีความสัมพันธ์ระหว่างตัวแปรต้นและตัวแปรตามจะเป็นแบบเชิงเส้น แต่ในการวิเคราะห์การถดถอยแบบโลจิสติกนั้น สมมติฐานของโมเดลก็คือความสัมพันธ์เชิงเส้นระหว่างค่าของตัวแปรต้นกับค่า natural logarithm ของ $p/(1-p)$ เมื่อ $p$ คือค่าความน่าจะเป็นของการเกิดขึ้นของผลลัพธ์ (ค่า $P(Y)$)

## การสร้างโมเดล Logistic Regression สำหรับทำนายความน่าจะเป็นที่ฝนจะตก

ต่อไปเราจะใช้ข้อมูลสภาพอากาศของประเทศฮังการี ระหว่าง April 1, 2006 ถึง September 9, 2016 สำหรับทดลองสร้างโมเดล Logistic Regression สำหรับทำนายความน่าจะเป็นของการเกิดฝนตก

1. ดาวน์โหลดและอิมพอร์ตข้อมูล `weather.csv` ลงในดาต้าเฟรมโดยใช้ไลบารี่ pandas

In [1]:
!wget https://raw.githubusercontent.com/TrainingByPackt/Data-Science-with-Python/master/Chapter03/weather.csv

import pandas as pd

df = pd.read_csv('weather.csv')

--2019-09-26 15:51:04--  https://raw.githubusercontent.com/TrainingByPackt/Data-Science-with-Python/master/Chapter03/weather.csv
Resolving raw.githubusercontent.com... 151.101.8.133
Connecting to raw.githubusercontent.com|151.101.8.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 495176 (484K) [text/plain]
Saving to: ‘weather.csv.1’


2019-09-26 15:51:05 (631 KB/s) - ‘weather.csv.1’ saved [495176/495176]



2. แปลงตัวแปร *Description* ให้อยู่ในรูปแบบตัวเลข

In [2]:
import pandas as pd

df_dummies = pd.get_dummies(df, drop_first=True)

3. สลับแถวข้อมูลโดยใช้คำสั่ง `shuffle` ของไลบารี่ `scikit-learn`

In [3]:
from sklearn.utils import shuffle

df_shuffled = shuffle(df_dummies, random_state=42)

4. แบ่งชุดข้อมูลออกเป็นฟีเจอร์อินพุท $X$ และเอาท์พุท $y$

In [4]:
DV = 'Rain'

X = df_shuffled.drop(DV, axis=1)

y = df_shuffled[DV]

5. แบ่งชุดข้อมูลออกเป็นชุดฝึกฝนและชุดทดสอบ

In [5]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

6. สร้างโมเดล logistic regression ด้วยไลบารี่ `scikit-learn`

In [6]:
from sklearn.linear_model import LogisticRegression

model = LogisticRegression()

7. ฟิตโมเดลกับชุดข้อมูลฝึกฝน โดยใช้เมธอด `model.fit`

In [7]:
model.fit(X_train, y_train)



LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='warn',
          n_jobs=None, penalty='l2', random_state=None, solver='warn',
          tol=0.0001, verbose=0, warm_start=False)

8. อ่านค่าพารามิเตอร์ (intercept คือ จุดตัด และ coefficients คือค่าสัมประสิทธิ์ $\alpha$ และ $\beta$) ที่เทรนได้จากโมเดล

ค่าพารามิเตอร์ $\beta$ คือ

In [8]:
intercept = model.intercept_

print(intercept[0])

-0.1775235755667482


ค่าพารามิเตอร์ $\alpha_1 ... \alpha_8$ คือ

In [10]:
coefficients = model.coef_

coef_list = list(coefficients[0,:])
coef_df = pd.DataFrame(
    {'Feature': list(X_train.columns), 'Coefficient' : coef_list})

print(coef_df)

                Feature  Coefficient
0         Temperature_c     5.691326
1              Humidity    -0.165325
2        Wind_Speed_kmh    -0.067057
3  Wind_Bearing_degrees    -0.002367
4         Visibility_km     0.055192
5    Pressure_millibars     0.000845
6    Description_Normal     0.029056
7      Description_Warm     0.001911


### ประเมินประสิทธิภาพของโมเดลโดยใช้ชุดข้อมูลทดสอบ

9. ใช้โมเดลทำนายค่าบนชุดข้อมูลทดสอบ

In [11]:
predicted_prob = model.predict_proba(X_test)[:, 1]
predicted_class = model.predict(X_test)

10. สร้าง confusion matrix

In [12]:
from sklearn.metrics import confusion_matrix
import numpy as np

cm = pd.DataFrame(confusion_matrix(y_test, 
                            predicted_class))


cm['Total'] = np.sum(cm, axis=1)
cm = cm.append(np.sum(cm, axis=0), ignore_index=True)
cm.columns = ['Predicted No', 'Predicted Yes', 'Total']
cm = cm.set_index([['Actual No', 'Actual Yes', 'Total']])

print(cm)

            Predicted No  Predicted Yes  Total
Actual No            377              6    383
Actual Yes            10           2907   2917
Total                387           2913   3300


11. สร้างรายงานผลการประเมินประสิทธิภาพของโมเดล

In [13]:
from sklearn.metrics import classification_report

print(classification_report(y_test, predicted_class))

              precision    recall  f1-score   support

           0       0.97      0.98      0.98       383
           1       1.00      1.00      1.00      2917

   micro avg       1.00      1.00      1.00      3300
   macro avg       0.99      0.99      0.99      3300
weighted avg       1.00      1.00      1.00      3300



In [14]:
predicted_prob = model.predict_proba(X_test)[:, 1]
predicted_class = model.predict(X_test)


from sklearn.metrics import confusion_matrix
import numpy as np
cm = pd.DataFrame(confusion_matrix(y_test, predicted_class))
cm['Total'] = np.sum(cm, axis=1)
cm = cm.append(np.sum(cm, axis=0), ignore_index=True)
cm = cm.set_index([['Actual No', 'Actual Yes', 'Total']])
print(cm)

print()

from sklearn.metrics import classification_report
print(classification_report(y_test, predicted_class))

              0     1  Total
Actual No   377     6    383
Actual Yes   10  2907   2917
Total       387  2913   3300

              precision    recall  f1-score   support

           0       0.97      0.98      0.98       383
           1       1.00      1.00      1.00      2917

   micro avg       1.00      1.00      1.00      3300
   macro avg       0.99      0.99      0.99      3300
weighted avg       1.00      1.00      1.00      3300



จะเห็นได้ว่าโมเดลของเราสามารถทำนายการเกิดฝนตกได้แม่นยำมาก แต่ยังมีความผิดพลาดอยู่ในกรณีที่ฝนไม่ตก (f1-score = 0.98) 

ต่อไปเราจะทำการเพิ่มประสิทธิภาพของโมเดลด้วยวิธีการ Grid Search ซึ่งเป็นการค้นหาค่าไฮเปอร์พารามิเตอร์ (hyperparameters) ที่เหมาะสมจากค่าที่เป็นไปได้ โดยค่าไฮเปอร์พารามิเตอร์ของ Logistic Regression ที่เราต้องการปรับแต่งมีดังนี้คือ

* **penalty** : ใช้ระบุค่า norm ที่ใช้สำหรับ penaalization เช่น 'l1' และ 'l2'
* **C** : ค่าอินเวอร์สของสเกลการทำ regularization หากค่า C มีค่าน้อยจะทำให้ regularization term มีค่ามาก
* **solver** : อัลกอริทึมสำหรับ optimization เช่น liblinear, saga, newton-cg

12. สร้าง grid search model เพื่อค้นหาค่าไฮเปอร์พารามิเตอร์ที่ทำให้โมเดลมีค่า f1-score สูงที่สุด

In [15]:
import numpy as np

grid = {'penalty': ['l1', 'l2'], 
        'C': np.linspace(1, 10, 10), 
        'solver' : ['liblinear']}

from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression

model = GridSearchCV(LogisticRegression(
            solver='liblinear'), grid, scoring='f1', cv=5)

13. ฟิตโมเดลกับชุดข้อมูลฝึกฝน

In [16]:
model.fit(X_train, y_train)





GridSearchCV(cv=5, error_score='raise-deprecating',
       estimator=LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='warn',
          n_jobs=None, penalty='l2', random_state=None, solver='liblinear',
          tol=0.0001, verbose=0, warm_start=False),
       fit_params=None, iid='warn', n_jobs=None,
       param_grid={'penalty': ['l1', 'l2'], 'C': array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.]), 'solver': ['liblinear']},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring='f1', verbose=0)

14. ค่าไฮเปอร์พารามิเตอร์ที่ทำให้โมเดลมีค่า f1-score สูงที่สุดคือ

In [18]:
best_parameters = model.best_params_

print(best_parameters)

{'C': 9.0, 'penalty': 'l1', 'solver': 'liblinear'}


15. ประเมินประสิทธิภาพของโมเดลที่ได้จากการปรับแต่งค่าไฮเปอร์พารามิเตอร์ด้วยวิธีการ Grid Search

In [19]:
predicted_prob = model.predict_proba(X_test)[:, 1]
predicted_class = model.predict(X_test)


from sklearn.metrics import confusion_matrix
import numpy as np
cm = pd.DataFrame(confusion_matrix(y_test, predicted_class))
cm['Total'] = np.sum(cm, axis=1)
cm = cm.append(np.sum(cm, axis=0), ignore_index=True)
cm = cm.set_index([['Actual No', 'Actual Yes', 'Total']])
print(cm)

print()

from sklearn.metrics import classification_report
print(classification_report(y_test, predicted_class))

              0     1  Total
Actual No   379     4    383
Actual Yes    5  2912   2917
Total       384  2916   3300

              precision    recall  f1-score   support

           0       0.99      0.99      0.99       383
           1       1.00      1.00      1.00      2917

   micro avg       1.00      1.00      1.00      3300
   macro avg       0.99      0.99      0.99      3300
weighted avg       1.00      1.00      1.00      3300



จะเห็นได้ว่าโมเดลที่ได้จากการทำ Grid Search กับค่าที่เป็นไปได้ของไฮเปอร์พารามิเตอร์ `penalty`, `C`, และ `solver` มีค่า `f1-score` ดีกว่าโมเดลก่อนหน้าซึ่งไม่มีการปรับแต่งค่าไฮเปอร์พารามิเตอร์