# Logistic Regression

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

เราจะใช้ logistic function ในการทำ binary classification นั่นคือ ทำนาย probability ที่ outcome ($y$) จะอยู่ใน Class 0 หรือ Class 1

Logistic function เป็น sigmoid function ดังนี้

$$\sigma(X)=\frac{1}{1+e^{-X}}$$

การแปลง logistic function ให้เป็น linear function
1. นิยามให้ probability ที่ทำให้ $y=1$ คือ $P_{y=1} = P > \text{threshold}$ <br/>ดังนั้น probability ที่ทำให้ $y=0$ ก็คือ $P_{y=0} = 1-P < \text{threshold}$ <br />($\textbf{threshold} = 0.5$ by default ถ้า $P$ มากกว่าค่านี้ $y$ จะเท่ากับ 1 (ถูกจัดอยู่ใน Class 1) ถ้า $P$ น้อยกว่าค่านี้ $y$ จะเท่ากับ 0 (ถูกจัดอยู่ใน Class 0))

2. นิยามให้

$$\text{odds}=\frac{P_{y=1}}{P_{y=0}}=\frac{P}{1-P}$$ 

$\qquad$และ 

$$\text{logit}=\ln(\text{odds})=\ln{\frac{P}{1-P}}$$

3. เมื่อ plot ระหว่าง $\text{logit}$ กับ $X$ จะได้สมการเส้นตรง

$$\ln(\frac{P}{1-P})=\beta_0 + \beta_1\boldsymbol{x}_1 + ... + \beta_n\boldsymbol{x}_n = \beta X$$

<img src="../images/logistic_regression.png" width="800" /><br />

สิ่งที่เราต้องทำคือหา $\beta$ ที่ทำให้ error ต่ำสุด เมื่อเราได้เส้นตรงแล้ว มี $X$ หา $P$ ได้

เราสามารถทำ logistic regression โดยใช้ `sklearn.linear_model.LogisticRegression`

Weight และ bias สามารถเข้าถึงได้จาก attribute ชื่อ `coef_` และ `intercept_` ตามลำดับ โดย feature ที่มี weight มากกว่าจะมีความสำคัญมากกว่า ดังนั้น เราสามารถเอา feature ที่สำคัญน้อยออกเพื่อลดจำนวน feature ที่จะใช้ใน model ได้ (feature selection)

In [2]:
# Perform data pre-processing

# Import data and drop duplicate
data = pd.read_csv('../data/wines_binary.csv').drop_duplicates()
# Prepare X and y
X, y = data.drop(columns=['is_good_quality']), data['is_good_quality']
# Train-test split
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=.7, random_state=42)
# Scale features
scaler = StandardScaler().fit(X_train)
X_train = pd.DataFrame(scaler.transform(X_train), columns=X_train.columns)
X_test = pd.DataFrame(scaler.transform(X_test), columns=X_test.columns)

In [3]:
# Perform logistic regression
lr = LogisticRegression()
lr.fit(X_train, y_train)

In [4]:
# Weights (beta_1, ..., beta_n)
lr.coef_

array([[-1.15085593, -0.3486938 , -2.13656154, -0.20949814, -0.05702076,
         0.00414695, -0.01329913,  0.01752251,  0.01356849, -0.41939859]])

In [5]:
# Bias (beta_0)
lr.intercept_

array([0.23356493])

In [6]:
# Predict using test set
y_pred = lr.predict(X_test)
y_pred

array([1., 1., 0., ..., 1., 1., 0.])

In [7]:
# Compute probability P(y=0) and P(y=1) 
y_prob = lr.predict_proba(X_test) 
y_prob

array([[0.00901364, 0.99098636],
       [0.09197031, 0.90802969],
       [0.84573164, 0.15426836],
       ...,
       [0.06110844, 0.93889156],
       [0.01401553, 0.98598447],
       [0.90254191, 0.09745809]])