Berbeda dengan konsep sebelumnya. Saat ini kita akan mempelajari konsep klasifikasi dengan regresi logistik. Jika regresi menangani kasus variabel target kontinu, klasifikasi menangani kasus variabel target diskrit/kategorikal. Mari kita lihat perbedaan antara kedua dataset dengan target kontinu dan kategorikal.

In [21]:
import pandas as pd

data_regresi = pd.read_csv("Data/Regression/House Price Portland/data.csv")
data_klasifikasi = pd.read_csv("Data/Classification/Iris/iris.csv")


In [22]:
data_regresi.head()

Unnamed: 0,size,bedroom,price
0,2104,3,399900
1,1600,3,329900
2,2400,3,369000
3,1416,2,232000
4,3000,4,539900


In [23]:
data_klasifikasi.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


Target dari dataset Portland Housing adalah "Price", sedangkan target dari dataset Iris "class". Cara melatih model klasifikasi masih sama dengan pelatihan model regresi.

In [25]:
from sklearn import linear_model
import numpy as np

logreg = linear_model.LogisticRegression()


#Pembagian dataset menjadi data uji dan latih dengan rasio 25:75
data_iris = data_klasifikasi
np.random.seed(0)
randomval = np.random.randn(data_iris.shape[0])
X_train = data_iris.iloc[randomval<=0.75,:4]
X_test = data_iris.iloc[randomval>0.75,:4]
Y_train = data_iris.iloc[randomval<=0.75,4]
Y_test = data_iris.iloc[randomval>0.75,4]

#pelatihan dengan data latih dan data uji
logreg.fit(X_train,Y_train)
Y_pred = logreg.predict(X_test)

Apakah yang sebenarnya diprediksi oleh regresi logistik? Mari kita cek dan bandingkan dengan target pada dataset testing.

In [15]:
print(Y_pred[:5])
print(Y_test[:5].values)

['Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa']
['Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa']


Bagaimana kita mengukur keberhasilan model kita? Mirip dengan penggunaan MSE $ = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$. Kita menggunakan akurasi (accuracy) untuk mengukur keberhasilan model klasifikasi.

\begin{equation}
acc = \sum_{i=1}^{n}(y_i == \hat{y}_i)
\end{equation}

Semakin tinggi nilai akurasi, berarti semakin banyak prediksi dari klasifikasi yang tepat sasaran/sama dengan data uji.

Latihan: Secara manual, hitung akurasi dari hasil prediksi model regresi logistik yang baru saja kita buat.

In [26]:
akurasi = None

## Regresi Logistik

Apakah sebenarnya regresi logistik? Regresi logistik adalah model klasifikasi yang sederhana yang memprediksi kategori/kelas dari suatu himpunan prediktor dengan memanfaatkan regresi linier yang dimodifikasi.

Kategori dengan dua kelas Yes dan No yang diprediksi oleh tugas klasifikasi pada hakikatnya bisa direpresentasikan secara kasar dengan regresi logistik sebagai berikut:

\begin{equation}
Y = 
\begin{cases}
1, \text{if Yes} \\
0, \text{if No}
\end{cases}
\end{equation}

Namun, hal tersebut akan menimbulkan suatu masalah dengan regresi linier biasa. Masalah tersebut bisa dilihat di bagian kiri gambar di bawah ini.
![Alt Text](img/4. linreg-logreg.jpeg)

Banyak nilai di antara 0 dan 1 yang terbuang sia-sia, ada nilai prediksi yang negatif, ada nilai prediksi yang melebihi 1, dan seterusnya. Tetapi, regresi logistik, pada gambar di kanan dapat meminimalisasi masalah tersebut dengan cukup baik. 

## Formulasi Regresi Logistik

Regresi logistik memodifikasi regresi linier sedemikian hingga prediksi dari model tersebut adalah probabilitas dari mendekati 0 hingga mendekati 1 (hampir tidak mungkin tegas 0 dan 1).

Berikut formula dari model regresi logistik:
\begin{equation}
p(X) = \frac{e^{\beta_0 + \beta_1 x}}{1+e^{\beta_0 + \beta_1 x}}
\end{equation}

Bisa kita lihat eksponen dari bilangan natural adalah regresi linier. Bisa dibilang regresi logistik adalah fungsi logistik/sigmoid dari regresi linier.

Fungsi logistik/sigmoid:
\begin{equation}
f(x) = \frac{e^x}{1+e^x}
\end{equation}

#### Tunggu!
Hasil dari prediksi regresi logistik bukannya bisa dari 0 hingga 1 dan hampir tidak mungkin tegas 0 dan 1? Bagaimana regresi logistik bisa mencapai nilai 0 dan 1 secara tegas?

Jawaban: Regresi logistik bisa memanfaatkan suatu threshold (misal: 0.5) untuk mendapatkan nilai tegas 0 dan 1. Jika $p(X) \leq 0.5$, maka kelasnya adalah 0 dan jika $p(X) \gt 0.5$, maka kelasnya adalah 1.

#### Tunggu! (lagi)
Bagaimana jika kategori yang diprediksi lebih dari 2?

Jawaban: scikit learn menerapkan pendekatan one-versus-all dalam prediksinya. Silakan lihat penjelasan di papan tulis.

### Mengestimasi parameter dari regresi logistik

Mirip dengan regresi linier yang meminimasi fungsi RSS, regresi logistik memaksimalkan suatu fungsi _likelihood_ dari himpunan parameter yang dimilikinya. Berikut fungsinya:

\begin{equation}
l(\beta_0,\beta_1) = \prod_{i:y_i = 1} p(x_i)\prod_{j:y_j = 0} (1 - p(x_j))  
\end{equation}

Intuisi fungsi ini akan lebih mudah jika kita terapkan logaritma:
\begin{equation}
log(l(\beta_0,\beta_1)) = \sum_{i:y_i = 1} p(x_i)\sum_{j:y_j = 0} (1 - p(x_j))  
\end{equation}


Latihan: gunakan Logistic Regression terhadap dataset Credit Loan pada "Data/Classification/Iris/iris.csv", gunakan metode read_excel pada pandas.
1. Variabel target adalah kolom terakhir, dan jangan lupa hilangkan id pada prediktor.
2. Terapkan random seed 0 pada pembagian data latih dan data uji dengan rasio 75:25
3. Terapkan regresi logistik pada data latih dan data uji, hitung akurasinya.
4. Terapkan regularisasi L1 dan L2 terhadap regresi logistik, gunakan C dari 10^-5 hingga 10^5. Bandingkan akurasi uji dari model-model hasil regularisasi tersebut. Apakah regularisasi membantu meningkatkan akurasi uji model?

Berikut dokumentasi dari sklearn:
http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression

**Parameters:**	

**penalty** : str, ‘l1’ or ‘l2’, default: ‘l2’

Used to specify the norm used in the penalization. The ‘newton-cg’, ‘sag’ and ‘lbfgs’ solvers support only l2 penalties.

**C** : float, default: 1.0

Inverse of regularization strength; must be a positive float. Like in support vector machines, smaller values specify stronger regularization.

Contoh code:
http://scikit-learn.org/stable/auto_examples/linear_model/plot_logistic_l1_l2_sparsity.html