# Logistic Regression - Scikit-Learn Training the Model

În cadrul acestui tutorial o să ne ocupăm de partea de creare de model și de antrenarea acestuia. O să ne ocupăm de partea de hyperparametrii abia când ajungem la partea de MultiClass Classification. O să reimportăm setul de date cu care o să lucrăm

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [2]:
df = pd.read_csv('../data/DATA/hearing_test.csv')

In [3]:
df.head()

Unnamed: 0,age,physical_score,test_result
0,33.0,40.7,1
1,50.0,37.2,1
2,52.0,24.7,0
3,56.0,31.0,0
4,35.0,42.9,1


Precum în cazul oricărui model de Machine Learning, pentru început trebuie să separăm features de labels. Știm că partea de labels reprezintă coloana de test_restult, iar restul reprezintă Features

In [4]:
X = df.drop('test_result', axis=1)
y = df['test_result']

Partea de train_test_split și de scalare este recomandată se se realizeze și pentru un model de clasificare

In [5]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

In [6]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=101)

In [7]:
scaler = StandardScaler()

In [8]:
scaler.fit(X_train)

StandardScaler()

In [9]:
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

După ce am împărțit și scalat setul de date urmează partea în care putem crea un model de Machine Learning. Modelul de Logistic Regression se găsește în modulul sklearn.linear_model și poartă denumirea de LogisticRegression. Mai există și o variantă de LogisticRegressionCV care are implementată și partea de cross-validation. Să importăm pentru început modelul simplu

In [10]:
from sklearn.linear_model import LogisticRegression

Putem acuma să creem o instanță a acestui model 

In [11]:
model = LogisticRegression()

In [13]:
model.fit(X_train, y_train)

LogisticRegression()

Până acuma totul este la fel precum un model de linear regression din Scikit-Learn. După ce am creat modelul și l-am antrenat putem să facem predicții utilizând acest model antrenat

In [14]:
y_pred = model.predict(X_test)

In [15]:
y_pred

array([1, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1,
       0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0,
       0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1,
       0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0,
       0, 1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1,
       1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1,
       1, 1, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 0, 1,
       1, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1,
       1, 1, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 1, 1, 1,
       0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0,
       1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 1,
       1, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1,
       1, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1,
       1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1,

Am rulat și partea în care am făcut predicții utilizând un model de LogisticRegression. Putem să observăm că în rezultat avem valori doar de 0 și 1 care reprezintă clasa din care face parte acea instanță. Dacă se dorește se poate ca modelul să returneze și partea de probabilitate pentru fiecare instanță în parte. Pentru asta, în loc de a utiliza metoda predict o să utilizăm metoda predict_proba()

In [16]:
y_pred_proba = model.predict_proba(X_test)

In [19]:
y_pred_proba[:5]

array([[0.02384343, 0.97615657],
       [0.02692408, 0.97307592],
       [0.98919417, 0.01080583],
       [0.00190769, 0.99809231],
       [0.97501262, 0.02498738]])

Acum rezultatul este unul diferit. Avem acum array-uri de valori. Primul array de exemplu are două valori, 0.028 și 0.972. Aceste valori reprezintă probabilitatea ca acel element să aparțină uneia dintre cele două clase. Instanța respectivă are o probabilitate de 0.972 să aparțină clasei cu valoarea 1, fiind mai mare decât 0.028 modelul a prezis că aparține de clasa 1 (procentajele sunt între 0 și 1). Până acum totul a mers la fel precum în cazul unui model de Linear Regression. Uremază partea în care trebuie să evaluăm modelul. Din moment ce acum am prezis o valoare categorică o să trebuiască să utilizăm altă metodă de validare (nu mai putem utiliza partea de square_mean_error deoarece avem doar valori de 0 și 1). Pentru a evalua performanța unui model de clasificare aici intră în discuție termenii de classification metrics, precision, recall, f1 score, ROC curve și confusin matrix. În continuare o să ne vedem ce reprezintă acești termeni. 

## Recapitulare

În cadrul acestui tutorial am învățat următoarele:

    1. Partea de preprocesare de date pentru un model de clasificare este aceeași:

        - împărțirea datelor în Features și labels

        - împărțirea datelor în train-test split

        - scalarea datelor

    2. De unde să importăm modelul de Logistic Regression

        from sklearn.linear_model import LogisticRegression

    3. Crearea unei instanțe a modelului se face precum un model de Linear Regression

        model = LogisticRegression()

    4. Metoda de a antrena modelul este aceeași

        model.fit(X_train, y_train)

    5. Pentru partea de predicții avem mai multe posibilități:

        - y_pred = model.predict(X_test) # returnează clasa din care face parte instanța

        - y_pred_proba = model.precict_proba(X_test) # retunrează probabilitatea de aparținere pentru fiecare clasă în parte