# Regresja logistyczna

Przykład krok po kroku rozpoznawania gatunku Irysa z wykorzystaniem regresji logistycznej.

In [1]:
# ładowanie bibliotek
import pandas as pd
from sklearn.linear_model import LogisticRegression

from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, classification_report

from sklearn import datasets
iris = datasets.load_iris()

Wiemy, że dane są "czyste" (sprawdzone wcześniej). Pomijamy zatem krok przygotowania danych, zobaczmy ich opis i jakim są formacie.

In [3]:
iris

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [2]:
print(iris['DESCR'])

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [4]:
iris.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [5]:
iris["target"]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [6]:
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

Nowy target - rozróżnienie czy dana próbka jest z gatunku **virginica** czy nie.

In [7]:
iris["new_target"] = (iris["target"] > 1) * 1

In [8]:
iris["new_target"] 

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [9]:
iris["data"]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [10]:
color1, color2, color3 = 'red', 'green', 'blue'

# Klasyfikacja binarna

Rozpoznawanie czy dana próbka jest z gatunku virginica.

Zacznijmy od podziału zbioru na część testową i treningową

In [11]:
X_train, X_test, y_train, y_test = train_test_split(
    iris["data"], #X
    iris["new_target"], #y
    test_size=0.33, #test 33%, trening - 67% -- 80/20, 75/25, 70/30, (rzadziej) 60/40
    random_state=42)

In [13]:
X_train.shape

(100, 4)

In [14]:
X_test.shape

(50, 4)

In [15]:
y_train.shape

(100,)

In [16]:
y_test.shape

(50,)

W procesie modelowania są w następujacych miejscach:

Uczenie - odbywa sie na train (metoda fit dla **X_train**, **y_train**) - tutaj są dobierane takie w i b, zeby funkcja kosztu miala najmniejsza wartosc

Walidacja (ocena) - robimy predict na danych **X_test** (to nam da y_pred) i metryką sprawdzamy jak to wypada w stosunku do **y_test**

Tworzymy instancje modelu regresji liniowej i trenujemy go na danych treningowych.

In [17]:
model = LogisticRegression(random_state=42) #hiperparametr - random state
model.fit(X_train, y_train)

LogisticRegression(random_state=42)

Wykonujemy predykcję na zbiorze testowym

In [18]:
y_pred = model.predict(X_test)

Zobaczmy jak model jest dopasowany do danych treningowych 

In [19]:
y_fit_train = model.predict(X_train)

In [22]:
import numpy as np
np.set_printoptions(suppress=True)

In [23]:
model.predict_proba(X_test) #predict proba - predykcja prawdopodobienstwa

array([[0.79675545, 0.20324455],
       [0.99998314, 0.00001686],
       [0.00239583, 0.99760417],
       [0.78092267, 0.21907733],
       [0.71084608, 0.28915392],
       [0.9999843 , 0.0000157 ],
       [0.9787479 , 0.0212521 ],
       [0.17661678, 0.82338322],
       [0.74393284, 0.25606716],
       [0.9629814 , 0.0370186 ],
       [0.26829455, 0.73170545],
       [0.99999093, 0.00000907],
       [0.99999406, 0.00000594],
       [0.99998906, 0.00001094],
       [0.999988  , 0.000012  ],
       [0.68890807, 0.31109193],
       [0.03762437, 0.96237563],
       [0.96554362, 0.03445638],
       [0.82604221, 0.17395779],
       [0.05519509, 0.94480491],
       [0.99998247, 0.00001753],
       [0.4309698 , 0.5690302 ],
       [0.9999775 , 0.0000225 ],
       [0.06675993, 0.93324007],
       [0.02485757, 0.97514243],
       [0.13216137, 0.86783863],
       [0.07161255, 0.92838745],
       [0.02818513, 0.97181487],
       [0.99998639, 0.00001361],
       [0.9999823 , 0.0000177 ],
       [0.

In [24]:
y_pred

array([0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1,
       0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0,
       0, 0, 1, 1, 0, 1])

Sprawdzamy metryki predykcji

In [25]:
print("Confusion matrix - tablica pomyłek, zobacz https://pl.wikipedia.org/wiki/Tablica_pomyłek \n", 
      confusion_matrix(y_test, y_pred))
#plot confusion matrix - forma wizualna

print("Raport klasyfikacyjny: \n", classification_report(y_test, y_pred))

Confusion matrix - tablica pomyłek, zobacz https://pl.wikipedia.org/wiki/Tablica_pomyłek 
 [[34  0]
 [ 0 16]]
Raport klasyfikacyjny: 
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        34
           1       1.00      1.00      1.00        16

    accuracy                           1.00        50
   macro avg       1.00      1.00      1.00        50
weighted avg       1.00      1.00      1.00        50



## Klasyfikacja binarna - gatunek **versicolour**

Sprawdźmy czy tak samo dobrze regresja logisytyczna poradzi sobie z klasyfikacja gatunku **versicolor**

In [26]:
iris["new_target"] = (iris["target"] == 1) * 1

In [27]:
iris["new_target"]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [28]:
X_train, X_test, y_train, y_test = train_test_split(
    iris["data"], 
    iris["new_target"], 
    test_size=0.33, 
    random_state=42)

model = LogisticRegression(random_state=42)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

In [29]:
X_train.shape

(100, 4)

In [30]:
print("Confusion matrix - tablica pomyłek\n", confusion_matrix(y_test, y_pred))

print("Raport klasyfikacyjny: \n", classification_report(y_test, y_pred))

Confusion matrix - tablica pomyłek
 [[30  5]
 [10  5]]
Raport klasyfikacyjny: 
               precision    recall  f1-score   support

           0       0.75      0.86      0.80        35
           1       0.50      0.33      0.40        15

    accuracy                           0.70        50
   macro avg       0.62      0.60      0.60        50
weighted avg       0.68      0.70      0.68        50



In [31]:
from sklearn import metrics

print("Accuracy:", metrics.accuracy_score(y_test, y_pred))
print("Precision:", metrics.precision_score(y_test, y_pred))
print("Recall:", metrics.recall_score(y_test, y_pred))

# Uwaga! Zawsze podawane dla klasy 1

Accuracy: 0.7
Precision: 0.5
Recall: 0.3333333333333333


# Wnioski


Dla gatunku virginica regresja logistyczna okazała się dobrym modelem predykcyjnym. Należy jednak pamiętać, że wysokie wyniki metryk wynikają z niewielkiego zbioru próbek - w rzeczywistośći model nie będzie miał 100% precyzji.

Dla gatunku versicolour regresja logistyczna daje gorsze wyniki, co może sugerować, że nie jest najlepszym modelem predykcji dla tego problemu.

# Inne

In the multiclass case, the training algorithm uses the one-vs-rest (OvR) scheme if the ‘multi_class’ option is set to ‘ovr’, and uses the cross-entropy loss if the ‘multi_class’ option is set to ‘multinomial’. (Currently the ‘multinomial’ option is supported only by the ‘lbfgs’, ‘sag’, ‘saga’ and ‘newton-cg’ solvers.)

W przypadku wieloklasowym algorytm uczący używa schematu jeden kontra reszta (OvR), jeśli opcja „multi_class” jest ustawiona na „ovr”, i wykorzystuje utratę entropii krzyżowej, jeśli opcja „multi_class” jest ustawiona na „wielomian”. '. (Obecnie opcja „wielomianowa” jest obsługiwana tylko przez solwery „lbfgs”, „sag”, „saga” i „newton-cg”).

## https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

In [32]:
iris["target"]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [42]:
X_train, X_test, y_train, y_test = train_test_split(
    iris["data"], 
    iris["target"], 
    test_size=0.33, 
    random_state=42)

model = LogisticRegression(random_state=42, max_iter=1000)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

In [45]:
model.n_iter_ #tyle iteracji wykonal model - tyle razy byly korygowane wagi i biasy

array([104])

In [40]:
y_pred

array([1, 0, 2, 1, 1, 0, 1, 2, 1, 1, 2, 0, 0, 0, 0, 1, 2, 1, 1, 2, 0, 2,
       0, 2, 2, 2, 2, 2, 0, 0, 0, 0, 1, 0, 0, 2, 1, 0, 0, 0, 2, 1, 1, 0,
       0, 1, 2, 2, 1, 2])

In [43]:
print("Confusion matrix - tablica pomyłek\n", confusion_matrix(y_test, y_pred))

print("Raport klasyfikacyjny: \n", classification_report(y_test, y_pred))

Confusion matrix - tablica pomyłek
 [[19  0  0]
 [ 0 15  0]
 [ 0  0 16]]
Raport klasyfikacyjny: 
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        19
           1       1.00      1.00      1.00        15
           2       1.00      1.00      1.00        16

    accuracy                           1.00        50
   macro avg       1.00      1.00      1.00        50
weighted avg       1.00      1.00      1.00        50



Wartosci na zbiorze treningowym

In [57]:
print(classification_report(y_train, model.predict(X_train)))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        31
           1       0.97      0.91      0.94        35
           2       0.92      0.97      0.94        34

    accuracy                           0.96       100
   macro avg       0.96      0.96      0.96       100
weighted avg       0.96      0.96      0.96       100

