# Regresja logistyczna

Przykład krok po kroku rozpoznawania gatunku Irysa z wykorzystaniem regresji logistycznej.

In [1]:
# ładowanie bibliotek
import pandas as pd
from sklearn.linear_model import LogisticRegression

from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, classification_report

from sklearn import datasets
iris = datasets.load_iris()

Wiemy, że dane są "czyste" (sprawdzone wcześniej). Pomijamy zatem krok przygotowania danych, zobaczmy ich opis i jakim są formacie.

In [2]:
print(iris['DESCR'])

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [3]:
iris.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [4]:
iris["target"]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

Nowy target - rozróżnienie czy dana próbka jest z gatunku **virginica** czy nie.

In [5]:
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [6]:
iris["new_target"] = (iris["target"] > 1) * 1

In [7]:
iris["new_target"] 

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

# Klasyfikacja binarna

Rozpoznawanie czy dana próbka jest z gatunku virginica.

Zacznijmy od podziału zbioru na część testową i treningową

In [8]:
X_train, X_test, y_train, y_test = train_test_split(
    iris["data"], 
    iris["new_target"],
    test_size=0.33, # % danych użytych do zbioru testowego = 33%, trening = 67% (trening zawsze musi być większy od testu); 80/20, 75/25,70/30
    random_state=42) # 

# Funkcja przyjmuje poniższe argumenty:
# X - dane


In [17]:
X_train.shape

(100, 4)

In [15]:
X_test.shape

(50, 4)

In [16]:
y_train.shape

(100,)

In [18]:
y_test.shape

(50,)

In [None]:
# W procesie Uczenie odbywa się na treningu (metoda fit) - tutaj dobierane są takie w i b, żeby funkcja kosztu miała najmniejszą wartość
# Walidacja (ocena) - robimy predykcję na danych X_test i metryką sprawdzamy jak to wypada w stosunku do y_test

Tworzymy instancje modelu regresji liniowej i trenujemy go na danych treningowych.

In [20]:
model = LogisticRegression(random_state=42) # parametr - random state
model.fit(X_train, y_train)

Wykonujemy predykcję na zbiorze testowym

In [10]:
y_pred = model.predict(X_test)

Zobaczmy jak model jest dopasowany do danych treningowych 

In [11]:
y_fit_train = model.predict(X_train)

In [12]:
model.predict_proba(X_test) # predykcja prawdopodobieństwa

array([[7.96755454e-01, 2.03244546e-01],
       [9.99983143e-01, 1.68574882e-05],
       [2.39582907e-03, 9.97604171e-01],
       [7.80922675e-01, 2.19077325e-01],
       [7.10846078e-01, 2.89153922e-01],
       [9.99984297e-01, 1.57030422e-05],
       [9.78747901e-01, 2.12520987e-02],
       [1.76616781e-01, 8.23383219e-01],
       [7.43932837e-01, 2.56067163e-01],
       [9.62981398e-01, 3.70186016e-02],
       [2.68294554e-01, 7.31705446e-01],
       [9.99990926e-01, 9.07413839e-06],
       [9.99994058e-01, 5.94171025e-06],
       [9.99989057e-01, 1.09429325e-05],
       [9.99988001e-01, 1.19985660e-05],
       [6.88908069e-01, 3.11091931e-01],
       [3.76243674e-02, 9.62375633e-01],
       [9.65543623e-01, 3.44563773e-02],
       [8.26042208e-01, 1.73957792e-01],
       [5.51950860e-02, 9.44804914e-01],
       [9.99982471e-01, 1.75287318e-05],
       [4.30969796e-01, 5.69030204e-01],
       [9.99977497e-01, 2.25030597e-05],
       [6.67599345e-02, 9.33240066e-01],
       [2.485757

In [21]:
y_pred

array([0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1,
       0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0,
       0, 0, 1, 1, 0, 1])

Sprawdzamy metryki predykcji

In [22]:
print("Confusion matrix - tablica pomyłek, zobacz https://pl.wikipedia.org/wiki/Tablica_pomyłek \n", confusion_matrix(y_test, y_pred))

# plot confusion matrix - forma wizualna

print("Raport klasyfikacyjny: \n", classification_report(y_test, y_pred))

Confusion matrix - tablica pomyłek, zobacz https://pl.wikipedia.org/wiki/Tablica_pomyłek 
 [[34  0]
 [ 0 16]]
Raport klasyfikacyjny: 
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        34
           1       1.00      1.00      1.00        16

    accuracy                           1.00        50
   macro avg       1.00      1.00      1.00        50
weighted avg       1.00      1.00      1.00        50



## Klasyfikacja binarna - gatunek **versicolour**

Sprawdźmy czy tak samo dobrze regresja logisytyczna poradzi sobie z klasyfikacja gatunku **versicolor**

In [23]:
iris["new_target"] = (iris["target"] == 1) * 1

In [24]:
iris["new_target"]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [25]:
X_train, X_test, y_train, y_test = train_test_split(
    iris["data"], 
    iris["new_target"], 
    test_size=0.33, 
    random_state=42)

model = LogisticRegression(random_state=42)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

In [26]:
X_train.shape

(100, 4)

In [27]:
print("Confusion matrix - tablica pomyłek\n", confusion_matrix(y_test, y_pred))

print("Raport klasyfikacyjny: \n", classification_report(y_test, y_pred))

Confusion matrix - tablica pomyłek
 [[30  5]
 [10  5]]
Raport klasyfikacyjny: 
               precision    recall  f1-score   support

           0       0.75      0.86      0.80        35
           1       0.50      0.33      0.40        15

    accuracy                           0.70        50
   macro avg       0.62      0.60      0.60        50
weighted avg       0.68      0.70      0.68        50



In [28]:
from sklearn import metrics

print("Accuracy:", metrics.accuracy_score(y_test, y_pred))
print("Precision:", metrics.precision_score(y_test, y_pred))
print("Recall:", metrics.recall_score(y_test, y_pred))

# Uwaga! Zawsze podawane dla klasy 1

Accuracy: 0.7
Precision: 0.5
Recall: 0.3333333333333333


# Wnioski


Dla gatunku virginica regresja logistyczna okazała się dobrym modelem predykcyjnym. Należy jednak pamiętać, że wysokie wyniki metryk wynikają z niewielkiego zbioru próbek - w rzeczywistośći model nie będzie miał 100% precyzji.

Dla gatunku versicolour regresja logistyczna daje gorsze wyniki, co może sugerować, że nie jest najlepszym modelem predykcji dla tego problemu.

# Inne - przypadek wieloklasowy

In the multiclass case, the training algorithm uses the one-vs-rest (OvR) scheme if the ‘multi_class’ option is set to ‘ovr’, and uses the cross-entropy loss if the ‘multi_class’ option is set to ‘multinomial’. (Currently the ‘multinomial’ option is supported only by the ‘lbfgs’, ‘sag’, ‘saga’ and ‘newton-cg’ solvers.)

## https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

In [29]:
iris["target"]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [30]:
X_train, X_test, y_train, y_test = train_test_split(
    iris["data"], 
    iris["target"], 
    test_size=0.33, 
    random_state=42)

model = LogisticRegression(random_state=42, max_iter=10000)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

In [None]:
model.n_iter_ # tyle iteracji było wykonane, żeby osiągnać założoną dokładność

In [31]:
y_pred

array([1, 0, 2, 1, 1, 0, 1, 2, 1, 1, 2, 0, 0, 0, 0, 1, 2, 1, 1, 2, 0, 2,
       0, 2, 2, 2, 2, 2, 0, 0, 0, 0, 1, 0, 0, 2, 1, 0, 0, 0, 2, 1, 1, 0,
       0, 1, 2, 2, 1, 2])

In [33]:
print("Confusion matrix - tablica pomyłek\n", confusion_matrix(y_test, y_pred))

print("Raport klasyfikacyjny: \n", classification_report(y_test, y_pred))

Confusion matrix - tablica pomyłek
 [[19  0  0]
 [ 0 15  0]
 [ 0  0 16]]
Raport klasyfikacyjny: 
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        19
           1       1.00      1.00      1.00        15
           2       1.00      1.00      1.00        16

    accuracy                           1.00        50
   macro avg       1.00      1.00      1.00        50
weighted avg       1.00      1.00      1.00        50

