# 12.5. Podstawy Scikit-learn
## Regresja logistyczna jako przykład używania biblioteki sklearn

In [None]:
from sklearn.linear_model import LogisticRegression

"""
    LogisticRegression link - https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

    Klasyfikator LogisticRegression znajduje się w bibliotece linear_model.
    Ogólnie zasada jest następująca:
    wszystkie klasyfikatory znajdują się w bibliotece sklarn.RODZINA_KLASYFIKATORÓW

    przykładowo:
    * wszystkie klasyfikatory liniowe znajdują się w bibliotece sklearn.linear_model
    * wszystkie klasyfikatory bazujące na drzewach decyzyjnych w sklearn.tree
    * wszystkie klasyfikatory bazujące na SVM w sklearn.svm
    * ...

"""

'\n    LogisticRegression link - https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html\n\n    Klasyfikator LogisticRegression znajduje się w bibliotece linear_model.\n    Ogólnie zasada jest następująca:\n    wszystkie klasyfikatory znajdują się w bibliotece sklarn.RODZINA_KLASYFIKATORÓW\n\n    przykładowo:\n    * wszystkie klasyfikatory liniowe znajdują się w bibliotece sklearn.linear_model\n    * wszystkie klasyfikatory bazujące na drzewach decyzyjnych w sklearn.tree\n    * wszystkie klasyfikatory bazujące na SVM w sklearn.svm\n    * ...\n\n'

In [None]:
from sklearn.tree import DecisionTreeClassifier # drzewo decyzyjne -> tree
from sklearn.svm import SVC # typ SVM, czyli po kropce jest svm
from sklearn.neighbors import KNeighborsClassifier # model k najbliższych sąsiadów

In [None]:
from sklearn.linear_model import LogisticRegression

clf = LogisticRegression()

"""
    obiekt klasyfikatora tworzy się identycznie, jak każdy inny obiekt w Pythonie,
    czyli poprzez wywołanie konstruktora
"""

'\n    obiekt klasyfikatora tworzy się identycznie, jak każdy inny obiekt w Pythonie,\n    czyli poprzez wywołanie konstruktora\n'

In [None]:
from sklearn.tree import DecisionTreeClassifier  # drzewo decyzyjne -> tree
from sklearn.svm import SVC  # typ SVM, czyli po kropce jest svm
from sklearn.neighbors import KNeighborsClassifier  # model k najbliższych sąsiadów

dt_clf = DecisionTreeClassifier()
svm_clf = SVC()  # Poprawiona nazwa zmiennej, aby była spójna z modelem
knn_clf = KNeighborsClassifier()

### Zastosujmy tę wiedzę w praktyce

In [None]:
from sklearn.datasets import make_classification
from sklearn.datasets import fetch_openml

# Prosty zbiór danych dostarczający losowe dane obiektów dwóch klas,
# Aby przerobić na obiekty 3 klas, należy dodać kolejny element listy
# weights, odpowiednio dopasować wagi, tak aby suma wynosiła 1.

"""
    Przykład tworzenia prostego zbioru danych
"""
def load_simple_classifier_dataset(weights=[0.5, 0.5]):
    """
        Metoda generująca prosty zbiór danych

        Argumenty:
            weights - lista z udziałami obiektów każdej klasy w próbce,
                      ich suma musi wynosić 1

        Zwraca:
            X - dane wejściowe dla modelu
            y - true labels dla tych danych wejściowych
    """

    X, y = make_classification(
        n_samples=1000,
        n_classes=len(weights),
        n_informative=len(weights),
        weights=weights,
        flip_y=0,
        random_state=1
    )

    return X, y

In [None]:
"""
    Przykład ładowania trudniejszego zbioru danych
"""
def load_mnist_data():
    """
        Zwraca:
            X - dane
            y - target labels
            target_names - labels do tego zbioru
    """
    mnist_data = fetch_openml('mnist_784', version=1)
    print("keys of data dictionary: ", mnist_data.keys())

    X, y = mnist_data['data'], mnist_data['target']

    return X, y, mnist_data.target_names

In [None]:
from sklearn.linear_model import LogisticRegression

# załadowanie zbioru danych
x, y = load_simple_classifier_dataset()

# stworzenie klasyfikatora
clf = LogisticRegression()

print("fitting - training...")
clf.fit(x, y)

print("predicting...")
y_pred = clf.predict(x)

# wypisujemy wartości dla pierwszych 10 predykcji

print("true values ", y[:10])
print("predicted   ", y_pred[:10])

print("scoring...")

clf_score = clf.score(x, y)
print("score = ", clf_score)

fitting - training...
predicting...
true values  [0 0 0 0 0 1 1 0 0 0]
predicted    [0 1 0 0 0 1 1 0 0 0]
scoring...
score =  0.854


In [None]:
from sklearn.tree import DecisionTreeClassifier # drzewo decyzyjne -> tree
from sklearn.svm import SVC # typ SVM, czyli po kropce jest svm
from sklearn.neighbors import KNeighborsClassifier # model k najbliższych sąsiadów

# stworzenie klasyfikatorów
dt_clf = DecisionTreeClassifier()
svc_clf = SVC()
knn_clf = KNeighborsClassifier()

# stworzenie pełnego pipeline'u ML
x, y = load_simple_classifier_dataset()

# wrzucamy wszystkie klasyfikatory do jednej listy
klasyfikatory = [dt_clf, svc_clf, knn_clf]

for clf in klasyfikatory:
    print("--------------")
    print("fitting - training...")
    clf.fit(x, y)

    print("predicting...")
    y_pred = clf.predict(x)

    # wpisujemy wartości dla pierwszych 10 predykcji

    print("true values ", y[:10])
    print("predicted   ", y_pred[:10])

    print("scoring...")

    clf_score = clf.score(x, y)
    print("score = ", clf_score)

--------------
fitting - training...
predicting...
true values  [0 0 0 0 0 1 1 0 0 0]
predicted    [0 0 0 0 0 1 1 0 0 0]
scoring...
score =  1.0
--------------
fitting - training...
predicting...
true values  [0 0 0 0 0 1 1 0 0 0]
predicted    [0 1 0 0 0 1 1 0 0 0]
scoring...
score =  0.918
--------------
fitting - training...
predicting...
true values  [0 0 0 0 0 1 1 0 0 0]
predicted    [0 1 0 0 0 1 1 0 0 0]
scoring...
score =  0.865


#importujemy train_test_split
from sklearn.model_selection import train_test_split

"""
Dane wejściowe:
    X - wejście do naszego modelu, które chcemy podzielić.
        Może to być tablica NumPy, lista Pythona, dataframe z Pandas itp.
    y - true labels, które chcemy podzielić wraz z wejściem.
        Chcemy mieć taki sam podział wejść i odpowiadających im wyjść, prawda?

    test_size    - jaki procent danych ma być użyty do testowania, 0.33 == 33%
    random_state - ustalenie tej wartości gwarantuje zawsze taki sam podział.
                   Przydatne przy porównywaniu klasyfikatorów na tych samych danych

Dane wyjściowe:
    X_train, X_test - wejścia odpowiednio dla treningu i testowania
    y_train, y_test - wyjścia odpowiednio da treningu i testowania odpowiadające
                      kolejnością wejściom (relacja wejście wyjście jest zachowana)
"""

X_train, X_test, y_train, y_test = \
    train_test_split(X, y, test_size=0.33, random_state=42)

### Ćwiczenie

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier  # drzewo decyzyjne -> tree

# Zakładam, że funkcja load_simple_classifier_dataset() jest zdefiniowana gdzieś wcześniej
x, y = load_simple_classifier_dataset()

# Podział danych na zbiór treningowy i testowy
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

# Inicjalizacja modeli
clf = DecisionTreeClassifier()  # model uczony na zbiorze treningowym
clf_2 = DecisionTreeClassifier()  # model uczony na całym zbiorze danych

print("fitting - training...")
clf.fit(X_train, y_train)  # Trenowanie modelu na zbiorze treningowym

print("training on whole dataset...")
clf_2.fit(x, y)  # Trenowanie modelu na całym zbiorze danych

print("predicting...")
y_pred = clf.predict(X_test)  # Przewidywanie na zbiorze testowym

# Wypisanie wartości dla pierwszych 10 predykcji
print("true values  ", y_test[:10])  # Rzeczywiste wartości (ze zbioru testowego)
print("predicted    ", y_pred[:10])  # Przewidywane wartości

print("scoring...")

# Ocena modelu na zbiorze treningowym
clf_score = clf.score(X_train, y_train)
print("Train score = ", clf_score)

# Ocena modelu na zbiorze testowym
clf_score = clf.score(X_test, y_test)
print("Test score = ", clf_score)

# Ocena modelu na całym zbiorze danych
clf_score = clf_2.score(x, y)
print("whole set score = ", clf_score)

fitting - training...
training on whole dataset...
predicting...
true values   [1 0 1 0 0 0 0 1 1 1]
predicted     [1 0 1 0 0 0 0 1 1 1]
scoring...
Train score =  1.0
Test score =  0.825
whole set score =  1.0


Widać, iż w przypadku klasyfikatora DecissionTreeClassifier mamy do czynienia z overfittingiem. Dla danych treningowych mamy metrykę równą 1.0! Z kolei dla danych testowych mamy metrykę wyraźnie mniejszą, czyli coś jest nie tak.

Typowy przykład overfittingu występuje, gdy model dla danych testowych idealnie się dopasował, natomiast dla danych, których nie "widział" przewiduje "koślawo".

Podczas trenowania modelu na wspólnych danych widać, iż metryka jest znacznie bliższa 1.0, niż gdy model był szkolony na danych treningowych i testowany na testowych (osobnych). Za pomocą train_test_split można zatem wykryć wady naszego modelu. Otrzymujemy metrykę dla danych, których nasz model nie "widział". Jest to bardziej wiarygodne niż sprawdzanie modelu na tych samych danych, na których go szkoliliśmy.

Wracając do porównania do egzaminu. Bardziej wartościowe dla nas jest zdanie egzaminu z języka francuskiego, nie znając wcześniej pytań, gdyż wiemy, że zasłużyliśmy na ocenę i że wyjeżdżając na wakacje dogadamy się z Francuzami. Natomiast odpowiadając na te same pytania, które wkuliśmy na pamięć, podczas egzaminu możemy nie mieć pojęcia o języku francuskim, a i tak zdamy na 100%. Jednak wakacje zweryfikują fakt, że nie potrafimy nawet kupić bułki w piekarni.

Tym jest właśnie overfitting – model uzyskuje super wynik, ale dla danych które "widział", natomiast dla nowych danych nie jest w stanie nic przewidzieć prawidłowo. Zauważ, że tutaj wynik poniżej 0.5 jest słabszy niż wybieranie na chybił trafił!.