# Lab 9 - Uczenie nadzorowane

Biblioteka **Scikit-learn** to narzędzie stworzone z myslą o projektowaniu systemów uczących się. Dzięki ujednoliconemu interfejsowi (metody *fit*, *transform* i *predict*), trening i zastosowanie estymatorów jest równie intuicyjne, co wykorzystanie metod przetwarzających dane.

## Klasyfikacja

Klasyfikacja to proces przypisywania obiektów do określonych klas decyzyjnych pochodzących ze skończonego zbioru, na podstawie ich cech lub właściwości. Modele decyzyjne, stanowiące podstawę procesu klasyfikacji, konstruuje się na podstawie szerokiej gamy metod matematycznych, takich jak optymalizacja, czy wnioskowanie logiczne i bayesowskie. Ostateczna skuteczność procesu klasyfikacji zależy od wyboru odpowiednich atrybutów, algorytmu oraz optymalnych parametrów i hiperparametrów modelu.

In [None]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import accuracy_score, balanced_accuracy_score

In [None]:
mnist_train = pd.read_csv('/content/sample_data/mnist_train_small.csv', names=['digit'] + [f'px_{i + 1}' for i in range(784)])
mnist_test = pd.read_csv('/content/sample_data/mnist_test.csv', names=['digit'] + [f'px_{i + 1}' for i in range(784)])

In [None]:
mnist_train

In [None]:
X_train, y_train = mnist_train[list(set(mnist_train) - set('digit'))], mnist_train['digit']
X_test, y_test = mnist_test[list(set(mnist_test) - set('digit'))], mnist_test['digit']

In [None]:
scaler = MinMaxScaler()
scaler.fit(X_train)

X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

### K-NN

Algorytm k-nn (k-najbliższych sąsiadów) w kontekście klasyfikacji opiera się na zasadzie przypisywania klasy nowego obiektu na podstawie większości przynależących do niego k najbliższych sąsiadów w przestrzeni cech. Wybór odpowiedniej wartości parametru k wpływa na balans między skomplikowaniem a stabilnością modelu, gdzie mniejsze wartości k mogą prowadzić do nadmiernego dopasowania, a większe do zwiększenia wariancji modelu. Efektywność algorytmu k-nn w dużej mierze zależy od właściwego dobrania metryki odległości oraz odpowiedniego przetwarzania danych wejściowych.

Wykorzystanie algorytmu k-nn w procesie klasyfikacji polega na zastosowaniu klasy [KNeighborsClassifier](https://https://scikit-learn.org/stable/modules/neighbors.html#nearest-neighbors-classification), która przyjmuje następujące parametry:
- n_neighbors (int) - liczba najbliższych sąsiadów
- weights (str | callable) - metoda wyznaczania wag dla najbliższych sąsiadów
  - uniform (domyślne) - jednakowa waga dla wszystkich najbliższych sąsiadów
  - distance - wyższa waga dla bliższych sąsiadów
- algorithm (str) - algorytm wyznaczający najbliższych sąsiadów
  - ball_tree
  - kd_tree
  - brute
  - auto (domyślne)
- leaf_size (int) - wielkość liścia w drzewie stosowanym w algorytmach ball_tree i kd_tree
- p (int) - parametr metryki Minkowskiego (jeżeli jest wykorzystywana)
- metric (str | callable) - metryka odległości wykorzystywana przy wyznaczaniu najbliższych sąsiadów
- metric_params (str) - dodatkowy słownik parametrów przekazywany do wybranej metryki
- n_jobs (int) - liczba równoległych wątków

In [None]:
from sklearn.neighbors import KNeighborsClassifier

In [None]:
model = KNeighborsClassifier(n_neighbors=5)
model.fit(X_train, y_train)

In [None]:
y_pred = model.predict(X_test)

In [None]:
y_pred

In [None]:
accuracy_score(y_test, y_pred)

In [None]:
balanced_accuracy_score(y_test, y_pred)

### Drzewo decyzyjne

Drzewo decyzyjne jest klasyfikatorem (a także regresorem), który hierarchicznie dzieli przestrzeń atrybutów, aby efektywnie przyporządkować obiekty do różnych klas. Wybór podziałów opiera się na cechach, które najlepiej segregują dane według kryteriów decyzyjnych, takich jak entropia czy wskaźnik Giniego. Ostateczna struktura drzewa umożliwia interpretację procesu klasyfikacji, a optymalizacja parametrów, takich jak głębokość drzewa, ma istotny wpływ na jego zdolność do generalizacji decyzji.

Wykorzystanie drzewa decyzyjnego w procesie klasyfikacji polega na zastosowaniu klasy [DecisionTreeClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html), która przyjmuje następujące parametry:
- criterion (str) - kryterium podziału atrybutów
  - gini (domyślny)
  - entropy
  - log_loss
- splitter (str) - typ podziału
  - best (domyślny) - podział według najlepszego kryterium
  - random - podział losowy
- max_depth (int) - maksymalna głębokośc drzewa
- min_samples_split (int) - minimalna liczba obiektów do dokonania podziału
- min_samples_leaf (int) - minimalna liczba obiektów tworząca liść
- min_weight_fraction_leaf (float) - minimalny odsetek sumy ważonej wag obiektów tworzących liść
- max_features (int) - maksymalna liczba atrybutów podczas dokonywania podziału
- random_state (int) - tzw. ziarno losowości
- max_leaf_nodes (int) - maksymalna liczba liści
- min_impurity_decrease (float) - próg zmiany zanieczyszczenia wartości w węźle do dokonania podziału
- class_weight (dict | list | str) - wagi przypisane klasom decyzyjnym
- ccp_alpha (float) - parametr używany do przycinania drzew przy uwzględnieniu kosztu

In [None]:
from sklearn.tree import DecisionTreeClassifier

In [None]:
model = DecisionTreeClassifier()
model.fit(X_train, y_train)

In [None]:
y_pred = model.predict(X_test)

In [None]:
y_pred

In [None]:
accuracy_score(y_test, y_pred)

In [None]:
balanced_accuracy_score(y_test, y_pred)

## Regresja

Regresja odnosi się do statystycznej metody modelowania, której celem jest prognozowanie wartości ciągłych na podstawie historycznych danych. Ocena jakości modelu regresyjnego często opiera się na miarach takich jak błąd średniokwadratowy oraz błąd bezwzględny, a optymalizacja parametrów modelu ma kluczowe znaczenie dla jego zdolności do dokładnego przewidywania wartości numerycznych.

### Regresja liniowa

Użycie metody regresji liniowej w bibliotece Scikit-learn polega na zastosowaniu klasy [LinearRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html), która przyjmuje następujące parametry:
- fit_intercept (bool) - dodatkowe środkowanie danych
- copy_X (bool) - kopia danych treningowych celem minimalizacji ryzyka zniszczenia oryginału
- n_jobs (int) - liczba wątków wykonywanych równolegle
- positive (bool) - wymuszenie przyjmowania wyłącznie dodatnich wartości przez współczynniki regresji

In [None]:
housing_train = pd.read_csv('/content/sample_data/california_housing_train.csv')
housing_test = pd.read_csv('/content/sample_data/california_housing_test.csv')

In [None]:
X_train, y_train = housing_train[list(set(housing_train) - set('median_house_value'))], housing_train['median_house_value']
X_test, y_test = housing_test[list(set(housing_test) - set('median_house_value'))], housing_test['median_house_value']

In [None]:
scaler = MinMaxScaler()
scaler.fit(X_train)

X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error

from math import sqrt

In [None]:
model = LinearRegression()
model.fit(X_train, y_train)

In [None]:
y_pred = model.predict(X_test)

In [None]:
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)

In [None]:
f'MSE: {mse}, RMSE: {sqrt(mse)}, MAE: {mae}'

### K-NN

Algorytm k-nn może być wykorzystywany także w zadaniach regresji, które w przeciwieństwie do klasyfikacji, polega na uśrednianiu wartości przypisanych k najbliższym sąsiadom.

Do realizacji zadania regresji za pomocą algorytmu k najbliższych sąsiadów przeznaczona jest klasa [KNeighborsRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsRegressor.html). Parametry pozostają te same, co w przypadku klasy **KNeighborsClassifier**.

In [None]:
from sklearn.neighbors import KNeighborsRegressor

In [None]:
model = KNeighborsRegressor()
model.fit(X_train, y_train)

In [None]:
y_pred = model.predict(X_test)

In [None]:
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)

In [None]:
f'MSE: {mse}, RMSE: {sqrt(mse)}, MAE: {mae}'

### Drzewo decyzyjne

Do realizacji zadania regresji za pomocą drzewa decyzyjnego przeznaczona jest klasa [DecisionTreeRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html). Parametry pozostają te same, co w przypadku klasy **DecisionTreeClassifier**.

In [None]:
from sklearn.tree import DecisionTreeRegressor

In [None]:
model = DecisionTreeRegressor()
model.fit(X_train, y_train)

In [None]:
y_pred = model.predict(X_test)

In [None]:
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)

In [None]:
f'MSE: {mse}, RMSE: {sqrt(mse)}, MAE: {mae}'

## Potoki z estymatorami

In [None]:
from sklearn.pipeline import make_pipeline

In [None]:
train_pipeline = make_pipeline(
    MinMaxScaler(),
    LinearRegression(),
)

In [None]:
train_pipeline.fit(X_train, y_train)

In [None]:
y_pred = train_pipeline.predict(X_test)

In [None]:
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)

In [None]:
f'MSE: {mse}, RMSE: {sqrt(mse)}, MAE: {mae}'

## Zadania
1. Korzystając ze zbioru danych `mnist` sprawdzić interfejsy następujących klasyfikatorów:
  - Regresja Logistyczna: [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression)
  - Liniowa Maszyna Wektorów Nośnych: [LinearSVC](https://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVC.html#sklearn.svm.LinearSVC).
  
  Porównać wyniki dokładności globalnej i zbalansowanej.
2. Korzystając ze zbioru danych `CaliforniaHousing` sprawdzić interfejsy następujących regresorów:
  - Regresja Bayesowska: [BayesianRidge](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.BayesianRidge.html#sklearn.linear_model.BayesianRidge)
  - Regresor Wektorów Nośnych: [SVR](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVR.html#sklearn.svm.SVR).
  
  Porównać wyniki błędu średniokwadratowego i jego pierwiastka oraz średniego błędu bezwzględnego.