Biblioteka **Scikit-learn** to narzędzie stworzone z myslą o projektowaniu systemów uczących się. Dzięki ujednoliconemu interfejsowi (metody *fit*, *transform* i *predict*), trening i zastosowanie estymatorów jest równie intuicyjne, co wykorzystanie metod przetwarzających dane.

## Klasyfikacja

Klasyfikacja to proces przypisywania obiektów do określonych klas decyzyjnych pochodzących ze skończonego zbioru, na podstawie ich cech lub właściwości. Modele decyzyjne, stanowiące podstawę procesu klasyfikacji, konstruuje się na podstawie szerokiej gamy metod matematycznych, takich jak optymalizacja, czy wnioskowanie logiczne i bayesowskie. Ostateczna skuteczność procesu klasyfikacji zależy od wyboru odpowiednich atrybutów, algorytmu oraz optymalnych parametrów i hiperparametrów modelu.

In [23]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import accuracy_score, balanced_accuracy_score

In [24]:
mnist_train = pd.read_csv('../data/mnist_train.csv', names=['digit'] + [f'px_{i + 1}' for i in range(784)], skiprows = 1)
mnist_test = pd.read_csv('../data/mnist_test.csv', names=['digit'] + [f'px_{i + 1}' for i in range(784)], skiprows = 1)

# Wprowadzenie do systemów uczących się i uczenia nazdorowanego

In [25]:
mnist_train

Unnamed: 0,digit,px_1,px_2,px_3,px_4,px_5,px_6,px_7,px_8,px_9,...,px_775,px_776,px_777,px_778,px_779,px_780,px_781,px_782,px_783,px_784
0,5,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,4,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,9,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
59995,8,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
59996,3,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
59997,5,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
59998,6,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [26]:
mnist_test

Unnamed: 0,digit,px_1,px_2,px_3,px_4,px_5,px_6,px_7,px_8,px_9,...,px_775,px_776,px_777,px_778,px_779,px_780,px_781,px_782,px_783,px_784
0,7,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,2,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,4,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,2,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9996,3,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9997,4,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9998,5,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [27]:
X_train, y_train = mnist_train[list(set(mnist_train) - set('digit'))], mnist_train['digit']
X_test, y_test = mnist_test[list(set(mnist_test) - set('digit'))], mnist_test['digit']

In [28]:
scaler = MinMaxScaler()
scaler.fit(X_train)

X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

Klasyfikacja i regresja to dwa podstawowe rodzaje problemów, które można rozwiązać przy użyciu metod uczenia maszynowego, a ich główna różnica polega na tym, **jakiego typu wartość próbujemy przewidzieć**.

### Klasyfikacja
W problemie klasyfikacji zadaniem modelu jest przewidzenie przynależności do jednej z kilku kategorii (czy klas). Oznacza to, że model dokonuje wyboru z dyskretnych, wyraźnie oddzielonych opcji. Przykłady klasyfikacji obejmują:
- Rozpoznawanie obrazu jako psa lub kota,
- Klasyfikowanie wiadomości e-mail jako „spam” lub „nie-spam”,
- Określanie, czy pacjent jest chory, czy zdrowy na podstawie wyników testów medycznych.

W klasyfikacji model zwraca klasę lub etykietę. **Może to być problem klasyfikacji binarnej** (gdy są tylko dwie klasy, np. chory vs. zdrowy) **lub wieloklasowej** (gdy istnieje więcej niż dwie klasy, np. rodzaje kwiatów w zbiorze Iris).

#### Wartość wynikowa:
- **Dyskretna** – model zwraca konkretne klasy lub etykiety (np. „spam”, „nie-spam”),
- **Wskaźniki wydajności**: typowe metryki to accuracy, precision, recall, F1-score oraz macierz pomyłek, które mierzą skuteczność przypisywania do odpowiednich klas.

### Regresja
Regresja odnosi się do problemów, w których zadaniem modelu jest przewidzenie wartości ciągłej, liczbowej. Innymi słowy, zamiast wybierać klasę, model szacuje konkretną wartość liczbową. Przykłady problemów regresji obejmują:
- Prognozowanie ceny domu na podstawie jego cech,
- Przewidywanie temperatury w danym dniu na podstawie warunków pogodowych,
- Szacowanie zysków firmy na podstawie danych historycznych.

W regresji wynik ma charakter liczbowy i może przyjmować wartość na dowolnym przedziale liczbowym.

#### Wartość wynikowa:
- **Ciągła** – model zwraca wartość liczbową (np. prognozowaną cenę w dolarach),
- **Wskaźniki wydajności**: typowe metryki to Mean Squared Error (MSE), Mean Absolute Error (MAE) oraz Root Mean Squared Error (RMSE), które mierzą różnice między przewidywaniami a rzeczywistymi wartościami.

### Kluczowe różnice
1. **Typ wyniku**:
   - Klasyfikacja: wartość dyskretna (klasa lub etykieta),
   - Regresja: wartość ciągła (liczba).

2. **Zastosowanie**:
   - Klasyfikacja: zadania wyboru kategorii, np. diagnoza, klasyfikacja obrazów.
   - Regresja: zadania predykcji wartości liczbowych, np. prognozowanie cen, analizowanie trendów.

3. **Metryki wydajności**:
   - Klasyfikacja: accuracy, precision, recall, F1-score, etc.
   - Regresja: MSE, MAE, RMSE.

### Przykład zastosowania obu typów
Dla modelu przewidującego ryzyko finansowe klienta banku:
- Jeśli celem jest przewidzenie, **czy klient spłaci pożyczkę** (tak/nie), jest to klasyfikacja.
- Jeśli celem jest **oszacowanie kwoty, którą klient jest w stanie spłacić**, jest to regresja.

Rozróżnienie klasyfikacji i regresji zależy zatem od rodzaju wyniku, jaki chcemy uzyskać oraz sposobu mierzenia jakości modelu.

### K-NN

Algorytm k-nn (k-najbliższych sąsiadów) w kontekście klasyfikacji opiera się na zasadzie przypisywania klasy nowego obiektu na podstawie większości przynależących do niego k najbliższych sąsiadów w przestrzeni cech. Wybór odpowiedniej wartości parametru k wpływa na balans między skomplikowaniem a stabilnością modelu, gdzie mniejsze wartości k mogą prowadzić do nadmiernego dopasowania, a większe do zwiększenia wariancji modelu. Efektywność algorytmu k-nn w dużej mierze zależy od właściwego dobrania metryki odległości oraz odpowiedniego przetwarzania danych wejściowych.

#### 1. Ogólne założenia algorytmu KNN

KNN to algorytm **leniwie uczący się** (ang. *lazy learning*), co oznacza, że podczas etapu treningowego nie wykonuje żadnych obliczeń na danych poza ich zapamiętaniem. Całe obliczenia przeprowadzane są dopiero podczas przewidywania. W KNN, żeby przewidzieć klasę lub wartość dla danego punktu, algorytm:
- **Poszukuje K najbliższych sąsiadów** w przestrzeni danych,
- Przeprowadza **głosowanie (klasyfikacja)** lub **oblicza średnią (regresja)** na podstawie wartości tych sąsiadów.

#### 2. Krok po kroku, jak działa KNN

1. **Parametryzacja:**
   - Wybieramy liczbę sąsiadów, `K`, która oznacza, ilu najbliższych sąsiadów bierze się pod uwagę przy klasyfikacji/regresji. 
   - Ustalamy metrykę odległości, np. euklidesową, manhattańską lub inną.

2. **Znajdowanie sąsiadów:**
   - Dla każdego nowego punktu, który chcemy przewidzieć, algorytm oblicza odległość do wszystkich innych punktów w zbiorze danych. Na podstawie tych odległości wybiera `K` najbliższych sąsiadów.

3. **Przewidywanie (klasyfikacja):**
   - Algorytm patrzy na klasy tych sąsiadów i wybiera klasę, która występuje najczęściej (jest najczęściej głosowana) jako wynik klasyfikacji dla danego punktu.

4. **Przewidywanie (regresja):**
   - Algorytm oblicza średnią wartość (lub np. medianę) wartości sąsiadów jako przewidywaną wartość dla punktu.

#### 3. Dobór liczby sąsiadów, K

Wartość `K` to kluczowy parametr algorytmu. Wpływa na jego dokładność i stabilność:
- **Małe K** (np. `K=1` lub `K=3`) sprawia, że algorytm jest bardziej "czuły" na zmiany i może lepiej odwzorowywać lokalne zależności, ale jest bardziej podatny na szumy.
- **Duże K** (np. `K=10` lub więcej) uśrednia sąsiadów z większej odległości, co może pomóc w uogólnieniu, ale zbyt duże K może skutkować słabą dokładnością, bo algorytm może "gubić" lokalne wzorce.

Zazwyczaj wartość `K` dobierana jest empirycznie, często przy pomocy walidacji krzyżowej.

#### 4. Metryki odległości

W KNN do wyznaczania sąsiadów wykorzystuje się różne miary odległości. Oto najczęstsze z nich:

- **Odległość euklidesowa**: Najczęściej używana. Działa najlepiej, gdy wszystkie cechy mają podobną skalę.
  
  $
  d(p, q) = \sqrt{\sum_{i=1}^{n} (p_i - q_i)^2}
  $

- **Odległość manhattańska**: Przydatna, gdy cechy mogą mieć różne zakresy.

  $
  d(p, q) = \sum_{i=1}^{n} |p_i - q_i|
  $

- **Odległość Minkowskiego**: Uogólnienie obu powyższych. Można dostosować parametr do wymagań.

  $
  d(p, q) = \left( \sum_{i=1}^{n} |p_i - q_i|^p \right)^{\frac{1}{p}}
  $

#### 5. Wady i zalety KNN

**Zalety:**
- Algorytm jest prosty i łatwy do zaimplementowania.
- Dobry do problemów, gdzie podobieństwo między punktami jest kluczowe.

**Wady:**
- **Wolny przy dużych zbiorach danych** – wymaga przechowywania i przeszukiwania dużej liczby punktów przy każdym przewidywaniu.
- **Wrażliwość na skalowanie** – różne skale cech mogą wpływać na wyniki, dlatego ważne jest normalizowanie danych.
- **Wrażliwość na szumy** – małe K może prowadzić do nadmiernego dopasowania do szumów.

![](https://miro.medium.com/v2/resize:fit:505/0*2_qzcm2gSe9l67aI.png)

*source: medium.com*

Wykorzystanie algorytmu k-nn w procesie klasyfikacji polega na zastosowaniu klasy [KNeighborsClassifier](https://https://scikit-learn.org/stable/modules/neighbors.html#nearest-neighbors-classification), która przyjmuje następujące parametry:
- n_neighbors (int) - liczba najbliższych sąsiadów
- weights (str | callable) - metoda wyznaczania wag dla najbliższych sąsiadów
  - uniform (domyślne) - jednakowa waga dla wszystkich najbliższych sąsiadów
  - distance - wyższa waga dla bliższych sąsiadów
- algorithm (str) - algorytm wyznaczający najbliższych sąsiadów
  - ball_tree
  - kd_tree
  - brute
  - auto (domyślne)
- leaf_size (int) - wielkość liścia w drzewie stosowanym w algorytmach ball_tree i kd_tree
- p (int) - parametr metryki Minkowskiego (jeżeli jest wykorzystywana)
- metric (str | callable) - metryka odległości wykorzystywana przy wyznaczaniu najbliższych sąsiadów
- metric_params (str) - dodatkowy słownik parametrów przekazywany do wybranej metryki
- n_jobs (int) - liczba równoległych wątków

In [29]:
from sklearn.neighbors import KNeighborsClassifier

In [30]:
model = KNeighborsClassifier(n_neighbors=5)
model.fit(X_train, y_train)

In [31]:
y_pred = model.predict(X_test)

In [32]:
y_pred

array([7, 2, 1, ..., 4, 5, 6], dtype=int64)

In [33]:
accuracy_score(y_test, y_pred)

0.9688

In [34]:
balanced_accuracy_score(y_test, y_pred)

0.9684705010297703

### Drzewo decyzyjne

Drzewo decyzyjne jest klasyfikatorem (a także regresorem), który hierarchicznie dzieli przestrzeń atrybutów, aby efektywnie przyporządkować obiekty do różnych klas. Wybór podziałów opiera się na cechach, które najlepiej segregują dane według kryteriów decyzyjnych, takich jak entropia czy wskaźnik Giniego. Ostateczna struktura drzewa umożliwia interpretację procesu klasyfikacji, a optymalizacja parametrów, takich jak głębokość drzewa, ma istotny wpływ na jego zdolność do generalizacji decyzji.

#### Jak działa drzewo decyzyjne?

Drzewo decyzyjne jest strukturą złożoną z węzłów:
- **Węzeł korzeniowy**: Punkt początkowy drzewa, który zawiera cały zbiór danych.
- **Węzły decyzyjne**: Reprezentują różne cechy i dokonują podziału na podstawie określonego kryterium (np. „Czy wiek jest większy niż 30?”).
- **Liście**: Ostateczne węzły drzewa, które zawierają ostateczną decyzję lub prognozę.

Proces „uczenia się” przez drzewo decyzyjne polega na dzieleniu danych w taki sposób, aby każda decyzja zwiększała „czystość” grup w podziale. W zależności od problemu, model ocenia czystość węzłów, wykorzystując różne **kryteria podziału**.

#### Kroki działania drzewa decyzyjnego

1. **Wybór cechy do podziału**: Model wybiera cechę (np. `wiek`, `dochód`) na podstawie jej zdolności do tworzenia dobrze rozdzielonych grup, w których rekordy są bardziej jednorodne.
2. **Podział danych**: Dla wybranej cechy tworzy podział według wartości progowej. Na przykład, „wiek > 30” może być takim progiem, który dzieli dane na dwie grupy: jedną z wiekiem powyżej 30 i drugą z wiekiem 30 lub niżej.
3. **Powtarzanie procesu**: Model stosuje te same kroki w każdym nowo utworzonym węźle, tworząc kolejne rozgałęzienia, aż do momentu, gdy osiągnięte zostaną warunki zatrzymania, takie jak głębokość drzewa lub minimalna liczba próbek.

4. **Przypisanie etykiet w liściach**: W końcowych węzłach (liściach) przypisywana jest etykieta klasy (dla klasyfikacji) lub wartość (dla regresji).

### Kryteria podziału

W zależności od tego, czy drzewo jest używane do klasyfikacji czy regresji, stosuje się różne kryteria podziału:

- **Dla klasyfikacji**:
  - **Impurity Gini**: Kryterium, które mierzy nieczystość podziału. Im bardziej jednolite są klasy w węźle, tym mniejsza jest wartość Gini.
  - **Entropia**: Miara niepewności na podstawie teorii informacji. Entropia osiąga wartość zero, gdy podział jest całkowicie czysty (gdy wszystkie próbki w węźle należą do jednej klasy).
  
- **Dla regresji**:
  - **Mean Squared Error (MSE)**: Średni błąd kwadratowy między rzeczywistymi wartościami a prognozami. Minimalizacja tej wartości prowadzi do bardziej precyzyjnych podziałów.
  - **Mean Absolute Error (MAE)**: Średnia różnica bezwzględna między rzeczywistymi wartościami a prognozami.

### Zalety drzew decyzyjnych

- **Interpretowalność**: Drzewa decyzyjne są łatwe do zrozumienia i wizualizacji. Można prześledzić, jak model doszedł do konkretnej decyzji, podążając za ścieżką od korzenia do liścia.
- **Brak potrzeby standaryzacji**: Drzewa nie wymagają standaryzacji ani normalizacji cech, ponieważ podziały są oparte na progach wartości.
- **Obsługa danych mieszanych**: Mogą pracować zarówno z danymi numerycznymi, jak i kategorycznymi, co czyni je elastycznymi.

### Wady drzew decyzyjnych

- **Overfitting**: Drzewa decyzyjne są podatne na przeuczenie, szczególnie gdy drzewo jest zbyt głębokie i ma wiele węzłów.
- **Wysoka wariancja**: Niewielka zmiana w danych treningowych może prowadzić do innej struktury drzewa, co sprawia, że modele te mogą być niestabilne.
- **Niska dokładność w przypadku skomplikowanych danych**: Modele drzewa decyzyjnego mogą mieć niższą dokładność w przypadku problemów z dużą ilością cech.

![](https://images.datacamp.com/image/upload/v1677504957/decision_tree_for_heart_attack_prevention_2140bd762d.png)
*source: datacamp.com*

Wykorzystanie drzewa decyzyjnego w procesie klasyfikacji polega na zastosowaniu klasy [DecisionTreeClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html), która przyjmuje następujące parametry:
- criterion (str) - kryterium podziału atrybutów
  - gini (domyślny)
  - entropy
  - log_loss
- splitter (str) - typ podziału
  - best (domyślny) - podział według najlepszego kryterium
  - random - podział losowy
- max_depth (int) - maksymalna głębokośc drzewa
- min_samples_split (int) - minimalna liczba obiektów do dokonania podziału
- min_samples_leaf (int) - minimalna liczba obiektów tworząca liść
- min_weight_fraction_leaf (float) - minimalny odsetek sumy ważonej wag obiektów tworzących liść
- max_features (int) - maksymalna liczba atrybutów podczas dokonywania podziału
- random_state (int) - tzw. ziarno losowości
- max_leaf_nodes (int) - maksymalna liczba liści
- min_impurity_decrease (float) - próg zmiany zanieczyszczenia wartości w węźle do dokonania podziału
- class_weight (dict | list | str) - wagi przypisane klasom decyzyjnym
- ccp_alpha (float) - parametr używany do przycinania drzew przy uwzględnieniu kosztu

In [35]:
from sklearn.tree import DecisionTreeClassifier

In [36]:
model = DecisionTreeClassifier()
model.fit(X_train, y_train)

In [37]:
y_pred = model.predict(X_test)

In [38]:
y_pred

array([7, 2, 1, ..., 4, 5, 6], dtype=int64)

In [39]:
accuracy_score(y_test, y_pred)

1.0

In [40]:
balanced_accuracy_score(y_test, y_pred)

1.0

## Regresja

Regresja odnosi się do statystycznej metody modelowania, której celem jest prognozowanie wartości ciągłych na podstawie historycznych danych. Ocena jakości modelu regresyjnego często opiera się na miarach takich jak błąd średniokwadratowy oraz błąd bezwzględny, a optymalizacja parametrów modelu ma kluczowe znaczenie dla jego zdolności do dokładnego przewidywania wartości numerycznych.

Istnieją różne typy regresji, ale jednym z najczęściej stosowanych jest regresja liniowa.

### 1. Czym jest regresja liniowa?

Regresja liniowa jest modelem przewidującym wartość docelową (zwaną zmienną zależną) na podstawie jednego lub kilku predyktorów (zwanych zmiennymi niezależnymi). Jest to model **liniowy**, co oznacza, że relacja między zmiennymi niezależnymi a zmienną zależną jest opisana prostą linią lub płaszczyzną w przestrzeni wielowymiarowej.

Przykład:
W prostym przypadku, gdy mamy jedną zmienną wejściową (np. `x`) i jedną zmienną wyjściową (np. `y`), model regresji liniowej przyjmuje postać równania:

$
y = w \cdot x + b
$

gdzie:
- \( y \) to przewidywana wartość,
- \( w \) to nachylenie prostej (określające wpływ `x` na `y`),
- \( b \) to wyraz wolny (punkt przecięcia osi y przez prostą, gdy $( x = 0 )$).

Dla wielu zmiennych wejściowych równanie rozszerza się do:

$
y = w_1 \cdot x_1 + w_2 \cdot x_2 + \dots + w_n \cdot x_n + b
$

gdzie:
- $( w_1, w_2, \dots, w_n )$ to współczynniki regresji dla poszczególnych zmiennych.

### 2. Jak działa regresja liniowa?

Regresja liniowa działa na zasadzie dopasowania modelu liniowego do danych. Proces ten składa się z kilku etapów:

1. **Uczenie modelu**: Algorytm regresji szuka wartości współczynników $( w )$ i $( b )$ w taki sposób, aby linia regresji jak najlepiej dopasowała się do punktów danych w zbiorze uczącym.
   
2. **Minimalizacja błędu**: Model dopasowuje się do danych poprzez minimalizację różnicy między rzeczywistymi wartościami $( y )$ a przewidywanymi wartościami $( \hat{y} )$. Najczęściej stosowanym kryterium błędu w regresji liniowej jest błąd średniokwadratowy (*Mean Squared Error*, MSE), obliczany jako:

   $
   MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
   $

   gdzie $( y_i )$ to rzeczywista wartość, a $( \hat{y}_i )$ to wartość przewidywana dla i-tego przykładu. Model dąży do minimalizacji MSE, dostosowując wartości współczynników.

3. **Optymalizacja**: Najczęściej stosowaną metodą do znalezienia optymalnych wartości współczynników jest metoda gradientu prostego (ang. *Gradient Descent*), która iteracyjnie zmniejsza błąd, aż do znalezienia wartości współczynników, które najlepiej dopasowują model do danych.

### 3. Typy regresji w ML i ich konteksty

Regresja liniowa jest najbardziej podstawową metodą, ale istnieją jej rozszerzenia i inne typy regresji:

- **Regresja wielomianowa**: Gdy zależność między zmiennymi nie jest liniowa, można użyć funkcji wielomianowej, np. $( y = w_1 x + w_2 x^2 + b )$.
  
- **Regresja Lasso i Ridge**: Są to odmiany regresji liniowej z **regularizacją**, które dodają do funkcji kosztu dodatkowe elementy, zapobiegając overfittingowi (Lasso wykorzystuje normę L1, Ridge - normę L2).

- **Regresja logistyczna**: Choć technicznie jest to metoda klasyfikacji, regresja logistyczna opiera się na podobnych założeniach, wykorzystując funkcję logistyczną do przewidywania wartości prawdopodobieństwa dla danych binarnych.

### 4. Zalety i ograniczenia regresji

#### Zalety:
- **Prostota i interpretowalność**: Łatwy do interpretacji i szybki do trenowania.
- **Skalowalność**: Regresja liniowa działa dobrze na dużych zbiorach danych.
- **Wszechstronność**: Można go stosować do przewidywania zarówno zmiennych ciągłych, jak i binarnych (w regresji logistycznej).

#### Ograniczenia:
- **Założenie liniowości**: Regresja liniowa zakłada liniową zależność między zmiennymi, co może być niewłaściwe w przypadku bardziej złożonych danych.
- **Wrażliwość na outliery**: Obecność wartości odstających (outliers) może prowadzić do zaburzenia wyników.
- **Overfitting**: Bez regularyzacji, model może dopasować się zbyt dokładnie do danych uczących, co obniża wydajność na nowych danych.

![](https://www.simplilearn.com/ice9/free_resources_article_thumb/Regression_vs_Classification.jpg)

*source: simplilearn.com*

### Regresja liniowa w scikit - learn

Użycie metody regresji liniowej w bibliotece Scikit-learn polega na zastosowaniu klasy [LinearRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html), która przyjmuje następujące parametry:
- fit_intercept (bool) - dodatkowe środkowanie danych
- copy_X (bool) - kopia danych treningowych celem minimalizacji ryzyka zniszczenia oryginału
- n_jobs (int) - liczba wątków wykonywanych równolegle
- positive (bool) - wymuszenie przyjmowania wyłącznie dodatnich wartości przez współczynniki regresji

In [51]:
housing_train = pd.read_csv('../data/california_housing_train.csv')
housing_test = pd.read_csv('../data/california_housing_test.csv')
housing_train

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-114.31,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0
1,-114.47,34.40,19.0,7650.0,1901.0,1129.0,463.0,1.8200,80100.0
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0
3,-114.57,33.64,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0
4,-114.57,33.57,20.0,1454.0,326.0,624.0,262.0,1.9250,65500.0
...,...,...,...,...,...,...,...,...,...
16995,-124.26,40.58,52.0,2217.0,394.0,907.0,369.0,2.3571,111400.0
16996,-124.27,40.69,36.0,2349.0,528.0,1194.0,465.0,2.5179,79000.0
16997,-124.30,41.84,17.0,2677.0,531.0,1244.0,456.0,3.0313,103600.0
16998,-124.30,41.80,19.0,2672.0,552.0,1298.0,478.0,1.9797,85800.0


In [52]:
housing_test

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-122.05,37.37,27.0,3885.0,661.0,1537.0,606.0,6.6085,344700.0
1,-118.30,34.26,43.0,1510.0,310.0,809.0,277.0,3.5990,176500.0
2,-117.81,33.78,27.0,3589.0,507.0,1484.0,495.0,5.7934,270500.0
3,-118.36,33.82,28.0,67.0,15.0,49.0,11.0,6.1359,330000.0
4,-119.67,36.33,19.0,1241.0,244.0,850.0,237.0,2.9375,81700.0
...,...,...,...,...,...,...,...,...,...
2995,-119.86,34.42,23.0,1450.0,642.0,1258.0,607.0,1.1790,225000.0
2996,-118.14,34.06,27.0,5257.0,1082.0,3496.0,1036.0,3.3906,237200.0
2997,-119.70,36.30,10.0,956.0,201.0,693.0,220.0,2.2895,62000.0
2998,-117.12,34.10,40.0,96.0,14.0,46.0,14.0,3.2708,162500.0


In [53]:
X_train, y_train = housing_train[list(set(housing_train) - set('median_house_value'))], housing_train['median_house_value']
X_test, y_test = housing_test[list(set(housing_test) - set('median_house_value'))], housing_test['median_house_value']

In [54]:
scaler = MinMaxScaler()
scaler.fit(X_train)

X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [55]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error

from math import sqrt

In [56]:
model = LinearRegression()
model.fit(X_train, y_train)

In [57]:
y_pred = model.predict(X_test)

In [58]:
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)

In [59]:
f'MSE: {mse}, RMSE: {sqrt(mse)}, MAE: {mae}'

'MSE: 2.0151134396676486e-21, RMSE: 4.489001492166881e-11, MAE: 3.1632225727662445e-11'

### K-NN

Algorytm k-nn może być wykorzystywany także w zadaniach regresji, które w przeciwieństwie do klasyfikacji, polega na uśrednianiu wartości przypisanych k najbliższym sąsiadom.

K-Nearest Neighbors (KNN) jako regressor działa na podobnych zasadach jak KNN w klasyfikacji, ale zamiast przypisywać klasę na podstawie większości sąsiadów, KNN Regression przewiduje wartość liczbową poprzez analizę średniej (lub czasem mediany) wartości sąsiadujących punktów. Jest to metoda regresji, która nie zakłada określonej struktury danych i nie wymaga treningu modelu w tradycyjnym sensie. Zamiast tego, przewidywanie dla nowego punktu bazuje na wartościach znanych punktów w jego otoczeniu, co czyni ją metodą bezpośrednią i intuicyjną.

### Kroki działania KNN Regression:

1. **Określenie liczby sąsiadów (k)**: W pierwszej kolejności należy ustalić, ilu najbliższych sąsiadów (k) model powinien brać pod uwagę. Typowo k jest małą, nieparzystą liczbą, ale jej wartość zależy od rozmiaru i charakterystyki zbioru danych. Im mniejsze k, tym bliższy jest to model lokalny, bardziej podatny na zmienność w danych; większe k skutkuje bardziej uśrednionym, globalnym przewidywaniem.

2. **Obliczanie odległości**: Model mierzy odległość między nowym punktem (dla którego chcemy przewidzieć wartość) a wszystkimi punktami w zbiorze treningowym. Do tego najczęściej wykorzystuje się metrykę euklidesową, choć można stosować inne, jak metryka Manhattan czy Minkowskiego.

3. **Znalezienie k najbliższych sąsiadów**: Po obliczeniu odległości model wybiera k najbliższych sąsiadów nowego punktu. Te punkty będą miały największy wpływ na przewidywaną wartość.

4. **Obliczenie przewidywanej wartości**: Wartość docelowa dla nowego punktu obliczana jest jako średnia arytmetyczna wartości wszystkich k wybranych sąsiadów. W niektórych przypadkach stosuje się medianę zamiast średniej, aby zmniejszyć wpływ wartości odstających, które mogą zaburzyć wynik.

5. **Zastosowanie ważenia**: W niektórych implementacjach KNN Regression wprowadza się ważenie wartości sąsiadów, tzn. sąsiedzi bliżsi mają większy wpływ na wartość przewidywaną niż dalsi sąsiedzi. Dzięki temu, model jest bardziej czuły na lokalne zmiany w danych, co może poprawić jakość przewidywania.

### Wady i zalety KNN Regression:

**Zalety:**
- **Brak założeń**: KNN Regression nie wymaga założeń na temat rozkładu danych.
- **Elastyczność**: Model działa dobrze na skomplikowanych zbiorach danych, których rozkład jest trudny do modelowania za pomocą tradycyjnych metod regresji.
- **Łatwość interpretacji**: Przewidywanie oparte jest na analizie sąsiadów, co ułatwia interpretację wyniku.

**Wady:**
- **Wydajność na dużych zbiorach danych**: KNN wymaga obliczenia odległości do wszystkich punktów w zbiorze treningowym, co przy dużej liczbie danych może być czasochłonne.
- **Wrażliwość na rozkład danych i wartość k**: Wybór odpowiedniego k i metryki jest kluczowy dla poprawnego działania modelu. Niewłaściwy wybór może prowadzić do overfittingu (dla małych k) lub underfittingu (dla dużych k).
- **Wrażliwość na wartości odstające**: Brak mechanizmów regulujących wpływ wartości odstających może prowadzić do błędnych przewidywań.

### Zastosowanie KNN Regression

KNN Regression jest skuteczna w przypadku problemów z danymi o nieliniowych zależnościach lub gdy nie mamy informacji na temat kształtu zależności między zmiennymi. Przykłady zastosowań obejmują prognozowanie wartości domów na podstawie ich lokalizacji i cech sąsiedztwa, przewidywanie wyników sportowych na podstawie wyników drużyn o zbliżonych charakterystykach, czy modelowanie sprzedaży w podobnych sklepach lub lokalizacjach.

![](https://miro.medium.com/v2/resize:fit:1276/1*0_OdVjzfXYIZhE_e5aPzFA.jpeg)

*source: medium.com*

Do realizacji zadania regresji za pomocą algorytmu k najbliższych sąsiadów przeznaczona jest klasa [KNeighborsRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsRegressor.html). Parametry pozostają te same, co w przypadku klasy **KNeighborsClassifier**.

In [60]:
from sklearn.neighbors import KNeighborsRegressor

In [61]:
model = KNeighborsRegressor()
model.fit(X_train, y_train)

In [62]:
y_pred = model.predict(X_test)

In [63]:
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)

In [64]:
f'MSE: {mse}, RMSE: {sqrt(mse)}, MAE: {mae}'

'MSE: 51961.068386666666, RMSE: 227.9497058271115, MAE: 114.64273333333341'

### Drzewo decyzyjne

Drzewo decyzyjne jako regressor, czyli **Decision Tree Regressor**, przewiduje wartość liczbową docelową poprzez segmentację danych wejściowych na coraz bardziej homogeniczne podgrupy na podstawie kryteriów podziału. Model ten działa na zasadzie wielokrotnego podziału przestrzeni atrybutów na mniejsze części, aby zminimalizować różnicę pomiędzy rzeczywistymi a przewidywanymi wartościami w każdej z tych części.

### 1. Podstawowe działanie drzewa decyzyjnego w regresji

Podobnie jak w drzewie decyzyjnym stosowanym do klasyfikacji, regressor również tworzy strukturę w postaci drzewa, w której każda gałąź reprezentuje podział zbioru danych na podstawie wartości jednego z atrybutów. W przypadku regresji, zamiast przewidywać klasę, drzewo decyzyjne przewiduje wartość liczbową w każdym końcowym węźle (liściu).

Główne kroki działania są następujące:

1. **Podział węzłów na podstawie atrybutów**: Drzewo decyzyjne analizuje różne atrybuty danych wejściowych, aby znaleźć ten, który najlepiej dzieli dane w sposób minimalizujący błąd predykcji. W przypadku regresji, najczęściej stosowanymi kryteriami są:
   - **MSE (Mean Squared Error)**: Średni błąd kwadratowy, czyli suma kwadratów różnic między rzeczywistymi a przewidywanymi wartościami.
   - **MAE (Mean Absolute Error)**: Średni błąd absolutny, czyli suma wartości bezwzględnych różnic między rzeczywistymi a przewidywanymi wartościami.

2. **Proces rekurencyjny**: Drzewo dzieli węzły iteracyjnie, aż do osiągnięcia określonych kryteriów zakończenia, takich jak maksymalna głębokość drzewa, minimalna liczba próbek w liściu, czy minimalna ilość redukcji błędu. Każdy węzeł prowadzi do bardziej szczegółowych podziałów, co pozwala na dokładniejsze przewidywania.

3. **Przewidywanie wartości**: Gdy nowe dane wejściowe przechodzą przez drzewo, trafiają do konkretnego liścia (węzła końcowego), gdzie przechowywana jest średnia wartość docelowa danych uczących, które trafiły do tego węzła podczas treningu. Ta średnia jest przewidywaną wartością dla nowych danych.

### 2. Przykład działania w praktyce

Wyobraźmy sobie model, który prognozuje cenę domu na podstawie różnych cech, takich jak wielkość, liczba pokoi, czy lokalizacja. Drzewo decyzyjne rozpoczyna od analizy podziałów o najwyższej wartości predykcyjnej: na przykład może najpierw sprawdzić lokalizację, a następnie liczbę pokoi w każdej lokalizacji. Z każdym kolejnym poziomem podziałów drzewo dzieli dane coraz bardziej precyzyjnie, aż do osiągnięcia liści, które zawierają jednorodne grupy cen.

### 3. Zalety i wady drzewa decyzyjnego w regresji

**Zalety:**
- **Brak założenia liniowości**: Drzewa decyzyjne są w stanie modelować zależności nieliniowe, co jest przydatne w przypadku skomplikowanych, nieregularnych danych.
- **Łatwość interpretacji**: Drzewo można zwizualizować, co pozwala zrozumieć, które cechy mają największy wpływ na wynik.
- **Obsługa danych mieszanych**: Drzewa mogą pracować z danymi zarówno liczbowymi, jak i kategorycznymi, co czyni je wszechstronnymi narzędziami.

**Wady:**
- **Overfitting**: Drzewa decyzyjne mają tendencję do dopasowywania się zbyt dokładnie do danych uczących, co może prowadzić do spadku dokładności na nowych danych.
- **Wrażliwość na dane wejściowe**: Drzewo decyzyjne jest podatne na zmiany w danych uczących – niewielkie różnice mogą prowadzić do dużych zmian w strukturze drzewa.
- **Brak gładkości przewidywań**: Drzewo decyzyjne generuje prognozy w postaci „skoków” (wartości w liściach są sztywne), co może być problematyczne w modelach, gdzie przewidywana wartość powinna zmieniać się płynnie.

### 4. Zastosowania drzewa decyzyjnego jako regresora

Drzewa decyzyjne jako regresory są stosowane w szerokim zakresie zastosowań, takich jak:
- **Prognozowanie cen** (np. nieruchomości, akcji),
- **Modelowanie wartości liczbowych na podstawie cech demograficznych**,
- **Przewidywanie wyników sportowych**,
- **Analiza danych marketingowych**, np. prognozowanie wydatków konsumentów na podstawie ich preferencji i zachowań.

Drzewa decyzyjne jako regressor są intuicyjną metodą do modelowania złożonych zależności w danych. Jednak w praktyce często stosuje się metody zespołowe (np. lasy losowe lub gradient boosting) oparte na wielu drzewach, aby zwiększyć stabilność i dokładność przewidywań.

![](https://scikit-learn.org/1.5/_images/sphx_glr_plot_tree_regression_001.png)

*source: scikit-learn.org*

Do realizacji zadania regresji za pomocą drzewa decyzyjnego przeznaczona jest klasa [DecisionTreeRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html). Parametry pozostają te same, co w przypadku klasy **DecisionTreeClassifier**.

In [65]:
from sklearn.tree import DecisionTreeRegressor

In [66]:
model = DecisionTreeRegressor()
model.fit(X_train, y_train)

In [67]:
y_pred = model.predict(X_test)

In [68]:
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)

In [69]:
f'MSE: {mse}, RMSE: {sqrt(mse)}, MAE: {mae}'

'MSE: 5800.0, RMSE: 76.15773105863909, MAE: 19.266666666666666'

## Potoki z estymatorami

Tak jak robiliśmy z potokami dotyczącycmi transformacji naszych danych, tak do potoków możemy dodać również nasze modele.

In [70]:
from sklearn.pipeline import make_pipeline

In [71]:
train_pipeline = make_pipeline(
    MinMaxScaler(),
    LinearRegression(),
)

In [72]:
train_pipeline.fit(X_train, y_train)

In [73]:
y_pred = train_pipeline.predict(X_test)

In [74]:
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)

In [75]:
f'MSE: {mse}, RMSE: {sqrt(mse)}, MAE: {mae}'

'MSE: 1.648342438387623e-20, RMSE: 1.2838778907620548e-10, MAE: 1.0554625381094714e-10'

## Zadania
1. Korzystając ze zbioru danych `mnist` sprawdzić interfejsy następujących klasyfikatorów:
  - Regresja Logistyczna: [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression)
  - Liniowa Maszyna Wektorów Nośnych: [LinearSVC](https://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVC.html#sklearn.svm.LinearSVC).
  
    Porównać wyniki dokładności globalnej i zbalansowanej.
  
2. Korzystając ze zbioru danych `CaliforniaHousing` sprawdzić interfejsy następujących regresorów:
  - Regresja Bayesowska: [BayesianRidge](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.BayesianRidge.html#sklearn.linear_model.BayesianRidge)
  - Regresor Wektorów Nośnych: [SVR](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVR.html#sklearn.svm.SVR).
  
    Porównać wyniki błędu średniokwadratowego i jego pierwiastka oraz średniego błędu bezwzględnego.