# Wstęp do uczenia maszynowego - laboratorium 2

## Uczenie z nadzorem (ang. supervised learning)

[Uczenie z nadzorem w scikit-learn](https://scikit-learn.org/stable/supervised_learning.html)  
[Uczenie z nadzorem w scikit-learn - tutorial](https://scikit-learn.org/stable/tutorial/statistical_inference/supervised_learning.html)

### Pytania kontrolne

1. Czym różni się uczenie z nadzorem od uczenia bez nadzoru?
2. Opisz, na czym polega zadanie regresji. Podaj przykład zastosowania, cech i zmiennej celu.
3. Opisz, na czym polega zadanie klasyfikacji. Podaj przykład zastosowania, cech i zmiennej celu.
4. Jakie znasz algorytmy klasyfikacyjne?
5. Omów działanie wybranego znanego Ci algorytmu klasyfikacji.

## Walidacja modelu

W zadaniach uczenia nadzorowanego typowo powinniśmy podzielić dane na trzy zbiory:
- **treningowy**
- **walidacyjny**
- **testowy**

### Pytania kontrolne

1. Jaka jest najważniejsza zasada w uczeniu z nadzorem? (wg wykładu)
2. Czym jest walidacja modelu?
3. Czym jest zbiór treningowy?
4. Na czym polega przeuczenie modelu i dlaczego jest groźne?
5. Czym różni się zbiór walidacyjny od zbioru testowego?
6. Na czym polega prosta walidacja?
7. Zbiór danych stanowią zdjęcia 10 tysięcy opon - po 10 zdjęć dla każdej opony, z których każde przedstawia jej fragment (zdjęcia mogą się częściowo pokrywać). Jak dokonać podziału danych?

[Podział na zbiory w sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)

### Ćwiczenie
Załaduj dane ze zbioru dot. klasyfikacji kosaćców (iris) i podziel go na zbiór treningowy i walidacyjny wykorzystując funkcję `train_test_split` z domyślnymi parametrami.

In [1]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris_x, iris_y = load_iris(return_X_y=True)

train_iris_x, test_iris_x, train_iris_y, test_iris_y = train_test_split(iris_x, iris_y)

In [2]:
print(train_iris_x.shape)
print(test_iris_x.shape)
print(train_iris_y.shape)
print(test_iris_y.shape)

(112, 4)
(38, 4)
(112,)
(38,)


### Ćwiczenie
Sprawdź, ile przykładów poszczególnych klas kosaćców występuje w otrzymanym zbiorze treningowym i testowym.
Dokonaj podziału kilkukrotnie i zaobserwuj, co się dzieje.

In [3]:
from collections import Counter
from typing import Dict
import numpy as np

# pomocnicza funkcja do wykorzystania w ćwiczeniu
def check_split(train_labels: np.ndarray, test_labels: np.ndarray) -> Dict:
    train_counter = {k: v for k, v in sorted(Counter(train_labels).items())}
    test_counter = {k: v for k, v in sorted(Counter(test_labels).items())}
    print(f"Zbiór treningowy: {train_counter}")
    print(f"Zbiór walidacyjny: {test_counter}")

In [4]:
check_split(train_iris_y, test_iris_y)

Zbiór treningowy: {0: 42, 1: 33, 2: 37}
Zbiór walidacyjny: {0: 8, 1: 17, 2: 13}


In [5]:
train_iris_x, test_iris_x, train_iris_y, test_iris_y = train_test_split(iris_x, iris_y)
check_split(train_iris_y, test_iris_y)

Zbiór treningowy: {0: 37, 1: 39, 2: 36}
Zbiór walidacyjny: {0: 13, 1: 11, 2: 14}


In [6]:
train_iris_x, test_iris_x, train_iris_y, test_iris_y = train_test_split(iris_x, iris_y)
check_split(train_iris_y, test_iris_y)

Zbiór treningowy: {0: 41, 1: 36, 2: 35}
Zbiór walidacyjny: {0: 9, 1: 14, 2: 15}


### Ćwiczenie
Sprawdź w dokumentacji funkcji `train_test_split`, jakie parametry ona przyjmuje i zapewnij:  
- powtarzalność - ten sam podział po każdym wywołaniu funkcji train_test_split dla danego zbioru danych
- równy (na tyle, na ile się da) udział poszczególnych klas w zbiorze uczącym i walidacyjnym

In [7]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

X, y = load_iris(return_X_y=True)
train_iris_X, test_iris_X, train_iris_y, test_iris_y = train_test_split(X, y, test_size=0.5, random_state=42, stratify=y)

In [8]:
print(train_iris_X.shape)
print(test_iris_X.shape)
print(train_iris_y.shape)
print(test_iris_y.shape)

(75, 4)
(75, 4)
(75,)
(75,)


### Ćwiczenie

Podziel zbiór iris na trzy podzbiory: treningowy (60%), walidacyjny (20%) i testowy (20%).

In [9]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

X, y = load_iris(return_X_y=True)

train_X, temp_X, train_y, temp_y = train_test_split(X, y, train_size=0.6, test_size=0.4, random_state=42)
valid_X, test_X, valid_y, test_y = train_test_split(temp_X, temp_y, train_size=0.5, test_size=0.5, random_state=42)

# Entire set
print(X.shape)
print(y.shape)

# Train set - 60%
print(train_X.shape)
print(train_y.shape)

# Test set - 20%
print(test_X.shape)
print(test_y.shape)

# Validation set - 20%
print(valid_X.shape)
print(valid_y.shape)

(150, 4)
(150,)
(90, 4)
(90,)
(30, 4)
(30,)
(30, 4)
(30,)


### **Uczenie modelu w sklearn**

Wszystkie modele w scikit-learn to obiekty klas posiadających metodę **fit**() - tzw. Estimator API.
Dla danej klasy modelu trening wygląda następująco:

```
from sklearn.XXX import KlasaModelu

model = KlasaModelu(hiperparametry)

# uczenie bez nadzoru
model.fit(cechy_zbioru_uczącego)

# uczenie z nadzorem
model.fit(cechy_zbioru_uczącego, etykiety_zbioru_uczącego)
```

### Klasyfikacja

Mając wytrenowany model możemy sprawdzić, jak poradzi sobie z danymi spoza zbioru uczącego.

Używamy do tego funkcji model.**predict**(). Funkcja ta zwraca tzw. predykcje modelu.

```
 model.predict(cechy_zbioru_testowego)
```

Do oceny jakości predykcji modeli używamy różnych miar liczbowych (ang. metrics) - więcej niebawem na wykładzie.

Najprostsza z nich to dokładność (ang. accuracy), która porównuje klasy predykcji z klasami etykiet i mówi, ile procent klas predykcji zgadza się z etykietami.

```
from sklearn.metrics import accuracy_score
accuracy_score(predykcje, etykiety)
```

### Algorytm k najbliższych sąsiadów (ang. k-Nearest Neighbors, k-NN)

### Ćwiczenie

Dokonaj klasyfikacji kosaćców z wykorzystaniem algorytmu k najbliższych sąsiadów.
(moduł: neighbors, klasa: KNeighborsClassifier)

In [10]:
from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier(n_neighbors=5)
model.fit(X=train_X, y=train_y)

In [11]:
from sklearn.metrics import accuracy_score

prediction = model.predict(X=test_X)
accuracy = accuracy_score(y_true=test_y, y_pred=prediction)
print(f"Accuracy: {accuracy}")

Accuracy: 0.9666666666666667


### Ćwiczenie

Dokonaj klasyfikacji algorytmem k najbliższych sąsiadów dla zbioru danych `wine` (load_wine)

In [12]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split

# Load the dataset
X, y = load_wine(return_X_y=True)

# Split the dataset into equal parts
train_X_wine, test_X_wine, train_y_wine, test_y_wine = train_test_split(X, y, stratify=y, test_size=0.3, random_state=1)

In [13]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Classify the data using the KNN algorithm
model = KNeighborsClassifier(n_neighbors=4)
model.fit(X=train_X_wine, y=train_y_wine)

# Measure model prediction accuracy
prediction = model.predict(X=test_X_wine)
accuracy = accuracy_score(y_true=test_y_wine, y_pred=prediction)
print(f"Accuracy: {accuracy}")

Accuracy: 0.6296296296296297


### Ćwiczenie

Zbadaj wpływ różnych wartości k na accuracy na zbiorze testowym.

In [14]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

k_values = [1, 3, 5, 7, 13, 20, 50]

for k in k_values:
    model = KNeighborsClassifier(n_neighbors=k)
    model.fit(X=train_X_wine, y=train_y_wine)
    prediction = model.predict(X=test_X_wine)
    accuracy = accuracy_score(y_true=test_y_wine, y_pred=prediction)
    print(f"Accuracy score for k={k}: {accuracy}")

Accuracy score for k=1: 0.7592592592592593
Accuracy score for k=3: 0.6666666666666666
Accuracy score for k=5: 0.6481481481481481
Accuracy score for k=7: 0.6296296296296297
Accuracy score for k=13: 0.6666666666666666
Accuracy score for k=20: 0.6481481481481481
Accuracy score for k=50: 0.6111111111111112


### Ćwiczenie

Sprawdź accuracy na **zbiorze uczącym** dla k = 5, 3, 1.

In [15]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

k_values = [5, 3, 1]

for k in k_values:
    model = KNeighborsClassifier(n_neighbors=k)
    model.fit(X=train_X_wine, y=train_y_wine)
    predictions = model.predict(X=train_X_wine)
    accuracy = accuracy_score(y_true=train_y_wine, y_pred=predictions)
    print(f"Prediction accuracy for k={k}: {accuracy}")

Prediction accuracy for k=5: 0.782258064516129
Prediction accuracy for k=3: 0.8306451612903226
Prediction accuracy for k=1: 1.0


### Ćwiczenie

Sprawdź wpływ standaryzacji na jakość klasyfikacji zbioru `wine`.

```
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

scaled_dane_uczące = scaler.fit_transform(dane_uczące)

scaled_dane_testowe = scaler.transform(dane_testowe)
```


In [16]:
from sklearn.preprocessing import StandardScaler

# Perform data scaling
scaler = StandardScaler()

train_X_scaled = scaler.fit_transform(X=train_X_wine)
test_X_scaled = scaler.transform(X=test_X_wine)

# Test unscaled data
model = KNeighborsClassifier(n_neighbors=5)
model.fit(X=train_X_wine, y=train_y_wine)

pred = model.predict(X=test_X_wine)
accuracy = accuracy_score(y_true=test_y_wine, y_pred=pred)
print(f"Accuracy unscaled: {accuracy}")

# Test scaled data
model_scaled = KNeighborsClassifier(n_neighbors=5)
model_scaled.fit(X=train_X_scaled, y=train_y_wine)

pred_scaled = model.predict(X=test_X_scaled)
accuracy_scaled = accuracy_score(y_true=test_y_wine, y_pred=pred_scaled)
print(f"Accuracy scaled: {accuracy_scaled}")

Accuracy unscaled: 0.6481481481481481
Accuracy scaled: 0.3888888888888889


### Pipeline - wygoda

Preprocessory (np. StandardScaler) w scikit-learn to tzw. Transformery.  
Modele (np. KNeighborsClassifier) w scikit-learn to tzw. Estimators.

Dla wygody można je łączyć w tzw. pipeline'y.

```
from sklearn.pipeline import make_pipeline

pipe = make_pipeline(Transformer(), Model())

pipe.fit(cechy_zbioru_uczącego, etykiety_zbioru_uczącego)
pipe.predict(zbiór_testowy)
```

### Ćwiczenie

Połącz standaryzację i klasyfikację w jeden pipeline i oblicz accuracy dla zbioru testowego `wine`. Jeszcze raz przekonaj się o wpływie standaryzacji.

In [17]:
from sklearn.pipeline import make_pipeline

pipe = make_pipeline(scaler, model)

pipe.fit(X=train_X_wine, y=train_y_wine)
pipe_pred = pipe.predict(X=test_X_wine)

pipe_accuracy = accuracy_score(y_true=test_y_wine, y_pred=pipe_pred)
print(f"Accuracy pipe: {pipe_accuracy}")

Accuracy pipe: 0.9259259259259259


## Podsumowanie

- zbiór treningowy, walidacyjny, testowy
- uczenie z nadzorem w sklearn
- klasyfikacja: k najbliższych sąsiadów
- pipeline: preprocessing + model


[Klasyfikatory](https://scikit-learn.org/stable/auto_examples/classification/plot_classifier_comparison.html):
- **k najbliższych sąsiadów**
- **maszyna wektorów podpierających** (SVM)
- **regresja logistyczna**
- sieci neuronowe
- drzewa decyzyjne, lasy losowe, boosting
- ...

Przypomnienie: "No free lunch theorem" - nie istnieje "zawsze najlepszy" algorytm / model.

