<a href="https://colab.research.google.com/github/oliwierurban/POSI/blob/main/Cwiczenia8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ćwiczenia 8

## Wprowadzenie

### Jak działa KNN?

Algorytm KNN działa na zasadzie porównywania nowych danych z danymi już znanymi (tzw. treningowymi). Jego główną ideą jest to, że obiekty, które są "blisko siebie" (tzn. mają podobne cechy), są bardziej podobne do siebie i powinny być klasyfikowane w ten sam sposób. Działa to na zasadzie:

1. **Określenie liczby sąsiadów (K)** – użytkownik wybiera liczbę $ K $, czyli ile najbliższych sąsiadów należy brać pod uwagę przy klasyfikacji.
2. **Obliczanie odległości** – dla danego punktu (np. nowego przykładu, który chcemy sklasyfikować) algorytm oblicza odległość do wszystkich innych punktów w zbiorze treningowym (zwykle stosuje się metrykę Euklidesową, ale mogą to być inne odległości, jak Manhattan).
3. **Wybór K najbliższych sąsiadów** – algorytm wybiera $ K $ punktów z treningowego zbioru danych, które są najbliższe do punktu, który chcemy sklasyfikować.
4. **Klasyfikacja/średnia** – na podstawie klasy (dla klasyfikacji) lub wartości (dla regresji) $ K $ najbliższych sąsiadów, algorytm przypisuje etykietę nowemu punktowi. W przypadku klasyfikacji będzie to najczęściej najczęstsza klasa spośród $ K $ sąsiadów, a w przypadku regresji – średnia wartość.

<br>

#### Przykład:

Załóżmy, że masz zbiór danych o kwiatach, z dwoma cechami: długość i szerokość płatków. Chcesz sklasyfikować nowy kwiat. Algorytm KNN znajdzie $ K $ najbardziej podobnych kwiatów w zbiorze treningowym (np. 5 najbliższych) i przypisze nowemu kwiatowi etykietę na podstawie większości (np. "iris-setosa", jeśli 3 z 5 najbliższych są setosą).

<br>

#### Zalety i wady:

##### Zalety:
- Prosty do zrozumienia i implementacji.
- Nie wymaga treningu modelu, działa "na bieżąco".
- Może być używany do wielu typów danych (np. klasyfikacja, regresja).

##### Wady:
- **Wydajność obliczeniowa**: im większy zbiór danych, tym więcej operacji.
- **Wrażliwość na szum i nieistotne cechy.**
- Wymaga odpowiedniej metryki odległości (choć w niektórych przypadkach może być trudne do wyboru).


### Miary odległości

#### 1. Odległość Euklidesowa (Euclidean Distance)

Jest to najbardziej powszechnie stosowana metryka, szczególnie w klasycznych zadaniach klasyfikacji i regresji, gdy dane są ciągłe.

##### Wzór:

$$
d_E = \sqrt{(x_1 - y_1)^2 + (x_2 - y_2)^2 + \dots + (x_n - y_n)^2}
$$

Gdzie:

- $ x_1, x_2, \dots, x_n $ to współrzędne punktu $ x $,
- $ y_1, y_2, \dots, y_n $ to współrzędne punktu $ y $,
- $ n $ to liczba wymiarów (cech).

##### Przykład:

Jeśli mamy dwa punkty w 2 wymiarach: $ x = (3, 4) $ i $ y = (7, 1) $, to odległość Euklidesowa między nimi to:

$$
d_E = \sqrt{(3 - 7)^2 + (4 - 1)^2} = \sqrt{(-4)^2 + 3^2} = \sqrt{16 + 9} = \sqrt{25} = 5
$$

<br>

#### 2. Odległość Manhattan (Manhattan Distance)

Jest to alternatywna miara, która sumuje różnice współrzędnych punktów wzdłuż osi. Jest szczególnie użyteczna, gdy dane są zorganizowane w siatkę (np. w przypadku problemów związanych z ruchem w miastach).

##### Wzór:

$$
d_M = |x_1 - y_1| + |x_2 - y_2| + \dots + |x_n - y_n|
$$

##### Przykład:

Dla punktów $ x = (3, 4) $ i $ y = (7, 1) $, odległość Manhattan to:

$$
d_M = |3 - 7| + |4 - 1| = 4 + 3 = 7
$$

<br>

#### 3. Odległość Minkowskiego (Minkowski Distance)

Jest ogólną formą obu powyższych metryk. Odległość Minkowskiego może przyjąć różne wartości w zależności od parametru $ p $.

##### Wzór:

$$
d_M = \left( |x_1 - y_1|^p + |x_2 - y_2|^p + \dots + |x_n - y_n|^p \right)^{1/p}
$$

Gdy $ p = 1 $, odległość Minkowskiego jest równa odległości Manhattan.

Gdy $ p = 2 $, jest to odległość Euklidesowa.

##### Przykład:

Dla punktów $ x = (3, 4) $ i $ y = (7, 1) $, jeśli $ p = 3 $:

$$
d_M = \left( |3 - 7|^3 + |4 - 1|^3 \right)^{1/3} = \left( 4^3 + 3^3 \right)^{1/3} = \left( 64 + 27 \right)^{1/3} = 91^{1/3} \approx 4.5
$$

<br>

#### Podsumowanie

W zależności od charakterystyki danych i problemu, możesz wybierać odpowiednią metrykę odległości:

- **Euklidesowa** – najczęściej stosowana w zadaniach ogólnych (ciągłe dane).
- **Manhattan** – dla danych, które dobrze opisują "ruch" w siatce.
- **Minkowski** – ogólna forma, pozwalająca na eksperymentowanie z parametrem $ p $.


## Zadanie 1
Dla zbioru danych `load_wine` z modułu `sklearn.datasets` przeprowadź analizę DEA oraz klasyfikację cechy `target` z wykorzystaniem `KNN`. Sprawdź diałanie modelu dla różnych wartości `k-sąsiadów`. Pamiętaj o skalowaniu danych.

<br>

Przykład ładowania danych:

```
from sklearn.datasets import load_wine

wine = load_wine()

X = wine.data
y = wine.target
```

In [None]:
import numpy as np

from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

wine = load_wine()
X = wine.data
y = wine.target

print("Kształt X:", X.shape)
print("Kształt y:", y.shape)
print("Nazwy klas:", wine.target_names)

X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42,
    stratify=y
)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

k_values = [1, 3, 5, 7, 9, 11]
accuracies = []

print("\n Porównanie dokładności dla różnych k ")
for k in k_values:
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train_scaled, y_train)
    y_pred = knn.predict(X_test_scaled)

    acc = accuracy_score(y_test, y_pred)
    accuracies.append(acc)
    print(f"k = {k}: accuracy = {acc:.4f}")

best_index = int(np.argmax(accuracies))
best_k = k_values[best_index]
print(f"\nNajlepsze k: {best_k} (accuracy = {accuracies[best_index]:.4f})")

best_knn = KNeighborsClassifier(n_neighbors=best_k)
best_knn.fit(X_train_scaled, y_train)
y_pred_best = best_knn.predict(X_test_scaled)

print("\nMacierz pomyłek dla najlepszego k:")
print(confusion_matrix(y_test, y_pred_best))

print("\nRaport klasyfikacji dla najlepszego k:")
print(classification_report(y_test, y_pred_best, target_names=wine.target_names))

## Zadanie 2
Dla zbioru danych `fetch_california_housing` z modułu `sklearn.datasets` przeprowadź analizę DEA oraz regresję z wykorzystaniem `KNN`. Sprawdź diałanie modelu dla różnych wartości `k-sąsiadów`. Pamiętaj o skalowaniu danych.

<br>

Przykład ładowania danych:

```
from sklearn.datasets import fetch_california_housing

data = fetch_california_housing()
X = data.data
y = data.target
```

In [1]:
import numpy as np

from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error, r2_score

data = fetch_california_housing()
X = data.data
y = data.target

print("Kształt X:", X.shape)
print("Kształt y:", y.shape)
print("Nazwy cech:", data.feature_names)

X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42
)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

k_values = [1, 3, 5, 7, 9, 11]
rmse_scores = []
r2_scores = []

print("\n Porównanie jakości (RMSE i R2) dla różnych k")
for k in k_values:
    knn_reg = KNeighborsRegressor(n_neighbors=k)
    knn_reg.fit(X_train_scaled, y_train)

    y_pred = knn_reg.predict(X_test_scaled)

    mse = mean_squared_error(y_test, y_pred)
    rmse = np.sqrt(mse)
    r2 = r2_score(y_test, y_pred)

    rmse_scores.append(rmse)
    r2_scores.append(r2)

    print(f"k = {k}: RMSE = {rmse:.4f}, R2 = {r2:.4f}")

best_index_r2 = int(np.argmax(r2_scores))
best_k_r2 = k_values[best_index_r2]

print(f"\nNajlepsze k (pod względem R2): {best_k_r2}")
print(f"RMSE = {rmse_scores[best_index_r2]:.4f}, R2 = {r2_scores[best_index_r2]:.4f}")

Kształt X: (20640, 8)
Kształt y: (20640,)
Nazwy cech: ['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup', 'Latitude', 'Longitude']

 Porównanie jakości (RMSE i R2) dla różnych k
k = 1: RMSE = 0.8179, R2 = 0.4895
k = 3: RMSE = 0.6831, R2 = 0.6439
k = 5: RMSE = 0.6576, R2 = 0.6700
k = 7: RMSE = 0.6545, R2 = 0.6731
k = 9: RMSE = 0.6516, R2 = 0.6760
k = 11: RMSE = 0.6470, R2 = 0.6806

Najlepsze k (pod względem R2): 11
RMSE = 0.6470, R2 = 0.6806
