<a href="https://colab.research.google.com/github/BBiwojno/POSI/blob/main/Cwiczenia8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ćwiczenia 8

## Wprowadzenie

### Jak działa KNN?

Algorytm KNN działa na zasadzie porównywania nowych danych z danymi już znanymi (tzw. treningowymi). Jego główną ideą jest to, że obiekty, które są "blisko siebie" (tzn. mają podobne cechy), są bardziej podobne do siebie i powinny być klasyfikowane w ten sam sposób. Działa to na zasadzie:

1. **Określenie liczby sąsiadów (K)** – użytkownik wybiera liczbę $ K $, czyli ile najbliższych sąsiadów należy brać pod uwagę przy klasyfikacji.
2. **Obliczanie odległości** – dla danego punktu (np. nowego przykładu, który chcemy sklasyfikować) algorytm oblicza odległość do wszystkich innych punktów w zbiorze treningowym (zwykle stosuje się metrykę Euklidesową, ale mogą to być inne odległości, jak Manhattan).
3. **Wybór K najbliższych sąsiadów** – algorytm wybiera $ K $ punktów z treningowego zbioru danych, które są najbliższe do punktu, który chcemy sklasyfikować.
4. **Klasyfikacja/średnia** – na podstawie klasy (dla klasyfikacji) lub wartości (dla regresji) $ K $ najbliższych sąsiadów, algorytm przypisuje etykietę nowemu punktowi. W przypadku klasyfikacji będzie to najczęściej najczęstsza klasa spośród $ K $ sąsiadów, a w przypadku regresji – średnia wartość.

<br>

#### Przykład:

Załóżmy, że masz zbiór danych o kwiatach, z dwoma cechami: długość i szerokość płatków. Chcesz sklasyfikować nowy kwiat. Algorytm KNN znajdzie $ K $ najbardziej podobnych kwiatów w zbiorze treningowym (np. 5 najbliższych) i przypisze nowemu kwiatowi etykietę na podstawie większości (np. "iris-setosa", jeśli 3 z 5 najbliższych są setosą).

<br>

#### Zalety i wady:

##### Zalety:
- Prosty do zrozumienia i implementacji.
- Nie wymaga treningu modelu, działa "na bieżąco".
- Może być używany do wielu typów danych (np. klasyfikacja, regresja).

##### Wady:
- **Wydajność obliczeniowa**: im większy zbiór danych, tym więcej operacji.
- **Wrażliwość na szum i nieistotne cechy.**
- Wymaga odpowiedniej metryki odległości (choć w niektórych przypadkach może być trudne do wyboru).


### Miary odległości

#### 1. Odległość Euklidesowa (Euclidean Distance)

Jest to najbardziej powszechnie stosowana metryka, szczególnie w klasycznych zadaniach klasyfikacji i regresji, gdy dane są ciągłe.

##### Wzór:

$$
d_E = \sqrt{(x_1 - y_1)^2 + (x_2 - y_2)^2 + \dots + (x_n - y_n)^2}
$$

Gdzie:

- $ x_1, x_2, \dots, x_n $ to współrzędne punktu $ x $,
- $ y_1, y_2, \dots, y_n $ to współrzędne punktu $ y $,
- $ n $ to liczba wymiarów (cech).

##### Przykład:

Jeśli mamy dwa punkty w 2 wymiarach: $ x = (3, 4) $ i $ y = (7, 1) $, to odległość Euklidesowa między nimi to:

$$
d_E = \sqrt{(3 - 7)^2 + (4 - 1)^2} = \sqrt{(-4)^2 + 3^2} = \sqrt{16 + 9} = \sqrt{25} = 5
$$

<br>

#### 2. Odległość Manhattan (Manhattan Distance)

Jest to alternatywna miara, która sumuje różnice współrzędnych punktów wzdłuż osi. Jest szczególnie użyteczna, gdy dane są zorganizowane w siatkę (np. w przypadku problemów związanych z ruchem w miastach).

##### Wzór:

$$
d_M = |x_1 - y_1| + |x_2 - y_2| + \dots + |x_n - y_n|
$$

##### Przykład:

Dla punktów $ x = (3, 4) $ i $ y = (7, 1) $, odległość Manhattan to:

$$
d_M = |3 - 7| + |4 - 1| = 4 + 3 = 7
$$

<br>

#### 3. Odległość Minkowskiego (Minkowski Distance)

Jest ogólną formą obu powyższych metryk. Odległość Minkowskiego może przyjąć różne wartości w zależności od parametru $ p $.

##### Wzór:

$$
d_M = \left( |x_1 - y_1|^p + |x_2 - y_2|^p + \dots + |x_n - y_n|^p \right)^{1/p}
$$

Gdy $ p = 1 $, odległość Minkowskiego jest równa odległości Manhattan.

Gdy $ p = 2 $, jest to odległość Euklidesowa.

##### Przykład:

Dla punktów $ x = (3, 4) $ i $ y = (7, 1) $, jeśli $ p = 3 $:

$$
d_M = \left( |3 - 7|^3 + |4 - 1|^3 \right)^{1/3} = \left( 4^3 + 3^3 \right)^{1/3} = \left( 64 + 27 \right)^{1/3} = 91^{1/3} \approx 4.5
$$

<br>

#### Podsumowanie

W zależności od charakterystyki danych i problemu, możesz wybierać odpowiednią metrykę odległości:

- **Euklidesowa** – najczęściej stosowana w zadaniach ogólnych (ciągłe dane).
- **Manhattan** – dla danych, które dobrze opisują "ruch" w siatce.
- **Minkowski** – ogólna forma, pozwalająca na eksperymentowanie z parametrem $ p $.


## Zadanie 1
Dla zbioru danych `load_wine` z modułu `sklearn.datasets` przeprowadź analizę DEA oraz klasyfikację cechy `target` z wykorzystaniem `KNN`. Sprawdź diałanie modelu dla różnych wartości `k-sąsiadów`. Pamiętaj o skalowaniu danych.

<br>

Przykład ładowania danych:

```
from sklearn.datasets import load_wine

wine = load_wine()

X = wine.data
y = wine.target
```

In [None]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split


wine = load_wine()
X = wine.data
y = wine.target


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


print(f"Shape of X_train: {X_train.shape}")
print(f"Shape of X_test: {X_test.shape}")

Shape of X_train: (142, 13)
Shape of X_test: (36, 13)


In [None]:
from sklearn.preprocessing import StandardScaler


scaler = StandardScaler()


X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)


print("buh skalowanie .")

Features scaled successfully for both training and testing sets.


In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
import numpy as np


k_values = range(1, 21)  # 1-20
accuracies = []

for k in k_values:
    knn = KNeighborsClassifier(n_neighbors=k)

    knn.fit(X_train_scaled, y_train)


    y_pred = knn.predict(X_test_scaled)


    accuracy = accuracy_score(y_test, y_pred)
    accuracies.append(accuracy)

    print(f"k = {k}, Accuracy: {accuracy:.4f}")


best_k_index = np.argmax(accuracies)
best_k = k_values[best_k_index]
best_accuracy = accuracies[best_k_index]

print(f"\nBest k value: {best_k} with Accuracy: {best_accuracy:.4f}")

k = 1, Accuracy: 0.9444
k = 2, Accuracy: 0.9444
k = 3, Accuracy: 0.9444
k = 4, Accuracy: 0.9444
k = 5, Accuracy: 0.9444
k = 6, Accuracy: 0.9444
k = 7, Accuracy: 0.9444
k = 8, Accuracy: 0.9722
k = 9, Accuracy: 0.9444
k = 10, Accuracy: 0.9722
k = 11, Accuracy: 0.9444
k = 12, Accuracy: 0.9722
k = 13, Accuracy: 0.9722
k = 14, Accuracy: 0.9722
k = 15, Accuracy: 0.9722
k = 16, Accuracy: 0.9722
k = 17, Accuracy: 0.9722
k = 18, Accuracy: 0.9722
k = 19, Accuracy: 0.9444
k = 20, Accuracy: 0.9722

Best k value: 8 with Accuracy: 0.9722


Kluczowe wnioski z analizy danych

Zestaw danych wine został pomyślnie załadowany i podzielony na zbiór treningowy i testowy. Zbiór treningowy (X_train) zawierał 142 próbki z 13 cechami, podczas gdy zbiór testowy (X_test) zawierał 36 próbek z 13 cechami.

Skalowanie cech zostało przeprowadzone przy użyciu StandardScaler zarówno na danych treningowych, jak i testowych, co jest istotne dla algorytmów opartych na odległości, takich jak K-Nearest Neighbors (KNN).

Model K-Nearest Neighbors (KNN) został oceniony dla wartości k w zakresie od 1 do 20.

Najwyższa dokładność klasyfikacji osiągnięta na zbiorze testowym wyniosła około 0.9722 (97,22%).

Ta maksymalna dokładność została osiągnięta dla wielu wartości k, w tym 8, 10, 12, 13, 14, 15, 16, 17, 18 i 20. Pierwszą wartością k, która osiągnęła tę maksymalną dokładność, było k=8.

Wnioski lub kolejne kroki

Wysoka osiągnięta dokładność (97,22%) sugeruje, że KNN, po przeprowadzeniu skalowania cech, jest bardzo skutecznym klasyfikatorem dla zestawu danych wine.

Dalsze badania mogą obejmować ocenę innych metryk klasyfikacji (np. precyzji, czułości, F1-score) lub porównanie wydajności KNN z innymi algorytmami klasyfikacyjnymi, aby potwierdzić jego przydatność.

## Zadanie 2
Dla zbioru danych `fetch_california_housing` z modułu `sklearn.datasets` przeprowadź analizę DEA oraz regresję z wykorzystaniem `KNN`. Sprawdź diałanie modelu dla różnych wartości `k-sąsiadów`. Pamiętaj o skalowaniu danych.

<br>

Przykład ładowania danych:

```
from sklearn.datasets import fetch_california_housing

data = fetch_california_housing()
X = data.data
y = data.target
```

In [4]:
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split


data = fetch_california_housing()
X = data.data
y = data.target


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


print(f"Shape of X_train: {X_train.shape}")
print(f"Shape of X_test: {X_test.shape}")

Shape of X_train: (16512, 8)
Shape of X_test: (4128, 8)


In [5]:
from sklearn.preprocessing import StandardScaler

# Skalowanie
scaler = StandardScaler()

#
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("buh skalowanie")

Features scaled successfully for both training and testing sets.


**Reasoning**:
The next step is to perform KNN regression using `KNeighborsRegressor`, evaluating its performance for different `k` values by calculating the Mean Squared Error (MSE).



In [6]:
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error
import numpy as np


k_values = range(1, 21)  # 1-20
mse_scores = []


for k in k_values:
    knn_regressor = KNeighborsRegressor(n_neighbors=k)

    knn_regressor.fit(X_train_scaled, y_train)

    y_pred = knn_regressor.predict(X_test_scaled)

    mse = mean_squared_error(y_test, y_pred)
    mse_scores.append(mse)

    print(f"k = {k}, Mean Squared Error: {mse:.4f}")

best_k_index = np.argmin(mse_scores)
best_k = k_values[best_k_index]
best_mse = mse_scores[best_k_index]

print(f"\nBest k value: {best_k} with Mean Squared Error: {best_mse:.4f}")

k = 1, Mean Squared Error: 0.6690
k = 2, Mean Squared Error: 0.5229
k = 3, Mean Squared Error: 0.4667
k = 4, Mean Squared Error: 0.4474
k = 5, Mean Squared Error: 0.4324
k = 6, Mean Squared Error: 0.4291
k = 7, Mean Squared Error: 0.4283
k = 8, Mean Squared Error: 0.4245
k = 9, Mean Squared Error: 0.4246
k = 10, Mean Squared Error: 0.4215
k = 11, Mean Squared Error: 0.4186
k = 12, Mean Squared Error: 0.4182
k = 13, Mean Squared Error: 0.4163
k = 14, Mean Squared Error: 0.4179
k = 15, Mean Squared Error: 0.4188
k = 16, Mean Squared Error: 0.4210
k = 17, Mean Squared Error: 0.4211
k = 18, Mean Squared Error: 0.4214
k = 19, Mean Squared Error: 0.4218
k = 20, Mean Squared Error: 0.4235

Best k value: 13 with Mean Squared Error: 0.4163
