# Najprostszy klasyfikator i reprezentacja danych


1. Wybierz zbiór danych (najlepiej zawierający wartości liczbowe jako cechy
oraz cechy kategoryczne jako numery klas. Zbiór powinien być nietrywialny i
ma zawierać > 10 cech).

Wybrałem zbiór danych Wine Quality, poniżej wczytuje i wyświetlam co w nim jest.

In [9]:
import pandas as pd
df = pd.read_csv("winequality-red.csv", sep=";")  

df.head()




Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


## Normalizacja danych

Zastosuję metodę min-max scaling.

In [16]:
from sklearn.preprocessing import MinMaxScaler

# Normalizacja cech
scaler = MinMaxScaler()
features = df.drop(columns=['quality'])
normalized_data = scaler.fit_transform(features)

print(normalized_data)

[[0.24778761 0.39726027 0.         ... 0.60629921 0.13772455 0.15384615]
 [0.28318584 0.52054795 0.         ... 0.36220472 0.20958084 0.21538462]
 [0.28318584 0.43835616 0.04       ... 0.40944882 0.19161677 0.21538462]
 ...
 [0.15044248 0.26712329 0.13       ... 0.53543307 0.25149701 0.4       ]
 [0.11504425 0.35958904 0.12       ... 0.65354331 0.22754491 0.27692308]
 [0.12389381 0.13013699 0.47       ... 0.51181102 0.19760479 0.4       ]]


### Dlaczego powinniśmy standaryzować/normalizować dane? 
Powinniśmy standaryzować dane ponieważ, dzięki temu otrzymujemy bardzije ujednolicone dane. Przez co nie faworyzujemy cech o dużych wartościach. Ponadto poprzez standaryzację otrzymujemy poprawiamy dokładność naszych modeli.

## Czy można rozpoznać klasy przy pomocy macierz odległości pomiędzy wektorami cech?

Tak, można rozpoznać klasy przy użyciu macierzy odległości pomiędzy wektorami cech. Jednym z popularnych podejść jest zastosowanie algorytmu k-NN, który klasyfikuje obiekt na podstawie jego najbliższych sąsiadów w przestrzeni cech.

## Oszacuj dla jakiej definicji odległości, klasy te są widoczne najwyraźniej?

In [28]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Podział na cechy i etykiety
X = df.drop(columns=["quality"])
y = df["quality"]

scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

# Podział na zbiory uczące i testowe
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# Definiujemy różne metryki do testów
metrics = ["euclidean", "manhattan", "chebyshev", "minkowski"]


Metryka: euclidean, Accuracy: 0.5719
Metryka: manhattan, Accuracy: 0.5563
Metryka: chebyshev, Accuracy: 0.5250
Metryka: minkowski, Accuracy: 0.5719


Na podstawie wyników widzimy, że dla metryki manhattan klasy są najbardziej widoczne chociaż wyniki są stosunkowo niskie. Nie wiem czemu

In [23]:
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.neighbors import KNeighborsClassifier


# Lista metryk
metrics = ['euclidean', 'manhattan', 'chebyshev', 'minkowski']

# Testowanie każdej metryki
results = {}
for metric in metrics:
    knn = KNeighborsClassifier(metric=metric)
    accuracy = cross_val_score(knn, X_train, y_train, cv=5, scoring='accuracy').mean()
    results[metric] = accuracy

# Wypisz wyniki
for metric, accuracy in results.items():
    print(f'Metryka: {metric}, Accuracy: {accuracy:.4f}')

# Sprawdź, która metryka daje najlepszy wynik
best_metric = max(results, key=results.get)
print(f'Optymalna metryka: {best_metric} z Accuracy: {results[best_metric]:.4f}')


Metryka: euclidean, Accuracy: 0.4843
Metryka: manhattan, Accuracy: 0.4995
Metryka: chebyshev, Accuracy: 0.4897
Metryka: minkowski, Accuracy: 0.4843
Optymalna metryka: manhattan z Accuracy: 0.4995
