### Zadanie z danymi oznakowanymi

Po co stosować metodę uczenia nienadzorowanego do oznakowanych danych? 

Z czystej ciekawości, żeby sprawdzić jak sobie ta metoda poradzi.

Jednym z bardziej popularnych treningowych zbiorów danych jest zbiór danych o [winach](https://www.google.pl/search?q=kaggle+wine+dataset).

Weźmy przykładowy.

In [7]:
import pandas as pd

wine_dataset = pd.read_csv('data/wine.csv')
wine_dataset

Unnamed: 0,Alcohol,Malic acid,Ash,Alcalinity of ash,Magnesium,Total phenols,Flavanoids,Nonflavanoid phenols,Proanthocyanins,Color intensity,Hue,OD280/OD315 of diluted wines,Proline,Class
0,14.23,1.71,2.43,15.6,127,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065,one
1,13.20,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050,one
2,13.16,2.36,2.67,18.6,101,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185,one
3,14.37,1.95,2.50,16.8,113,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480,one
4,13.24,2.59,2.87,21.0,118,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735,one
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,13.71,5.65,2.45,20.5,95,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740,three
174,13.40,3.91,2.48,23.0,102,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750,three
175,13.27,4.28,2.26,20.0,120,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835,three
176,13.17,2.59,2.37,20.0,120,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840,three


In [8]:
wine_dataset['Class']

0        one
1        one
2        one
3        one
4        one
       ...  
173    three
174    three
175    three
176    three
177    three
Name: Class, Length: 178, dtype: object

In [9]:
wine_dataset['Class'].unique()

array(['one', 'two', 'three'], dtype=object)

In [10]:
y = wine_dataset.pop('Class')
X = wine_dataset

In [11]:
y

0        one
1        one
2        one
3        one
4        one
       ...  
173    three
174    three
175    three
176    three
177    three
Name: Class, Length: 178, dtype: object

In [12]:
X

Unnamed: 0,Alcohol,Malic acid,Ash,Alcalinity of ash,Magnesium,Total phenols,Flavanoids,Nonflavanoid phenols,Proanthocyanins,Color intensity,Hue,OD280/OD315 of diluted wines,Proline
0,14.23,1.71,2.43,15.6,127,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,13.20,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050
2,13.16,2.36,2.67,18.6,101,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185
3,14.37,1.95,2.50,16.8,113,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480
4,13.24,2.59,2.87,21.0,118,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735
...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,13.71,5.65,2.45,20.5,95,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740
174,13.40,3.91,2.48,23.0,102,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750
175,13.27,4.28,2.26,20.0,120,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835
176,13.17,2.59,2.37,20.0,120,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840


### Model

In [13]:
from sklearn.cluster import KMeans

model = KMeans(n_clusters=3)  # n_init - check docs
model.fit(X)

In [14]:
y_kmeans = model.predict(X)
print(y_kmeans[:10])

[1 1 1 1 0 1 1 1 1 1]


Porównajmy teraz przypisania (y_kmeans) z etykietami (y)

In [15]:
df = pd.DataFrame({'labels': y, 'clusters': y_kmeans})
df

Unnamed: 0,labels,clusters
0,one,1
1,one,1
2,one,1
3,one,1
4,one,0
...,...,...
173,three,0
174,three,0
175,three,0
176,three,0


In [16]:
ct = pd.crosstab(df['labels'], df['clusters'])
ct

clusters,0,1,2
labels,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,13,46,0
three,29,0,19
two,20,1,50


Wyniki kiepskie. Jednym z możliwych powodów jest brak standaryzacji danych. Być może dane mają bardzo różną wariancję, co przeważnie bardzo przeszkadza w poprawnym grupowaniu. Sprawdźmy to.

In [17]:
X.describe()

Unnamed: 0,Alcohol,Malic acid,Ash,Alcalinity of ash,Magnesium,Total phenols,Flavanoids,Nonflavanoid phenols,Proanthocyanins,Color intensity,Hue,OD280/OD315 of diluted wines,Proline
count,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0
mean,13.000618,2.336348,2.366517,19.494944,99.741573,2.295112,2.02927,0.361854,1.590899,5.05809,0.957449,2.611685,746.893258
std,0.811827,1.117146,0.274344,3.339564,14.282484,0.625851,0.998859,0.124453,0.572359,2.318286,0.228572,0.70999,314.907474
min,11.03,0.74,1.36,10.6,70.0,0.98,0.34,0.13,0.41,1.28,0.48,1.27,278.0
25%,12.3625,1.6025,2.21,17.2,88.0,1.7425,1.205,0.27,1.25,3.22,0.7825,1.9375,500.5
50%,13.05,1.865,2.36,19.5,98.0,2.355,2.135,0.34,1.555,4.69,0.965,2.78,673.5
75%,13.6775,3.0825,2.5575,21.5,107.0,2.8,2.875,0.4375,1.95,6.2,1.12,3.17,985.0
max,14.83,5.8,3.23,30.0,162.0,3.88,5.08,0.66,3.58,13.0,1.71,4.0,1680.0


Wyświetlmy przykładowe kolumny

In [None]:
X.columns

In [None]:
import plotly.express as px

fig = px.scatter(X[['OD280/OD315 of diluted wines', 'Proline']], 'OD280/OD315 of diluted wines', 'Proline')
fig.show()

Niby ok, ale dopiero jak ujednolicimy skalę na obu osiach, to będziemy w stanie porównać rozkłady obu zmiennych.

In [None]:
fig.update_yaxes(
    scaleanchor="x",
    scaleratio=1,
)
fig.show()

Teraz wyraźnie widać potencjalny problem. Przy tak zróżnicowanych skalach trudno opierać algorytm o pojęcie odległości pomiędzy punktami.
Wynik będzie całkowicie zdeterminowany przez zmienną o największej wariancji. Pozostałe zmienne będą miały znikomy wpływ na wynik.

Ustandaryzujmy dane.

In [None]:
from sklearn.preprocessing import StandardScaler

# tworzymy obiekt skalujący
scaler = StandardScaler()

# skalujemy dane
scaler.fit(X)
data_scaled = scaler.transform(X)

I teraz spójrzmy jeszcze raz na dane.

In [None]:
X_scaled = pd.DataFrame(data_scaled, columns=X.columns)
X_scaled.describe()

In [None]:
fig = px.scatter(X_scaled[['OD280/OD315 of diluted wines', 'Proline']], 'OD280/OD315 of diluted wines', 'Proline')
fig.update_yaxes(
    scaleanchor="x",
    scaleratio=1,
)
fig.show()

I teraz powtórzmy całość dla ustandaryzowanych danych.

In [None]:
model = KMeans(n_clusters=3)  # n_init - check docs
model.fit(X_scaled)

In [None]:
y_kmeans = model.predict(X_scaled)
print(y_kmeans[:10])

In [None]:
df = pd.DataFrame({'labels': y, 'clusters': y_kmeans})
df

Wygląda obiecująco

In [None]:
ct = pd.crosstab(df['labels'], df['clusters'])
ct

Udało się z dużą dokładnością odnaleźć właściwą segmentacje danych.

Wyniku niestety, nie potrafimy zwizualizować, ponieważ pracujemy w 13-wymiarowej przestrzeni.