# Prosty eksperyment

Podczas dzisiejszych zajęć zrealizujemy prosty eksperyment uczenia maszyn. Rozpoczniemy od akwizycji danych, korzystając z przygotowanego wcześniej zbioru danych [`w4k2/data`](https://github.com/w4k2/data). W następnym kroku dokonamy **normalizacji** danych i **zredukujemy** liczbę cech, korzystając z algorytmu PCA. Na koniec wykorzystamy prosty algorytm klasyfikacji i zaprezentujemy jej wynik. Każdy krok przetwarzania zakończymy stworzeniem funkcji pomocniczej, która ułatwi nam pracę w przyszłości. W zasadzie to absolutnie nic trudnego.

Zanim rozpoczniemy pracę, zaimportujmy wszystkie niezbędne biblioteki.

In [1]:
from sklearn import preprocessing, decomposition, neighbors, model_selection, metrics
import numpy as np
import pandas as pd
pd.options.display.max_rows = 8    # Ustawiamy liczbę wyświetlanych wierszy i kolumn na osiem, aby nie zaśmiecać 
pd.options.display.max_columns = 8 # ekranu zbędnymi informacjami. Porządek i czytelność to dobra sprawa.

## Akwizycja danych

Z [listy zbiorów danych](https://github.com/w4k2/data/tree/master/datasets) wybieramy jeden, który będzie podstawą naszego eksperymentu. Dobrym wyborem na początek może być zbiór [`heart`](https://github.com/w4k2/data/blob/master/datasets/heart.csv). Mieści on sobie binarny problem klasyfikacji (to jest taki, w którym mamy do czynienia jedynie z dwiema klasami. Posiada trzynaście cech i dwieście siedemdziesiąt obiektów.

Bezpośrednie łączę do pliku możemy odnaleźć pod przyciskiem *Raw*.
![](ss/raw.png)

Zachowajmy je w zmiennej `data_url` i korzystając z **pandas** wczytajmy do zmiennej `data_frame` zdalnie plik csv, zauważając, że skoro nie posiada on w nagłówkach opisów cech, powinniśmy ustawić przy wczytywaniu parametr `header` na wartość `None`.

In [2]:
data_url = 'https://raw.githubusercontent.com/w4k2/data/master/datasets/heart.csv'
data_frame = pd.read_csv(data_url, header = None)

Możemy teraz wyświetlić zawartość wczytanej ramki danych.

In [3]:
data_frame

Unnamed: 0,0,1,2,3,...,10,11,12,13
0,70,1,4,130,...,2,3,3,1
1,67,0,3,115,...,2,0,7,0
2,57,1,2,124,...,1,0,7,1
3,64,1,4,128,...,2,1,7,0
...,...,...,...,...,...,...,...,...,...
266,44,1,2,120,...,1,0,7,0
267,56,0,2,140,...,2,0,3,0
268,57,1,4,140,...,2,0,6,0
269,67,1,4,160,...,2,3,3,1


Podczas eksperymentów nie wykorzystujemy bezpośrednio ramek danych. Musimy wiedzieć, że zawarte w niej informacje dzielą się na dwa elementy:

- zbiór obiektów **X**,
- zbiór etykiet **y**.

Oba te zbiory są zawsze równie liczne. W zbiorze obiektów mamy `n` wierszy, każdy po `d` cech (kolumn). Każda komórka określa wartość jednego z parametrów dla jednego z obiektów zbioru. W zbiorze etykiet mamy `n` wpisów, z których każdy przypisuje współadresowany z nią obiekt to jednej z możliwych klas.

W kolekcji zbiorów danych `w4k2/data` przyjęto konwencję, w której etykieta jest **zawsze** ostatnim elementem w wierszu. Mając w głowie te informacje, możemy już podzielić wartości zawarte w naszej ramce danych na zbiór obiektów (`X`) i etykiet (`y`).

In [4]:
X = data_frame.values[:,:-1]
y = data_frame.values[:,-1].astype('int')

Wyświetlmy nasze zbiory.

In [5]:
pd.DataFrame(X)

Unnamed: 0,0,1,2,3,...,9,10,11,12
0,70.0,1.0,4.0,130.0,...,2.4,2.0,3.0,3.0
1,67.0,0.0,3.0,115.0,...,1.6,2.0,0.0,7.0
2,57.0,1.0,2.0,124.0,...,0.3,1.0,0.0,7.0
3,64.0,1.0,4.0,128.0,...,0.2,2.0,1.0,7.0
...,...,...,...,...,...,...,...,...,...
266,44.0,1.0,2.0,120.0,...,0.0,1.0,0.0,7.0
267,56.0,0.0,2.0,140.0,...,1.3,2.0,0.0,3.0
268,57.0,1.0,4.0,140.0,...,0.4,2.0,0.0,6.0
269,67.0,1.0,4.0,160.0,...,1.5,2.0,3.0,3.0


In [6]:
pd.DataFrame(y)

Unnamed: 0,0
0,1
1,0
2,1
3,0
...,...
266,0
267,0
268,0
269,1


Dla wygody i aby nie powtarzać w przyszłości w kółko linia w linię tego samego kodu, przygotujmy sobie funkcję `get_dataset()` przyjmującą parametr `url`, zawierający ścieżkę do analizowanego zbioru danych. 

In [7]:
def get_dataset(ds_name):
    data_frame = pd.read_csv('https://raw.githubusercontent.com/w4k2/data/master/datasets/%s.csv' % ds_name, 
                             header = None)
    X = data_frame.values[:,:-1]
    y = data_frame.values[:,-1].astype('int')
    return (X, y)

Z funkcji możemy korzystać w poniższy sposób. Zwróć uwagę, że po `return` pojawiają się dwie wartości w nawiasie. To tak zwane krotki, które pozwalają nam zwracać z funkcji więcej niż jedną wartość.

In [8]:
X, y = get_dataset('heart')
pd.DataFrame(X)

Unnamed: 0,0,1,2,3,...,9,10,11,12
0,70.0,1.0,4.0,130.0,...,2.4,2.0,3.0,3.0
1,67.0,0.0,3.0,115.0,...,1.6,2.0,0.0,7.0
2,57.0,1.0,2.0,124.0,...,0.3,1.0,0.0,7.0
3,64.0,1.0,4.0,128.0,...,0.2,2.0,1.0,7.0
...,...,...,...,...,...,...,...,...,...
266,44.0,1.0,2.0,120.0,...,0.0,1.0,0.0,7.0
267,56.0,0.0,2.0,140.0,...,1.3,2.0,0.0,3.0
268,57.0,1.0,4.0,140.0,...,0.4,2.0,0.0,6.0
269,67.0,1.0,4.0,160.0,...,1.5,2.0,3.0,3.0


## Normalizacja

Po wczytaniu zbioru danych, często dokonuje się na nim preprocessingu. Jego pierwszym krokiem może być statystyczna normalizacja, najczęściej pod postacią standaryzacji.

> **Standaryzacja** – rodzaj normalizacji zmiennej losowej, w wyniku której zmienna uzyskuje średnią wartość oczekiwaną zero i odchylenie standardowe jeden.

Jeśli masz wynieść z tych zajęć tylko jedną informację, niech będzie nią fakt, że *wartość oczekiwaną* dawniej nazywano *nadzieją matematyczną*. Dzięki temu będziesz mieć zawsze pod ręką argument na to, że matematykom nie pozostała już nawet nadzieja.

Przypiszmy więc standardowy skaler do zmiennej `scaler` i dopasujmy go do naszego zbioru obiektów.

In [9]:
scaler = preprocessing.StandardScaler()
scaler.fit(X);

Dopasowany do jakiegoś zbioru skaler pozwala już na transformację.

In [10]:
rescaled_X = scaler.transform(X)

Porównajmy odchylenie standardowe cech zbioru przed i po normalizacji

In [11]:
np.std(rescaled_X, axis = 0)

array([ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.])

In [12]:
np.std(X, axis = 0)

array([  9.09218223,   0.46732757,   0.94832898,  17.82850056,
        51.59043307,   0.35524678,   0.99604155,  23.1227775 ,
         0.47007865,   1.14308711,   0.61325102,   0.94214681,   1.93706182])

Jak widać, wszystko działa jak należy. Odchylenie standardowe wynosi równe jeden dla każdej cechy. Skoro wszystko działa, przygotujmy sobie metodę `normalize()` przyjmującą na wejściu zbiór do dopasowania i normalizacji.

In [13]:
def normalize(X):
    scaler = preprocessing.StandardScaler()
    scaler.fit(X)
    return scaler.transform(X)

In [14]:
rescaled_X = normalize(X)
np.std(rescaled_X, axis = 0)

array([ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.])

## Redukcja cech

Poza normalizacją danych, do fazy preprocessingu, szczególnie przy długich wektorach cech, które narażone są na klątwę wymiarowości, warto dodać etap redukcji cech. Jedną z podstawowych metod w tym wypadku jest ekstrakcja cech przy użyciu tzw. analizy głównych składowych (PCA).

> Analiza głównych składowych (ang. principal component analysis, PCA) – jedna ze statystycznych metod analizy czynnikowej. Zbiór danych składający się z N obserwacji, z których każda obejmuje K zmiennych, można interpretować jako chmurę N punktów w przestrzeni K-wymiarowej. Celem PCA jest taki obrót układu współrzędnych, aby maksymalizować w pierwszej kolejności wariancję pierwszej współrzędnej, następnie wariancję drugiej współrzędnej, itd.. Tak przekształcone wartości współrzędnych nazywane są ładunkami wygenerowanych czynników (składowych głównych). W ten sposób konstruowana jest nowa przestrzeń obserwacji, w której najwięcej zmienności wyjaśniają początkowe czynniki.
> [Analiza głównych składowych (Wikipedia)](https://pl.wikipedia.org/wiki/Analiza_głównych_składowych)

Aby móc to zrealizować, musimy rozpocząć od zainicjalizowania dekompozytora PCA. Wśród możliwych parametrów przyjmuje on liczbę wygenerowanych wymiarów `n_components`. Załóżmy, że oczekujemy czterech wymiarów.

In [15]:
pca = decomposition.PCA(n_components = 4)

Pusty dekompozytor należy dopasować do zbioru danych.

In [16]:
pca.fit(rescaled_X);

Pozwoli to na wygenerowanie zredukowanego zbioru obiektów.

In [17]:
reduced_X = pca.transform(rescaled_X)
pd.DataFrame(reduced_X)

Unnamed: 0,0,1,2,3
0,2.671284,1.573527,-1.031522,-0.487488
1,0.955444,3.468306,-1.830210,0.068183
2,-0.895053,-0.612315,0.428656,-0.670931
3,2.147007,-0.918253,-1.077068,-0.883479
...,...,...,...,...
266,-1.980798,-1.216195,0.675724,-0.701200
267,-0.650099,1.860568,0.008568,1.785328
268,0.035813,-1.142755,0.289554,0.182448
269,3.222338,1.372580,-0.755628,-0.690220


Przygotujmy metodę `reduce()` przyjmującą na wejściu zbiór do redukcji i liczbę wynikowych wymiarów. Za wartość domyślną drugiego argumentu przyjmijmy cztery.

In [18]:
def reduce(X, n_components = 4):
    pca = decomposition.PCA(n_components = n_components)
    pca.fit(X)
    return pca.transform(X)

In [19]:
pd.DataFrame(reduce(rescaled_X))

Unnamed: 0,0,1,2,3
0,2.671284,1.573527,-1.031522,-0.487488
1,0.955444,3.468306,-1.830210,0.068183
2,-0.895053,-0.612315,0.428656,-0.670931
3,2.147007,-0.918253,-1.077068,-0.883479
...,...,...,...,...
266,-1.980798,-1.216195,0.675724,-0.701200
267,-0.650099,1.860568,0.008568,1.785328
268,0.035813,-1.142755,0.289554,0.182448
269,3.222338,1.372580,-0.755628,-0.690220


## Dopasowanie modelu

Naszym zadaniem w dzisiejszym laboratorium jest przeprowadzenie eksperymentu z zadaniem klasyfikacji. Polega ono na uzyskaniu przez algorytm umiejętności poprawnego etykietowania nowych, nieznanych jeszcze obiektów. Wiedza zapisywana jest w tzw. *modelu* klasyfikatora.

Skorzystamy z klasyfikatora K najbliższych sąsiadów (k-NN). Jego zasada działania opiera się na nadawaniu nowemu obiektowi etykiety najczęściej pojawiającej się wśród k zapisanych w modelu obserwacji o najmniejszej względem niego odległości. Utwórzmy więc pusty model.

In [20]:
clf = neighbors.KNeighborsClassifier()
clf

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=5, p=2,
           weights='uniform')

Jak widać, standardowa liczba sąsiadów wynosi pięć, a metryką określającą odległość jest odległość Minkowskiego. Jeśli tylko znajdziesz w życiu na to chwilę, przeczytaj o różnicach pomiędzy odległością euklidesową, miejską (nazywaną także metryką Manhattan) i Minkowskiego.

Model klasyfikatora należy oczywiście dopasować do zbioru danych. Zbiór użyty do dopasowania modelu nazywamy zbiorem uczącym a sam proces dopasowania – uczeniem modelu.

In [21]:
clf.fit(reduced_X, y);

## Klasyfikacja

Wyuczony klasyfikator (czyli innymi słowy dopasowany model klasyfikatora) możemy wykorzystywać już do opisywania nowych próbek (klasyfikacji). Przekażmy mu więc nasz zbiór danych do klasyfikacji. Zbiór względem którego zbieramy informacje od klasyfikatora nazywamy **zbiorem testowym**, a przypisaną etykietę **predykcją** (`Z`).

In [22]:
Z = clf.predict(reduced_X)

Spróbujmy wyświetlić oryginalne **etykiety** i **predykcję**.

In [23]:
pd.DataFrame({'label': y, 'prediction' : Z})

Unnamed: 0,label,prediction
0,1,1
1,0,0
2,1,0
3,0,1
...,...,...
266,0,0
267,0,0
268,0,0
269,1,1


Jak widać, nie wszystkie przewidywania algorytmu są poprawne. Musimy więc poznać jakąś metodę na ocenę jakości klasyfikacji. W wypadku klasyfikacji binarnej, najprostszymi i najczęściej używanymi miarami są **dokładność** i **precyzja**. Aby móc je wyliczyć, wypada znać cztery parametry pomiaru.

- TP — true positives — liczbę poprawnie ocenionych próbek pozytywnych,
- TN — true negatives — liczbę poprawnie ocenionych próbek negatywnych,
- FP — false positives — liczbę tzw. fałszywych alarmów,
- FN — false negatives — liczbę niewykrytych próbek pozytywnych.

Wspólnie tworzą one tak zwaną [macierz błędów](https://pl.wikipedia.org/wiki/Tablica_pomyłek).

In [24]:
confusion_matrix = metrics.confusion_matrix(y,Z)
TP = confusion_matrix[0,0]
TN = confusion_matrix[1,1]
FP = confusion_matrix[0,1]
FN = confusion_matrix[1,0]
P = TP + FN
N = TN + FP
(TP, TN, FP, FN, P, N)

(133, 99, 17, 21, 154, 116)

Wyliczmy także miary dokładności i precyzji naszej klasyfikacji.

In [25]:
accuracy = (TP + TN) / float(P + N)
precision = TP / float(TP + FP)
(accuracy, precision)

(0.85925925925925928, 0.88666666666666671)

## Walidacja krzyżowa

Wydawałoby się, że zrobiliśmy już wszystko, co potrzebne do przeprowadzenia eksperymentu. Wczytaliśmy zbiór danych, poddaliśmy go normalizacji i redukcji, zbudowaliśmy na nim model, który wykorzystaliśmy do predykcji klas. Spróbujmy więc szybko powtórzyć go, korzystając ze zdobytej wiedzy, ale dla algorytmu k-NN z jednym sąsiadem.

In [26]:
X, y = get_dataset('heart')                           # Wczytywanie zbioru
X_normalized = normalize(X)                           # Normalizacja
X_reduced = reduce(X_normalized)                      # Redukcja PCA
clf = neighbors.KNeighborsClassifier(n_neighbors = 1) # Inicjalizacja modelu
clf.fit(reduced_X, y)                                 # Uczenie modelu
Z = clf.predict(reduced_X)                            # Testowanie modelu
confusion_matrix = metrics.confusion_matrix(y,Z)      # Wyznaczenie tablicy pomyłek
TP = confusion_matrix[0,0]
TN = confusion_matrix[1,1]
FP = confusion_matrix[0,1]
FN = confusion_matrix[1,0]
P = TP + FN
N = TN + FP
accuracy = (TP + TN) / float(P + N) # Wyliczenie dokładności
precision = TP / float(TP + FP)     # Wyliczenie precyzji
(accuracy, precision)

(1.0, 1.0)

Wydawałoby się, że wszystko poszło wspaniale. Dokładność i precyzja wynoszą sto procent. Niestety, nie do końca. W wypadku tego eksperymentu, zbiór uczący i testowy były tożsame, co przy algorytmie k-NN dla k=1 sprawia, że testowana próbka zawsze odnajduje w modelu samą siebie

Wynik jest słabszy, ale cóż, przynajmniej jest prawdą.

In [27]:
scores = model_selection.cross_val_score(clf, reduced_X, y, cv=10)
(np.mean(scores), np.std(scores))

(0.79629629629629628, 0.081565613131649034)

## Zadania

W ramach zadań wykonaj trzy skrypty:

- [3] Zweryfikuj czy algorytm PCA zwraca wartości znormalizowane.
- [4] Dla trzech wybranych zbiorów porównaj wyniki osiągane przez algorytm klasyfikacji KNN dla danych czystych, znormalizowanych i zredukowanych do czterech wymiarów.
- [5] Dla trzech wybranych zbiorów danych przedstaw wpływ liczby cech po redukcji PCA na wynik klasyfikacji. Zapisz i postaraj się uzasadnić obserwacje.