# Uczenie maszynowe
## Uczenie poprzez zapamiętywanie (*memory-based learning*)


In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

plt.style.use("ggplot")

### Zadanie 1 - klątwa wielowymiarowości (zjawisko wysokiego stężenia danych *concentration*)
Wylosuj dwie obserwacje z wielowymiarowego rozkładu jednorodnego (`np.random.rand`) oraz policz odległość pomiędzy nimi (`np.linalg.norm`). Sporządź wykres odległości pomiędzy dwoma losowymi elementami względem zwiększającej się liczby wymiarów (np. od 2 do 200).

Wraz ze zwiększającą się liczbą wymiarów odległość pomiędzy dwoma losowymi punktami rośnie. Jak myślisz, dlaczego tak jest? Czy jest to efekt spodziewany?

**Zadanie**
Postawmy więc pytanie w inny sposób: mając losowy punkt `x` jak zmienia się stosunek długości najdalszego sąsiada `a` do najbliższego `b`? Spodziewamy się, że $\frac{||x-a||}{||x-b||}$ powinno być jakąś dużą liczbą, bo gdyby $\frac{||x-a||}{||x-b||} =1$ oznaczałoby to, że najbliższy punkt w zbiorze jest tak samo daleko jako punkt najdalszy.

Powtórz porzedni eksperyment rozszerzając go w trojaki sposób. 
- Po pierwsze dla każdej liczby wymiarów wykonaj wiele losowań (np. 100) a wynik pokazywany na wykresie uśrednij. 
- Zamiast losowania dwóch punktów, losuj trzy punkty: `x`, `a`, `b`.
- Na wykresie zamiast odległości zwizualizuj stosunek $\frac{||x-a||}{||x-b||}$ pamiętaj że `a` jest *najdalszym* punktem od x (czyli dalszy niż `b`)

*Dla chętnych: Jeśli chcesz to zamiast losować 3 punkty możesz losować cały zbiór danych np. 100-elementowy i w nim szukać najbliższego i najdalszego punktu od pewnej wybranej obserwacji - dostaniesz stablniejsze wyniki*

Wraz z rosnącą liczbą wymiarów stosunek odległości zaczyna dążyć do 1!

**Zadanie: badanie różnych funkcji odległości**

Warto sprawdzić jak na klątwę wielowymiarowości reagują poszczególne miary odległości. Pewną szczególną klasę funkcji odległości stanowi odległość Minkowskiego
$$L_m(x-y) = \left(\sum_{i=1}^n |x_i-y_i|^m \right)^{1/m}$$
gdzie odlegość $L_2$ to zwykła odległość Euklidesowa, $L_1$ to odległość miejska itd. Każda z tych odległości może być prosto policzona używając `np.linalg.norm` - spójrz do dokumentacji. Uwaga: $m$ potencjalnie może być niecałkowite, w szczególności mniejsze niż 1.

Zwizualizuj na jednym wykresie badany stosunek normy $L_1$ i $L_2$, aby jeszcze wyraźniej widzieć różnice w ich działaniu oprócz stosunku odległości najdalszego i najbliższego sąsiada stwórz też wykres różnicy pomiędzy tymi odległościami.

**Ćwiczenia**
- Określ wpływ klątwy wielowymiarowości na inne odległości Minkowskiego (nie tylko dla $m=2$ i $m=1$). Czy widzisz jakieś zależności? Czy zarekomendowałbyś którąś z tych odległości do problemów wielowymiarowych?
- Przeanalizuj wykres różnych "okręgów" o promieniu 1 dla różnych norm. Czy każda z nich spełnia własności normy?
![title](https://upload.wikimedia.org/wikipedia/commons/0/00/2D_unit_balls.svg)
- Czy widzisz jakieś zalety lub wady stosowani metryk $L_2$ i $L_1$?

### Zadanie 2 - klątwa wielowymiarowości (zjawisko powstawania koncentratorów - *hubness*)
Nawet pracując w dwóch wymiarach z łatwością (?) jesteśmy w stanie podać przykład danych w których $x_1$ jest najbliższym sąsiadem $x_2$ chociaż $x_2$ nie jest najbliższym sąsiadem $x_1$. Pomimo tego, nasze intuicyjne rozumienie klasyfikacji na podstawie podobieństwa oparte jest na założeniu że jak coś jest podobne do drugiego elemnentu to ten drugie element też jest podobny do pierwszego. Spodziewamy się więc, że opisane wcześńiej zjawisko braku symetrii w relacji najbliższego sąsiad nie będzie zbyt częste. Zbadajmy ten efekt biorąc pod uwagę zwiększającą się liczbę wymiarów.

Dla podanej liczby wymiarów wylosuj N elementowy zbiorów z rozkładu jednorodnego `np.random.rand`, a następnie dla każdego elementu zlicz dla ilu elementów jest on najbliższym sąsiadem. W celu szukania najbliższych sąsiadów możesz użyć gotową strukturę kd-tree z pakietu sklearn.
```
tree = KDTree (dane)
odleglosci, indeksy_elementow = tree.query(dane których k sasiadow szukamy, k=...)  
```
Zwróć uwagę, że skoro szukasz najbliższego sąsiada w tym samym zbiorze danych to najbliższym sąsiadem elementu jest tenże element.

In [None]:
from sklearn.neighbors import KDTree
def generate(N = 100):
    #Parametrem funkcji jest wielkość analizowanego zbiory danych
    np.random.seed(10)
    results = defaultdict(lambda : np.zeros(N) -1)
    #Słownik zawierający zliczenia dla poszczególnych elementów i zbiorów danych
    #np. results [i] [j] zawiera liczbę elementów dla których j-ty element jest najbliższym  
    #      sąsiadem w zbiorze i-wymiarowym
    for i in [2, 3, 5, 10, 20, 100, 1000]: #wymiarowości do przebadania
        #TWÓJ KOD TUTAJ

    return results

r = generate()
for i in r.keys():
    plt.hist(r[i], label=i)
plt.legend()

Wykres zbiorczy może nie wiele powiedzieć - zobacz histogramy dla poszczególnych zbiorów

In [None]:
for i in [100]: # wyświetl histogram dla 2D
    plt.hist(r[i], label=i)
plt.legend()

Wraz z rosnącą liczbą wymiarów co raz częściej pojawiają się obserwacje - koncentratory. Czyli obserwacje, które są najbliższym sąsiadem do wysokiej liczby elementów. Zwróć uwagę, że takie elementy z pewnością łamią symetrię - mają tylko 1 najbliższego sąsiada samemu będąc najbliższym sąsiadem dla wielu. Dodatkowo wartość klasy decyzyjnej dla takie elementu ma bardzo duże znaczenie dla ogólnej trafności. W przykładowym zbiorze (wyniki są losowe więc mogą się różnić od twoich) 1000 wymiarowym była 1 obserwacja będącą najbliższym sąsiadem do 13 przykładów czyli zmiana etykiety tego przykladu spowodowałaby zmianę klasyfikacji 13\% instancji w zbiorze!  zbiorze 100-wymiarowym byy 3 instancje które łącznie były najbliższymi sąsiadami do 20\% instancji. W zbiorach niskowymiarowych jedna obserwacja była najbliższym sąsiadem do maksymalnie 3 elementów.

### Zadanie 3 - klątwa wymiarowości (rzeczywista liczba wymiarów)
Czy jednak zawsze wymiarowość zbioru powoduje takie niepożądane efekty? 

Wygeneruj zbiór 2-wymiarowy składający się z 1000 obserwacji z rozkładu jednorodnego.

In [None]:
X = np.random.rand(1000,2)

Spróbuj sztucznie zwiększać wymiarowość zbioru poprzez dopisywanie kolejnych kolumn wypełnionych zerami. Zrób to w poniższej pętli dla kolejnych wymiarowości i sprawdź jak zmienia się stosunek odległości najdalszego do najbliższego sąsiada wraz ze zwiększającą się wymiarowością.

In [None]:
x = np.random.rand(2) #Losowy, 2D element do którego będzemy szukać sąsiadów
results = {}
for i in range(2,1000,5):
    Xp = ... #Dodaj zerowe kolumny do X
    xp = ... #Dodaj zerowe elementy do x
    norms = np.linalg.norm(Xp-xp, axis = 1) # Policz odległości do wszystkich punktów
    results[i]=  (np.max(norms)-np.min(norms))/np.min(norms)
plt.plot(results.keys(), results.values())

Dlaczego tak się dzieje? Spodziewałeś się tego efektu?

**Zadanie** Zwiększanie wymiarowości danych poprzez dodawanie zer to wyjątkowo trywialny sposób. Spróbujmy wykonać losową projekcję danych dwuwymiarowych na więcej wymiarów. Jak to zrobić? Spróbujmy to zrobić taką projekcję do 3 wymiarów.

Wygenerujmy losową macierz projekcji z rozkładu normalnego. Taka macierz musi mieć wymiary 2 (początkowa wymiarowość) na 3 (wymiarowość po projekcji).

In [None]:
proj = np.random.normal(size=(2,3))
proj

Dokonanie projekcji to na nasze potrzeby po prostu przemnożnie danych przez macierz projekcji.

In [None]:
Xp = X@proj

Zwizualizujmy dane po projekcji (jeśli na wykresie mało widać - powtórz losowanie macierzy projekcji)

In [None]:
from mpl_toolkits.mplot3d import Axes3D
fig = plt.figure()
ax = plt.axes(projection='3d')
ax.scatter(Xp[:,0], Xp[:,1], Xp[:,2])

Wiedząc już jak się przeprowdza projekcję, sprawdź w jaki sposób zachowa się stosunek odległości najdalszego i najbliższego sąsiada dla danych które mają 2 wymiary, ale są przeprojektowane na większą liczbę wymiarów.

In [None]:
x = np.random.rand(2) #Losowy, 2D element do którego będzemy szukać sąsiadów
results = {}
for i in range(2,1000,5):

    Xp = .... #Projekcja X
    xp = ...  #Projekcja x
    norms = np.linalg.norm(Xp-xp, axis = 1) # Policz odległości do wszystkich punktów
    results[i]=  ((np.max(norms)-np.min(norms))/np.min(norms))
plt.plot(results.keys(), results.values())

### Zadanie 4
Przetestuj wpływ liczby $k$ najbliższych sąsiadów na trafność klasyfikacji dla zbiorów `iris`, `wine` i `breast_cancer`. Dane możesz załadować poprzez wywołanie
```
X, y = data.load_iris(True)
```
gdzie `iris` możesz zastąpić inną nazwą zbioru. X to macierz zawierająca cechy (w każdym wierszu inna obserwacja, w każdej kolumnie inna cecha), a y to wartości klasy decyzyjnej dla kolejnych obserwacji.

In [None]:
import sklearn.datasets as data
X, y = data.load_iris(True)


Podzielmy dane na część uczącą i testową.

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size=0.3, shuffle=True, stratify=y)


Zaimplementuj funkcję badającą trafność klasyfikacji

In [None]:
def accuracy(real, predict):
    #Twoj kod tutaj


assert accuracy(np.array([0,0,0,1]), np.array([0,0,0,1])) == 1.
assert accuracy(np.array([0,0,0,1]), np.array([0,0,1,1])) == 0.75

Zaimplementuj ostateczny eksperyment - sprawdzenie trafności klasyfikacji dla każdego $k$ np. od 1 do 20 i narysowanie wykresu. Wykorzystaj gotową implementację klasyfikatora kNN z pakietu sklearn `KNeighborsClassifier` [dokumentacja](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html)

In [None]:
from sklearn.neighbors import KNeighborsClassifier


Poeksperymentuj z wyżej wymienionymi zbiorami:
 - czy dla każdego zbioru widać, ze nieparzysta liczba $k$ daje wyższą trafność? 
 - czy wartość $k=1$ jest zawsze najlepsza? Czy są zbiory dla których optymalna wartość $k$ jest bardzo duża np. 31?
 - czy widzisz jakieś różnice związane z wyborem $k$ dla zbiorów z różną liczbą klas?
 - czy analizując te zbiory ze względu na ich rozmiar, liczbę wymiarów i najlepsze znalezione $k$ - widzisz zależności o których mówiliśmy na laboratoriach?
 - spróbuj przeskalować cechy np. poprzez MinMaxScaler - czy widzisz zaletę wynikającą z pracy na ustandaryzowanych danych?