# Podstawy uczenia maszynowego - tutorial 2: Feature selection and extraction

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

## Przygotowanie zbiorów danych

In [None]:
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import scale
from copy import deepcopy

In [None]:
# Zbiór danych medycznych pacjentów pozwalający na diagnostykę raka płuc

cancer = datasets.load_breast_cancer()
cancer.data = scale(cancer.data)

cancer_reduced = deepcopy(cancer)

def get_cancer_displayable(n_rows=20):
    return pd.DataFrame([np.append(sample, cancer.target[i]) for i, sample in enumerate(cancer.data)],
             columns=np.append(cancer.feature_names, 'had_cancer'))[:n_rows]

In [None]:
get_cancer_displayable()

In [None]:
# zbiór danych pozwalający przewidywać, czy małżeństwo się rozpadnie na podstawie odpowiedzi (w skali 0-4) na 56 pytań

divorces = pd.read_csv('./datasets/divorce.csv', sep=';')

# treści pytań są przechowywane w osobnym pliku
with open('./datasets/questions.csv') as file:
    questions = np.array(file.read().split('\n'))

divorces = {
    'data': divorces.drop(labels=['Class'], axis=1).astype(float),
    'target': list(divorces['Class']),
    'feature_names': questions
}

divorces['data'] = scale(divorces['data'])

divorces_reduced = deepcopy(divorces)

def get_divorces_displayable(n_rows=20):
    return pd.DataFrame([np.append(sample, divorces['target'][i]) for i, sample in enumerate(divorces['data'])],
             columns=np.append(divorces['feature_names'], 'divorced'))[:n_rows]

In [None]:
get_divorces_displayable()

## Selekcja cech

Selekcja cech to ograniczenie liczby atrybutów danych, na których pracuje model, przez odrzucenie najmniej użytecznych z nich. Taka rezygnacja z części danych pozwala osiągnąć konkretne korzyści:
* redukcja wymiarów - odrzucenie części cech oznacza zmniejszenie wymiarowości problemu, co ułatwia uniknięcie przetrenowania modelu
* uproszczenie modelu - model pracujący na mniejszej liczbie cech jest bardziej zrozumiały i łatwiej identyfikować w nim problemy
* lepsze wyniki - cechy niezwiązane z badaną właściwością mogą w sposób losowy zaburzać otrzymywane wyniki
* poprawa wydajności - mało istotne cechy są przetwarzane niepotrzebnie

### Metody Selekcji cech

#### 1. Odrzucenie cech niecharakterystycznych

Cechy, które wykazują niewielką zmienność pomiędzy próbkami, prawdopodobnie nie niosą szczególnie użytecznej informacji - zazwyczaj nie można na ich podstawie dokonać klasyfikacji (choć warto zachować ostrożność przy zbiorach danych o silnej dysproporcji pomiędzy licznościami klas oraz cechach mogących przyjmować wartości z niewielkiego zakresu). Cechy takie można rozpoznać po niewielkiej wariancji - stąd najprostsze podejście do selekcji cech może polegać na ich przefiltrowaniu i odrzuceniu tych o zbyt niskiej wariancji.

In [None]:
from sklearn.feature_selection import VarianceThreshold

In [None]:
# variance should equal, because ...

selector = VarianceThreshold()
cancer_reduced.data = selector.fit_transform(cancer.data)


# lista atrybutów wymaga zaktualizowania, selector.get_support() zwraca indeksy wybranych cech
cancer_reduced['feature_names'] = cancer['feature_names'][selector.get_support(indices=True)]

In [None]:
selector = VarianceThreshold()
divorces_reduced['data'] = selector.fit_transform(divorces['data'])

divorces_reduced['feature_names'] = divorces['feature_names'][selector.get_support(indices=True)]

#### 2. Odrzucenie cech niezwiązanych z badaną właściwością

Możemy spróbować przewidzieć, na ile każda z cech jest związana z badaną właściwością, i odrzucić te, dla których związek jest luźny. Możliwe są dwa zasadnicze podejścia:

##### 2.1. Obliczenie korelacji

Najprostszym sposobem określenia, czy cecha jest związana z inną (w szczególności - przynależnością do danej klasy) jest obliczenie korelacji między nimi.

In [None]:
def filter_correlation(X, Y, feature_names, n_features):
    scores = [abs(np.corrcoef(feature, Y))[0, 1] for feature in X.T]
    selected_indices = np.argsort(scores)[:n_features]
    data = X.T[selected_indices].T
    selected_feature_names = feature_names[selected_indices]
    return data, selected_feature_names

In [None]:
cancer_reduced.data, cancer_reduced.feature_names = filter_correlation(cancer.data, cancer.target, cancer.feature_names, 15)

In [None]:
divorces_reduced['data'], divorces_reduced['feature_names'] = \
    filter_correlation(divorces['data'], divorces['target'], divorces['feature_names'], 40)

##### 2.2. Inne statystyki

Alternatywnie, możemy wykorzystać inną statystykę, której wartość rośnie wraz ze wzrostem różnicy wartości w dwóch grupach - np. ANOVA (częstym wyborem jest miara Chi-Square, nie nadaje się ona jednak do znormalizowanych danych - nie dopuszcza wartości ujemnych, konieczne więc byłoby dodatkowe przesunięcie danych). 

W tym celu zakładamy, że badana cecha (nazwijmy ją A) nie ma związku z przynależnością próbki do określonej klasy (oznaczmy ją przez C). Opierając się na tym założeniu, obliczamy, ile próbek z każdą możliwą wartością cechy A powinno należeć do klasy C (jako liczba próbek o danej wartości cechy A * liczba próbek w ekperymencie należących do klasy C / liczba wszystkich próbek),
i obliczamy wartość wybranej statystyki na podstawie różnic pomiędzy otrzymanymi wartościami a rzeczywistymi danymi.

In [None]:
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_classif

In [None]:
selector = SelectKBest(f_classif, k=20)

cancer_reduced.data = selector.fit_transform(cancer.data, cancer.target)
cancer_reduced.feature_names = cancer.feature_names[selector.get_support(indices=True)]

In [None]:
selector = SelectKBest(f_classif, k=30)

divorces_reduced['data'] = selector.fit_transform(divorces['data'], divorces['target'])
divorces_reduced['feature_names'] = divorces['feature_names'][selector.get_support(indices=True)]

#### 3. Próbne wytrenowanie modelu

##### 3.1. Odfiltrowanie cech nieznaczących

Zamiast "ręcznie" znajdować i usuwać mało istotne cechy, możemy spróbować wytrenować na naszych danych model, który ucząc się "przy okazji" zapisuje istotność cech, i usunąć te, które nie mają dużego znaczenia w podejmowaniu decyzji przez model. Aby zastosować takie podejści, konieczny jest wybór modelu, który udostępnia istotność cech - w przypadku Scikit-learn są to modele posiadające pole coef_ lub feature_importances_.

In [None]:
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import ExtraTreesClassifier

In [None]:
classifier = ExtraTreesClassifier(n_estimators=50)

classifier = classifier.fit(cancer.data, cancer.target)
selector = SelectFromModel(classifier, prefit=True)

cancer_reduced.data = selector.transform(cancer.data)
cancer_reduced.feature_names = cancer.feature_names[selector.get_support(indices=True)]

In [None]:
classifier = ExtraTreesClassifier(n_estimators=50)

classifier = classifier.fit(divorces['data'], divorces['target'])
selector = SelectFromModel(classifier, prefit=True)

divorces_reduced['data'] = selector.transform(divorces['data'])
divorces_reduced['feature_names'] = divorces['feature_names'][selector.get_support(indices=True)]

##### 3.2. Rekurencyjny wybór zadanej liczby najlepszych cech

Jeżeli chcemy ograniczyć liczbę cech do konkretnej wartości, powyższe podejście można zmodyfikować: zamiast wybierać cechy powyżej określonej granicy, lepszym podejściem może być odrzucenie najsłabszej z cech (lub kilku najgorszych) i rekurencyjne powtarzanie procesu, aż do osiągnięcia zadanej ich liczby.

In [None]:
from sklearn.feature_selection import RFE
from sklearn.ensemble import ExtraTreesClassifier

In [None]:
estimator = ExtraTreesClassifier(n_estimators=50)
selector = RFE(estimator, 20, step=3)

cancer_reduced.data = selector.fit_transform(cancer.data, cancer.target)
cancer_reduced.feature_names = cancer.feature_names[selector.get_support(indices=True)]

In [None]:
estimator = ExtraTreesClassifier(n_estimators=50)
selector = RFE(estimator, 30, step=3)

divorces_reduced['data'] = selector.fit_transform(divorces['data'], divorces['target'])
divorces_reduced['feature_names'] = divorces['feature_names'][selector.get_support(indices=True)]

## Wizualizacja

Wizualizację ważności poszczególnych cech najłatwiej jest oprzeć o próbne wytrenowanie modelu i odczytanie wartości z pola *feature_importances_*

In [None]:
from sklearn.ensemble import ExtraTreesClassifier

classifier = ExtraTreesClassifier(n_estimators=50)

def plot_feature_importances(classifier, names, size=None):
    sorted_indices = np.argsort(classifier.feature_importances_)
    labels = names[sorted_indices][::-1]
    Y = classifier.feature_importances_[sorted_indices][::-1]
    X = [i for i in range(len(labels))]
    if size is not None:
        plt.figure(figsize = size)
    plt.bar(X, Y, tick_label=labels)
    plt.xticks(rotation='vertical')
    plt.show()

In [None]:
classifier = classifier.fit(cancer.data, cancer.target)
plot_feature_importances(classifier, cancer.feature_names)

In [None]:
classifier = classifier.fit(divorces['data'], divorces['target'])

# treści pytań są długie, wykres etykietujemy więc samymi ich numerami
labels = np.array(['question' + str(i) for i in range(1, len(divorces['feature_names']) + 1)])
plot_feature_importances(classifier, labels, size=(20, 8))

## Zadanie 1. Wpływ selekcji cech na efektywność klasyfikatorów

W ramach zadania pierwszego każdy ze studentów powinien uruchomić pomiar skuteczności klasyfikatora K-nearest neighbors dla pewnego k, pewnej liczby cech m i określonego sposobu wyboru cech. Badane wartości to:

k = \[1, 3, 5\]<br>
m = \[N, 2, 5\]  N - pełna liczba cech (brak selekcji)<br>
wybór cech: selekcja/losowy

Każdy student powinien wykonać **dokładnie 1** pomiar. Wynik należy wpisać do odpowiedniej komórki tabeli, dostępnej pod adresem: https://docs.google.com/spreadsheets/d/1Y_qOVhLXfIi5w4YD38lMmljmqfbgDqyrm75lMnC50Oc/edit?usp=sharing

(Przed uruchomieniem pomiaru, można "zarezerwować" odpowiednią komórkę tabeli, wpisując w nią znak '#')

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_classif
from copy import deepcopy

In [None]:
def select_features(dataset, m, randomly):
    if m >= len(dataset['feature_names']):
        return dataset['data'], dataset['feature_names']
    else:
        if randomly:
            indices = np.random.choice(np.arange(len(dataset['feature_names'])), size=m, replace=False)
        else:
            selector = SelectKBest(f_classif, k=m)
            selector.fit(dataset['data'], dataset['target'])
            indices = selector.get_support(indices=True)
        reduced_data = np.array([sample.T[indices].T for sample in dataset['data']])
        reduced_feature_names = dataset['feature_names'][indices]
        return reduced_data, reduced_feature_names

def knn_score(dataset, k, m, random_selection=False):
    classifier = KNeighborsClassifier(n_neighbors=k)
    dataset_reduced = deepcopy(dataset)
    dataset_reduced['data'], dataset_reduced['feature_names'] = select_features(dataset, m, random_selection)
    results = cross_val_score(classifier, dataset_reduced['data'], dataset_reduced['target'], cv=5)
    return results.mean()

In [None]:
# wywołaj funkcję knn_score() z odpowiednimi parametrami
knn_score(divorces, 5, 1)

## Macierz kowariancji

### Wariancja

**Wariancja** jest intuicyjnie utożsamiana ze zróżnicowaniem zbiorowości;
jest średnią arytmetyczną kwadratów różnic poszczególnych wartości cechy od wartości oczekiwanej.
Wariancję zmiennej losowej X oznaczamy jako:

\begin{align}
Var(X)\newline
D^2(X)
\end{align}

I obliczamy za pomocą wzoru:

\begin{align}
D^2(X) = E(X^2) - [E(X)]^2
\end{align}

Gdzie E[X] jest wartością oczekiwaną zmiennej losowej X.

### Kowariancja

**Kowariancją** nazywamy zależnośc liniową między dwowa zmiennymi losowymi X i Y.
Kowariancję oznaczamy jako:

\begin{align}
cov(X,Y)
\end{align}

I wyliczamy ze wzoru:

\begin{align}
cov(X,Y) = E(X * Y) - E(X) * E(Y)
\end{align}

### Macierz kowariancji

#### 1. Sposób wyliczania
**Macierz kowariancji** jest uogólnieniem pojęcia wariancji dla przypadków wielowymiarowych. Dla wektora losowego

\begin{align}
(X_1,X_2,...,X_n)
\end{align}

Ma ona postać:

\begin{equation*}
\Sigma =  \begin{vmatrix}
\ \sigma^2_1 & \sigma_{12} & ... & \sigma_{1n}  \\
\ \sigma_{21} & \sigma^2_2 & ... & \sigma_{2n}  \\
\ ... & ... & ... & ... \\
\ \sigma_{n1} & \sigma_{n2} & ... & \sigma^2_n
\end{vmatrix}
\end{equation*}

Gdzie:

\begin{align}
\sigma^2_i = D^2(X_i) - wariancja\; zmiennej\; X_i \\
\end{align}

\begin{align}
\sigma_{ij} = cov(X_i, X_j) - kowariancja\; miedzy\; zmiennymi\; losowymi\; X_i\; i\; X_j
\end{align}

#### 2. Macierz kowariancji w Pythonie

Do wyznaczania macierzy kowariancji używamy funkcji cov z biblioteki numpy. Wylicza ona macierz na podstawie podanych tablic i wag.

<center>numpy.cov(m, y=None, rowvar=True, bias=False, ddof=None, fweights=None, aweights=None)</center>

gdzie najważniejsze argumenty to:
<ul>
    <li> m - jedno- lub dwu- wymiarowa tablic danych, zawiarająca różne zmienne i obserwacje</li>
    <li>bias - odpowiada za rodzaj normalizacji</li>
    <li>fweights - jednowymiarowa tablica liczb całkowitych, wyznaczająca wagi częstotliwości, czyli ile razy dana obserwacja powinna być powtórzona</li>
    <li>aweights - jednowymiarowa tablica, odpowiedzialna za wagi ("ważność") danych obserwacji.</li>
</ul>

#### 3. Działanie funkcji numpy.cov

Mamy daną tablicę m, gdzie kolumny są poszeczególnymi obserwacjami, niech f = fweight i a = aweight. Wyliczanie macierzy kowariancji następuje w podany sposób:

=> w = f * a<br>
=> v1 = np.sum(w)<br>
=> v2 = np.sum(w * a)<br>
=> m -= np.sum(m * w, axis=1, keepdims=True) / v1<br>
=> cov = np.dot(m * w, m.T) * v1 / (v1**2 - ddof * v2)<br>

In [None]:
cancer.data[0:3,0:3]

In [None]:
np.cov(cancer.data[0:3,0:3])

In [None]:
cancer.data

In [None]:
np.cov(cancer.data)

### Heat map

**Heat mapa** jest graficzną reprezentacją danych, gdzie każdy wartość elementu macierzy jest reprezentowana przez dany kolor.

<img src="heat_map.png">

In [None]:
import seaborn as sns

In [None]:
matrix_data = np.cov(divorces['data'])

In [None]:
plt.subplots(figsize=(20,15))
sns.heatmap(matrix_data )

Heat mapy pozwalają na łatwiejsze znalezienie obszarów o większym znaczeniu w przypadku dużej ilości danych. Są one łatwiejsze do przeanalizowania niż surowe dane liczbowe.

Z takiej heat mapy możemy odczytać jak dużą kowariancją cechują się dwie zmienne losowe. Duża kowariancja między dwiema zmiennymi wskazuje, że są one wysoce „skorelowane” - zawierają informacje, które można przewidzieć lub przedstawić pojedynczą zmienną.

Klasyfikowanie dużych danych bywa czasochłonne i zasobożerne. Informacje, które można wywnioskować z heat mapy pozwalają nam wyłonić z pełnego zbioru danych odpowiedni fragment, który następnie posłuży do tworzenia bardziej optymalnych klasyfikatorów.

## Transformacja PCA

Transformacja PCA (Principal Component Analysis) jest algorytmem analizy danych. Wykorzystuje informacje o powiązaniach pomiędzy danymi wejściowymi. Umożliwia to dokonanie selekcji i "kompresji" danych bez utraty istotnych informacji pierwotnego zestawu danych. PCA może być wykorzystane właśnie w problemach kompresji, analizy oraz przetwarzania złożonych zbiorów danych tak, aby wyłuszczyć z nich składaniki o największej zmienności i największym wpływie na pozostałe informacje.

Transfomacja PCA jest przekształceniem liniowym Y = W * X, gdzie Y - macierz przestrzeni wyjściowe, która zachowuje najistotniejsze informacje danych wejściowych X, a W jest macierzą przekształceń PCA.

### Sposób wyliczania

Podobnie jak w przypadku macierzy kowariancji, danymi wejściowymi jest macierz X, w której każdy wiersz to jedna obserwacja. Wielkość takiej macierzy to N x P (gdzie N - wielkość wektora danych, a  P - ilość obserwacji).

Dla tak przygotowanych danych należy wyznaczyć macierz autokorelacji.

\begin{align}
R_{xx} = \frac{1}{P} XX^T
\end{align}

Macierz Rxx posiada wymiary N × N. Informuje nas ona w jakim stopniu dane są skorelowane. Koeljnym krokiem algorytmu jest wyznaczenie wartości własnych macierzy Rxx oraz odpowiadających im wektorów własnych. Wartości te, wraz z odpowiadającymi im wektorami własnymi należy uszeregować malejąco. W ten sposób uzyskuje się macierz diagonalną:

\begin{equation*}
D =  \begin{vmatrix}
\ \lambda_1 & 0 & ... & 0  \\
\ 0 & \lambda_2 & ... & 0  \\
\ ... & ... & ... & ... \\
\ 0 & 0 & ... & \lambda_N
\end{vmatrix}
\end{equation*}

Gdzie:

\begin{align}
\lambda_1 > \lambda_2 > .. > \lambda_N
\end{align}

to wartości własne. Macierzy odpowiada macierz wektorów własnych:

\begin{align}
V = [v_1, v_2, ..., v_N]
\end{align}

Istotnym krokiem transformacji jest ocena ile najistotniejszych czynników należy uwzględnić w przekształceniu. W tym celu należy wybrać pierwszy K największych wartości własnych macierzy D, odstających znacząco od pozostałych. W ten sposób otzywamujemy macierz przekształcenia uwzględniającą K znaczących wektorów własnych:

\begin{align}
W = [v_1, v_2, ..., v_K]
\end{align}

Finalnie, przekształcenie PCA danych wejściowych X przedstawia się jako przekształcenie liniowe wspomniane wcześniej:

\begin{align}
Y = WX
\end{align}

### Transformacja PCA w Pythonie

Do wyznaczania transformacji PCA używamy klasy PCA z sklearn.decomposition.

<center>sklearn.decomposition.PCA(n_components=None, copy=True, whiten=False, svd_solver='auto', tol=0.0, iterated_power='auto', random_state=None)</center>

gdzie najważniejszy argument to n_components - ilość elemetów, które chcemy zachować w transformacji. Jeżeli nie podana, wynosi ona min(n_samples, n_features)

Klasa ta posiada m.in. pola:

<ul>
    <li>components_ - główne osie w przestrzeni cech, reprezentujące kierunki maksymalnej wariancji danych</li>
    <li>explained_variance_ - wielkość wariancji dla każdego wybranego elementu</li>
    <li>explained_variance_ratio_ - procentowa wielkość wariancji dla każdego wybranego elementu</li>
    <li>n_features_ - liczba cech w danych traningowych</li>
    <li>n_samples_ - liczba próbek w danych traningowych</li>
</ul>

Funkcja fit(self, X[, y]) dopasowuje model X.

Funkcja transform(self, X) redukuje wielowymiarowość X.

Funckja fit_transform(self, X[, y]) dopasowuje i redukuje wielomianowowść modelu X.

In [None]:
from sklearn.decomposition import PCA
from PIL import Image
from numpy import asarray

In [None]:
pca = PCA()

In [None]:
pca.fit_transform(divorces['data'])

### Przykład działania

Będziemy przeprowadzać transformacje na pięć cech.

In [None]:
pca = PCA(n_components = 5)

model = pca.fit(divorces['data'])
model_pc = model.transform(divorces['data'])

In [None]:
pd.DataFrame(data = divorces['data'], columns = divorces['feature_names'])

In [None]:
pd.DataFrame(data = model_pc, columns = ['principal component 1', 'principal component 2', 'principal component 3', 'principal component 4','principal component 5'])

Na podstawie 40 originalnych cech powstało 5 nowych.

#### Nowe cechy

In [None]:
from sklearn import preprocessing

df = pd.DataFrame(data = divorces['data'], columns = divorces['feature_names'])
pca.fit_transform(divorces['data'])
data_scaled = pd.DataFrame(preprocessing.scale(df),columns = df.columns) 
pd.DataFrame(pca.components_,columns=data_scaled.columns,index = ['PC1','PC2','PC3','PC4','PC5'])

Jak widać obie nowe cechy są pewną kombinacją originalnych cech.

#### Wizualizacja ważności cech

Cechy originalne

In [None]:
classifier = classifier.fit(divorces['data'], divorces['target'])

# treści pytań są długie, wykres etykietujemy więc samymi ich numerami
labels = np.array(['question' + str(i) for i in range(1, len(divorces['feature_names']) + 1)])
plot_feature_importances(classifier, labels, size=(20, 8))

Nowe cechy

In [None]:
df = pd.DataFrame({'variance':pca.explained_variance_, 'PC':['PC1','PC2','PC3','PC4','PC5']})
sns.barplot(x='PC',y="variance", data=df, color="c")

# Zadanie 2. Wpływ nowych cech na efektywność klasyfikatorów¶

W ramach zadania drugiego każdy ze studentów powinien uruchomić pomiar skuteczności klasyfikatora K-nearest neighbors dla pewnego k, pewnej liczby m "nowych" najlepszych i "starych" najlepszych cech. Badane wartości to:

k = [1, 3, 5]
m = [N, 2, 5] N - pełna liczba cech (brak selekcji)

Gdzieś wklejmy wyniki

In [None]:
def select_features(dataset, m):
    if m >= len(dataset['feature_names']):
        return dataset['data'], dataset['feature_names']
    else:        
        selector = SelectKBest(f_classif, k=m)
        selector.fit(dataset['data'], dataset['target'])
        indices = selector.get_support(indices=True)
        reduced_data = np.array([sample.T[indices].T for sample in dataset['data']])
        reduced_feature_names = dataset['feature_names'][indices]
        return reduced_data, reduced_feature_names

def knn_score(dataset, k, m):
    classifier = KNeighborsClassifier(n_neighbors=k)
    dataset_reduced = deepcopy(dataset)
    dataset_reduced['data'], dataset_reduced['feature_names'] = select_features(dataset, m)
    results = cross_val_score(classifier, dataset_reduced['data'], dataset_reduced['target'], cv=5)
    return results.mean()

Poniżej jest przygotowanie danych i stworzenie m nowych cech zbioru `cancer`

In [None]:
#normalizing before pca transformation
cancer['data'] = preprocessing.scale(cancer['data'])

In [None]:
from sklearn import preprocessing

m = 5

pca = PCA(n_components = m)
cancer_pca = deepcopy(cancer)

cancer_pca['data'] = model.fit_transform(cancer_pca['data'])
#normalizing before knn
cancer_pca['data'] = preprocessing.scale(cancer_pca['data'])
cancer_pca['feature_names'] = asarray(['F' + str(i) for i in range(1,m+1)])

In [None]:
k = 5
print(knn_score(cancer_pca, k, m))
print(knn_score(cancer, k, m))

Jak w zadaniu poprzednim, wyniki należy wpisać pod [tym](https://docs.google.com/spreadsheets/d/1Y_qOVhLXfIi5w4YD38lMmljmqfbgDqyrm75lMnC50Oc/edit#gid=0) linkiem pod tabelą "Wydajność klasyfikatora K-nearest neighbors dla "nowych" i "starych" cech" tak aby wspólnie ją uzupełnić. 

## Wizualizacja zbioru danych przy pomocy PCA w dwóch wymiarach

In [None]:
# source : https://towardsdatascience.com/pca-using-python-scikit-learn-e653f8989e60
pca = PCA(n_components=2)
# divorces_pca = deepcopy(divorces)
principalComponents = pca.fit_transform(divorces['data'])
principalDf = pd.DataFrame(data = principalComponents, columns = ['principal component 1', 'principal component 2'])
targetDf = pd.DataFrame(data = divorces['target'], columns = ['target'])
finalDf = pd.concat([principalDf, targetDf], axis = 1)

In [None]:
fig = plt.figure(figsize = (8,8))
ax = fig.add_subplot(1,1,1) 
ax.set_xlabel('Principal Component 1', fontsize = 15)
ax.set_ylabel('Principal Component 2', fontsize = 15)
ax.set_title('2 component PCA', fontsize = 20)
targets = [1, 0]
colors = ['r', 'g']
for target, color in zip(targets,colors):
    indicesToKeep = finalDf['target'] == target
    ax.scatter(finalDf.loc[indicesToKeep, 'principal component 1']
               , finalDf.loc[indicesToKeep, 'principal component 2']
               , c = color
               , s = 50)
ax.legend(['Divorced', 'Not divorced'])
ax.grid()

### Wykrycie i zaznaczenie outlierów

Wykrycie oultierów zostanie wykonane przez użycie Z-score. Polegać będzie to na przeskalowaniu danych i ich centralizacji oraz określeniu ich odległości od zera. Te wartości, które będą miały bezwzględny Z-score większy od pewnej wartości, np. 3, będą uznane za outliery.

In [None]:
from scipy import stats
import numpy as np
z = np.abs(stats.zscore(principalDf))
print((z > 3).any(axis = 1))
divorces_outliers = principalDf[(z > 3).any(axis = 1)]
divorces_outliers

Wykrycie źle skwalifikowanych przykladów

In [None]:
from sklearn.metrics import accuracy_score

x_train, x_test, y_train, y_test =  train_test_split(divorces['data'],divorces['target'], 
                                                     test_size=0.5,random_state=0 )

x_train_scaled = preprocessing.scale(x_train)
x_test_scaled = preprocessing.scale(x_test)

pca = PCA(n_components=2)
pca.fit(x_train_scaled)
x_train_pca = pca.transform(x_train_scaled)
x_test_pca = pca.transform(x_test_scaled)

knc_pca = KNeighborsClassifier(n_neighbors=5, algorithm='auto').fit(x_train_pca, y_train)
predict_y_pca = knc_pca.predict(x_test_pca)

x_test_pca_df = pd.DataFrame(x_test_pca, columns = ['principal component 1', 'principal component 2'])

incorrects = x_test_pca_df[predict_y_pca != y_test]
incorrects

In [None]:
fig = plt.figure(figsize = (8,8))
ax = fig.add_subplot(1,1,1) 
ax.set_xlabel('Principal Component 1', fontsize = 15)
ax.set_ylabel('Principal Component 2', fontsize = 15)
ax.set_title('2 component PCA', fontsize = 20)
targets = [1, 0]
colors = ['r', 'g']
for target, color in zip(targets,colors):
    indicesToKeep = finalDf['target'] == target
    ax.scatter(finalDf.loc[indicesToKeep, 'principal component 1']
               , finalDf.loc[indicesToKeep, 'principal component 2']
               , c = color
               , s = 50)
ax.scatter(incorrects['principal component 1']
       , incorrects['principal component 2']
       , c = 'b'
       , s = 50)
ax.scatter(divorces_outliers['principal component 1']
       , divorces_outliers['principal component 2']
       , c = 'y'
       , s = 50)
ax.legend(['Divorced', 'Not divorced', 'Incorect', 'Outlier'])
ax.grid()

# Zadanie końcowe

W zbiorach CIFAR-10 . Do dalszych eksperymentów wybrać
ilość przykładów nie większy niż M=2xN !!!(N- ilość cech).
1. znaleźć NAJMNIEJ INFORMATYWNE cechy (piksele). Zobrazować je na
rysunku, wielkością odpowiadającemu klasyfikowanym obrazkom.
2. Dokonać klasyfikacji k-nn na pełnym zbiorze i zbiorze bez m najmniej
informatywnych cech.
3. Przetransformować zbiory przy pomocy PCA z N-D do N-D. Jak wyglądają
(obrazki) wektory własne odpowiadające największym wartością własnym.
Sprawdzić, czy poprawił się wynik klasyfikacji. Dokonać wizualizacji 2-D przy
pomocy PCA.
4. Usunąć m najmniej informatywnych cech PCA. Jak wygląda wynik klasyfikacji.
5. Wybrac m NAJLEPSZYCH cech PCA. Jak wygląda teraz wynik klasyfikacji.
6. Wartość m w przypadku wyboru najgorszych cech ma być duże (dla N=784
jakieś m=500), w przypadku wyboru najlepszych małe (m=10-20)
7. Dokonać klasyfikacji z PCA i bez PCA (na pełnym zbiorze cech i zadanym małym
M), ale zwiększając ilość przykładów przy pomocy augmentacji (imgaug).
8. Wnioski (co lepsze augmentacja czy inżynieria cech?)