# Podstawy uczenia maszynowego - tutorial 2: Feature selection and extraction

In [13]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

## Przygotowanie zbiorów danych

In [14]:
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import scale

In [None]:
# Zbiór danych medycznych pacjentów pozwalający na diagnostykę raka płuc

cancer = datasets.load_breast_cancer()
cancer.data = scale(cancer.data)

In [None]:
# zbiór danych pozwalający przewidywać, czy małżeństwo się rozpadnie na podstawie odpowiedzi (w skali 0-4) na 56 pytań

divorces = pd.read_csv('./datasets/divorce.csv', sep=';')

# treści pytań są przechowywane w osobnym pliku
with open('./datasets/questions.csv') as file:
    questions = np.array(file.read().split('\n'))

divorces = {
    'data': divorces.drop(labels=['Class'], axis=1).astype(float),
    'target': list(divorces['Class']),
    'feature_names': questions
}

divorces['data'] = scale(divorces['data'])

## Selekcja cech

Selekcja cech to ograniczenie liczby atrybutów danych, na których pracuje model, przez odrzucenie najmniej użytecznych z nich. Taka rezygnacja z części danych pozwala osiągnąć konkretne korzyści:
* redukcja wymiarów - odrzucenie części cech oznacza zmniejszenie wymiarowości problemu, co ułatwia uniknięcie przetrenowania modelu
* uproszczenie modelu - model pracujący na mniejszej liczbie cech jest bardziej zrozumiały i łatwiej identyfikować w nim problemy
* lepsze wyniki - cechy niezwiązane z badaną właściwością mogą w sposób losowy zaburzać otrzymywane wyniki
* poprawa wydajności - mało istotne cechy są przetwarzane niepotrzebnie

### Metody Selekcji cech

#### 1. Odrzucenie cech niecharakterystycznych

Cechy, które wykazują niewielką zmienność pomiędzy próbkami, prawdopodobnie nie niosą szczególnie użytecznej informacji - zazwyczaj nie można na ich podstawie dokonać klasyfikacji (choć warto zachować ostrożność przy zbiorach danych o silnej dysproporcji pomiędzy licznościami klas oraz cechach mogących przyjmować wartości z niewielkiego zakresu). Cechy takie można rozpoznać po niewielkiej wariancji - stąd najprostsze podejście do selekcji cech może polegać na ich przefiltrowaniu i odrzuceniu tych o zbyt niskiej wariancji.

In [None]:
from sklearn.feature_selection import VarianceThreshold

In [None]:
# variance should equal, because ...

selector = VarianceThreshold()
cancer.data = selector.fit_transform(cancer.data)


# lista atrybutów wymaga zaktualizowania, selector.get_support() zwraca indeksy wybranych cech
cancer['feature_names'] = cancer['feature_names'][selector.get_support(indices=True)]

In [None]:
selector = VarianceThreshold()
divorces['data'] = selector.fit_transform(divorces['data'])

divorces['feature_names'] = divorces['feature_names'][selector.get_support(indices=True)]

#### 2. Odrzucenie cech niezwiązanych z badaną właściwością

Możemy spróbować przewidzieć, na ile każda z cech jest związana z badaną właściwością, i odrzucić te, dla których związek jest luźny. Możliwe są dwa zasadnicze podejścia:

##### 2.1. Obliczenie korelacji

Najprostszym sposobem określenia, czy cecha jest związana z inną (w szczególności - przynależnością do danej klasy) jest obliczenie korelacji między nimi.

In [None]:
def filter_correlation(X, Y, feature_names, n_features):
    scores = [abs(np.corrcoef(feature, Y))[0, 1] for feature in X.T]
    selected_indices = np.argsort(scores)[:n_features]
    data = X.T[selected_indices].T
    selected_feature_names = feature_names[selected_indices]
    return data, selected_feature_names

In [None]:
cancer.data, cancer.feature_names = filter_correlation(cancer.data, cancer.target, cancer.feature_names, 15)

In [None]:
divorces['data'], divorces['feature_names'] = \
    filter_correlation(divorces['data'], divorces['target'], divorces['feature_names'], 40)

##### 2.2. Inne statystyki

Alternatywnie, możemy wykorzystać inną statystykę, której wartość rośnie wraz ze wzrostem różnicy wartości w dwóch grupach - np. Chi-kwadrat. 

W tym celu zakładamy, że badana cecha (nazwijmy ją A) nie ma związku z przynależnością próbki do określonej klasy (oznaczmy ją przez C). Opierając się na tym założeniu, obliczamy, ile próbek z każdą możliwą wartością cechy A powinno należeć do klasy C (jako liczba próbek o danej wartości cechy A * liczba próbek w ekperymencie należących do klasy C / liczba wszystkich próbek),
i obliczamy wartość wybranej statystyki na podstawie różnic pomiędzy otrzymanymi wartościami a rzeczywistymi danymi.

In [None]:
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

In [None]:
selector = SelectKBest(chi2, k=20)

cancer.data = selector.fit_transform(cancer.data, cancer.target)
cancer.feature_names = cancer.feature_names[selector.get_support(indices=True)]

In [None]:
selector = SelectKBest(chi2, k=30)

divorces['data'] = selector.fit_transform(divorces['data'], divorces['target'])
divorces['feature_names'] = divorces['feature_names'][selector.get_support(indices=True)]

#### 3. Próbne wytrenowanie modelu

##### 3.1. Odfiltrowanie cech nieznaczących

Zamiast "ręcznie" znajdować i usuwać mało istotne cechy, możemy spróbować wytrenować na naszych danych model, który ucząc się "przy okazji" zapisuje istotność cech, i usunąć te, które nie mają dużego znaczenia w podejmowaniu decyzji przez model. Aby zastosować takie podejści, konieczny jest wybór modelu, który udostępnia istotność cech - w przypadku Scikit-learn są to modele posiadające pole coef_ lub feature_importance.

In [None]:
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import ExtraTreesClassifier

In [None]:
classifier = ExtraTreesClassifier(n_estimators=50)

classifier = classifier.fit(cancer.data, cancer.target)
selector = SelectFromModel(classifier, prefit=True)

cancer.data = selector.transform(cancer.data)
cancer.feature_names = cancer.feature_names[selector.get_support(indices=True)]

In [None]:
classifier = ExtraTreesClassifier(n_estimators=50)

classifier = classifier.fit(divorces['data'], divorces['target'])
selector = SelectFromModel(classifier, prefit=True)

divorces['data'] = selector.transform(divorces['data'])
divorces['feature_names'] = divorces['feature_names'][selector.get_support(indices=True)]

##### 3.2. Rekurencyjny wybór zadanej liczby najlepszych cech

Jeżeli chcemy ograniczyć liczbę cech do konkretnej wartości, powyższe podejście można zmodyfikować: zamiast wybierać cechy powyżej określonej granicy, lepszym podejściem może być odrzucenie najsłabszej z cech (lub kilku najgorszych) i rekurencyjne powtarzanie procesu, aż do osiągnięcia zadanej ich liczby.

In [None]:
from sklearn.feature_selection import RFE
from sklearn.ensemble import ExtraTreesClassifier

In [None]:
estimator = ExtraTreesClassifier(n_estimators=50)
selector = RFE(estimator, 20, step=3)

cancer.data = selector.fit_transform(cancer.data, cancer.target)
cancer.feature_names = cancer.feature_names[selector.get_support(indices=True)]

In [None]:
estimator = ExtraTreesClassifier(n_estimators=50)
selector = RFE(estimator, 30, step=3)

divorces['data'] = selector.fit_transform(divorces['data'], divorces['target'])
divorces['feature_names'] = divorces['feature_names'][selector.get_support(indices=True)]

## Macierz kowariancji

### Wariancja

**Wariancja** jest intuicyjnie utożsamiana ze zróżnicowaniem zbiorowości;
jest średnią arytmetyczną kwadratów różnic poszczególnych wartości cechy od wartości oczekiwanej.
Wariancję zmiennej losowej X oznaczamy jako:

\begin{align}
Var(X)\newline
D^2(X)
\end{align}

I obliczamy za pomocą wzoru:

\begin{align}
D^2(X) = E(X^2) - [E(X)]^2
\end{align}

Gdzie E[X] jest wartością oczekiwaną zmiennej losowej X.

### Kowariancja

**Kowariancją** nazywamy zależnośc liniową między dwowa zmiennymi losowymi X i Y.
Kowariancję oznaczamy jako:

\begin{align}
cov(X,Y)
\end{align}

I wyliczamy ze wzoru:

\begin{align}
cov(X,Y) = E(X * Y) - E(X) * E(Y)
\end{align}

### Macierz kowariancji

#### 1. Sposób wyliczania
**Macierz kowariancji** jest uogólnieniem pojęcia wariancji dla przypadków wielowymiarowych. Dla wektora losowego

\begin{align}
(X_1,X_2,...,X_n)
\end{align}

Ma ona postać:

\begin{equation*}
\Sigma =  \begin{vmatrix}
\ \sigma^2_1 & \sigma_{12} & ... & \sigma_{1n}  \\
\ \sigma_{21} & \sigma^2_2 & ... & \sigma_{2n}  \\
\ ... & ... & ... & ... \\
\ \sigma_{n1} & \sigma_{n2} & ... & \sigma^2_n
\end{vmatrix}
\end{equation*}

Gdzie:

\begin{align}
\sigma^2_i = D^2(X_i) - wariancja\; zmiennej\; X_i \\
\end{align}

\begin{align}
\sigma_{ij} = cov(X_i, X_j) - kowariancja\; między\; zmiennymi\; losowymi\; X_i\; i\; X_j
\end{align}

#### 2. Macierz kowariancji w Pythonie

Do wyznaczania macierzy kowariancji używamy funkcji cov z biblioteki numpy. Wylicza ona macierz na podstawie podanych tablic i wag.

<center>numpy.cov(m, y=None, rowvar=True, bias=False, ddof=None, fweights=None, aweights=None)</center>

<ul>
    <li> m - jedno- lub dwu- wymiarowa tablic danych, zawiarająca różne zmienne i obserwacje</li>
    <li> y - dodatkowy zbiór danych, musi być takiej wielkości jak m</li>
    <li>rowvar - jeżeli ustawione na True to każdy wiersz m odpowiada za jedną zmienną, a każda kolumna za obserwacje; gdy ustawione na False jest na odwrót </li>
    <li>bias - odpowiada za rodzaj normalizacji</li>
    <li>ddof - jeżeli inne niż None nadpisuje odpowiednio wartości zwrócone przez bias</li>
    <li>fweights - jednowymiarowa tablica liczb całkowitych, wyznaczająca wagi częstotliwości, czyli ile razy dana obserwacja powinna być powtórzona</li>
    <li>aweights - jednowymiarowa tablica, odpowiedzialna za wagi ("ważność") danych obserwacji.</li>
</ul>

#### 3. Działanie funkcji numpy.cov

Mamy daną tablicę m, gdzie kolumny są poszeczególnymi obserwacjami, niech f = fweight i a = aweight. Wyliczanie macierzy kowariancji następuje w podany sposób:

=> w = f * a<br>
=> v1 = np.sum(w)<br>
=> v2 = np.sum(w * a)<br>
=> m -= np.sum(m * w, axis=1, keepdims=True) / v1<br>
=> cov = np.dot(m * w, m.T) * v1 / (v1**2 - ddof * v2)<br>

In [None]:
cancer.data[0:3,0:3]

In [None]:
np.cov(cancer.data[0:3,0:3])

In [None]:
cancer.data

In [None]:
cov_matrix = np.cov(cancer.data)

In [None]:
cov_matrix

### Heat map

**Heat mapa** jest graficzną reprezentacją danych, gdzie każdy wartość elementu macierzy jest reprezentowana przez dany kolor.

<img src="heat_map.png">

In [None]:
import seaborn as sns

In [None]:
matrix_data = np.cov(divorces['data'])
heatmap_data = matrix_data

In [None]:
heatmap_data 

In [None]:
plt.subplots(figsize=(20,15))
sns.heatmap(heatmap_data)

Heat mapy pozwalają na łatwiejsze znalezienie obszarów o większym znaczeniu w przypadku dużej ilości danych. Są one łatwiejsze do przeanalizowania niż surowe dane liczbowe.

Z takiej heat mapy możemy odczytać jak dużą kowariancją cechują się dwie zmienne losowe. Duża kowariancja między dwiema zmiennymi wskazuje, że są one wysoce „skorelowane” - zawierają informacje, które można przewidzieć lub przedstawić pojedynczą zmienną.

Klasyfikowanie dużych danych bywa czasochłonne i zasobożerne. Informacje, które można wywnioskować z heat mapy pozwalają nam wyłonić z pełnego zbioru danych odpowiedni fragment, który następnie posłuży do tworzenia bardziej optymalnych klasyfikatorów.

## Transformacja PCA

Transformacja PCA jest algorytmem analizy danych. Wykorzystuje informacje o powiązaniach pomiędzy danymi wejściowymi. Umożliwia to dokonanie selekcji i "kompresji" danych bez utraty istotnych informacji pierwotnego zestawu danych. PCA może być wykorzystane właśnie w problemach kompresji, analizy oraz przetwarzania złożonych zbiorów danych tak, aby wyłuszczyć z nich składaniki o największej zmienności i największym wpływie na pozostałe informacje.