# Lab 09 - Inżynieria cech. Selekcja cech. PCA.

**Inżynieria cech** (ang. *feature engineering*) to proces tworzenia, modyfikowania i przekształcania danych wejściowych w sposób, który maksymalizuje wydajność modelu uczenia maszynowego. Dobre cechy mogą znacząco poprawić zdolność modelu do przewidywania wyników, podczas gdy złe cechy mogą prowadzić do niskiej jakości predykcji.

### Cel i znaczenie inżynierii cech

Dane surowe, z którymi często pracujemy, mogą nie być w idealnej formie do uczenia maszynowego. Mogą zawierać szum, brakujące wartości lub być w formatach, które modele nie są w stanie przetworzyć (np. dane tekstowe). Inżynieria cech pozwala na:

1. Przygotowanie danych w sposób zgodny z wymaganiami modelu.
2. Poprawę reprezentacji danych poprzez tworzenie nowych cech na podstawie istniejących (np. obliczenie średniej z kolumn).
3. Zmniejszenie wymiarowości danych poprzez redukcję zbędnych informacji.
4. Podniesienie jakości danych poprzez usuwanie szumu lub standaryzację wartości.

Dobrze zaprojektowane cechy mogą być kluczowe w przypadku mniej zaawansowanych algorytmów lub danych z dużą ilością szumu. Często mówi się, że:

            "Jakość modelu zależy w 80% od jakości cech, a tylko w 20% od algorytmu".

### Kluczowe etapy inżynierii cech

1. Tworzenie cech (ang. feature creation)

Tworzenie nowych cech na podstawie istniejących danych. Na przykład:

* Obliczenie stosunku dwóch zmiennych (np. ceny do liczby pokoi w analizie rynku nieruchomości).
* Ekstrakcja cech z danych czasowych (np. dzień tygodnia, godzina).
* Tworzenie cech logicznych (np. "czy użytkownik dokonał zakupu?").

2. Przekształcanie cech (ang. feature transformation)

Przekształcenie danych w sposób, który ułatwia ich analizę. Obejmuje:

* Skalowanie: Przekształcenie wartości do tego samego zakresu (np. standaryzacja lub normalizacja).
* Kodowanie zmiennych kategorycznych: Zamiana tekstowych etykiet na wartości numeryczne (np. one-hot encoding).
* Logarytmowanie: Zmniejszenie wpływu dużych wartości w danych.

3. Obsługa brakujących danych
* Uzupełnianie brakujących wartości (np. średnią, medianą).
* Usuwanie kolumn z dużą ilością brakujących danych.

4. **Redukcja cech**

Redukowanie liczby cech poprzez analizę zmienności (np. PCA - analiza głównych składowych).

## Czym jest selekcja cech?

**Selekcja cech** (ang. *feature selection*) to proces wyboru najistotniejszych cech (zmiennych, kolumn) spośród dostępnych w zbiorze danych. Celem tego procesu jest identyfikacja tych cech, które mają największy wpływ na wynik modelu predykcyjnego, przy jednoczesnym wyeliminowaniu tych, które są mniej istotne, redundantne lub nieistotne.

### Cel i zastosowanie selekcji cech

W praktyce, zbiory danych mogą zawierać setki, a nawet tysiące cech, co prowadzi do problemów takich jak:

1. Wysoka wymiarowość danych:
 * Każda dodatkowa cecha zwiększa wymiar przestrzeni, w której działa model. Wysoka wymiarowość prowadzi do tzw. klątwy wymiarowości – trudności w znalezieniu właściwych wzorców w danych.
 
2. Zwiększone ryzyko przeuczenia (overfitting):
* Model może nauczyć się szumu w danych, co prowadzi do gorszych wyników na nowych, nieznanych danych.

3. Wysokie koszty obliczeniowe:
* Praca z dużymi zbiorami danych wymaga większej mocy obliczeniowej, więcej pamięci, a proces uczenia się modelu jest dłuższy.

4. Złożoność interpretacji:
* Modele z mniejszą liczbą cech są łatwiejsze do zrozumienia i wyjaśnienia, co jest istotne np. w medycynie czy finansach, gdzie ważna jest interpretowalność decyzji.

Selekcja cech pomaga w:
* Zwiększeniu wydajności modeli poprzez usunięcie nieistotnych danych.
* Poprawie generalizacji na nowych danych dzięki zmniejszeniu ryzyka przeuczenia.
* Przyspieszeniu obliczeń.
* Ułatwieniu interpretacji modeli.

### Rodzaje selekcji cech

1. Metody filtrujące (ang. filter methods)
* Wykorzystują miary statystyczne, aby ocenić związek między każdą cechą a celem predykcji.
* Zalety: Szybkie i niezależne od modelu.
* Przykłady metod:
    * Korelacja Pearson: Do danych ciągłych.
    * Test chi-kwadrat: Do danych kategorycznych.
    * ANOVA: Do porównania różnych grup.

2. Metody osadzone (ang. embedded methods)
* Wbudowane w algorytm uczenia się. Podczas trenowania modelu określają, które cechy są najważniejsze.
* Przykłady:
    * Regresja Lasso: Dodaje karę za współczynniki cech nieistotnych, zmuszając je do zerowania.
    * Random Forest: Oblicza znaczenie cech na podstawie zmniejszenia błędu przy podziale drzewa.

3. Metody wrapperowe (ang. wrapper methods)
* Testują różne podzbiory cech, aby znaleźć ten, który daje najlepsze wyniki modelu.
* Przykłady:
    * Recursive Feature Elimination (RFE): Iteracyjnie usuwa najmniej istotne cechy.
    * Metody oparte na optymalizacji (np. algorytmy genetyczne).
* Wady: Wysoka złożoność obliczeniowa.

### Przykład praktyczny: Czy selekcja cech jest zawsze konieczna?

Wyobraźmy sobie model predykcyjny przewidujący, czy pacjent ma określoną chorobę, bazując na zbiorze danych o 100 cechach, takich jak:
* wiek,
* płeć,
* masa ciała,
* poziom glukozy we krwi,
* ciśnienie krwi,
* wyniki 90 różnych testów laboratoryjnych.

Bez selekcji cech model może próbować dopasować się do szumu w wynikach testów laboratoryjnych, co może prowadzić do błędnych predykcji. Dzięki selekcji cech możemy skupić się na najważniejszych zmiennych, takich jak poziom glukozy czy ciśnienie krwi, ignorując mniej istotne dane.

## Przykłady w praktyce: Jak przeprowadzić selekcję cech?

### Korelacja dla zmiennych ciągłych

Obliczenie współczynnika korelacji Pearson dla każdej cechy:

In [1]:
from sklearn.datasets import load_diabetes
from scipy.stats import pearsonr

In [2]:
data = load_diabetes()
X = data.data
y = data.target

Funkcja `pearsonr` oblicza współczynnik korelacji Pearsona pomiędzy wybraną cechą a `y`. Nasze `corr` to współczynnik korelacji (wartość od -1 do 1), gdzie:
* Wartości bliskie 1 (korelację) lub -1 (odwrotną korelację) oznaczają silną zależność.
* Wartość bliska 0 oznacza brak związku.

In [3]:
for i, feature in enumerate(data.feature_names):
    corr, _ = pearsonr(X[:, i], y)
    print(f"Korelacja dla {feature}: {corr:.2f}")

Korelacja dla age: 0.19
Korelacja dla sex: 0.04
Korelacja dla bmi: 0.59
Korelacja dla bp: 0.44
Korelacja dla s1: 0.21
Korelacja dla s2: 0.17
Korelacja dla s3: -0.39
Korelacja dla s4: 0.43
Korelacja dla s5: 0.57
Korelacja dla s6: 0.38


In [9]:
import numpy as np

# Oblicz korelacje dla każdej cechy
correlations = []
for i, feature in enumerate(data.feature_names):
    corr, _ = pearsonr(X[:, i], y)
    correlations.append((feature, corr))

# Posortuj cechy według wartości korelacji (malejąco)
correlations_sorted = sorted(correlations, key=lambda x: abs(x[1]), reverse=True)

# Wyświetl posortowane korelacje
print("Cechy posortowane według wartości korelacji:")
for feature, corr in correlations_sorted:
    print(f"{feature}: {corr:.2f}")

Cechy posortowane według wartości korelacji:
bmi: 0.59
s5: 0.57
bp: 0.44
s4: 0.43
s3: -0.39
s6: 0.38
s1: 0.21
age: 0.19
s2: 0.17
sex: 0.04


### Recursive Feature Elimination (RFE)

**Recursive Feature Elimination (RFE)** to metoda selekcji cech, która iteracyjnie usuwa najmniej istotne cechy z zestawu danych, aż zostanie osiągnięta pożądana liczba cech. Proces opiera się na wykorzystaniu modelu uczącego się do oceny istotności cech.

In [4]:
from sklearn.feature_selection import RFE
from sklearn.ensemble import RandomForestRegressor

In [5]:
model = RandomForestRegressor(random_state=42)

`RFE` wymaga modelu uczącego się, który oceni znaczenie cech. Może to być dowolny model, który potrafi zwracać miary ważności cech (np. `RandomForestRegressor`, `LinearRegression`, `SVC` z funkcją `coef_` lub `feature_importances_`).
Iteracyjny proces:
1. RFE trenuje model na danych i ocenia wszystkie cechy.
2. Następnie usuwa cechę o najniższej istotności.
3. Proces powtarza się aż do osiągnięcia określonej liczby cech (n_features_to_select).
Jako wynik `RFE` zwraca zestaw danych z wybranymi cechami oraz listę wskazującą, które cechy zostały wybrane.

In [6]:
rfe = RFE(model, n_features_to_select=5)

In [7]:
rfe.fit(X, y)

In [8]:
selected_features = [data.feature_names[i] for i in range(len(data.feature_names)) if rfe.support_[i]]
print("Wybrane cechy:", selected_features)

Wybrane cechy: ['bmi', 'bp', 's2', 's5', 's6']


## Lasso Regression

In [10]:
from sklearn.linear_model import LassoCV

`LassoCV` to regresja liniowa, która wykorzystuje regularizację L1. Regularizacja L1 dodaje karę za nieistotne współczynniki, ustawiając je na zero, co skutkuje automatyczną selekcją cech.

In [11]:
lasso = LassoCV(cv=5).fit(X, y)

In [12]:
selected_features = [data.feature_names[i] for i in range(len(data.feature_names)) if lasso.coef_[i] != 0]
print("Wybrane cechy przez Lasso:", selected_features)

Wybrane cechy przez Lasso: ['age', 'sex', 'bmi', 'bp', 's1', 's2', 's4', 's5', 's6']


## PCA (Principal Component Analysis) – Analiza głównych składowych

**PCA** to metoda redukcji wymiarowości danych. Przekształca oryginalne cechy w nowy zestaw cech zwanych głównymi składowymi, które są liniowymi kombinacjami oryginalnych cech. Główne składowe są uporządkowane w taki sposób, że pierwsza składowa wyjaśnia największą możliwą wariancję w danych, druga składowa wyjaśnia kolejną największą wariancję (prostopadle do pierwszej), i tak dalej.

### Jak działa PCA?
1. **Standaryzacja danych:** Dane są standaryzowane (średnia = 0, odchylenie standardowe = 1), aby różnice w skalach cech nie wpłynęły na wyniki.
2. **Macierz kowariancji:** Obliczana jest macierz kowariancji, aby uchwycić zależności między cechami.
3. **Wartości własne i wektory własne:** Obliczane są wartości własne i wektory własne macierzy kowariancji. Wektory własne reprezentują kierunki (składowe główne), a wartości własne wskazują, jak dużo wariancji jest wyjaśniane przez każdą składową.
4. **Projekcja danych:** Dane są rzutowane na nowe osie określone przez wektory własne. W ten sposób tworzy się nowy zestaw cech (główne składowe).

### Dlaczego używamy PCA?

* **Redukcja wymiarowości:** Usunięcie mniej znaczących cech przy zachowaniu jak największej ilości informacji.
* **Wizualizacja:** Umożliwia przedstawienie danych w 2D lub 3D.
* **Usuwanie współliniowości:** Nowe cechy są niezależne od siebie (ortogonalne).

In [34]:
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import StandardScaler
import numpy as np
import pandas as pd
from sklearn.datasets import load_diabetes

In [35]:
# Załaduj dane
data = load_diabetes()
X = data.data
y = (data.target > 140).astype(int)  # Przekształcamy target na binarny (1 dla chorych, 0 dla zdrowych)

In [36]:
# Standaryzacja danych
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

In [48]:
# PCA - redukcja do 4 głównych składowych
pca = PCA(n_components=4)
X_pca = pca.fit_transform(X_scaled)

Pole `explained_variance_ratio_` w obiekcie `pca` wyświetla, jaka część wariancji została wyjaśniona przez każdą główną składową:

In [49]:
pca.explained_variance_ratio_

array([0.40242108, 0.14923197, 0.12059663, 0.09554764])

In [50]:
# Wyświetl wariancję wyjaśnioną przez każdą składową
print("Wariancja wyjaśniona przez składowe PCA:", pca.explained_variance_ratio_)
print("Łączna wariancja wyjaśniona:", sum(pca.explained_variance_ratio_))

Wariancja wyjaśniona przez składowe PCA: [0.40242108 0.14923197 0.12059663 0.09554764]
Łączna wariancja wyjaśniona: 0.7677973090140596


In [51]:
# Model na danych zredukowanych przez PCA
model = RandomForestClassifier(random_state=42)
score = cross_val_score(model, X_pca, y, cv=5, scoring="accuracy")
print(f"Dokładność modelu na danych PCA: {np.mean(score):.4f}")

Dokładność modelu na danych PCA: 0.7579


In [52]:
# Model na oryginalnych danych (dla porównania)
score_original = cross_val_score(model, X_scaled, y, cv=5, scoring="accuracy")
print(f"Dokładność modelu na oryginalnych danych: {np.mean(score_original):.4f}")

Dokładność modelu na oryginalnych danych: 0.6853


## Kiedy selekcja cech nie jest potrzebna?
Nie zawsze konieczne jest stosowanie selekcji cech. W przypadku modeli takich jak drzewa decyzyjne, Random Forest czy XGBoost, które mają wbudowaną zdolność do ignorowania mniej istotnych cech, selekcja może być mniej istotna. Jednak nawet w takich przypadkach ograniczenie liczby cech może przyspieszyć proces treningu i poprawić interpretowalność wyników.

# Zadania

**Zadanie 1:** Porównnaj działanie PCA (n_components = 5), LassoCV (cv = 5), RFE (n_features_to_select=5) i Korelacji Persona na jednym wybranym innym niż `diabetes` zbiorze danych. Użyj modelu `RandomForestClassifier`. Pamiętaj, ze niektóre dane przed nakarmieniem modelu będzie trzeba odpoiwendio przygotować.

**Zadanie 2:** Załaduj zbiór danych `iris`, `breast_cancer` oraz jeden wybrany przez siebie. Przygotuj algorytm, który znajdzie taką ilośc cech, aby dokładność modelu `RandomForestClassifier` była jak najwyższa.