## Rozdział 10: Normalizacja Danych w Uczeniu Maszynowym

### 10.1 Wprowadzenie

Normalizacja danych jest kluczowym krokiem w procesie przygotowania danych do uczenia maszynowego. Polega na przekształceniu danych w taki sposób, aby miały one podobne skale, co ma na celu poprawę wydajności i stabilności modeli. Normalizacja jest szczególnie ważna w przypadku algorytmów wrażliwych na skalę danych, takich jak metody bazujące na odległościach (np. k-NN) czy sieci neuronowe.

### 10.2 Dlaczego Normalizacja Jest Ważna?

- **Skalowanie Ceł:** Algorytmy uczenia maszynowego, takie jak regresja liniowa, SVM, i sieci neuronowe, często działają lepiej, gdy cechy mają podobne skale. Normalizacja zapobiega dominacji cech o dużych wartościach nad cechami o mniejszych wartościach.
- **Szybsza Konwergencja:** Normalizacja może przyspieszyć proces trenowania modeli, szczególnie w algorytmach optymalizacyjnych, takich jak gradient descent, gdzie zbieżność może być szybsza, gdy dane są znormalizowane.
- **Unikanie Błędów Numerycznych:** Normalizacja pomaga w unikaniu problemów numerycznych podczas obliczeń, które mogą wynikać z bardzo dużych lub bardzo małych wartości cech.

### 10.3 Techniki Normalizacji Danych

#### 10.3.1 Min-Max Scaling

Min-Max Scaling polega na przekształceniu danych do określonego przedziału, zwykle [0, 1] lub [-1, 1]. Wzór na przekształcenie Min-Max to:

$ x' = \frac{x - \text{min}(x)}{\text{max}(x) - \text{min}(x)} $

#### 10.3.2 Standaryzacja (Z-score Normalization)

Standaryzacja polega na przekształceniu danych tak, aby miały one średnią równą zero i odchylenie standardowe równe jeden. Wzór na standaryzację to:

$ x' = \frac{x - \mu}{\sigma} $

gdzie $ \mu $ to średnia, a $ \sigma $ to odchylenie standardowe.

#### 10.3.3 Normalizacja Maksymalna

Normalizacja maksymalna polega na podzieleniu każdej wartości przez maksymalną wartość w danej kolumnie:

$ x' = \frac{x}{\text{max}(x)} $

#### 10.3.4 Normalizacja L2

Normalizacja L2 polega na przekształceniu wektora cech tak, aby jego długość (norma L2) była równa jeden:

$ x' = \frac{x}{\|x\|_2} $

### 10.4 Przykład Implementacji Normalizacji w Pythonie

Przykładowy kod przedstawiający różne techniki normalizacji w Pythonie przy użyciu biblioteki `scikit-learn`.

```python
# Importowanie bibliotek
import numpy as np
import pandas as pd
from sklearn.preprocessing import MinMaxScaler, StandardScaler, Normalizer

# Załadowanie przykładowego zbioru danych - Iris
from sklearn.datasets import load_iris
iris = load_iris()
data = pd.DataFrame(data=iris.data, columns=iris.feature_names)

# Min-Max Scaling
min_max_scaler = MinMaxScaler()
data_min_max_scaled = pd.DataFrame(min_max_scaler.fit_transform(data), columns=iris.feature_names)

# Standaryzacja
standard_scaler = StandardScaler()
data_standard_scaled = pd.DataFrame(standard_scaler.fit_transform(data), columns=iris.feature_names)

# Normalizacja Maksymalna
max_scaler = lambda x: x / np.max(np.abs(x), axis=0)
data_max_scaled = data.apply(max_scaler, axis=0)

# Normalizacja L2
normalizer = Normalizer(norm='l2')
data_l2_normalized = pd.DataFrame(normalizer.fit_transform(data), columns=iris.feature_names)

# Wyświetlenie wyników
print("Oryginalne Dane:\n", data.head())
print("\nMin-Max Scaling:\n", data_min_max_scaled.head())
print("\nStandaryzacja:\n", data_standard_scaled.head())
print("\nNormalizacja Maksymalna:\n", data_max_scaled.head())
print("\nNormalizacja L2:\n", data_l2_normalized.head())
```

### 10.5 Zalety i Wady Normalizacji Danych

#### 10.5.1 Zalety

- **Lepsza Wydajność Modelu:** Normalizacja może poprawić wydajność wielu algorytmów uczenia maszynowego.
- **Szybsze Trenowanie:** Normalizacja może przyspieszyć proces trenowania modeli.
- **Stabilność Obliczeń:** Normalizacja pomaga w unikaniu problemów numerycznych.

#### 10.5.2 Wady

- **Utrata Informacji:** W niektórych przypadkach normalizacja może prowadzić do utraty istotnych informacji.
- **Potrzeba Ponownej Normalizacji:** Dane testowe muszą być normalizowane w ten sam sposób co dane treningowe.
- **Nie Zawsze Konieczna:** Normalizacja nie jest konieczna dla wszystkich algorytmów, na przykład drzewa decyzyjne nie są wrażliwe na skalę danych.

### 10.6 Zastosowania Normalizacji Danych

#### 10.6.1 Przetwarzanie Obrazów

W przetwarzaniu obrazów normalizacja jest często stosowana do skalowania pikseli do określonego przedziału, co poprawia wydajność sieci neuronowych.

#### 10.6.2 Analiza Genetyczna

W analizie genetycznej normalizacja jest używana do przekształcania danych o różnych skalach na porównywalne skale.

#### 10.6.3 Systemy Rekomendacyjne

W systemach rekomendacyjnych normalizacja jest stosowana do przekształcania ocen użytkowników na porównywalne skale, co ułatwia analizę preferencji.

### 10.7 Zakończenie

Normalizacja danych jest kluczowym krokiem w przygotowaniu danych do uczenia maszynowego, który może znacząco poprawić wydajność i stabilność modeli. Dzięki różnym technikom normalizacji, takim jak Min-Max Scaling, standaryzacja, normalizacja maksymalna i normalizacja L2, można skutecznie przekształcać dane na porównywalne skale. Mimo że normalizacja ma swoje wady, jej zalety sprawiają, że jest nieodzownym narzędziem w arsenale analityka danych.

In [1]:
# Importowanie bibliotek
import numpy as np
import pandas as pd
from sklearn.preprocessing import MinMaxScaler, StandardScaler, Normalizer

# Załadowanie przykładowego zbioru danych - Iris
from sklearn.datasets import load_iris
iris = load_iris()
data = pd.DataFrame(data=iris.data, columns=iris.feature_names)

# Min-Max Scaling
min_max_scaler = MinMaxScaler()
data_min_max_scaled = pd.DataFrame(min_max_scaler.fit_transform(data), columns=iris.feature_names)

# Standaryzacja
standard_scaler = StandardScaler()
data_standard_scaled = pd.DataFrame(standard_scaler.fit_transform(data), columns=iris.feature_names)

# Normalizacja Maksymalna
max_scaler = lambda x: x / np.max(np.abs(x), axis=0)
data_max_scaled = data.apply(max_scaler, axis=0)

# Normalizacja L2
normalizer = Normalizer(norm='l2')
data_l2_normalized = pd.DataFrame(normalizer.fit_transform(data), columns=iris.feature_names)

# Wyświetlenie wyników
print("Oryginalne Dane:\n", data.head())
print("\nMin-Max Scaling:\n", data_min_max_scaled.head())
print("\nStandaryzacja:\n", data_standard_scaled.head())
print("\nNormalizacja Maksymalna:\n", data_max_scaled.head())
print("\nNormalizacja L2:\n", data_l2_normalized.head())


Oryginalne Dane:
    sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                5.1               3.5                1.4               0.2
1                4.9               3.0                1.4               0.2
2                4.7               3.2                1.3               0.2
3                4.6               3.1                1.5               0.2
4                5.0               3.6                1.4               0.2

Min-Max Scaling:
    sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0           0.222222          0.625000           0.067797          0.041667
1           0.166667          0.416667           0.067797          0.041667
2           0.111111          0.500000           0.050847          0.041667
3           0.083333          0.458333           0.084746          0.041667
4           0.194444          0.666667           0.067797          0.041667

Standaryzacja:
    sepal length (cm)  sepal width 