In [30]:
import numpy as np
import pandas as pd

# Typy Danych w Statystyce i Uczeniu Maszynowym
Zrozumienie struktury danych jest kluczowe przed zbudowaniem jakiegokolwiek modelu. Poniżej porządkujemy podstawowe pojęcia oraz wskazujemy, jak przekładają się one na praktykę w uczeniu maszynowym.

## 1. Podział ogólny
Dane możemy podzielić na dwie wielkie grupy:

- **Dane ilościowe (numeryczne)** – opisują wielkość, można je liczyć i wykonywać na nich działania matematyczne.
- **Dane jakościowe (kategoryczne)** – opisują cechy, klasy lub grupy; typowe operacje arytmetyczne nie mają tu sensu.

## 2. Dane ilościowe (numeryczne)
### Ciągłe (*continuous variables*)
Mogą przyjmować dowolną wartość w pewnym przedziale liczb rzeczywistych.

**Przykłady:** wzrost (cm), masa (kg), temperatura (°C), czas (s).

### Dyskretne (*discrete variables*)
Liczbowe, ale przyjmują tylko skończoną lub policzalną liczbę wartości.

**Przykłady:** liczba pasażerów, liczba dzieci w rodzinie, liczba kliknięć.

## 3. Dane jakościowe (kategoryczne)
### Nominalne (*nominal variables*)
Kategorie bez naturalnego porządku.

**Przykłady:** kolor samochodu, kraj pochodzenia, marka telefonu.

### Porządkowe (*ordinal variables*)
Kategorie z uporządkowaniem, ale odległości między kolejnymi poziomami nie są porównywalne.

**Przykłady:** poziom zadowolenia (niski/średni/wysoki), klasa biletu (economy/business/first).

### Binarne (*binary variables*)
Szczególny przypadek zmiennych kategorycznych – tylko dwie kategorie.

**Przykłady:** Tak/Nie, 0/1, Prawda/Fałsz.

## 4. Jak to upraszcza uczenie maszynowe?
W praktyce uczenia maszynowego często stosuje się uproszczony podział pokazany poniżej:

| Uproszczenie w ML | Klasyczne typy | Przykłady |
| --- | --- | --- |
| Dane ciągłe | numeryczne: ciągłe + dyskretne | wzrost, czas, liczba pasażerów |
| Dane kategoryczne | jakościowe: nominalne + porządkowe + binarne | kolor, dzień tygodnia, płeć, tak/nie |


## Podstawowe Kategorie
- **Dane kategoryczne (jakościowe)** – opisują cechy, nazwy klas lub grup. Mogą być:
  - *nominalne*: brak naturalnego porządku (np. kolor oczu, marka samochodu),
  - *porządkowe*: uporządkowane według skali (np. poziom trudności kursu: podstawowy → średniozaawansowany → zaawansowany).
- **Dane liczbowe (ilościowe)** – opisują wielkości mierzalne. Dzielą się na:
  - *dyskretne*: przyjmują wartości całkowite (np. liczba zamówień, liczba dzieci),
  - *ciągłe*: mogą przyjmować dowolną wartość z przedziału (np. temperatura, masa ciała).

## Skale Pomiaru
| Skala | Typ | Co oznacza? | Przykłady |
| --- | --- | --- | --- |
| Nominalna | Kategoryczna | Rozróżnia klasy bez porządku | kraj pochodzenia, typ paliwa |
| Porządkowa | Kategoryczna | Zachowuje kolejność, ale bez zdefiniowanych odstępów | ocena satysfakcji (niska/średnia/wysoka) |
| Przedziałowa | Liczbowa | Uporządkowana, różnice mają znaczenie, brak zera absolutnego | temperatura w °C, rok kalendarzowy |
| Ilorazowa | Liczbowa | Uporządkowana, posiada zero absolutne | wzrost, czas reakcji, dochód |

Znajomość skali pomaga dobrać odpowiednie metody statystyczne (np. średnia ma sens dla skali ilorazowej, ale nie dla nominalnej).

## Dlaczego to jest ważne w ML?
- Wybór modelu i metryk: Accuracy ma sens dla etykiet kategorycznych, RMSE dla wartości ciągłych.
- Przygotowanie cech: dane kategoryczne wymagają kodowania (one-hot, embeddingi), a dane ciągłe często się skaluje.
- Interpretowalność: błędne traktowanie zmiennych może prowadzić do sztucznych zależności lub złej interpretacji wyników.

## Przykładowy Zbiór Danych
Zbudujmy małą tabelę opisującą klientów sklepu online. Zawiera ona zarówno zmienne kategoryczne, jak i ciągłe.

In [1]:
raw_data = pd.DataFrame(
    {
        "id_klienta": [1001, 1002, 1003, 1004, 1005],
        "wiek": [25, 32, 41, 29, 51],
        "czas_aktywności_min": [35.5, 58.2, 12.7, 48.1, 73.3],
        "dochód_miesięczny": [4200.0, 6100.5, 9800.0, 5100.0, 7500.0],
        "poziom_edukacji": ["średnie", "wyższe", "wyższe", "zawodowe", "podstawowe"],
        "region": ["Mazowieckie", "Śląskie", "Mazowieckie", "Pomorskie", "Małopolskie"],
        "ocena_satysfakcji": ["wysoka", "średnia", "niska", "średnia", "wysoka"],
        "czy_abonament": [True, False, True, False, True],
    }
)

raw_data

Unnamed: 0,id_klienta,wiek,czas_aktywności_min,dochód_miesięczny,poziom_edukacji,region,ocena_satysfakcji,czy_abonament
0,1001,25,35.5,4200.0,średnie,Mazowieckie,wysoka,True
1,1002,32,58.2,6100.5,wyższe,Śląskie,średnia,False
2,1003,41,12.7,9800.0,wyższe,Mazowieckie,niska,True
3,1004,29,48.1,5100.0,zawodowe,Pomorskie,średnia,False
4,1005,51,73.3,7500.0,podstawowe,Małopolskie,wysoka,True


### Analiza typów danych
Warto sprawdzić, jak pandas odczytał kolumny oraz czy odpowiada to temu, jak chcemy je wykorzystać.

In [2]:
raw_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 8 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   id_klienta           5 non-null      int64  
 1   wiek                 5 non-null      int64  
 2   czas_aktywności_min  5 non-null      float64
 3   dochód_miesięczny    5 non-null      float64
 4   poziom_edukacji      5 non-null      object 
 5   region               5 non-null      object 
 6   ocena_satysfakcji    5 non-null      object 
 7   czy_abonament        5 non-null      bool   
dtypes: bool(1), float64(2), int64(2), object(3)
memory usage: 417.0+ bytes


### Przygotowanie do modelowania
1. Zmienne kategoryczne konwertujemy na typ `category`.
2. Zmienną porządkową `ocena_satysfakcji` ustawiamy z własną kolejnością.
3. Zmiennym ciągłym możemy nadać skalę, np. standaryzację.

### Uwaga na typy logiczne
Kolumna `czy_abonament` jest w danych logiczna (`bool`). Jeśli chcemy potraktować ją jako kategorię (np. w embeddingach), warto jawnie zamienić ją na `category`. Dzięki temu biblioteki (pandas, PyTorch) od razu widzą, że to nominalna cecha, a nie flaga.


In [5]:
categorical_cols = ["poziom_edukacji", "region", "ocena_satysfakcji", "czy_abonament"]
continuous_cols = ["wiek", "czas_aktywności_min", "dochód_miesięczny"]

prepared = raw_data.copy()
prepared[categorical_cols] = prepared[categorical_cols].astype("category")
prepared["czy_abonament"] = prepared["czy_abonament"].cat.add_categories(['tak', 'nie']) if 'tak' not in prepared["czy_abonament"].cat.categories else prepared["czy_abonament"]
prepared["czy_abonament"] = prepared["czy_abonament"].cat.rename_categories({True: 'tak', False: 'nie'})
prepared["ocena_satysfakcji"] = prepared["ocena_satysfakcji"].cat.reorder_categories(
    ["niska", "średnia", "wysoka"], ordered=True
)

prepared

Unnamed: 0,id_klienta,wiek,czas_aktywności_min,dochód_miesięczny,poziom_edukacji,region,ocena_satysfakcji,czy_abonament
0,1001,25,35.5,4200.0,średnie,Mazowieckie,wysoka,True
1,1002,32,58.2,6100.5,wyższe,Śląskie,średnia,False
2,1003,41,12.7,9800.0,wyższe,Mazowieckie,niska,True
3,1004,29,48.1,5100.0,zawodowe,Pomorskie,średnia,False
4,1005,51,73.3,7500.0,podstawowe,Małopolskie,wysoka,True


W powyższym kodzie zamieniamy `bool` na kategorię. Najpierw dodajemy nazwy kategorii (`tak/nie`), a następnie zastępujemy wartości `True/False`. Dzięki temu poniższe kodowanie kategorii potraktuje abonament tak samo jak inne zmienne nominalne.

In [6]:
prepared.dtypes

id_klienta                int64
wiek                      int64
czas_aktywności_min     float64
dochód_miesięczny       float64
poziom_edukacji        category
region                 category
ocena_satysfakcji      category
czy_abonament          category
dtype: object

### Kodowanie kategorii

Poniżej prezentujemy typową operację przygotowania danych przed podaniem ich do modelu.

### Kodowanie porządkowe
W przypadku zmiennych, które mają naturalną kolejność (np. `ocena_satysfakcji`), lepiej nadać im liczby rosnące zgodnie z poziomami, zamiast korzystać z automatycznego kodowania. Możemy przypisać ręcznie wartości `niska → 0`, `średnia → 1`, `wysoka → 2`.

In [None]:
ordinal_map = {"niska": 0, "średnia": 1, "wysoka": 2}
prepared["ocena_satysfakcji_kod"] = prepared["ocena_satysfakcji"].cat.rename_categories(ordinal_map).astype(int)
prepared[["ocena_satysfakcji", "ocena_satysfakcji_kod"]]


In [18]:
encoded = prepared[categorical_cols].apply(lambda s: s.cat.codes)
encoded

Unnamed: 0,poziom_edukacji,region,ocena_satysfakcji,czy_abonament
0,3,0,2,1
1,1,3,1,0
2,1,0,0,1
3,2,2,1,0
4,0,1,2,1


# Skalowanie


**Skalowanie (ang. *feature scaling*)** to zestaw technik przekształcania zmiennych wejściowych (cech) w taki sposób, aby:

* miały porównywalne zakresy wartości,
* były lepiej dostosowane do algorytmów uczenia maszynowego.


### Dlaczego to ważne?

1. **Różne skale cech zaburzają uczenie**

   * Wyobraź sobie zbiór z dwiema cechami: *wiek* (np. 20–70) i *dochód* (np. 2000–200000).
   * Algorytmy oparte na odległości (np. kNN, SVM, PCA) uznają dochód za dużo „ważniejszy”, bo jego liczby są większe.
   * Skalowanie sprawia, że obie cechy są traktowane równorzędnie.

2. **Przyspieszenie i stabilność uczenia**

   * W sieciach neuronowych i regresji gradientowej skalowanie cech sprawia, że gradienty są stabilniejsze i szybciej osiągają minimum.
   * Zmniejsza ryzyko, że jedna cecha zdominuje uczenie.

3. **Ułatwia interpretację i porównywalność**

   * Po standaryzacji łatwo zauważyć, które wartości są „typowe” (blisko 0), a które są „odstające” (np. >3σ).

### Kiedy skalowanie jest potrzebne?

* ✅ Algorytmy oparte na odległości i wektorach: kNN, SVM, PCA, regresja logistyczna, sieci neuronowe.
* ❌ Algorytmy drzewiaste: drzewa decyzyjne, random forest, XGBoost – **nie wymagają skalowania**, bo podziały bazują na progach, a nie na odległościach.

### Podsumowanie

👉 **Skalowanie to przygotowanie danych tak, by żadna cecha nie była „ważniejsza” tylko dlatego, że ma większe liczby.**

W praktyce stosuje się różne metody:

* **Standaryzacja (z-score)** – średnia = 0, odchylenie standardowe = 1.
* **Min–max** – skalowanie do przedziału [0,1] lub [-1,1].
* **Robust** – oparte na medianie i IQR, odporne na outliery.
* **Normalizacja wektorowa** – dopasowanie wektora do jednostkowej normy.
* **Log-skalowanie** – „spłaszczenie” dużych wartości w skośnych rozkładach.


## Standardyzacja Gaussa:

W dalszej części zajęć będziemy pracować głównie z tą metodą, więc o niej trochę więcej:

$$
z_i = \frac{x_i - \mu}{\sigma}
$$

gdzie:

* $x_i$ – oryginalna wartość,
* $\mu = \frac{1}{n} \sum_{i=1}^n x_i$ – średnia wartości,
* $\sigma = \sqrt{\frac{1}{n} \sum_{i=1}^n (x_i - \mu)^2}$ – odchylenie standardowe.

In [13]:
raw_df = df = pd.DataFrame({"x": [1, 5, 10, 50, 100, 500]})
scaled = (df["x"] - df["x"].mean()) / df["x"].std()
scaled

0   -0.566229
1   -0.545638
2   -0.519901
3   -0.313999
4   -0.056623
5    2.002390
Name: x, dtype: float64

🔍 **Wizualizacja** – warto przed i po transformacji narysować histogram lub boxplot, by zobaczyć, jak zmienił się rozkład. Nawet przy małych zbiorach to szybki sanity check dla skalowania.

Każdą zmienną $x$ w kolumnach ciągłych przekształcasz w taki sposób, że:

* odejmujesz średnią (centrowanie),
* dzielisz przez odchylenie standardowe (normalizacja wariancji).

Dla pojedynczej wartości $x_i$ w kolumnie $X$:

Tak powstaje tzw. **z-score** albo **standaryzacja Gaussa**.

### Własności

Po tej transformacji:

* średnia danych ≈ 0,
* odchylenie standardowe = 1,
* rozkład ma zachowaną formę (nie zmienia się kształt rozkładu, tylko przesunięcie i skala).

In [19]:
# --- Standaryzacja Gaussa (z-score) ---
scalled = (
    prepared[continuous_cols] - prepared[continuous_cols].mean()
) / prepared[continuous_cols].std()

scalled.head()

Unnamed: 0,wiek,czas_aktywności_min,dochód_miesięczny
0,-1.016229,-0.437318,-1.065567
1,-0.345134,0.549473,-0.200172
2,0.517701,-1.428455,1.484399
3,-0.632746,0.110416,-0.655751
4,1.476408,1.205884,0.437091


Alternatywnie można skorzystać np. ze `StandardScaler` dostępnego w `scikit-learn`,  czy `tf.keras.layers.Normalization`

In [22]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

# dopasowanie i transformacja tylko kolumn ciągłych
prepared_scaled = prepared.copy()
prepared_scaled[continuous_cols] = scaler.fit_transform(prepared_scaled[continuous_cols])

prepared_scaled.head()

Unnamed: 0,id_klienta,wiek,czas_aktywności_min,dochód_miesięczny,poziom_edukacji,region,ocena_satysfakcji,czy_abonament
0,1001,-1.136178,-0.488936,-1.19134,średnie,Mazowieckie,wysoka,True
1,1002,-0.385872,0.614329,-0.223799,wyższe,Śląskie,średnia,False
2,1003,0.578808,-1.597062,1.659608,wyższe,Mazowieckie,niska,True
3,1004,-0.707432,0.123449,-0.733152,zawodowe,Pomorskie,średnia,False
4,1005,1.650674,1.348219,0.488683,podstawowe,Małopolskie,wysoka,True


<div class="alert alert-info">

## Różnice w wynikach standaryzacji

Podczas standaryzacji widać różnice między ręcznym wzorem w Pandas a wynikiem z `StandardScaler` w scikit-learn.  

### Źródło różnicy
- **Pandas / NumPy (`.std()` bez argumentu)**  
  domyślnie używa `ddof=1`, czyli **odchylenia standardowego z próby** (sample std).  
  $$
  s = \sqrt{\frac{1}{N-1} \sum_i (x_i - \bar{x})^2}
  $$

- **`StandardScaler` (scikit-learn)**  
  używa `ddof=0`, czyli **odchylenia standardowego z populacji** (population std).  
  $$
  \sigma = \sqrt{\frac{1}{N} \sum_i (x_i - \mu)^2}
  $$

### Efekt
- oba podejścia dają średnią ≈ 0,  
- różnią się skalą wartości: `StandardScaler` daje minimalnie większe wartości (bo mianownik jest mniejszy).  

### Jak ujednolicić?
Aby wyniki z Pandas były identyczne z `StandardScaler`, ustaw:
```python
prepared[continuous_cols].std(ddof=0)
```
</div>


In [23]:
(
    prepared[continuous_cols] - prepared[continuous_cols].mean()
) / prepared[continuous_cols].std(ddof=0)   # kluczowa zmiana!

Unnamed: 0,wiek,czas_aktywności_min,dochód_miesięczny
0,-1.136178,-0.488936,-1.19134
1,-0.385872,0.614329,-0.223799
2,0.578808,-1.597062,1.659608
3,-0.707432,0.123449,-0.733152
4,1.650674,1.348219,0.488683


### Typowe błędy przy skalowaniu i kodowaniu
- **Fit na całym zbiorze** – zawsze dopasuj transformację tylko na treningu, a dopiero potem zastosuj na walidacji/testach.
- **Mieszanie typów** – nie skaluj razem kolumn ciągłych i one-hot (po kodowaniu trzymaj je osobno lub użyj `ColumnTransformer`).
- **Zmienna porządkowa traktowana jak nominalna** – dla poziomów z kolejnością (np. `niska`, `średnia`, `wysoka`) użyj mapowania do liczb.
- **Zapomniany `dtype`** – kolumny liczbowe wczytane jako `object` (np. z przecinkiem zamiast kropki) należy oczyścić przed skalowaniem.


## Inne rodzaje skalowania

W ML i statystyce stosuje się różne transformacje, m.in.:

---

### 🔹 Normalizacja min–max

Skalowanie do przedziału [0, 1]:

$$
x'*i = \frac{x_i - x*{\min}}{x_{\max} - x_{\min}}
$$

In [32]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
df["minmax_0_1"] = scaler.fit_transform(df[["x"]])
df

Unnamed: 0,x,minmax_0_1,minmax_-1_1,robust,l2_norm,log1p
0,1,0.0,-1.0,-0.356923,1.0,0.693147
1,5,0.008016,-0.983968,-0.307692,1.0,1.791759
2,10,0.018036,-0.963928,-0.246154,1.0,2.397895
3,50,0.098196,-0.803607,0.246154,1.0,3.931826
4,100,0.198397,-0.603206,0.861538,1.0,4.615121
5,500,1.0,1.0,5.784615,1.0,6.216606


---

### 🔹 Normalizacja do zakresu [-1, 1]

$$
x'*i = 2 \cdot \frac{x_i - x*{\min}}{x_{\max} - x_{\min}} - 1
$$

In [33]:
scaler = MinMaxScaler(feature_range=(-1, 1))
df["minmax_-1_1"] = scaler.fit_transform(df[["x"]])
df

Unnamed: 0,x,minmax_0_1,minmax_-1_1,robust,l2_norm,log1p
0,1,0.0,-1.0,-0.356923,1.0,0.693147
1,5,0.008016,-0.983968,-0.307692,1.0,1.791759
2,10,0.018036,-0.963928,-0.246154,1.0,2.397895
3,50,0.098196,-0.803607,0.246154,1.0,3.931826
4,100,0.198397,-0.603206,0.861538,1.0,4.615121
5,500,1.0,1.0,5.784615,1.0,6.216606


### 🔹 Skalowanie robust (odporne na wartości odstające)

Używa mediany i IQR (interquartile range):

$$
x'_i = \frac{x_i - \text{median}(X)}{\text{IQR}(X)}
$$

In [34]:
from sklearn.preprocessing import RobustScaler

scaler = RobustScaler()
df["robust"] = scaler.fit_transform(df[["x"]])
df

Unnamed: 0,x,minmax_0_1,minmax_-1_1,robust,l2_norm,log1p
0,1,0.0,-1.0,-0.356923,1.0,0.693147
1,5,0.008016,-0.983968,-0.307692,1.0,1.791759
2,10,0.018036,-0.963928,-0.246154,1.0,2.397895
3,50,0.098196,-0.803607,0.246154,1.0,3.931826
4,100,0.198397,-0.603206,0.861538,1.0,4.615121
5,500,1.0,1.0,5.784615,1.0,6.216606


---

### 🔹 Skalowanie jednostkowej normy (normalizacja wektorów)

Każdy wektor $x$ dzielony jest przez jego normę (np. L2):

$$
x' = \frac{x}{|x|_2}
$$

In [35]:
from sklearn.preprocessing import Normalizer

scaler = Normalizer(norm="l2")
df["l2_norm"] = scaler.fit_transform(df[["x"]])
df

Unnamed: 0,x,minmax_0_1,minmax_-1_1,robust,l2_norm,log1p
0,1,0.0,-1.0,-0.356923,1.0,0.693147
1,5,0.008016,-0.983968,-0.307692,1.0,1.791759
2,10,0.018036,-0.963928,-0.246154,1.0,2.397895
3,50,0.098196,-0.803607,0.246154,1.0,3.931826
4,100,0.198397,-0.603206,0.861538,1.0,4.615121
5,500,1.0,1.0,5.784615,1.0,6.216606


### 🔹 Log-skalowanie / transformacje potęgowe

Stosowane przy bardzo skośnych rozkładach (np. ceny, liczby odwiedzin):

$$
x'_i = \log(1 + x_i)
$$

In [36]:
df["log1p"] = np.log1p(df["x"])
df


Unnamed: 0,x,minmax_0_1,minmax_-1_1,robust,l2_norm,log1p
0,1,0.0,-1.0,-0.356923,1.0,0.693147
1,5,0.008016,-0.983968,-0.307692,1.0,1.791759
2,10,0.018036,-0.963928,-0.246154,1.0,2.397895
3,50,0.098196,-0.803607,0.246154,1.0,3.931826
4,100,0.198397,-0.603206,0.861538,1.0,4.615121
5,500,1.0,1.0,5.784615,1.0,6.216606


✅ **Podsumowanie:**

Twoja operacja to **standaryzacja (z-score normalization)**.
Ale w ML często wybór metody zależy od danych:

* **min–max** → dobre dla sieci neuronowych z aktywacją sigmoid/tanh,
* **z-score** → dobre dla regresji, SVM, PCA,
* **robust** → dobre gdy mamy dużo outlierów.

```

## Dobre praktyki
- Dokumentuj, które kolumny są kategoryczne, porządkowe i ciągłe.
- Przygotuj słowniki mapujące kategorie na kody, szczególnie gdy model będzie działał na nowych danych.
- Pilnuj spójności: sposób kodowania w fazie trenowania i predykcji musi być identyczny.
- Monitoruj wartości odstające w zmiennych ciągłych – mogą istotnie wpływać na metryki i działanie modelu.

### Zadanie kontrolne
Spróbuj dopisać własną funkcję, która sprawdzi, czy kolumna jest traktowana jako porządkowa czy nominalna (np. poprzez listę znanych zmiennych). Możesz użyć `assert` w komórce z kodem, by upewnić się, że `ocena_satysfakcji_kod` ma wartości 0,1,2 bez braków.