In [1]:
import numpy as np
import pandas as pd

# Typy Danych w Statystyce i Uczeniu Maszynowym
Zrozumienie struktury danych jest kluczowe przed zbudowaniem jakiegokolwiek modelu. Poni≈ºej porzƒÖdkujemy podstawowe pojƒôcia oraz wskazujemy, jak przek≈ÇadajƒÖ siƒô one na praktykƒô w uczeniu maszynowym.

## 1. Podzia≈Ç og√≥lny
Dane mo≈ºemy podzieliƒá na dwie wielkie grupy:

- **Dane ilo≈õciowe (numeryczne)** ‚Äì opisujƒÖ wielko≈õƒá, mo≈ºna je liczyƒá i wykonywaƒá na nich dzia≈Çania matematyczne.
- **Dane jako≈õciowe (kategoryczne)** ‚Äì opisujƒÖ cechy, klasy lub grupy; typowe operacje arytmetyczne nie majƒÖ tu sensu.

## 2. Dane ilo≈õciowe (numeryczne)
### CiƒÖg≈Çe (*continuous variables*)
MogƒÖ przyjmowaƒá dowolnƒÖ warto≈õƒá w pewnym przedziale liczb rzeczywistych.

**Przyk≈Çady:** wzrost (cm), masa (kg), temperatura (¬∞C), czas (s).

### Dyskretne (*discrete variables*)
Liczbowe, ale przyjmujƒÖ tylko sko≈ÑczonƒÖ lub policzalnƒÖ liczbƒô warto≈õci.

**Przyk≈Çady:** liczba pasa≈ºer√≥w, liczba dzieci w rodzinie, liczba klikniƒôƒá.

## 3. Dane jako≈õciowe (kategoryczne)
### Nominalne (*nominal variables*)
Kategorie bez naturalnego porzƒÖdku.

**Przyk≈Çady:** kolor samochodu, kraj pochodzenia, marka telefonu.

### PorzƒÖdkowe (*ordinal variables*)
Kategorie z uporzƒÖdkowaniem, ale odleg≈Ço≈õci miƒôdzy kolejnymi poziomami nie sƒÖ por√≥wnywalne.

**Przyk≈Çady:** poziom zadowolenia (niski/≈õredni/wysoki), klasa biletu (economy/business/first).

### Binarne (*binary variables*)
Szczeg√≥lny przypadek zmiennych kategorycznych ‚Äì tylko dwie kategorie.

**Przyk≈Çady:** Tak/Nie, 0/1, Prawda/Fa≈Çsz.

## 4. Jak to upraszcza uczenie maszynowe?
W praktyce uczenia maszynowego czƒôsto stosuje siƒô uproszczony podzia≈Ç pokazany poni≈ºej:

| Uproszczenie w ML | Klasyczne typy | Przyk≈Çady |
| --- | --- | --- |
| Dane ciƒÖg≈Çe | numeryczne: ciƒÖg≈Çe + dyskretne | wzrost, czas, liczba pasa≈ºer√≥w |
| Dane kategoryczne | jako≈õciowe: nominalne + porzƒÖdkowe + binarne | kolor, dzie≈Ñ tygodnia, p≈Çeƒá, tak/nie |


## Podstawowe Kategorie
- **Dane kategoryczne (jako≈õciowe)** ‚Äì opisujƒÖ cechy, nazwy klas lub grup. MogƒÖ byƒá:
  - *nominalne*: brak naturalnego porzƒÖdku (np. kolor oczu, marka samochodu),
  - *porzƒÖdkowe*: uporzƒÖdkowane wed≈Çug skali (np. poziom trudno≈õci kursu: podstawowy ‚Üí ≈õredniozaawansowany ‚Üí zaawansowany).
- **Dane liczbowe (ilo≈õciowe)** ‚Äì opisujƒÖ wielko≈õci mierzalne. DzielƒÖ siƒô na:
  - *dyskretne*: przyjmujƒÖ warto≈õci ca≈Çkowite (np. liczba zam√≥wie≈Ñ, liczba dzieci),
  - *ciƒÖg≈Çe*: mogƒÖ przyjmowaƒá dowolnƒÖ warto≈õƒá z przedzia≈Çu (np. temperatura, masa cia≈Ça).

## Skale Pomiaru
| Skala | Typ | Co oznacza? | Przyk≈Çady |
| --- | --- | --- | --- |
| Nominalna | Kategoryczna | Rozr√≥≈ºnia klasy bez porzƒÖdku | kraj pochodzenia, typ paliwa |
| PorzƒÖdkowa | Kategoryczna | Zachowuje kolejno≈õƒá, ale bez zdefiniowanych odstƒôp√≥w | ocena satysfakcji (niska/≈õrednia/wysoka) |
| Przedzia≈Çowa | Liczbowa | UporzƒÖdkowana, r√≥≈ºnice majƒÖ znaczenie, brak zera absolutnego | temperatura w ¬∞C, rok kalendarzowy |
| Ilorazowa | Liczbowa | UporzƒÖdkowana, posiada zero absolutne | wzrost, czas reakcji, doch√≥d |

Znajomo≈õƒá skali pomaga dobraƒá odpowiednie metody statystyczne (np. ≈õrednia ma sens dla skali ilorazowej, ale nie dla nominalnej).

## Dlaczego to jest wa≈ºne w ML?
- Wyb√≥r modelu i metryk: Accuracy ma sens dla etykiet kategorycznych, RMSE dla warto≈õci ciƒÖg≈Çych.
- Przygotowanie cech: dane kategoryczne wymagajƒÖ kodowania (one-hot, embeddingi), a dane ciƒÖg≈Çe czƒôsto siƒô skaluje.
- Interpretowalno≈õƒá: b≈Çƒôdne traktowanie zmiennych mo≈ºe prowadziƒá do sztucznych zale≈ºno≈õci lub z≈Çej interpretacji wynik√≥w.

## Przyk≈Çadowy Zbi√≥r Danych
Zbudujmy ma≈ÇƒÖ tabelƒô opisujƒÖcƒÖ klient√≥w sklepu online. Zawiera ona zar√≥wno zmienne kategoryczne, jak i ciƒÖg≈Çe.

In [2]:
raw_data = pd.DataFrame(
    {
        "id_klienta": [1001, 1002, 1003, 1004, 1005],
        "wiek": [25, 32, 41, 29, 51],
        "czas_aktywno≈õci_min": [35.5, 58.2, 12.7, 48.1, 73.3],
        "doch√≥d_miesiƒôczny": [4200.0, 6100.5, 9800.0, 5100.0, 7500.0],
        "poziom_edukacji": ["≈õrednie", "wy≈ºsze", "wy≈ºsze", "zawodowe", "podstawowe"],
        "region": ["Mazowieckie", "≈ölƒÖskie", "Mazowieckie", "Pomorskie", "Ma≈Çopolskie"],
        "ocena_satysfakcji": ["wysoka", "≈õrednia", "niska", "≈õrednia", "wysoka"],
        "czy_abonament": [True, False, True, False, True],
    }
)

raw_data

Unnamed: 0,id_klienta,wiek,czas_aktywno≈õci_min,doch√≥d_miesiƒôczny,poziom_edukacji,region,ocena_satysfakcji,czy_abonament
0,1001,25,35.5,4200.0,≈õrednie,Mazowieckie,wysoka,True
1,1002,32,58.2,6100.5,wy≈ºsze,≈ölƒÖskie,≈õrednia,False
2,1003,41,12.7,9800.0,wy≈ºsze,Mazowieckie,niska,True
3,1004,29,48.1,5100.0,zawodowe,Pomorskie,≈õrednia,False
4,1005,51,73.3,7500.0,podstawowe,Ma≈Çopolskie,wysoka,True


### Analiza typ√≥w danych
Warto sprawdziƒá, jak pandas odczyta≈Ç kolumny oraz czy odpowiada to temu, jak chcemy je wykorzystaƒá.

In [3]:
raw_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 8 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   id_klienta           5 non-null      int64  
 1   wiek                 5 non-null      int64  
 2   czas_aktywno≈õci_min  5 non-null      float64
 3   doch√≥d_miesiƒôczny    5 non-null      float64
 4   poziom_edukacji      5 non-null      object 
 5   region               5 non-null      object 
 6   ocena_satysfakcji    5 non-null      object 
 7   czy_abonament        5 non-null      bool   
dtypes: bool(1), float64(2), int64(2), object(3)
memory usage: 417.0+ bytes


### Przygotowanie do modelowania
1. Zmienne kategoryczne konwertujemy na typ `category`.
2. ZmiennƒÖ porzƒÖdkowƒÖ `ocena_satysfakcji` ustawiamy z w≈ÇasnƒÖ kolejno≈õciƒÖ.
3. Zmiennym ciƒÖg≈Çym mo≈ºemy nadaƒá skalƒô, np. standaryzacjƒô.

### Uwaga na typy logiczne
Kolumna `czy_abonament` jest w danych logiczna (`bool`). Je≈õli chcemy potraktowaƒá jƒÖ jako kategoriƒô (np. w embeddingach), warto jawnie zamieniƒá jƒÖ na `category`. Dziƒôki temu biblioteki (pandas, PyTorch) od razu widzƒÖ, ≈ºe to nominalna cecha, a nie flaga.


In [5]:
prepared = raw_data.copy()
prepared[categorical_cols] = prepared[categorical_cols].astype("category")

# zamiast add_categories -> od razu podmie≈Ñ True/False na tak/nie
prepared["czy_abonament"] = prepared["czy_abonament"].replace({True: "tak", False: "nie"}).astype("category")

prepared["ocena_satysfakcji"] = prepared["ocena_satysfakcji"].cat.reorder_categories(
    ["niska", "≈õrednia", "wysoka"], ordered=True
)

prepared


  prepared["czy_abonament"] = prepared["czy_abonament"].replace({True: "tak", False: "nie"}).astype("category")


Unnamed: 0,id_klienta,wiek,czas_aktywno≈õci_min,doch√≥d_miesiƒôczny,poziom_edukacji,region,ocena_satysfakcji,czy_abonament
0,1001,25,35.5,4200.0,≈õrednie,Mazowieckie,wysoka,tak
1,1002,32,58.2,6100.5,wy≈ºsze,≈ölƒÖskie,≈õrednia,nie
2,1003,41,12.7,9800.0,wy≈ºsze,Mazowieckie,niska,tak
3,1004,29,48.1,5100.0,zawodowe,Pomorskie,≈õrednia,nie
4,1005,51,73.3,7500.0,podstawowe,Ma≈Çopolskie,wysoka,tak


W powy≈ºszym kodzie zamieniamy `bool` na kategoriƒô. Najpierw dodajemy nazwy kategorii (`tak/nie`), a nastƒôpnie zastƒôpujemy warto≈õci `True/False`. Dziƒôki temu poni≈ºsze kodowanie kategorii potraktuje abonament tak samo jak inne zmienne nominalne.

In [6]:
prepared.dtypes

id_klienta                int64
wiek                      int64
czas_aktywno≈õci_min     float64
doch√≥d_miesiƒôczny       float64
poziom_edukacji        category
region                 category
ocena_satysfakcji      category
czy_abonament          category
dtype: object

### Kodowanie kategorii

Poni≈ºej prezentujemy typowƒÖ operacjƒô przygotowania danych przed podaniem ich do modelu.

### Kodowanie porzƒÖdkowe
W przypadku zmiennych, kt√≥re majƒÖ naturalnƒÖ kolejno≈õƒá (np. `ocena_satysfakcji`), lepiej nadaƒá im liczby rosnƒÖce zgodnie z poziomami, zamiast korzystaƒá z automatycznego kodowania. Mo≈ºemy przypisaƒá rƒôcznie warto≈õci `niska ‚Üí 0`, `≈õrednia ‚Üí 1`, `wysoka ‚Üí 2`.

In [7]:
ordinal_map = {"niska": 0, "≈õrednia": 1, "wysoka": 2}
prepared["ocena_satysfakcji_kod"] = prepared["ocena_satysfakcji"].cat.rename_categories(ordinal_map).astype(int)
prepared[["ocena_satysfakcji", "ocena_satysfakcji_kod"]]


Unnamed: 0,ocena_satysfakcji,ocena_satysfakcji_kod
0,wysoka,2
1,≈õrednia,1
2,niska,0
3,≈õrednia,1
4,wysoka,2


In [8]:
encoded = prepared[categorical_cols].apply(lambda s: s.cat.codes)
encoded

Unnamed: 0,poziom_edukacji,region,ocena_satysfakcji,czy_abonament
0,3,0,2,1
1,1,3,1,0
2,1,0,0,1
3,2,2,1,0
4,0,1,2,1


# Skalowanie


**Skalowanie (ang. *feature scaling*)** to zestaw technik przekszta≈Çcania zmiennych wej≈õciowych (cech) w taki spos√≥b, aby:

* mia≈Çy por√≥wnywalne zakresy warto≈õci,
* by≈Çy lepiej dostosowane do algorytm√≥w uczenia maszynowego.


### Dlaczego to wa≈ºne?

1. **R√≥≈ºne skale cech zaburzajƒÖ uczenie**

   * Wyobra≈∫ sobie zbi√≥r z dwiema cechami: *wiek* (np. 20‚Äì70) i *doch√≥d* (np. 2000‚Äì200000).
   * Algorytmy oparte na odleg≈Ço≈õci (np. kNN, SVM, PCA) uznajƒÖ doch√≥d za du≈ºo ‚Äûwa≈ºniejszy‚Äù, bo jego liczby sƒÖ wiƒôksze.
   * Skalowanie sprawia, ≈ºe obie cechy sƒÖ traktowane r√≥wnorzƒôdnie.

2. **Przyspieszenie i stabilno≈õƒá uczenia**

   * W sieciach neuronowych i regresji gradientowej skalowanie cech sprawia, ≈ºe gradienty sƒÖ stabilniejsze i szybciej osiƒÖgajƒÖ minimum.
   * Zmniejsza ryzyko, ≈ºe jedna cecha zdominuje uczenie.

3. **U≈Çatwia interpretacjƒô i por√≥wnywalno≈õƒá**

   * Po standaryzacji ≈Çatwo zauwa≈ºyƒá, kt√≥re warto≈õci sƒÖ ‚Äûtypowe‚Äù (blisko 0), a kt√≥re sƒÖ ‚ÄûodstajƒÖce‚Äù (np. >3œÉ).

### Kiedy skalowanie jest potrzebne?

* ‚úÖ Algorytmy oparte na odleg≈Ço≈õci i wektorach: kNN, SVM, PCA, regresja logistyczna, sieci neuronowe.
* ‚ùå Algorytmy drzewiaste: drzewa decyzyjne, random forest, XGBoost ‚Äì **nie wymagajƒÖ skalowania**, bo podzia≈Çy bazujƒÖ na progach, a nie na odleg≈Ço≈õciach.

### Podsumowanie

üëâ **Skalowanie to przygotowanie danych tak, by ≈ºadna cecha nie by≈Ça ‚Äûwa≈ºniejsza‚Äù tylko dlatego, ≈ºe ma wiƒôksze liczby.**

W praktyce stosuje siƒô r√≥≈ºne metody:

* **Standaryzacja (z-score)** ‚Äì ≈õrednia = 0, odchylenie standardowe = 1.
* **Min‚Äìmax** ‚Äì skalowanie do przedzia≈Çu [0,1] lub [-1,1].
* **Robust** ‚Äì oparte na medianie i IQR, odporne na outliery.
* **Normalizacja wektorowa** ‚Äì dopasowanie wektora do jednostkowej normy.
* **Log-skalowanie** ‚Äì ‚Äûsp≈Çaszczenie‚Äù du≈ºych warto≈õci w sko≈õnych rozk≈Çadach.


## Standardyzacja Gaussa:

W dalszej czƒô≈õci zajƒôƒá bƒôdziemy pracowaƒá g≈Ç√≥wnie z tƒÖ metodƒÖ, wiƒôc o niej trochƒô wiƒôcej:

$$
z_i = \frac{x_i - \mu}{\sigma}
$$

gdzie:

* $x_i$ ‚Äì oryginalna warto≈õƒá,
* $\mu = \frac{1}{n} \sum_{i=1}^n x_i$ ‚Äì ≈õrednia warto≈õci,
* $\sigma = \sqrt{\frac{1}{n} \sum_{i=1}^n (x_i - \mu)^2}$ ‚Äì odchylenie standardowe.

In [9]:
raw_df = df = pd.DataFrame({"x": [1, 5, 10, 50, 100, 500]})
scaled = (df["x"] - df["x"].mean()) / df["x"].std()
scaled

0   -0.566229
1   -0.545638
2   -0.519901
3   -0.313999
4   -0.056623
5    2.002390
Name: x, dtype: float64

üîç **Wizualizacja** ‚Äì warto przed i po transformacji narysowaƒá histogram lub boxplot, by zobaczyƒá, jak zmieni≈Ç siƒô rozk≈Çad. Nawet przy ma≈Çych zbiorach to szybki sanity check dla skalowania.

Ka≈ºdƒÖ zmiennƒÖ $x$ w kolumnach ciƒÖg≈Çych przekszta≈Çcasz w taki spos√≥b, ≈ºe:

* odejmujesz ≈õredniƒÖ (centrowanie),
* dzielisz przez odchylenie standardowe (normalizacja wariancji).

Dla pojedynczej warto≈õci $x_i$ w kolumnie $X$:

Tak powstaje tzw. **z-score** albo **standaryzacja Gaussa**.

### W≈Çasno≈õci

Po tej transformacji:

* ≈õrednia danych ‚âà 0,
* odchylenie standardowe = 1,
* rozk≈Çad ma zachowanƒÖ formƒô (nie zmienia siƒô kszta≈Çt rozk≈Çadu, tylko przesuniƒôcie i skala).

In [10]:
# --- Standaryzacja Gaussa (z-score) ---
scalled = (
    prepared[continuous_cols] - prepared[continuous_cols].mean()
) / prepared[continuous_cols].std()

scalled.head()

Unnamed: 0,wiek,czas_aktywno≈õci_min,doch√≥d_miesiƒôczny
0,-1.016229,-0.437318,-1.065567
1,-0.345134,0.549473,-0.200172
2,0.517701,-1.428455,1.484399
3,-0.632746,0.110416,-0.655751
4,1.476408,1.205884,0.437091


Alternatywnie mo≈ºna skorzystaƒá np. ze `StandardScaler` dostƒôpnego w `scikit-learn`,  czy `tf.keras.layers.Normalization`

In [11]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

# dopasowanie i transformacja tylko kolumn ciƒÖg≈Çych
prepared_scaled = prepared.copy()
prepared_scaled[continuous_cols] = scaler.fit_transform(prepared_scaled[continuous_cols])

prepared_scaled.head()

Unnamed: 0,id_klienta,wiek,czas_aktywno≈õci_min,doch√≥d_miesiƒôczny,poziom_edukacji,region,ocena_satysfakcji,czy_abonament,ocena_satysfakcji_kod
0,1001,-1.136178,-0.488936,-1.19134,≈õrednie,Mazowieckie,wysoka,tak,2
1,1002,-0.385872,0.614329,-0.223799,wy≈ºsze,≈ölƒÖskie,≈õrednia,nie,1
2,1003,0.578808,-1.597062,1.659608,wy≈ºsze,Mazowieckie,niska,tak,0
3,1004,-0.707432,0.123449,-0.733152,zawodowe,Pomorskie,≈õrednia,nie,1
4,1005,1.650674,1.348219,0.488683,podstawowe,Ma≈Çopolskie,wysoka,tak,2


<div class="alert alert-info">

## R√≥≈ºnice w wynikach standaryzacji

Podczas standaryzacji widaƒá r√≥≈ºnice miƒôdzy rƒôcznym wzorem w Pandas a wynikiem z `StandardScaler` w scikit-learn.  

### ≈πr√≥d≈Ço r√≥≈ºnicy
- **Pandas / NumPy (`.std()` bez argumentu)**  
  domy≈õlnie u≈ºywa `ddof=1`, czyli **odchylenia standardowego z pr√≥by** (sample std).  
  $$
  s = \sqrt{\frac{1}{N-1} \sum_i (x_i - \bar{x})^2}
  $$

- **`StandardScaler` (scikit-learn)**  
  u≈ºywa `ddof=0`, czyli **odchylenia standardowego z populacji** (population std).  
  $$
  \sigma = \sqrt{\frac{1}{N} \sum_i (x_i - \mu)^2}
  $$

### Efekt
- oba podej≈õcia dajƒÖ ≈õredniƒÖ ‚âà 0,  
- r√≥≈ºniƒÖ siƒô skalƒÖ warto≈õci: `StandardScaler` daje minimalnie wiƒôksze warto≈õci (bo mianownik jest mniejszy).  

### Jak ujednoliciƒá?
Aby wyniki z Pandas by≈Çy identyczne z `StandardScaler`, ustaw:
```python
prepared[continuous_cols].std(ddof=0)
```
</div>


In [12]:
(
    prepared[continuous_cols] - prepared[continuous_cols].mean()
) / prepared[continuous_cols].std(ddof=0)   # kluczowa zmiana!

Unnamed: 0,wiek,czas_aktywno≈õci_min,doch√≥d_miesiƒôczny
0,-1.136178,-0.488936,-1.19134
1,-0.385872,0.614329,-0.223799
2,0.578808,-1.597062,1.659608
3,-0.707432,0.123449,-0.733152
4,1.650674,1.348219,0.488683


### Typowe b≈Çƒôdy przy skalowaniu i kodowaniu
- **Fit na ca≈Çym zbiorze** ‚Äì zawsze dopasuj transformacjƒô tylko na treningu, a dopiero potem zastosuj na walidacji/testach.
- **Mieszanie typ√≥w** ‚Äì nie skaluj razem kolumn ciƒÖg≈Çych i one-hot (po kodowaniu trzymaj je osobno lub u≈ºyj `ColumnTransformer`).
- **Zmienna porzƒÖdkowa traktowana jak nominalna** ‚Äì dla poziom√≥w z kolejno≈õciƒÖ (np. `niska`, `≈õrednia`, `wysoka`) u≈ºyj mapowania do liczb.
- **Zapomniany `dtype`** ‚Äì kolumny liczbowe wczytane jako `object` (np. z przecinkiem zamiast kropki) nale≈ºy oczy≈õciƒá przed skalowaniem.


## Inne rodzaje skalowania

W ML i statystyce stosuje siƒô r√≥≈ºne transformacje, m.in.:

---

### üîπ Normalizacja min‚Äìmax

Skalowanie do przedzia≈Çu [0, 1]:

$$
x'*i = \frac{x_i - x*{\min}}{x_{\max} - x_{\min}}
$$

In [13]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
df["minmax_0_1"] = scaler.fit_transform(df[["x"]])
df

Unnamed: 0,x,minmax_0_1
0,1,0.0
1,5,0.008016
2,10,0.018036
3,50,0.098196
4,100,0.198397
5,500,1.0


---

### üîπ Normalizacja do zakresu [-1, 1]

$$
x'*i = 2 \cdot \frac{x_i - x*{\min}}{x_{\max} - x_{\min}} - 1
$$

In [14]:
scaler = MinMaxScaler(feature_range=(-1, 1))
df["minmax_-1_1"] = scaler.fit_transform(df[["x"]])
df

Unnamed: 0,x,minmax_0_1,minmax_-1_1
0,1,0.0,-1.0
1,5,0.008016,-0.983968
2,10,0.018036,-0.963928
3,50,0.098196,-0.803607
4,100,0.198397,-0.603206
5,500,1.0,1.0


### üîπ Skalowanie robust (odporne na warto≈õci odstajƒÖce)

U≈ºywa mediany i IQR (interquartile range):

$$
x'_i = \frac{x_i - \text{median}(X)}{\text{IQR}(X)}
$$

In [15]:
from sklearn.preprocessing import RobustScaler

scaler = RobustScaler()
df["robust"] = scaler.fit_transform(df[["x"]])
df

Unnamed: 0,x,minmax_0_1,minmax_-1_1,robust
0,1,0.0,-1.0,-0.356923
1,5,0.008016,-0.983968,-0.307692
2,10,0.018036,-0.963928,-0.246154
3,50,0.098196,-0.803607,0.246154
4,100,0.198397,-0.603206,0.861538
5,500,1.0,1.0,5.784615


---

### üîπ Skalowanie jednostkowej normy (normalizacja wektor√≥w)

Ka≈ºdy wektor $x$ dzielony jest przez jego normƒô (np. L2):

$$
x' = \frac{x}{|x|_2}
$$

In [16]:
from sklearn.preprocessing import Normalizer

scaler = Normalizer(norm="l2")
df["l2_norm"] = scaler.fit_transform(df[["x"]])
df

Unnamed: 0,x,minmax_0_1,minmax_-1_1,robust,l2_norm
0,1,0.0,-1.0,-0.356923,1.0
1,5,0.008016,-0.983968,-0.307692,1.0
2,10,0.018036,-0.963928,-0.246154,1.0
3,50,0.098196,-0.803607,0.246154,1.0
4,100,0.198397,-0.603206,0.861538,1.0
5,500,1.0,1.0,5.784615,1.0


### üîπ Log-skalowanie / transformacje potƒôgowe

Stosowane przy bardzo sko≈õnych rozk≈Çadach (np. ceny, liczby odwiedzin):

$$
x'_i = \log(1 + x_i)
$$

In [17]:
df["log1p"] = np.log1p(df["x"])
df


Unnamed: 0,x,minmax_0_1,minmax_-1_1,robust,l2_norm,log1p
0,1,0.0,-1.0,-0.356923,1.0,0.693147
1,5,0.008016,-0.983968,-0.307692,1.0,1.791759
2,10,0.018036,-0.963928,-0.246154,1.0,2.397895
3,50,0.098196,-0.803607,0.246154,1.0,3.931826
4,100,0.198397,-0.603206,0.861538,1.0,4.615121
5,500,1.0,1.0,5.784615,1.0,6.216606


‚úÖ **Podsumowanie:**

Twoja operacja to **standaryzacja (z-score normalization)**.
Ale w ML czƒôsto wyb√≥r metody zale≈ºy od danych:

* **min‚Äìmax** ‚Üí dobre dla sieci neuronowych z aktywacjƒÖ sigmoid/tanh,
* **z-score** ‚Üí dobre dla regresji, SVM, PCA,
* **robust** ‚Üí dobre gdy mamy du≈ºo outlier√≥w.

```

## Dobre praktyki
- Dokumentuj, kt√≥re kolumny sƒÖ kategoryczne, porzƒÖdkowe i ciƒÖg≈Çe.
- Przygotuj s≈Çowniki mapujƒÖce kategorie na kody, szczeg√≥lnie gdy model bƒôdzie dzia≈Ça≈Ç na nowych danych.
- Pilnuj sp√≥jno≈õci: spos√≥b kodowania w fazie trenowania i predykcji musi byƒá identyczny.
- Monitoruj warto≈õci odstajƒÖce w zmiennych ciƒÖg≈Çych ‚Äì mogƒÖ istotnie wp≈Çywaƒá na metryki i dzia≈Çanie modelu.

### Zadanie kontrolne
Spr√≥buj dopisaƒá w≈ÇasnƒÖ funkcjƒô, kt√≥ra sprawdzi, czy kolumna jest traktowana jako porzƒÖdkowa czy nominalna (np. poprzez listƒô znanych zmiennych). Mo≈ºesz u≈ºyƒá `assert` w kom√≥rce z kodem, by upewniƒá siƒô, ≈ºe `ocena_satysfakcji_kod` ma warto≈õci 0,1,2 bez brak√≥w.