# üî¢ Tutorial: Encoding (Zamiana tekstu na liczby)

Algorytmy Machine Learning (Regresja, Sieci Neuronowe) sƒÖ matematyczne. Nie rozumiejƒÖ s≈Ç√≥w takich jak "Czerwony", "Ma≈Çy" czy "Toyota". RozumiejƒÖ tylko liczby.

Proces zamiany tekstu (kategorii) na liczby to **Encoding**.
W tym notatniku nauczysz siƒô 3 g≈Ç√≥wnych metod i dowiesz siƒô, kiedy ich u≈ºywaƒá, ≈ºeby nie popsuƒá modelu:

1.  **Ordinal Encoding:** Gdy kolejno≈õƒá MA znaczenie (S≈Çaby < ≈öredni < Dobry).
2.  **Label Encoding:** Szybka metoda, ale niebezpieczna dla cech bez kolejno≈õci.
3.  **One-Hot Encoding:** Najbezpieczniejsza dla danych nominalnych (Kolory, Miasta), ale "puchnie" pamiƒôƒá.

In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder, OrdinalEncoder, OneHotEncoder

# Ustawienia wy≈õwietlania, ≈ºeby widzieƒá wszystkie kolumny
pd.set_option('display.max_columns', None)

print("Gotowe. Tworzymy dane...")

Gotowe. Tworzymy dane...


## KROK 1: Przygotowanie Danych (Laboratorium)

Stworzymy DataFrame, kt√≥ry zawiera ka≈ºdy rodzaj danych kategorycznych:
1.  **Rozmiar (Ordinal):** Ma≈Çy, ≈öredni, Du≈ºy (Tu jest wyra≈∫na hierarchia).
2.  **Kolor (Nominal):** Czerwony, Niebieski, Zielony (Tu NIE ma hierarchii - ≈ºaden kolor nie jest "lepszy").
3.  **Marka (Nominal):** Toyota, Ford, BMW.

In [2]:
df = pd.DataFrame({
    'ID_Klienta': [1, 2, 3, 4, 5],
    'Rozmiar': ['Ma≈Çy', 'Du≈ºy', '≈öredni', 'Ma≈Çy', 'Du≈ºy'],  # Kolejno≈õƒá ma znaczenie!
    'Kolor': ['Czerwony', 'Niebieski', 'Zielony', 'Czerwony', 'Niebieski'], # Brak kolejno≈õci
    'Marka': ['Toyota', 'BMW', 'Ford', 'BMW', 'Toyota']    # Brak kolejno≈õci
})

print("--- ORYGINA≈Å ---")
display(df)

--- ORYGINA≈Å ---


Unnamed: 0,ID_Klienta,Rozmiar,Kolor,Marka
0,1,Ma≈Çy,Czerwony,Toyota
1,2,Du≈ºy,Niebieski,BMW
2,3,≈öredni,Zielony,Ford
3,4,Ma≈Çy,Czerwony,BMW
4,5,Du≈ºy,Niebieski,Toyota


## Metoda 1: Ordinal Encoding (Kodowanie PorzƒÖdkowe)

Stosujemy, gdy wiemy, ≈ºe **A < B < C**.
Je≈õli u≈ºyjemy tu losowych liczb, model zg≈Çupieje. Musimy mu powiedzieƒá wprost: Ma≈Çy to 0, ≈öredni to 1, Du≈ºy to 2.

Najlepszy spos√≥b? **Rƒôczny mapping** (s≈Çownik). Daje 100% kontroli.

In [3]:
df_ordinal = df.copy()

# Definiujemy naszƒÖ hierarchiƒô
kolejnosc_rozmiaru = {
    'Ma≈Çy': 0,
    '≈öredni': 1,
    'Du≈ºy': 2
}

# Mapujemy
df_ordinal['Rozmiar_Encoded'] = df_ordinal['Rozmiar'].map(kolejnosc_rozmiaru)

print("--- ORDINAL ENCODING ---")
print("Ma≈Çy=0, ≈öredni=1, Du≈ºy=2 (Zachowali≈õmy sens danych)")
display(df_ordinal[['Rozmiar', 'Rozmiar_Encoded']])

--- ORDINAL ENCODING ---
Ma≈Çy=0, ≈öredni=1, Du≈ºy=2 (Zachowali≈õmy sens danych)


Unnamed: 0,Rozmiar,Rozmiar_Encoded
0,Ma≈Çy,0
1,Du≈ºy,2
2,≈öredni,1
3,Ma≈Çy,0
4,Du≈ºy,2


## Metoda 2: Label Encoding (Pu≈Çapka Alfabetyczna)

`LabelEncoder` zamienia ka≈ºdy unikalny tekst na liczbƒô (0, 1, 2...).
Zazwyczaj robi to **alfabetycznie**.

**ZAGRO≈ªENIE:**
Je≈õli u≈ºyjesz tego dla koloru:
*   Czerwony -> 0
*   Niebieski -> 1
*   Zielony -> 2

Model matematyczny pomy≈õli: *"Aha! Zielony (2) jest dwa razy wa≈ºniejszy/wiƒôkszy ni≈º Niebieski (1)!"*. **To b≈ÇƒÖd logiczny**, kt√≥ry mo≈ºe zepsuƒá predykcjƒô (szczeg√≥lnie w Regresji i Sieciach Neuronowych). Drzewa decyzyjne (Random Forest) radzƒÖ sobie z tym nieco lepiej, ale wciƒÖ≈º jest to ryzykowne.

*Zasada: LabelEncoder stosuj g≈Ç√≥wnie do zmiennej celu (y), a nie do cech (X).*

In [4]:
df_label = df.copy()
le = LabelEncoder()

# Encodujemy 'Kolor'
df_label['Kolor_Encoded'] = le.fit_transform(df_label['Kolor'])

print("--- LABEL ENCODING ---")
print("Przypisa≈Ço liczby alfabetycznie: Czerwony(0), Niebieski(1), Zielony(2).")
print("Model mo≈ºe pomy≈õleƒá, ≈ºe Zielony > Czerwony. Uwaga na to!")
display(df_label[['Kolor', 'Kolor_Encoded']])

--- LABEL ENCODING ---
Przypisa≈Ço liczby alfabetycznie: Czerwony(0), Niebieski(1), Zielony(2).
Model mo≈ºe pomy≈õleƒá, ≈ºe Zielony > Czerwony. Uwaga na to!


Unnamed: 0,Kolor,Kolor_Encoded
0,Czerwony,0
1,Niebieski,1
2,Zielony,2
3,Czerwony,0
4,Niebieski,1


## Metoda 3: One-Hot Encoding (Bezpieczna Opcja)

Skoro nie mo≈ºemy nadaƒá kolorom liczb 0, 1, 2 (bo sugeruje to kolejno≈õƒá), to co zrobiƒá?
Tworzymy **osobnƒÖ kolumnƒô dla ka≈ºdego koloru**.

*   Czy_Czerwony: 1 lub 0
*   Czy_Zielony: 1 lub 0
*   Czy_Niebieski: 1 lub 0

**Zaleta:** Nie wprowadzamy fa≈Çszywej hierarchii.
**Wada:** Je≈õli masz kolumnƒô "Miasto" z 1000 miast, stworzysz 1000 nowych kolumn! (KlƒÖtwa Wymiarowo≈õci).

In [5]:
# U≈ºywamy pandas get_dummies (najprostszy spos√≥b na One-Hot)
# prefix='Kolor' doda nazwƒô przed kategoriƒÖ, ≈ºeby≈õmy siƒô nie pogubili
df_onehot = pd.get_dummies(df, columns=['Kolor'], prefix='Kolor', dtype=int)

print("--- ONE-HOT ENCODING ---")
print("Zamiast jednej kolumny 'Kolor', mamy trzy kolumny binarne.")
display(df_onehot)

--- ONE-HOT ENCODING ---
Zamiast jednej kolumny 'Kolor', mamy trzy kolumny binarne.


Unnamed: 0,ID_Klienta,Rozmiar,Marka,Kolor_Czerwony,Kolor_Niebieski,Kolor_Zielony
0,1,Ma≈Çy,Toyota,1,0,0
1,2,Du≈ºy,BMW,0,1,0
2,3,≈öredni,Ford,0,0,1
3,4,Ma≈Çy,BMW,1,0,0
4,5,Du≈ºy,Toyota,0,1,0


## Profesjonalny Tip: Pu≈Çapka Zmiennych Fikcyjnych (Dummy Variable Trap)

Zauwa≈º, ≈ºe w powy≈ºszym przyk≈Çadzie One-Hot Encoding stworzyli≈õmy **nadmiar informacji**.
Mamy kolory: Czerwony, Niebieski, Zielony.
Je≈õli wiemy, ≈ºe:
*   `Kolor_Czerwony` = 0
*   `Kolor_Niebieski` = 0

...to matematycznie wynika z tego wprost, ≈ºe **musi to byƒá Zielony!** Nie potrzebujemy kolumny `Kolor_Zielony`, ≈ºeby to wiedzieƒá.

W modelach liniowych (Regresja Liniowa, Logistyczna) ten nadmiar nazywa siƒô **wsp√≥≈Çliniowo≈õciƒÖ** i powoduje b≈Çƒôdy obliczeniowe. Dlatego stosujemy parametr `drop_first=True`, kt√≥ry usuwa pierwszƒÖ kolumnƒô. Ta usuniƒôta kolumna staje siƒô tzw. **bazƒÖ (punktem odniesienia)**.

In [6]:
# One-Hot Encoding z usuniƒôciem pierwszej kolumny (drop_first=True)
df_drop = pd.get_dummies(df, columns=['Kolor'], prefix='Kolor', drop_first=True, dtype=int)

print("--- ONE-HOT ENCODING (drop_first=True) ---")
print("Zauwa≈º, ≈ºe zniknƒÖ≈Ç 'Kolor_Czerwony'. Sta≈Ç siƒô on naszƒÖ bazƒÖ.")
print("Je≈õli Niebieski=0 i Zielony=0, to wiersz oznacza Czerwony.")
display(df_drop)

--- ONE-HOT ENCODING (drop_first=True) ---
Zauwa≈º, ≈ºe zniknƒÖ≈Ç 'Kolor_Czerwony'. Sta≈Ç siƒô on naszƒÖ bazƒÖ.
Je≈õli Niebieski=0 i Zielony=0, to wiersz oznacza Czerwony.


Unnamed: 0,ID_Klienta,Rozmiar,Marka,Kolor_Niebieski,Kolor_Zielony
0,1,Ma≈Çy,Toyota,0,0
1,2,Du≈ºy,BMW,1,0
2,3,≈öredni,Ford,0,1
3,4,Ma≈Çy,BMW,0,0
4,5,Du≈ºy,Toyota,1,0


## üß† Podsumowanie: Co wybraƒá?

| Sytuacja | Metoda | Przyk≈Çad |
| :--- | :--- | :--- |
| Dane majƒÖ rangƒô / kolejno≈õƒá | **Ordinal Encoding** | Wykszta≈Çcenie (Podst., ≈öred., Wy≈º.), Ocena (1-5) |
| Dane to kategorie (Marka, Miasto, Kolor) | **One-Hot Encoding** | Kolor Oczu, P≈Çeƒá, Wojew√≥dztwo |
| Kodujemy Target (y) w klasyfikacji | **Label Encoding** | Czy Kupil (Tak/Nie), Gatunek Irisa |
| Masz 5000 kategorii (np. Kod Pocztowy) | **Target Encoding** (Advanced)* | One-Hot by "zabi≈Ç" pamiƒôƒá RAM |

*\*Target Encoding to technika zaawansowana, gdzie zamieniamy kategoriƒô na ≈õredniƒÖ warto≈õƒá celu dla tej kategorii.*

## üìù Zadanie Domowe

Sprawd≈∫, dlaczego One-Hot Encoding mo≈ºe byƒá niebezpieczny dla pamiƒôci RAM.

**Zadanie:**
1. Stw√≥rz DataFrame z jednƒÖ kolumnƒÖ `Kod_Pocztowy`.
2. Wygeneruj w niej 10,000 losowych kod√≥w (u≈ºyj `np.random.randint(10000, 99999, 1000)`).
3. U≈ºyj `pd.get_dummies` na tej kolumnie.
4. Sprawd≈∫ wymiary nowej tabeli (`df.shape`). Ile kolumn powsta≈Ço?