### 1. Czym są Drzewa Decyzyjne?

Drzewo decyzyjne to model, który podejmuje decyzje, prowadząc do różnych wyników w oparciu o zestaw reguł. Struktura drzewa składa się z węzłów (gdzie podejmowane są decyzje) oraz liści (gdzie znajdują się końcowe wyniki). 

- **Węzeł korzeniowy**: Główny węzeł, od którego zaczyna się proces decyzyjny.
- **Węzły wewnętrzne**: Węzły, które reprezentują decyzje na podstawie cech.
- **Liście**: Węzły końcowe, które zawierają etykiety klas (w przypadku klasyfikacji) lub wartości (w przypadku regresji).

Bardziej szczegółowo:

- **węzeł główny (ang. node root)** – to pierwszy węzeł drzewa. Ten węzeł zawiera wszystkie dane wejściowe i od niego wychodzi pierwsze pytanie, które dzieli (ang. split) nasz zbór na podzbiory.
- **podział (ang. splitting)** – podział danych na dwa (najczęściej w algorytmach zaimplementowano drzewa binarne, ale mogą sie zdarzyć podziały na więcej niż dwa podzbiory) podzbiory na podstawie pytania.
- **przycinanie (ang. pruning)** – warto o tym wspomnieć, ponieważ jest to odwrotny proces do podziału. Polega na redukcji zbędnych węzłów w drzewie, dzięki czemu model staje się mniejszy i mniej podatny na przeuczenie się (ang. overfitting).
- **węzeł decyzyjny (ang. decision node)** – jest to węzeł powstały w wyniku podziału węzła nadrzędnego. Węzły te reprezentują pośrednie decyzje w drzewie.
- **rodzic i dzieci (ang. parent and children)** – w drzewie decyzyjnym węzeł podzielony na podwęzły nazywany jest rodzicem, a wychodzące z niego węzły podrzędne nazywane są dziećmi. Rodzic reprezentuje decyzję lub warunek, podczas gdy dzieci reprezentują potencjalne wyniki lub dalsze decyzje oparte na tym warunku.
- **węzeł liściowy (ang. leaf node)** – jest to ostatni węzeł (tzw. liść bez dzieci). Węzły liściowe nazywane są również węzłami końcowymi.
- **gałąź lub poddrzewo (ang. subtree)** – jest to podsekcja całego drzewa decyzyjnego. Reprezentuje określoną ścieżkę decyzji i wyników w drzewie.

![image.png](attachment:image.png)

### 2. Jak działają Drzewa Decyzyjne?

Drzewa decyzyjne działają poprzez zadawanie serii pytań dotyczących cech danych, co prowadzi do podziału zbioru danych na mniejsze podzbiory. Proces ten można podzielić na kilka kluczowych kroków:

1. **Wybór cechy do podziału**: Na każdym węźle algorytm wybiera cechę, która najlepiej dzieli dane na podstawie określonego kryterium (np. entropia, indeks Gini).
2. **Podział danych**: Dane są dzielone na podstawie wybranej cechy, co prowadzi do utworzenia nowych węzłów.
3. **Rekurencja**: Proces powtarza się dla każdego nowego węzła, aż do osiągnięcia określonego kryterium zatrzymania (np. maksymalna głębokość drzewa, minimalna liczba próbek w węźle).

![image.png](attachment:image.png)

#### Tutaj jakiś obrazek z podziałami

### 3. Kryteria Podziału

Dwa najczęściej stosowane kryteria podziału to:

- **Indeks Gini**: Mierzy czystość zbioru danych. Im niższa wartość Gini, tym bardziej jednorodny jest zbiór.
  
  $$
  Gini = 1 - \sum (p_i^2)
  $$

- **Entropia**: Mierzy niepewność w zbiorze danych. Im wyższa entropia, tym większa niepewność.

  $$
  Entropia = -\sum (p_i \log_2 p_i)
  $$

**Warto pamiętać**, że jeśli nieczystość Giniego dla dwóch węzłów podrzędnych nie jest niższa niż nieczystość Giniego dla węzła nadrzędnego, to algorytm przestanie szukać podziałów.

### Wady i zalety drzew decyzyjnych

#### Zalety:
- **Interpretowalność**: Łatwo zrozumieć, jak model podejmuje decyzje. drzewa decyzyjne generują proste reguły decyzyjne, które są łatwe do zrozumienia i interpretacji, nawet dla osób bez specjalistycznej wiedzy z zakresu analizy danych. Bardzo prosto możemy je zwizualizować i to jest moim zdaniem największa ich zaleta (feature importance).
- **Czas liczenia** – w porównaniu do innych algorytmów uczenia maszynowego, takich jak uczenie ze wzmocnieniem czy sieci neuronowe, drzewa decyzyjne wymagają niewielkiego nakładu obliczeniowego podczas trenowania i klasyfikacji.
- **Wymaga niewielkiego przygotowania danych** – drzewa decyzyjne radzą sobie ze zmiennymi ciągłymi, co eliminuje potrzebę tworzenia zmiennych fikcyjnych lub normalizacji danych.
- **Brak potrzeby normalizacji danych**: Drzewa decyzyjne nie wymagają skalowania cech.
- **Odporność na współliniowość** – drzewa decyzyjne są odporne na współliniowość, co oznacza, że mogą efektywnie radzić sobie z danymi, w których pewne cechy są powiązane.
- **Odporność na obserwacje odstające** – drzewa decyzyjne są stosunkowo odporne na obserwacje odstające, co oznacza, że pojedyncze nietypowe punkty danych nie wpływają znacząco na ich wydajność.
- **Automatyczne modelowanie nieliniowych zależności i interakcji między zmiennymi** – jest to jedna z ich głównych zalet w porównaniu do bardziej prostych modeli, takich jak regresja liniowa, która zakłada liniowość relacji między zmiennymi. Drzewa decyzyjne dzielą przestrzeń cech na prostokątne regiony przez kolejne podziały na podstawie wartości cech. Te podziały pozwalają na modelowanie złożonych, nieliniowych relacji między zmiennymi wejściowymi a zmienną docelową.
- **Selekcja zmiennych** – drzewa dokonują selekcji zmiennych, dzięki czemu można ich użyć nawet w sytuacji, gdy jest ich więcej, niż obserwacji. Wynika to z faktu, że algorytm iteracyjnie wybiera zmienne (cechy), które najlepiej dzielą dane na mniejsze podzbiory. W każdym węźle drzewa wybierana jest tylko jedna zmienna, co oznacza, że drzewo nie musi używać wszystkich dostępnych zmiennych w każdym węźle ani nawet w całym drzewie.

- **Obsługuje zarówno dane numeryczne, jak i kategoryczne**.

#### Wady:
- **Przeuczenie**: Drzewa decyzyjne mogą łatwo dopasować się do szumu w danych treningowych, co może prowadzić do przetrenowania modelu. Przetrenowanie może powodować zbyt duże dopasowanie do danych treningowych i słabą zdolność generalizacji do nowych danych. Na szczęście znamy metody, aby sobie z tym radzić :)
- **Wrażliwość na zmiany w danych**: Małe zmiany w danych mogą prowadzić do dużych zmian w strukturze drzewa. To może powodować **brak stabilności modelu**.
- **Zbyt prosty model** – ponieważ jest to prosty algorytm, a większość problemów, z którymi się stykamy, nie jest tak oczywista, to nie jest w stanie uchwycić wystarczającej złożoności danych. Dlatego bardzo często algorytmy uczenia zespołowego czy lasy losowe dają lepsze wyniki, ponieważ potrafią uchwycić większą złożoność danych poprzez agregację wielu słabych klasyfikatorów... Ale żeby przejść dalej, musimy wiedzieć, jak działa jedno drzewo decyzyje :)

#### Z praktyki:
- często moim pierwszym modelem benchmarkowym w projekcie jest drzewo decyzyjne / las losowy (przez szereg ww. zalet)