# **Random Forest**  
### *Las losowy*

---

## **English**

Random Forest is an ensemble learning method that combines multiple decision trees to create a more robust and accurate model. It uses the principles of bagging (bootstrap aggregating) and random feature selection to reduce overfitting and improve generalization.

### **Key Concepts**

1. **Bootstrap Sampling**: Each tree is trained on a random subset of the data (with replacement)
2. **Random Feature Selection**: At each split, only a random subset of features is considered
3. **Voting/Averaging**: Final prediction is made by majority vote (classification) or averaging (regression)

### **Algorithm Steps**

1. **Bootstrap**: Create multiple bootstrap samples from the training data
2. **Train Trees**: Train a decision tree on each bootstrap sample
3. **Random Features**: For each split, consider only a random subset of features
4. **Aggregate**: Combine predictions from all trees

### **Advantages**

- **Reduced Overfitting**: Ensemble approach reduces variance
- **Feature Importance**: Built-in feature importance calculation
- **Handles Missing Values**: Can work with incomplete data
- **Parallel Training**: Trees can be trained independently

### **Hyperparameters**

- `n_estimators`: Number of trees in the forest
- `max_depth`: Maximum depth of individual trees
- `max_features`: Number of features to consider at each split
- `min_samples_split`: Minimum samples required to split a node

---

## **Polish**

Las losowy to metoda uczenia zespołowego, która łączy wiele drzew decyzyjnych w celu stworzenia bardziej odpornego i dokładnego modelu. Wykorzystuje zasady baggingu (bootstrap aggregating) i losowego wyboru cech, aby zmniejszyć przeuczenie i poprawić generalizację.

### **Kluczowe pojęcia**

1. **Próbkowanie bootstrap**: Każde drzewo jest trenowane na losowym podzbiorze danych (z powtórzeniami)
2. **Losowy wybór cech**: W każdym podziale rozważany jest tylko losowy podzbiór cech
3. **Głosowanie/Uśrednianie**: Końcowa predykcja jest tworzona przez głosowanie większości (klasyfikacja) lub uśrednianie (regresja)

### **Kroki algorytmu**

1. **Bootstrap**: Tworzenie wielu próbek bootstrap z danych treningowych
2. **Trenowanie drzew**: Trenowanie drzewa decyzyjnego na każdej próbce bootstrap
3. **Losowe cechy**: Dla każdego podziału rozważenie tylko losowego podzbioru cech
4. **Agregacja**: Łączenie predykcji ze wszystkich drzew

### **Zalety**

- **Zmniejszone przeuczenie**: Podejście zespołowe redukuje wariancję
- **Ważność cech**: Wbudowane obliczanie ważności cech
- **Obsługuje brakujące wartości**: Może pracować z niepełnymi danymi
- **Równoległe trenowanie**: Drzewa mogą być trenowane niezależnie


In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split, validation_curve
from sklearn.metrics import accuracy_score, classification_report
from sklearn.datasets import make_classification, load_wine
import seaborn as sns

# Generate a complex classification dataset
# Generowanie złożonego zbioru danych klasyfikacyjnych
np.random.seed(42)
X, y = make_classification(n_samples=1000, n_features=20, n_informative=10, 
                          n_redundant=10, n_classes=3, random_state=42)

# Split the data
# Podział danych
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Dataset shape | Kształt zbioru danych: {X.shape}")
print(f"Number of classes | Liczba klas: {len(np.unique(y))}")
print(f"Training set size | Rozmiar zbioru treningowego: {X_train.shape[0]}")
print(f"Test set size | Rozmiar zbioru testowego: {X_test.shape[0]}")

# Compare single decision tree vs Random Forest
# Porównanie pojedynczego drzewa decyzyjnego z lasem losowym

# Single Decision Tree
dt = DecisionTreeClassifier(random_state=42)
dt.fit(X_train, y_train)
dt_pred = dt.predict(X_test)
dt_accuracy = accuracy_score(y_test, dt_pred)

# Random Forest
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)
rf_pred = rf.predict(X_test)
rf_accuracy = accuracy_score(y_test, rf_pred)

print(f"\nDecision Tree Accuracy | Dokładność drzewa decyzyjnego: {dt_accuracy:.3f}")
print(f"Random Forest Accuracy | Dokładność lasu losowego: {rf_accuracy:.3f}")
print(f"Improvement | Poprawa: {rf_accuracy - dt_accuracy:.3f}")

print(f"\nRandom Forest Details | Szczegóły lasu losowego:")
print(f"Number of trees | Liczba drzew: {rf.n_estimators}")
print(f"Number of features considered per split | Liczba cech na podział: {rf.max_features}")
print(f"Out-of-bag score | Wynik out-of-bag: {rf.oob_score_:.3f}" if hasattr(rf, 'oob_score_') else "OOB not calculated")


Dataset shape | Kształt zbioru danych: (1000, 20)
Number of classes | Liczba klas: 3
Training set size | Rozmiar zbioru treningowego: 800
Test set size | Rozmiar zbioru testowego: 200

Decision Tree Accuracy | Dokładność drzewa decyzyjnego: 0.660
Random Forest Accuracy | Dokładność lasu losowego: 0.805
Improvement | Poprawa: 0.145

Random Forest Details | Szczegóły lasu losowego:
Number of trees | Liczba drzew: 100
Number of features considered per split | Liczba cech na podział: sqrt
OOB not calculated
