## Zadanie: Implementacja Oblique Decision Tree

Celem zadania jest stworzenie oblique decision tree do klasyfikacji danych. Oblique decision trees różnią się od tradycyjnych drzew decyzyjnych tym, że używają kombinacji wielu cech do podziału węzłów, co może prowadzić do bardziej precyzyjnych klasyfikacji.

### Kroki do wykonania:

1. **Zdefiniuj klasę `ObliqueNode`**, która będzie reprezentować węzeł drzewa oblique decision tree.
2. **Zaimplementuj funkcję do budowy drzewa** na podstawie zdefiniowanych danych treningowych.
3. **Stwórz funkcję `classify`**, która będzie przechodzić przez drzewo i klasyfikować dane na podstawie podanych cech.
4. **Przetestuj drzewo na zbiorze danych** (np. Iris dataset).
5. **(Opcjonalnie) Dodaj funkcję do wizualizacji drzewa**.

### Przykładowy kod startowy:

```python
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

class ObliqueNode:
    def __init__(self, weights=None, threshold=None, left=None, right=None, value=None):
        self.weights = weights  # Wagi dla kombinacji cech
        self.threshold = threshold  # Wartość progowa dla kombinacji
        self.left = left  # Lewe poddrzewo
        self.right = right  # Prawe poddrzewo
        self.value = value  # Wartość liścia (jeśli jest to liść)

def build_oblique_tree(X, y):
    # Implementacja budowy drzewa oblique decision tree
    # Przykład uproszczony: użycie PCA do redukcji wymiarów jako proxy dla kombinacji cech
    from sklearn.decomposition import PCA
    pca = PCA(n_components=1)
    X_transformed = pca.fit_transform(X)
    
    # Podział danych na podstawie pierwszej składowej głównej
    threshold = np.median(X_transformed)
    left_indices = X_transformed <= threshold
    right_indices = X_transformed > threshold
    
    if len(np.unique(y[left_indices])) == 1:
        left_node = ObliqueNode(value=np.unique(y[left_indices]))
    else:
        left_node = build_oblique_tree(X[left_indices], y[left_indices])
    
    if len(np.unique(y[right_indices])) == 1:
        right_node = ObliqueNode(value=np.unique(y[right_indices]))
    else:
        right_node = build_oblique_tree(X[right_indices], y[right_indices])
    
    return ObliqueNode(weights=pca.components_, threshold=threshold, left=left_node, right=right_node)

def classify(node, sample):
    if node.value is not None:
        return node.value
    
    feature_value = np.dot(sample, node.weights)
    
    if feature_value <= node.threshold:
        return classify(node.left, sample)
    else:
        return classify(node.right, sample)

# Załaduj dane Iris
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=42)

# Budowa drzewa oblique decision tree
oblique_tree = build_oblique_tree(X_train, y_train)

# Klasyfikacja i ocena modelu
predictions = [classify(oblique_tree, sample) for sample in X_test]
accuracy = accuracy_score(y_test, predictions)
print(f'Accuracy: {accuracy}')
```

### Wskazówki:

1. Zastanów się nad implementacją bardziej zaawansowanych metod podziału węzłów, np. używając optymalizacji do znalezienia najlepszej kombinacji cech.
2. Rozważ dodanie parametrów kontrolujących głębokość drzewa lub minimalną liczbę próbek w liściu.
3. Pomyśl o implementacji metody przycinania drzewa (pruning) w celu uniknięcia przeuczenia.
4. Spróbuj porównać wydajność swojego oblique decision tree z tradycyjnym drzewem decyzyjnym z biblioteki scikit-learn.

To zadanie pozwoli na głębsze zrozumienie zaawansowanych koncepcji związanych z drzewami decyzyjnymi oraz pokaże zastosowanie technik takich jak PCA w kontekście tworzenia bardziej złożonych modeli klasyfikacyjnych.

In [None]:
# Tutaj możesz zacząć implementację
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Zdefiniuj klasę ObliqueNode

# Zaimplementuj funkcję build_oblique_tree

# Zaimplementuj funkcję classify

# Załaduj dane i przetestuj swoje drzewo


In [None]:
# Odpowiedź

import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.decomposition import PCA

class ObliqueNode:
    def __init__(self, weights=None, threshold=None, left=None, right=None, value=None):
        self.weights = weights  # Wagi dla kombinacji cech
        self.threshold = threshold  # Wartość progowa dla kombinacji
        self.left = left  # Lewe poddrzewo
        self.right = right  # Prawe poddrzewo
        self.value = value  # Wartość liścia (jeśli jest to liść)

def build_oblique_tree(X, y, max_depth=5):
    if max_depth == 0 or len(np.unique(y)) == 1:
        return ObliqueNode(value=np.argmax(np.bincount(y)))
    
    pca = PCA(n_components=1)
    X_transformed = pca.fit_transform(X)
    
    threshold = np.median(X_transformed)
    left_indices = X_transformed.ravel() <= threshold
    right_indices = X_transformed.ravel() > threshold
    
    if np.all(left_indices) or np.all(right_indices):
        return ObliqueNode(value=np.argmax(np.bincount(y)))
    
    left_node = build_oblique_tree(X[left_indices], y[left_indices], max_depth-1)
    right_node = build_oblique_tree(X[right_indices], y[right_indices], max_depth-1)
    
    return ObliqueNode(weights=pca.components_[0], threshold=threshold, left=left_node, right=right_node)

def classify(node, sample):
    if node.value is not None:
        return node.value
    
    feature_value = np.dot(sample, node.weights)
    
    if feature_value <= node.threshold:
        return classify(node.left, sample)
    else:
        return classify(node.right, sample)

# Załaduj dane Iris
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=42)

# Budowa drzewa oblique decision tree
oblique_tree = build_oblique_tree(X_train, y_train)

# Klasyfikacja i ocena modelu
predictions = [classify(oblique_tree, sample) for sample in X_test]
accuracy = accuracy_score(y_test, predictions)
print(f'Accuracy: {accuracy:.4f}')

# Porównanie z tradycyjnym drzewem decyzyjnym
from sklearn.tree import DecisionTreeClassifier
dt = DecisionTreeClassifier(random_state=42)
dt.fit(X_train, y_train)
dt_predictions = dt.predict(X_test)
dt_accuracy = accuracy_score(y_test, dt_predictions)
print(f'Decision Tree Accuracy: {dt_accuracy:.4f}')
