## Döntési fák
A projekt teljes futtatásához szükség van a dtreeviz telepítésére.
Anaconda Powershell Prompt --> "pip install dtreeviz"

In [None]:
import pandas as pd
import numpy as np 

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.metrics import recall_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import export_graphviz
from sklearn import preprocessing
from sklearn import tree

from dtreeviz.trees import dtreeviz

import matplotlib.pyplot as plt

import pydotplus # conda install pydotplus

import warnings
warnings.filterwarnings('ignore')

cm = 'viridis' # a diagramok színei globális változó

### Adatok ábrázolásához segéd metódus: ponthálóvá alakítás

In [None]:
def get_grid(data):
    x_min, x_max = data.iloc[:, 0].min() - 1, data.iloc[:, 0].max() + 1
    y_min, y_max = data.iloc[:, 1].min() - 1, data.iloc[:, 1].max() + 1
    return np.meshgrid(np.arange(x_min, x_max, 1), np.arange(y_min, y_max, 1))

### Modell ábrázolásához segéd metódus

In [None]:
def scatter_grid(features, clf_tree):
    xx, yy = get_grid(x_train[features])
    predicted = clf_tree.predict(np.c_[xx.ravel(), yy.ravel()]).reshape(xx.shape)
    
    le = preprocessing.LabelEncoder()
    
    for i in range(len(predicted)):
        predicted[i] = le.fit_transform(predicted[i])
    
    predicted = predicted.astype(np.float64)
    
    fig, ax = plt.subplots(figsize=(8,8))
    ax.pcolormesh(xx, yy, predicted, cmap=cm)
    plt.scatter(x_train.iloc[:, 0], x_train.iloc[:, 1], c=le.fit_transform(y_train), s=100, 
                cmap=cm, edgecolors='black', linewidth=1.5);

### A döntési fa ábrázolásához metódus

In [None]:
def tree_graph_to_png(dtree, feature_names, figs, fonts):
    plt.figure(figsize=figs)
    tree.plot_tree(dtree, filled=True, rounded=True, feature_names = feature_names, fontsize=fonts)
    plt.show()

### Adatok beolvasása

In [None]:
df = pd.read_csv('halak.csv', header=0, sep=';', encoding='ISO-8859-2')

X = df[['Hossz1', 'Magassag']] # Független változók
Y = df['Faj'] # Célváltozó

x_train, x_val, y_train, y_val = train_test_split(X, Y, test_size=0.2, random_state=42)

le = preprocessing.LabelEncoder() # Címkekódoló a fajták számmal való reprezentálásához

plt.figure(figsize=(8,8))
plt.title("Halak fajtái tulajdonságaik alapján", size=20)
plt.scatter(X.iloc[:,0], X.iloc[:,1], c=le.fit_transform(Y), cmap=cm)
plt.xlabel("Hossz", size=15)
plt.ylabel("Magasság", size=15)
plt.show()

### Döntési fa modell tanítása

In [None]:
clf_tree_2var = DecisionTreeClassifier(criterion='gini', max_depth=5, random_state=42)

clf_tree_2var.fit(x_train, y_train)

scatter_grid(['Hossz1','Magassag'], clf_tree_2var)

### Kép generálása a modellből és mentés .png-ként

In [None]:
tree_graph_to_png(dtree=clf_tree_2var, feature_names=x_train.columns, figs=(20,10), fonts=12)

### Modell vizualizálása másképpen 

In [None]:
Xa = np.array(X)

le = preprocessing.LabelEncoder()
y_le = le.fit_transform(Y)

clfx = DecisionTreeClassifier(criterion='gini', max_depth=5, random_state=42)

clfx.fit(Xa, y_le)

viz = dtreeviz(clfx, Xa, y_le, target_name="target", feature_names=list(X.columns), class_names=list(set(Y)))

viz

### Predikció

In [None]:
y_pred = clf_tree_2var.predict(x_val)

# Egy egyszerű DataFrame a célváltozó értékeinek megtekintésére az egyes kísérletekben
df_pred = pd.DataFrame({'original': y_val, 
                       'predicted': y_pred})

df_pred['match'] = [1 if x==y else 0 for x,y in zip(df_pred['original'], df_pred['predicted'])]

print("Accuracy: ", accuracy_score(y_val, y_pred))
df_pred.reset_index().drop('index', axis=1, inplace=False)

### Mégegy próba, több változóval
Ezúttal próbáljuk meg az összes rendelkezésre álló változót felvenni a predikcióba, és nézzük meg, pontosabb lesz-e!

In [None]:
varlst = ['Suly', 'Hossz1', 'Hossz2', 'Hossz3', 'Magassag', 'Szelesseg']

X = df[varlst] # Független változók
Y = df['Faj'] # Célváltozó

x_train, x_val, y_train, y_val = train_test_split(X, Y, test_size=0.2, random_state=42)

clf_tree_multivar = DecisionTreeClassifier(criterion='gini', max_depth=10, random_state=42)

clf_tree_multivar.fit(x_train, y_train)

y_pred_tree = clf_tree_multivar.predict(x_val)

df_pred['tree_pred'] = y_pred_tree

df_pred['tree_match'] = [1 if x==y else 0 for x,y in zip(df_pred['original'], 
                                                         df_pred['tree_pred'])]

print("Accuracy:", accuracy_score(y_val, y_pred_tree))

In [None]:
tree_graph_to_png(dtree=clf_tree_multivar, feature_names=varlst, figs=(40,30), fonts=12)

In [None]:
df_pred