# Librerias

In [25]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
import category_encoders as ce

# Desicion Tress:

## ¿Qué es un decision tree?

Un árbol de desición es una herramienta tanto de clasificación como de regresión de datos con el fin de realizar predicciónes de una variable en función de otras. La estructura básica de un árbol de desición es la de un condicional $\textbf{``if - else"}$ concatenado con otros $\textbf{``if - else"}$.  

Suponga una estructura de datos como la siguiente

![1](/root/Platzi/CurArbDec/images/1.png)

donde se quiere crear un algoritmo que clasifique los 50 datos rojos y los 50 azules. Un árbol de desición tiene la siguiente estructura: 

![2](/root/Platzi/CurArbDec/images/2.png)  

![3](/root/Platzi/CurArbDec/images/3.png)

La creación de un árbol de desición para predecir $y$ en función de $x_1, ..., x_n$ consiste en encontrar la variable $x_k$ que mas influye en el valor de $y(x_1,...,x_n)$, para luego hacer encontrar la variable que mas influye $x_{k_{a}}$ que mas influye en $y(x_1, ..., x_k=a,...,x_n)$ para una bifurcación aproíada $a$ de los valores que puede tomar $x_k$, asignando en cada paso la probabilidad de la distribución tomada de los datos.

## Exploración de datos

In [14]:
df_car = pd.read_csv('/root/Platzi/CurArbDec/data/car_evaluation.csv')

Es un dataset de carros con variables precio, costo de mantenimiento, # puertas, # pasajeros, tamaño, seguridad y el estado del carro

In [15]:
df_car

Unnamed: 0,vhigh,vhigh.1,2,2.1,small,low,unacc
0,vhigh,vhigh,2,2,small,med,unacc
1,vhigh,vhigh,2,2,small,high,unacc
2,vhigh,vhigh,2,2,med,low,unacc
3,vhigh,vhigh,2,2,med,med,unacc
4,vhigh,vhigh,2,2,med,high,unacc
...,...,...,...,...,...,...,...
1722,low,low,5more,more,med,med,good
1723,low,low,5more,more,med,high,vgood
1724,low,low,5more,more,big,low,unacc
1725,low,low,5more,more,big,med,good


In [16]:
df_car.columns = ['buying', 'maint', 'doors', 'persons', 'lug_boot', 'safety', 'class']

In [17]:
df_car.dtypes

buying      object
maint       object
doors       object
persons     object
lug_boot    object
safety      object
class       object
dtype: object

In [18]:
df_car['class'].value_counts()

class
unacc    1209
acc       384
good       69
vgood      65
Name: count, dtype: int64

In [19]:
df_car.isnull().sum()

buying      0
maint       0
doors       0
persons     0
lug_boot    0
safety      0
class       0
dtype: int64

## Preparación de los datos

In [20]:
X = df_car.drop('class', axis=1)
y = df_car['class']

In [22]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

## "Entrenamiento" del árbol de desición

In [29]:
pd.set_option('future.no_silent_downcasting', True)

In [30]:
encoder = ce.OrdinalEncoder(cols=['buying', 'maint', 'doors', 'persons', 'lug_boot', 'safety'])
X_train = encoder.fit_transform(X_train)
X_test = encoder.transform(X_test)