# Proyecto práctico: árbol de decisión y random forest con scikit-learn

In [1]:
#Importamos las librerias principales
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns 

Utilizaremos el **Car Evaluation Data Set** de Kaggle: https://www.kaggle.com/datasets/elikplim/car-evaluation-data-set

In [2]:
#Cargamos dataset a utilizar
df_car = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/car/car.data', header=None)
df_car.head()

Unnamed: 0,0,1,2,3,4,5,6
0,vhigh,vhigh,2,2,small,low,unacc
1,vhigh,vhigh,2,2,small,med,unacc
2,vhigh,vhigh,2,2,small,high,unacc
3,vhigh,vhigh,2,2,med,low,unacc
4,vhigh,vhigh,2,2,med,med,unacc


## Análisis exploratorio de datos

In [3]:
#Analizamos el shape del objeto
df_car.shape

(1728, 7)

In [4]:
#Como podemos observar vamos a renombrar las columnas de manera correcta
col_names = ['buyin', 'maint', 'doors', 'persons', 'lug_boot', 'safety', 'class']

df_car.columns = col_names

df_car.head()

Unnamed: 0,buyin,maint,doors,persons,lug_boot,safety,class
0,vhigh,vhigh,2,2,small,low,unacc
1,vhigh,vhigh,2,2,small,med,unacc
2,vhigh,vhigh,2,2,small,high,unacc
3,vhigh,vhigh,2,2,med,low,unacc
4,vhigh,vhigh,2,2,med,med,unacc


In [5]:
#Visualizamos los tipos de datos
df_car.dtypes

buyin       object
maint       object
doors       object
persons     object
lug_boot    object
safety      object
class       object
dtype: object

Primer resumen de los datos:
* Hay 7 variables en el conjunto de datos. Todas las variables son de tipo de datos categóricos.
* Estos se dan por compra, mantenimiento, puertas, personas, lug_boot, seguridad y clase.
* La clase es la variable de destino o target.

In [6]:
# Exploremos un poco mas la variable target
df_car['class'].value_counts()

unacc    1210
acc       384
good       69
vgood      65
Name: class, dtype: int64

In [7]:
#Verificamos valores missings
df_car.isnull().sum()

buyin       0
maint       0
doors       0
persons     0
lug_boot    0
safety      0
class       0
dtype: int64

El dataset no contiene valores faltantes

## Procesamiento de datos

In [8]:
#Separamos en X e y

# Variables predictoras
X = df_car.drop(['class'], axis=1)

# Variable target
y = df_car['class']

In [10]:
# Variables features
X.head()

Unnamed: 0,buyin,maint,doors,persons,lug_boot,safety
0,vhigh,vhigh,2,2,small,low
1,vhigh,vhigh,2,2,small,med
2,vhigh,vhigh,2,2,small,high
3,vhigh,vhigh,2,2,med,low
4,vhigh,vhigh,2,2,med,med


In [11]:
# Variable predictora
y.head()

0    unacc
1    unacc
2    unacc
3    unacc
4    unacc
Name: class, dtype: object

In [12]:
#Importamos las librerias necesarias para la creacion del modelo
from sklearn.model_selection import train_test_split

#30% para test y 70% para train
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.30, random_state=42)

El 42 es una "semilla". Su principal razón es para que si quieres replicar tu código, te salgan los mismos resultados. ¿Por qué? Porque cuando separa tus datos entre datos de entrenamiento y datos de prueba, lo hace de una manera aleatoria, entonces si vuelves a ejecutar el código sin una semilla, cada vez te separará los datos de maneras distintas. En cambio, todas las veces que lo haga con la semilla "42", lo hará igual. Entonces el número de la semilla es irrelevante, podría ser cualquiera que tú quieras (00000, 42, 3, etc.), lo importante es que si usas el mismo número, tendrás los mismos resultados

In [13]:
#Veamos que obtuvimos
X_train.shape, X_test.shape

((1209, 6), (519, 6))

In [14]:
y_train.shape, y_test.shape

((1209,), (519,))

In [15]:
#Veamos que tenemos. Por ejemplo, en X_train
X_train.head()

Unnamed: 0,buyin,maint,doors,persons,lug_boot,safety
1178,med,med,5more,4,big,high
585,high,high,3,more,small,low
1552,low,med,3,4,med,med
1169,med,med,5more,2,big,high
1033,med,high,4,2,big,med


In [16]:
X_train.dtypes

buyin       object
maint       object
doors       object
persons     object
lug_boot    object
safety      object
dtype: object

## Entrenamiento de modelo de clasificación con árbol de decisión

In [None]:
#Importante: todos nuestros tipos de datos son object, realizamos una transformacion


In [None]:
#Verificamos la transformacion


In [None]:
#Importar árbol de decisión

#Creacion del modelo


In [None]:
#Entrenamiento


In [None]:
#Calculo de las predicciones en Train y Test


## Evaluación de modelo de clasificación con árbol de decisión

In [None]:
#Calculo de metricas 


#Calculo el accuracy en Train


#Calculo el accuracy en Test


In [None]:
#Verificamos el feature importances


## Entrenamiento de modelo de clasificación con random forest

In [None]:
#Importar random forest


In [None]:
#Calculo de las predicciones en Train y Test


## Evaluación de modelo de clasificación con random forest

In [None]:
#Calculo de metricas 


#Calculo el accuracy en Train


#Calculo el accuracy en Test


#Importante: podriamos reducir el numero de estimadores para disminuir el sobreajuste del modelo.

In [None]:
# Visualizacion de las feature importantes


In [None]:
#Grafico de barras


In [None]:
# Matriz de confusion del RF


In [None]:
#RF
