# Árboles de Decisión (Naive Bayes) (Python)
---

<img src='../Imagenes/arbol.png' style='width:20%;height:20%;float:left;margin-right:20px'>
Los árboles de decisión para la clasificación funcionan igual que los vistos para regresión.

La única diferencia es que el contenido de los nodos hojas son categorías en lugar de valores discretos

## Escenario del problema
---

<img src='../Imagenes/comprar.jpg' style='width:15%;height:15%;float:left;margin-right:20px'>
Una empresa de coches ha sacado un nuevo modelo al mercado. Le ha preguntado a una re  
¡Vamos a ello!

In [1]:
# 1. Importar librerías
!pip install BeautifulTable
import numpy as np
import pandas as pd
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import confusion_matrix, classification_report

import matplotlib.pyplot as plt
from beautifultable import BeautifulTable as BT

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from google.colab import drive
drive.mount('/content/drive')


Collecting BeautifulTable
  Downloading beautifultable-1.1.0-py2.py3-none-any.whl (28 kB)
Installing collected packages: BeautifulTable
Successfully installed BeautifulTable-1.1.0
Mounted at /content/drive


In [2]:
# 2. Importar datos
datos = pd.read_csv('/content/drive/My Drive/Colab Notebooks/Credit Scoring.csv', encoding= 'latin1', sep=";")
datos.head(10)
print(datos.columns)
datos
datos = datos.drop(columns=['Unnamed: 5', 'Unnamed: 6'])

Index(['age', 'job', 'marital', 'education', 'default', 'Unnamed: 5',
       'Unnamed: 6'],
      dtype='object')


In [3]:
# 3. Crear variable y respuesta
from sklearn.preprocessing import LabelEncoder

# Suponiendo que 'datos' es tu DataFrame original.
# Crear una copia del DataFrame para no modificar los datos originales.
df_encoded = datos.copy()

# Crear una instancia de LabelEncoder
encoder = LabelEncoder()

# Lista de columnas categóricas para codificar
categorical_columns = ['job', 'marital', 'education']

# Aplicar LabelEncoder a cada columna categórica
for column in categorical_columns:
    df_encoded[column] = encoder.fit_transform(df_encoded[column])

# Mapear la columna 'default' a valores 0 y 1
df_encoded['default'] = df_encoded['default'].map({'no': 0, 'yes': 1})

# Ahora 'df_encoded' está listo para ser utilizado en modelos de machine learning.

df_encoded

Unnamed: 0,age,job,marital,education,default
0,30,10,1,0,0
1,33,7,1,1,0
2,35,4,2,2,0
3,30,4,1,2,0
4,59,1,1,1,0
...,...,...,...,...,...
4427,33,7,1,1,0
4428,57,6,1,2,1
4429,57,9,1,1,0
4430,28,1,1,1,0


In [5]:
# Dividir los datos en X e y
X = datos.drop('default', axis=1)  # Eliminar la columna objetivo de los datos
y = datos['default']  # La variable objetivo
X_encoded = pd.get_dummies(X, columns=['job', 'marital', 'education'], drop_first=True)

# División de los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)

# Escalado de la columna 'age' si es necesario
scaler = StandardScaler()
X_train['age'] = scaler.fit_transform(X_train[['age']])
X_test['age'] = scaler.transform(X_test[['age']])

In [6]:
# 4. Variables categóricas! --> Encode
'''
from sklearn.preprocessing import LabelEncoder
enconder = LabelEncoder()
X[:,0] = enconder.fit_transform(X[:,0])
'''
dataframe = pd.DataFrame(X)
dataframe.head()

Unnamed: 0,age,job,marital,education
0,30,unemployed,married,primary
1,33,services,married,secondary
2,35,management,single,tertiary
3,30,management,married,tertiary
4,59,blue-collar,married,secondary


In [8]:
# 4. Separar en Entranamiento y Validación
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.25, random_state=0)
print('La forma de X_train es: ', X_train.shape)
print('La forma de y_train es: ', y_train.shape)
print('La forma de X_test es: ', X_test.shape)
print('La forma de y_test es: ', y_test.shape)

La forma de X_train es:  (3324, 17)
La forma de y_train es:  (3324,)
La forma de X_test es:  (1108, 17)
La forma de y_test es:  (1108,)


In [9]:
# Escalado de la columna 'age' si es necesario
scaler = StandardScaler()
X_train['age'] = scaler.fit_transform(X_train[['age']])
X_test['age'] = scaler.transform(X_test[['age']])

In [10]:
# 6. Ajustar el Modelo
from sklearn.tree import DecisionTreeClassifier as Arbol
# Instanciar el modelo de regresión logística
logistic_model = LogisticRegression(max_iter=1000)  # Aumenta max_iter si la convergencia no se alcanza

# Entrenar el modelo de regresión logística
logistic_model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
logistic_predictions = logistic_model.predict(X_test)

# Instanciar el modelo de árbol de decisión
tree_model = DecisionTreeClassifier(random_state=42)

# Entrenar el modelo de árbol de decisión
tree_model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
tree_predictions = tree_model.predict(X_test)

# Evaluar el modelo de regresión logística
print("Evaluación del modelo de regresión logística:")
print(classification_report(y_test, logistic_predictions))
print(confusion_matrix(y_test, logistic_predictions))

# Evaluar el modelo de árbol de decisión
print("\nEvaluación del modelo de árbol de decisión:")
print(classification_report(y_test, tree_predictions))
print(confusion_matrix(y_test, tree_predictions))

Evaluación del modelo de regresión logística:
              precision    recall  f1-score   support

          no       0.98      1.00      0.99      1087
         yes       0.00      0.00      0.00        21

    accuracy                           0.98      1108
   macro avg       0.49      0.50      0.50      1108
weighted avg       0.96      0.98      0.97      1108

[[1087    0]
 [  21    0]]

Evaluación del modelo de árbol de decisión:
              precision    recall  f1-score   support

          no       0.98      0.99      0.98      1087
         yes       0.07      0.05      0.06        21

    accuracy                           0.97      1108
   macro avg       0.52      0.52      0.52      1108
weighted avg       0.96      0.97      0.97      1108

[[1073   14]
 [  20    1]]


  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


In [11]:
# 8. Crear la Matriz de Confusión para evaluar la clasificación realizada para el árbol
from sklearn.metrics import confusion_matrix as CM
cm = CM(y_test, tree_predictions)
cm

array([[1073,   14],
       [  20,    1]])

In [12]:
# 9. Visualizar los resultados
# 9.1 Conjunto de entramiento
from matplotlib.colors import ListedColormap as Colors
X_set, y_set = X_train, y_train
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
                     np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
plt.contourf(X1, X2, clasificador.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
             alpha = 0.5, cmap = Colors(('red', 'green')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
for i, j in enumerate(np.unique(y_set)):
    plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],
                c = Colors(('red', 'green'))(i), label = j, s=10)
plt.title('Clasificación con SVM (Conjunto de entrenamiento)')
plt.xlabel('Edad')
plt.ylabel('Salario')
plt.show()

# 9.2 Conjunto de validación
from matplotlib.colors import ListedColormap as Colors
X_set, y_set = X_test, y_test
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
                     np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
plt.contourf(X1, X2, clasificador.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
             alpha = 0.5, cmap = Colors(('red', 'green')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
for i, j in enumerate(np.unique(y_set)):
    plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],
                c = Colors(('red', 'green'))(i), label = j, s=10)
plt.title('Clasificación con SVM (Conjunto de validación)')
plt.xlabel('Edad')
plt.ylabel('Salario')
plt.show()

InvalidIndexError: (slice(None, None, None), 0)