# **Análisis y Comparación de Modelos de Machine Learning: Árboles de Decisión**

En este proyecto se busca construir modelos de **Machine Learning** que permitan predecir el estado de aprobación de un préstamo utilizando los atributos de las personas solicitantes. Para ello, se analiza un conjunto de datos que contiene 14 atributos, entre ellos la edad, el ingreso anual, el puntaje crediticio, el propósito del préstamo, entre otros. La etiqueta de clase, loan_status, indica si el préstamo fue aprobado (1) o rechazado (0).

Utilizaremos la técnica de **Árboles de Decisión** para abordar este problema, variando sus configuraciones y modificando hiperparámetros clave. El objetivo es comparar la exactitud (accuracy) de los modelos generados y determinar cuáles ofrecen mejores predicciones.

##### INTEGRANTES:
  1. Marcela Mazo Castro - 1843612
  2. Eyder Santiago Suárez Chávez - 2322714
  3. Erika García Muñoz - 2259395
  4. Juan José Moreno Jaramillo - 2310038

## Preparación de los Datos  
En esta sección, se cargan y preparan los datos para el entrenamiento y evaluación de los modelos. 

In [6]:
# Importar bibliotecas necesarias
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score

# Leer el archivo loan_data.csv
data = pd.read_csv("loan_data.csv")

# Dividir aleatoriamente los datos
train_data, test_data = train_test_split(data, test_size=0.2, random_state=123)

# Normalización y codificación de los datos
numerical_features = ["person_age", "person_income", "person_emp_exp", "loan_amnt", "loan_int_rate", 
                      "loan_percent_income", "cb_person_cred_hist_length", "credit_score"]
categorical_features = ["person_gender", "person_education", "person_home_ownership", "loan_intent", 
                        "previous_loan_defaults_on_file"]


X_train = train_data.drop(columns="loan_status")
y_train = train_data["loan_status"]
X_test = test_data.drop(columns="loan_status")
y_test = test_data["loan_status"]

preprocessor = ColumnTransformer(transformers=[
    ('num', StandardScaler(), numerical_features),
    ('cat', OneHotEncoder(), categorical_features)
])

## Modelos de Árboles de Decisión  
Se construirán y evaluarán 10 árboles de decisión variando el hiperparámetro `max_depth` desde 1 hasta 10, utilizando dos criterios diferentes: `gini` y `entropy`.  

In [10]:
from sklearn.tree import DecisionTreeClassifier

# 1 y 2. Leer datos y dividirlos
data = pd.read_csv("loan_data.csv")
train_data, test_data = train_test_split(data, test_size=0.2, random_state=123)

# 3. Normalización y codificación
# Reutilizar el preprocessor del notebook anterior

# 4. Árboles de decisión con max_depth
gini_results = []
for depth in range(1, 11):
    model = Pipeline(steps=[
        ('preprocessor', preprocessor),
        ('classifier', DecisionTreeClassifier(criterion="gini", splitter="best", 
                                              max_depth=depth, random_state=123))
    ])
    model.fit(X_train, y_train)
    predictions = model.predict(X_test)
    accuracy = accuracy_score(y_test, predictions)
    gini_results.append({"Max Depth": depth, "Accuracy": accuracy})

gini_results_df = pd.DataFrame(gini_results)

# ## 5. Incluir en el notebook una tabla con el accuracy para los 10 árboles con criterion=gini
print("Resultados con criterion='gini':")
print(gini_results_df)

# Repetir el proceso con criterion="entropy"

Resultados con criterion='gini':
   Max Depth  Accuracy
0          1  0.781778
1          2  0.853556
2          3  0.902556
3          4  0.916444
4          5  0.919111
5          6  0.919222
6          7  0.919556
7          8  0.923778
8          9  0.923222
9         10  0.924444


proceso usando el criterio="entropy"

In [12]:
# ## 6. Repetir el mismo procedimiento con criterion=entropy
entropy_results = []
for depth in range(1, 11):
    model = Pipeline(steps=[
        ('preprocessor', preprocessor),
        ('classifier', DecisionTreeClassifier(criterion="entropy", splitter="best", 
                                              max_depth=depth, random_state=123))
    ])
    model.fit(X_train, y_train)
    predictions = model.predict(X_test)
    accuracy = accuracy_score(y_test, predictions)
    entropy_results.append({"Max Depth": depth, "Accuracy": accuracy})

entropy_results_df = pd.DataFrame(entropy_results)

# ## 7. Incluir en el notebook una tabla con el accuracy para los 10 árboles con criterion=entropy
print("\nResultados con criterion='entropy':")
print(entropy_results_df)



Resultados con criterion='entropy':
   Max Depth  Accuracy
0          1  0.781778
1          2  0.853556
2          3  0.902556
3          4  0.915333
4          5  0.916556
5          6  0.920444
6          7  0.920667
7          8  0.923778
8          9  0.925222
9         10  0.924556


Comparación de resultados

In [16]:
#Estos son los resultados   
print("Resultados con criterion='gini':")
print(gini_results_df)

print("\nResultados con criterion='entropy':")
print(entropy_results_df)

Resultados con criterion='gini':
   Max Depth  Accuracy
0          1  0.781778
1          2  0.853556
2          3  0.902556
3          4  0.916444
4          5  0.919111
5          6  0.919222
6          7  0.919556
7          8  0.923778
8          9  0.923222
9         10  0.924444

Resultados con criterion='entropy':
   Max Depth  Accuracy
0          1  0.781778
1          2  0.853556
2          3  0.902556
3          4  0.915333
4          5  0.916556
5          6  0.920444
6          7  0.920667
7          8  0.923778
8          9  0.925222
9         10  0.924556


In [None]:
# ## 8. Indicar los hiperparámetros que permiten obtener el árbol con mayor accuracy
# Vamos a encontrar el máximo accuracy entre ambos criterios
max_gini_acc = gini_results_df["Accuracy"].max()
best_gini = gini_results_df[gini_results_df["Accuracy"] == max_gini_acc]

max_entropy_acc = entropy_results_df["Accuracy"].max()
best_entropy = entropy_results_df[entropy_results_df["Accuracy"] == max_entropy_acc]

print("\nMejores resultados:")
print("Mejor resultado con Gini:")
print(best_gini)
print("Mejor resultado con Entropy:")
print(best_entropy)

# Determinamos cuál es el mejor en general
if max_gini_acc > max_entropy_acc:
    print("\nEl mejor árbol en general se obtuvo con criterion='gini', con hiperparámetros:")
    print(best_gini)
else:
    print("\nEl mejor árbol en general se obtuvo con criterion='entropy', con hiperparámetros:")
    print(best_entropy)

# ## 9. Seleccionar un hiperparámetro diferente a criterion, splitter, max_depth, random_state.
# Por ejemplo, usemos el hiperparámetro "min_samples_split".
# Realizaremos dos variaciones en este hiperparámetro manteniendo los otros que dieron mejor resultado.
# Supongamos que el mejor resultado lo obtuvimos con:
#   criterion='entropy', splitter='best', random_state=123, max_depth=<donde obtuvimos el mejor>
# Vamos a variar el min_samples_split, por ejemplo a 2 y 10.

# Identificamos el mejor árbol según el punto 8. Asumamos que el mejor fue con entropy, max_depth=d
if max_entropy_acc >= max_gini_acc:
    best_criterion = "entropy"
    best_depth = best_entropy["Max Depth"].values[0]
    best_acc = max_entropy_acc
else:
    best_criterion = "gini"
    best_depth = best_gini["Max Depth"].values[0]
    best_acc = max_gini_acc

print(f"\nHiperparámetros iniciales con mayor accuracy: criterion={best_criterion}, splitter='best', max_depth={best_depth}, random_state=123")

variations = [2, 10]  # min_samples_split variaciones
variation_results = []
for mss in variations:
    model = Pipeline(steps=[
        ('preprocessor', preprocessor),
        ('classifier', DecisionTreeClassifier(criterion=best_criterion, splitter="best", 
                                              max_depth=best_depth, random_state=123,
                                              min_samples_split=mss))
    ])
    model.fit(X_train, y_train)
    predictions = model.predict(X_test)
    accuracy = accuracy_score(y_test, predictions)
    variation_results.append({"min_samples_split": mss, "Accuracy": accuracy})
    print(f"min_samples_split={mss}, Accuracy={accuracy}")





var_df = pd.DataFrame(variation_results)
print("\nResultados variando min_samples_split:")
print(var_df)



# Analizamos si el árbol mejora, empeora o se mantiene
for i, row in var_df.iterrows():
    if row["Accuracy"] > best_acc:
        print(f"La exactitud mejora con min_samples_split={row['min_samples_split']}.")
    elif row["Accuracy"] < best_acc:
        print(f"La exactitud empeora con min_samples_split={row['min_samples_split']}.")
    else:
        print(f"La exactitud se mantiene igual con min_samples_split={row['min_samples_split']}.")





Mejores resultados:
Mejor resultado con Gini:
   Max Depth  Accuracy
9         10  0.924444
Mejor resultado con Entropy:
   Max Depth  Accuracy
8          9  0.925222

El mejor árbol en general se obtuvo con criterion='entropy', con hiperparámetros:
   Max Depth  Accuracy
8          9  0.925222

Hiperparámetros iniciales con mayor accuracy: criterion=entropy, splitter='best', max_depth=9, random_state=123
min_samples_split=2, Accuracy=0.9252222222222222
min_samples_split=10, Accuracy=0.9251111111111111

Resultados variando min_samples_split:
   min_samples_split  Accuracy
0                  2  0.925222
1                 10  0.925111
La exactitud se mantiene igual con min_samples_split=2.0.
La exactitud empeora con min_samples_split=10.0.
Resultados con criterion='gini':
   Max Depth  Accuracy
0          1  0.781778
1          2  0.853556
2          3  0.902556
3          4  0.916444
4          5  0.919111
5          6  0.919222
6          7  0.919556
7          8  0.923778
8          