# **Análisis y Comparación de Modelos de Machine Learning: Árboles de Decisión**

En este proyecto se busca construir modelos de **Machine Learning** que permitan predecir el estado de aprobación de un préstamo utilizando los atributos de las personas solicitantes. Para ello, se analiza un conjunto de datos que contiene 14 atributos, entre ellos la edad, el ingreso anual, el puntaje crediticio, el propósito del préstamo, entre otros. La etiqueta de clase, loan_status, indica si el préstamo fue aprobado (1) o rechazado (0).

Utilizaremos la técnica de **Árboles de Decisión** para abordar este problema, variando sus configuraciones y modificando hiperparámetros clave. El objetivo es comparar la exactitud (accuracy) de los modelos generados y determinar cuáles ofrecen mejores predicciones.

##### INTEGRANTES:
  1. Marcela Mazo Castro - 1843612
  2. Eyder Santiago Suárez Chávez - 2322714
  3. Erika García Muñoz - 2259395
  4. Juan José Moreno Jaramillo - 2310038

## Preparación de los Datos  
En esta sección, se cargan y preparan los datos para el entrenamiento y evaluación de los modelos. 

In [2]:
# Importar bibliotecas necesarias
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score

# Leer el archivo loan_data.csv
data = pd.read_csv("loan_data.csv")

# Dividir aleatoriamente los datos
train_data, test_data = train_test_split(data, test_size=0.2, random_state=123)

# Normalización y codificación de los datos
numerical_features = ["person_age", "person_income", "person_emp_exp", "loan_amnt", "loan_int_rate", 
                      "loan_percent_income", "cb_person_cred_hist_length", "credit_score"]
categorical_features = ["person_gender", "person_education", "person_home_ownership", "loan_intent", 
                        "previous_loan_defaults_on_file"]


X_train = train_data.drop(columns="loan_status")
y_train = train_data["loan_status"]
X_test = test_data.drop(columns="loan_status")
y_test = test_data["loan_status"]

preprocessor = ColumnTransformer(transformers=[
    ('num', StandardScaler(), numerical_features),
    ('cat', OneHotEncoder(), categorical_features)
])

## Modelos de Árboles de Decisión  
Se construirán y evaluarán 10 árboles de decisión variando el hiperparámetro `max_depth` desde 1 hasta 10, utilizando dos criterios diferentes: `gini` y `entropy`.  

In [3]:
from sklearn.tree import DecisionTreeClassifier

# 1 y 2. Leer datos y dividirlos
data = pd.read_csv("loan_data.csv")
train_data, test_data = train_test_split(data, test_size=0.2, random_state=123)

# 3. Normalización y codificación
# Reutilizar el preprocessor del notebook anterior

# 4. Árboles de decisión con max_depth
gini_results = []
for depth in range(1, 11):
    model = Pipeline(steps=[
        ('preprocessor', preprocessor),
        ('classifier', DecisionTreeClassifier(criterion="gini", splitter="best", 
                                              max_depth=depth, random_state=123))
    ])
    model.fit(X_train, y_train)
    predictions = model.predict(X_test)
    accuracy = accuracy_score(y_test, predictions)
    gini_results.append({"Max Depth": depth, "Accuracy": accuracy})

gini_results_df = pd.DataFrame(gini_results)

# ## 5. Incluir en el notebook una tabla con el accuracy para los 10 árboles con criterion=gini
print("Resultados con criterion='gini':")
print(gini_results_df)

# Repetir el proceso con criterion="entropy"

Resultados con criterion='gini':
   Max Depth  Accuracy
0          1  0.781778
1          2  0.853556
2          3  0.902556
3          4  0.916444
4          5  0.919111
5          6  0.919222
6          7  0.919556
7          8  0.923778
8          9  0.923222
9         10  0.924444


proceso usando el criterio="entropy"

In [4]:
# ## 6. Repetir el mismo procedimiento con criterion=entropy
entropy_results = []
for depth in range(1, 11):
    model = Pipeline(steps=[
        ('preprocessor', preprocessor),
        ('classifier', DecisionTreeClassifier(criterion="entropy", splitter="best", 
                                              max_depth=depth, random_state=123))
    ])
    model.fit(X_train, y_train)
    predictions = model.predict(X_test)
    accuracy = accuracy_score(y_test, predictions)
    entropy_results.append({"Max Depth": depth, "Accuracy": accuracy})

entropy_results_df = pd.DataFrame(entropy_results)

# ## 7. Incluir en el notebook una tabla con el accuracy para los 10 árboles con criterion=entropy
print("\nResultados con criterion='entropy':")
print(entropy_results_df)



Resultados con criterion='entropy':
   Max Depth  Accuracy
0          1  0.781778
1          2  0.853556
2          3  0.902556
3          4  0.915333
4          5  0.916556
5          6  0.920444
6          7  0.920667
7          8  0.923778
8          9  0.925222
9         10  0.924556


### Comparación de resultados

In [None]:
# ## 8. Indicar los hiperparámetros que permiten obtener el árbol con mayor accuracy
# Vamos a encontrar el máximo accuracy entre ambos criterios

#Estos son los resultados   
print("Resultados con criterion='gini':")
print(gini_results_df)

print("\nResultados con criterion='entropy':")
print(entropy_results_df)

Resultados con criterion='gini':
   Max Depth  Accuracy
0          1  0.781778
1          2  0.853556
2          3  0.902556
3          4  0.916444
4          5  0.919111
5          6  0.919222
6          7  0.919556
7          8  0.923778
8          9  0.923222
9         10  0.924444

Resultados con criterion='entropy':
   Max Depth  Accuracy
0          1  0.781778
1          2  0.853556
2          3  0.902556
3          4  0.915333
4          5  0.916556
5          6  0.920444
6          7  0.920667
7          8  0.923778
8          9  0.925222
9         10  0.924556


### Estilos

In [18]:
class Colors:
    HEADER = '\033[95m'
    BLUE = '\033[94m'
    GREEN = '\033[92m'
    YELLOW = '\033[93m'
    RED = '\033[91m'
    ENDC = '\033[0m'
    BOLD = '\033[1m'
    UNDERLINE = '\033[4m'


def print_pretty_table(df, enumerate_rows=False):
    if enumerate_rows:
        df = df.copy()
        df.insert(0, 'Red', range(0, len(df)))

    df_formatted = df.copy()
    for col in df_formatted.columns:
        if col != 'Alpha' and (df_formatted[col].dtype == 'float' or df_formatted[col].dtype == 'int'):
            def format_num(x):
                if isinstance(x, float):
                    return f"{x:.6f}"
                elif isinstance(x, int):
                    return str(x)
                else:
                    return str(x)
            df_formatted[col] = df_formatted[col].apply(format_num)

    columns = list(df_formatted.columns)
    col_widths = [
        max(len(str(item)) for item in [col] + df_formatted[col].astype(str).tolist()) + 2
        for col in columns
    ]
    top_left = '┌'
    top_right = '┐'
    bottom_left = '└'
    bottom_right = '┘'
    horizontal = '─'
    vertical = '│'
    top_sep = '┬'
    bottom_sep = '┴'
    mid_sep = '┼'
    left_sep = '├'
    right_sep = '┤'
    middle_sep = '┼'

    def create_border(left, sep, right):
        return left + sep.join([horizontal * width for width in col_widths]) + right

    def create_row(items, colored=False):
        if colored:
            return vertical + vertical.join([
                f"{Colors.BOLD + Colors.YELLOW}{str(item).center(width)}{Colors.ENDC}"
                for item, width in zip(items, col_widths)
            ]) + vertical
        else:
            return vertical + vertical.join([str(item).center(width) for item, width in zip(items, col_widths)]) + vertical

    print(create_border(top_left, horizontal, top_right))
    print(create_row(columns, colored=True))
    print(create_border(left_sep, mid_sep, right_sep))
    for i, row_data in df_formatted.iterrows():
        if i % 2 == 0:
            print(create_row(row_data, colored=False))
        else:
            row_str = vertical
            for item, width in zip(row_data, col_widths):
                row_str += f"\033[48;5;240m{str(item).center(width)}\033[0m{vertical}"
            print(row_str)
    print(create_border(bottom_left, horizontal, bottom_right))


### Ver Tablas

In [20]:
print("\nMejores resultados:")
print("Mejor resultado con Gini:")
print_pretty_table(best_gini)

print("Mejor resultado con Entropy:")
print_pretty_table(best_entropy)

# Determinación del mejor modelo en general
if max_gini_acc > max_entropy_acc:
    print("\nEl mejor árbol en general se obtuvo con criterion='gini', con hiperparámetros:")
    print_pretty_table(best_gini)
else:
    print("\nEl mejor árbol en general se obtuvo con criterion='entropy', con hiperparámetros:")
    print_pretty_table(best_entropy)

# Seleccionamos el mejor modelo
if max_entropy_acc >= max_gini_acc:
    best_criterion = "entropy"
    best_depth = best_entropy["Max Depth"].values[0]
    best_acc = max_entropy_acc
else:
    best_criterion = "gini"
    best_depth = best_gini["Max Depth"].values[0]
    best_acc = max_gini_acc

print(f"\nHiperparámetros iniciales con mayor accuracy: criterion={best_criterion}, splitter='best', max_depth={best_depth}, random_state=123")

variations = [2, 10]  # min_samples_split variaciones
variation_results = []
for mss in variations:
    model = Pipeline(steps=[
        ('preprocessor', preprocessor),
        ('classifier', DecisionTreeClassifier(criterion=best_criterion, splitter="best", 
                                              max_depth=int(best_depth), random_state=123,
                                              min_samples_split=mss))
    ])
    model.fit(X_train, y_train)
    predictions = model.predict(X_test)
    accuracy = accuracy_score(y_test, predictions)
    variation_results.append({"min_samples_split": mss, "Accuracy": accuracy})
    print(f"min_samples_split={mss}, Accuracy={accuracy}")

var_df = pd.DataFrame(variation_results)
print("\nResultados variando min_samples_split:")
print_pretty_table(var_df)

# Analizamos la mejora, empeora o mantiene
for i, row in var_df.iterrows():
    if float(row["Accuracy"]) > best_acc:
        print(f"La exactitud mejora con min_samples_split={row['min_samples_split']}.")
    elif float(row["Accuracy"]) < best_acc:
        print(f"La exactitud empeora con min_samples_split={row['min_samples_split']}.")
    else:
        print(f"La exactitud se mantiene igual con min_samples_split={row['min_samples_split']}.")




Mejores resultados:
Mejor resultado con Gini:
┌──────────────────────┐
│[1m[93m Max Depth [0m│[1m[93m Accuracy [0m│
├───────────┼──────────┤
│[48;5;240m     10    [0m│[48;5;240m 0.924444 [0m│
└──────────────────────┘
Mejor resultado con Entropy:
┌──────────────────────┐
│[1m[93m Max Depth [0m│[1m[93m Accuracy [0m│
├───────────┼──────────┤
│     9     │ 0.925222 │
└──────────────────────┘

El mejor árbol en general se obtuvo con criterion='entropy', con hiperparámetros:
┌──────────────────────┐
│[1m[93m Max Depth [0m│[1m[93m Accuracy [0m│
├───────────┼──────────┤
│     9     │ 0.925222 │
└──────────────────────┘

Hiperparámetros iniciales con mayor accuracy: criterion=entropy, splitter='best', max_depth=9, random_state=123
min_samples_split=2, Accuracy=0.9252222222222222
min_samples_split=10, Accuracy=0.9251111111111111

Resultados variando min_samples_split:
┌──────────────────────────────┐
│[1m[93m min_samples_split [0m│[1m[93m Accuracy [0m│
├─────────────

## **Conclusiones**

De acuerdo con los resultados obtenidos al variar el hiperparámetro `max_depth` entre **1** y **10**:

- **Con `criterion='gini'`:**  
  El mejor resultado se obtuvo con `max_depth=10`, con una exactitud de aproximadamente **0.9244**.

- **Con `criterion='entropy'`:**  
  El mejor resultado se obtuvo con `max_depth=9`, logrando una exactitud de aproximadamente **0.9252**.

Al comparar ambos árboles, el **árbol con `criterion='entropy'`, `splitter='best'`, `max_depth=9`, `random_state=123`** obtuvo el **mayor accuracy (0.9252)**, siendo esta la mejor combinación de hiperparámetros en las pruebas realizadas hasta el momento.


### **Análisis al variar el hiperparámetro `min_samples_split`**

Tomando el mejor árbol encontrado (**criterion=entropy, splitter=best, max_depth=9, random_state=123**), se probó el hiperparámetro `min_samples_split` con dos valores diferentes:

- **min_samples_split=2:** Accuracy ≈ **0.9252**
- **min_samples_split=10:** Accuracy ≈ **0.9251**

Al incrementar este hiperparámetro de **2** a **10**, la exactitud se redujo ligeramente, de **0.9252** a **0.9251**. Esto noa indica que, con estos datos y configuraciones, a un mayor valor de `min_samples_split` **no aportó una mejora** en el rendimiento; por el contrario, **disminuyó ligeramente** la exactitud. Por lo tanto, mantener `min_samples_split` en su valor por defecto (**2**) nos resulta más adecuado.

