In [15]:
# --- 1. Importación de herramientas necesarias ---

# Se importa "pandas" para trabajar con los datos en formato de tabla.
import pandas as pd

# Se importa "train_test_split" para separar los datos en conjuntos.
from sklearn.model_selection import train_test_split

# --- 2. Carga del archivo de datos ---

# Se lee el archivo "loan_approval.csv".
df = pd.read_csv("loan_approval.csv")

# --- 3. Revisión de los datos (para el informe) ---

# Se muestran las primeras 5 filas para entender la estructura de los datos.
print("--- Primeras 5 filas de los datos ---")
print(df.head(), "\n")

# Se cuentan cuántos datos faltan en cada columna.
print("--- ¿Cuántos datos faltan? ---")
print(df.isnull().sum(), "\n")

# --- 4. Preparación de los datos para el análisis ---

# Se define "X" (las características) con las columnas que se usarán para predecir.
X = df[['income', 'credit_score', 'loan_amount', 'years_employed', 'points']]

# Se define "y" (la variable objetivo) que es lo que se quiere predecir.
# Se convierten los valores True/False a 1/0 para que el modelo los entienda.
y = df['loan_approved'].astype(int)

# --- 5. División de los datos para entrenamiento y prueba ---

# Se separan los datos en conjuntos de entrenamiento (para que el modelo aprenda)
# y prueba (para evaluar su rendimiento).
# Se usa el 25% de los datos para probar (test_size=0.25).
# random_state=42 asegura que la división sea la misma en cada ejecución.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

print("--- ¡Datos listos para usar! ---")

--- Primeras 5 filas de los datos ---
              name              city  income  credit_score  loan_amount  \
0     Allison Hill         East Jill  113810           389        39698   
1     Brandon Hall     New Jamesside   44592           729        15446   
2     Rhonda Smith      Lake Roberto   33278           584        11189   
3  Gabrielle Davis  West Melanieview  127196           344        48823   
4     Valerie Gray         Mariastad   66048           496        47174   

   years_employed  points  loan_approved  
0              27    50.0          False  
1              28    55.0          False  
2              13    45.0          False  
3              29    50.0          False  
4               4    25.0          False   

--- ¿Cuántos datos faltan? ---
name              0
city              0
income            0
credit_score      0
loan_amount       0
years_employed    0
points            0
loan_approved     0
dtype: int64 

--- ¡Datos listos para usar! ---


In [16]:
# --- 1. Importación del Modelo 1 y las Métricas ---

# Se importa el modelo de Regresión Logística
from sklearn.linear_model import LogisticRegression

# Se importan las herramientas para evaluar el modelo
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# --- 2. Creación y Entrenamiento del Modelo 1 ---

# Se crea una instancia del modelo. max_iter=1000 se usa para aumentar las iteraciones.
modelo_log = LogisticRegression(max_iter=1000)

# Se "entrena" el modelo utilizando los datos de entrenamiento (X_train, y_train).
modelo_log.fit(X_train, y_train)

# --- 3. Evaluación del Modelo 1 ---

# Se solicitan las predicciones del modelo para los datos de prueba (X_test).
y_pred_log = modelo_log.predict(X_test)

# --- 4. Mostrar los Resultados (Para el informe) ---

print("--- RESULTADOS: Regresión Logística ---")

# La Precisión (Accuracy) compara las respuestas correctas (y_test) con las predicciones (y_pred_log).
# Indica el porcentaje de aciertos.
print("Precisión:", accuracy_score(y_test, y_pred_log))

# La Matriz de Confusión muestra cuántos "Sí" y "No" fueron predichos correctamente.
print("\nMatriz de Confusión:\n", confusion_matrix(y_test, y_pred_log))

# El Reporte de Clasificación proporciona un resumen detallado de las métricas.
print("\nReporte de Clasificación:\n", classification_report(y_test, y_pred_log))

--- RESULTADOS: Regresión Logística ---
Precisión: 1.0

Matriz de Confusión:
 [[278   0]
 [  0 222]]

Reporte de Clasificación:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00       278
           1       1.00      1.00      1.00       222

    accuracy                           1.00       500
   macro avg       1.00      1.00      1.00       500
weighted avg       1.00      1.00      1.00       500



In [17]:
# --- 1. Importar el Modelo 2 ---

# Esta vez, se importa el "Árbol de Decisión"
from sklearn.tree import DecisionTreeClassifier

# ¡No hace falta importar las métricas otra vez, ya se tienen!

# --- 2. Crear y Entrenar el Modelo 2 ---

# Se crea una instancia del nuevo modelo
modelo_tree = DecisionTreeClassifier()

# Se "entrena" con los MISMOS datos de entrenamiento (X_train, y_train)
# Esto es CLAVE para poder compararlos
modelo_tree.fit(X_train, y_train)

# --- 3. Evaluar el Modelo 2 ---

# Se le pide a ESTE modelo que prediga las respuestas para los MISMOS datos de "Prueba" (X_test)
y_pred_tree = modelo_tree.predict(X_test)

# --- 4. Mostrar los Resultados (¡Esto también va en tu informe!) ---

print("--- RESULTADOS: Árbol de Decisión ---")

# Se calcula la Precisión para ESTE modelo
print("Precisión:", accuracy_score(y_test, y_pred_tree))

# Se calcula la Matriz de Confusión para ESTE modelo
print("\nMatriz de Confusión:\n", confusion_matrix(y_test, y_pred_tree))

# Reporte de Clasificación para ESTE modelo
print("\nReporte de Clasificación:\n", classification_report(y_test, y_pred_tree))

--- RESULTADOS: Árbol de Decisión ---
Precisión: 1.0

Matriz de Confusión:
 [[278   0]
 [  0 222]]

Reporte de Clasificación:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00       278
           1       1.00      1.00      1.00       222

    accuracy                           1.00       500
   macro avg       1.00      1.00      1.00       500
weighted avg       1.00      1.00      1.00       500

