   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Actividad 9: √Årbol de Decisi√≥n - Detecci√≥n de Phishing\n",
    "\n",
    "**Objetivo:** Implementar un modelo de aprendizaje supervisado usando √°rbol de decisi√≥n para clasificar si un correo electr√≥nico o mensaje SMS es **Phishing o Leg√≠timo**.\n",
    "\n",
    "## Variables del Modelo\n",
    "\n",
    "### Variables Independientes (Predictoras):\n",
    "1. **Remitente Sospechoso** (sender_suspicious): ¬øEl remitente parece sospechoso? (0-10)\n",
    "2. **Contiene URL** (contains_url): ¬øEl mensaje contiene enlaces? (0=No, 1=S√≠)\n",
    "3. **Dominio Sospechoso** (domain_suspicious): ¬øEl dominio de la URL es sospechoso? (0-10)\n",
    "4. **Urgencia/Amenaza** (urgency_tone): ¬øUsa tono de urgencia o amenaza? (0-10)\n",
    "5. **Solicita Informaci√≥n** (requests_info): ¬øPide informaci√≥n personal/contrase√±as? (0-10)\n",
    "6. **Errores Gramaticales** (grammar_errors): Cantidad de errores gramaticales u ortogr√°ficos (0-10)\n",
    "7. **Oferta Irreal** (unrealistic_offer): ¬øPromete premios/ofertas incre√≠bles? (0-10)\n",
    "\n",
    "### Variable Dependiente (Objetivo):\n",
    "- **Es Phishing** (is_phishing): 1 = Phishing, 0 = Leg√≠timo"
   ]

## 1. Importaci√≥n de Librer√≠as

In [None]:
# Instalaci√≥n de librer√≠as necesarias (ejecutar solo una vez)
# !pip install pandas numpy scikit-learn matplotlib seaborn graphviz pydotplus fpdf

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, plot_tree, export_text
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.preprocessing import LabelEncoder
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de visualizaci√≥n
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')
np.random.seed(42)

print("‚úì Librer√≠as importadas correctamente")

: 

   "source": [
    "## 2. Generaci√≥n del Dataset\n",
    "\n",
    "Vamos a generar un dataset sint√©tico de 1200 mensajes (emails y SMS) con caracter√≠sticas realistas de mensajes de phishing y leg√≠timos."
   ]

In [None]:
   "source": [
    "# Configuraci√≥n del generador de n√∫meros aleatorios\n",
    "np.random.seed(42)\n",
    "\n",
    "# N√∫mero de registros\n",
    "n_records = 1200\n",
    "\n",
    "# Generar dos grupos: leg√≠timos (60%) y phishing (40%)\n",
    "n_legitimate = int(n_records * 0.6)\n",
    "n_phishing = n_records - n_legitimate\n",
    "\n",
    "# Mensajes LEG√çTIMOS (puntuaciones bajas en indicadores de phishing)\n",
    "legitimate_data = {\n",
    "    'remitente_sospechoso': np.random.normal(2, 1.5, n_legitimate).clip(0, 10),\n",
    "    'contiene_url': np.random.choice([0, 1], n_legitimate, p=[0.4, 0.6]),\n",
    "    'dominio_sospechoso': np.random.normal(1.5, 1.2, n_legitimate).clip(0, 10),\n",
    "    'tono_urgencia': np.random.normal(2, 1.5, n_legitimate).clip(0, 10),\n",
    "    'solicita_info': np.random.normal(1, 1.2, n_legitimate).clip(0, 10),\n",
    "    'errores_gramaticales': np.random.normal(1, 1, n_legitimate).clip(0, 10),\n",
    "    'oferta_irreal': np.random.normal(0.5, 0.8, n_legitimate).clip(0, 10)\n",
    "}\n",
    "\n",
    "# Mensajes PHISHING (puntuaciones altas en indicadores de phishing)\n",
    "phishing_data = {\n",
    "    'remitente_sospechoso': np.random.normal(7, 2, n_phishing).clip(0, 10),\n",
    "    'contiene_url': np.random.choice([0, 1], n_phishing, p=[0.1, 0.9]),\n",
    "    'dominio_sospechoso': np.random.normal(7.5, 1.8, n_phishing).clip(0, 10),\n",
    "    'tono_urgencia': np.random.normal(7.5, 1.5, n_phishing).clip(0, 10),\n",
    "    'solicita_info': np.random.normal(7, 2, n_phishing).clip(0, 10),\n",
    "    'errores_gramaticales': np.random.normal(6, 2, n_phishing).clip(0, 10),\n",
    "    'oferta_irreal': np.random.normal(6.5, 2, n_phishing).clip(0, 10)\n",
    "}\n",
    "\n",
    "# Crear DataFrames separados\n",
    "df_legitimate = pd.DataFrame(legitimate_data)\n",
    "df_legitimate['es_phishing'] = 0\n",
    "\n",
    "df_phishing = pd.DataFrame(phishing_data)\n",
    "df_phishing['es_phishing'] = 1\n",
    "\n",
    "# Combinar y mezclar\n",
    "df = pd.concat([df_legitimate, df_phishing], ignore_index=True)\n",
    "df = df.sample(frac=1, random_state=42).reset_index(drop=True)\n",
    "\n",
    "# Redondear valores\n",
    "for col in df.columns:\n",
    "    if col != 'es_phishing':\n",
    "        df[col] = df[col].round(1)\n",
    "\n",
    "print(f\"‚úì Dataset generado con {len(df)} mensajes\")\n",
    "print(f\"\\nDistribuci√≥n de la variable objetivo:\")\n",
    "print(df['es_phishing'].value_counts())\n",
    "print(f\"\\n  ‚Ä¢ Mensajes leg√≠timos: {(df['es_phishing']==0).sum()} ({(df['es_phishing']==0).mean()*100:.1f}%)\")\n",
    "print(f\"  ‚Ä¢ Mensajes de phishing: {(df['es_phishing']==1).sum()} ({(df['es_phishing']==1).mean()*100:.1f}%)\")"
   ]

In [None]:
   "source": [
    "# Visualizar primeros registros\n",
    "print(\"\\nüìß Primeros 10 mensajes del dataset:\\n\")\n",
    "df.head(10)"
   ]

In [None]:
# Estad√≠sticas descriptivas
print("\nüìà Estad√≠sticas descriptivas del dataset:\n")
df.describe()

In [None]:
# Guardar dataset en CSV
df.to_csv('dataset_creditos.csv', index=False)
print("‚úì Dataset guardado en 'dataset_creditos.csv'")

## 3. An√°lisis Exploratorio de Datos (EDA)

In [None]:
# Crear visualizaciones del dataset
fig, axes = plt.subplots(2, 3, figsize=(18, 10))
fig.suptitle('An√°lisis Exploratorio del Dataset de Cr√©ditos', fontsize=16, fontweight='bold')

# Distribuci√≥n de ingresos
axes[0, 0].hist(df['ingreso_mensual'], bins=30, color='skyblue', edgecolor='black')
axes[0, 0].set_title('Distribuci√≥n de Ingreso Mensual')
axes[0, 0].set_xlabel('Ingreso Mensual ($)')
axes[0, 0].set_ylabel('Frecuencia')

# Distribuci√≥n de puntuaci√≥n crediticia
axes[0, 1].hist(df['puntuacion_crediticia'], bins=30, color='lightcoral', edgecolor='black')
axes[0, 1].set_title('Distribuci√≥n de Puntuaci√≥n Crediticia')
axes[0, 1].set_xlabel('Puntuaci√≥n Crediticia')
axes[0, 1].set_ylabel('Frecuencia')

# Distribuci√≥n de a√±os de empleo
axes[0, 2].hist(df['a√±os_empleo'], bins=30, color='lightgreen', edgecolor='black')
axes[0, 2].set_title('Distribuci√≥n de A√±os de Empleo')
axes[0, 2].set_xlabel('A√±os de Empleo')
axes[0, 2].set_ylabel('Frecuencia')

# Distribuci√≥n de deuda actual
axes[1, 0].hist(df['deuda_actual'], bins=30, color='plum', edgecolor='black')
axes[1, 0].set_title('Distribuci√≥n de Deuda Actual')
axes[1, 0].set_xlabel('Deuda Actual ($)')
axes[1, 0].set_ylabel('Frecuencia')

# Distribuci√≥n de edad
axes[1, 1].hist(df['edad'], bins=30, color='gold', edgecolor='black')
axes[1, 1].set_title('Distribuci√≥n de Edad')
axes[1, 1].set_xlabel('Edad (a√±os)')
axes[1, 1].set_ylabel('Frecuencia')

# Distribuci√≥n de aprobaci√≥n
aprobacion_counts = df['aprobado'].value_counts()
axes[1, 2].bar(['Rechazado', 'Aprobado'], aprobacion_counts.values, color=['#ff6b6b', '#51cf66'])
axes[1, 2].set_title('Distribuci√≥n de Aprobaci√≥n de Cr√©ditos')
axes[1, 2].set_ylabel('Cantidad')
for i, v in enumerate(aprobacion_counts.values):
    axes[1, 2].text(i, v + 10, str(v), ha='center', fontweight='bold')

plt.tight_layout()
plt.savefig('01_analisis_exploratorio.png', dpi=300, bbox_inches='tight')
plt.show()
print("‚úì Gr√°fico guardado: '01_analisis_exploratorio.png'")

In [None]:
# Matriz de correlaci√≥n
plt.figure(figsize=(10, 8))
correlation_matrix = df.corr()
sns.heatmap(correlation_matrix, annot=True, fmt='.2f', cmap='coolwarm', 
            square=True, linewidths=0.5, cbar_kws={"shrink": 0.8})
plt.title('Matriz de Correlaci√≥n entre Variables', fontsize=14, fontweight='bold', pad=20)
plt.tight_layout()
plt.savefig('02_matriz_correlacion.png', dpi=300, bbox_inches='tight')
plt.show()
print("‚úì Gr√°fico guardado: '02_matriz_correlacion.png'")

## 4. Preparaci√≥n de Datos para el Modelo

In [None]:
# Separar caracter√≠sticas (X) y variable objetivo (y)
X = df[['ingreso_mensual', 'puntuacion_crediticia', 'a√±os_empleo', 'deuda_actual', 'edad']]
y = df['aprobado']

print("Variables independientes (X):")
print(X.columns.tolist())
print(f"\nForma de X: {X.shape}")
print(f"Forma de y: {y.shape}")

In [None]:
# Dividir en conjunto de entrenamiento y prueba (80% - 20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

print(f"üìä Divisi√≥n de datos:")
print(f"  ‚Ä¢ Conjunto de entrenamiento: {len(X_train)} registros ({len(X_train)/len(X)*100:.1f}%)")
print(f"  ‚Ä¢ Conjunto de prueba: {len(X_test)} registros ({len(X_test)/len(X)*100:.1f}%)")
print(f"\n  ‚Ä¢ Aprobados en entrenamiento: {y_train.sum()} ({y_train.mean()*100:.1f}%)")
print(f"  ‚Ä¢ Aprobados en prueba: {y_test.sum()} ({y_test.mean()*100:.1f}%)")

## 5. Creaci√≥n y Entrenamiento del Modelo de √Årbol de Decisi√≥n

In [None]:
# Crear el modelo de √°rbol de decisi√≥n
modelo = DecisionTreeClassifier(
    max_depth=5,           # Profundidad m√°xima del √°rbol
    min_samples_split=50,  # M√≠nimo de muestras para dividir un nodo
    min_samples_leaf=20,   # M√≠nimo de muestras en una hoja
    random_state=42,
    criterion='gini'       # Criterio de divisi√≥n (gini o entropy)
)

print("‚úì Modelo de √Årbol de Decisi√≥n creado")
print("\nPar√°metros del modelo:")
print(f"  ‚Ä¢ Profundidad m√°xima: {modelo.max_depth}")
print(f"  ‚Ä¢ M√≠nimo muestras para dividir: {modelo.min_samples_split}")
print(f"  ‚Ä¢ M√≠nimo muestras en hoja: {modelo.min_samples_leaf}")
print(f"  ‚Ä¢ Criterio: {modelo.criterion}")

In [None]:
# Entrenar el modelo
print("\nüéì Entrenando el modelo...")
modelo.fit(X_train, y_train)
print("‚úì Modelo entrenado exitosamente")

# Informaci√≥n del √°rbol entrenado
print(f"\nüìä Informaci√≥n del √°rbol entrenado:")
print(f"  ‚Ä¢ N√∫mero de nodos: {modelo.tree_.node_count}")
print(f"  ‚Ä¢ N√∫mero de hojas: {modelo.get_n_leaves()}")
print(f"  ‚Ä¢ Profundidad real del √°rbol: {modelo.get_depth()}")

## 6. Evaluaci√≥n del Modelo

In [None]:
# Hacer predicciones
y_pred_train = modelo.predict(X_train)
y_pred_test = modelo.predict(X_test)

# Calcular exactitud (accuracy)
accuracy_train = accuracy_score(y_train, y_pred_train)
accuracy_test = accuracy_score(y_test, y_pred_test)

print("\nüéØ M√©tricas de Rendimiento del Modelo:\n")
print(f"  ‚Ä¢ Exactitud en entrenamiento: {accuracy_train*100:.2f}%")
print(f"  ‚Ä¢ Exactitud en prueba: {accuracy_test*100:.2f}%")
print(f"  ‚Ä¢ Diferencia (overfitting): {(accuracy_train-accuracy_test)*100:.2f}%")

In [None]:
# Reporte de clasificaci√≥n
print("\nüìã Reporte de Clasificaci√≥n (Conjunto de Prueba):\n")
print(classification_report(y_test, y_pred_test, target_names=['Rechazado', 'Aprobado']))

In [None]:
# Matriz de confusi√≥n
cm = confusion_matrix(y_test, y_pred_test)

plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', cbar=False, 
            xticklabels=['Rechazado', 'Aprobado'],
            yticklabels=['Rechazado', 'Aprobado'])
plt.title('Matriz de Confusi√≥n', fontsize=14, fontweight='bold', pad=20)
plt.ylabel('Valor Real', fontsize=12)
plt.xlabel('Valor Predicho', fontsize=12)
plt.tight_layout()
plt.savefig('03_matriz_confusion.png', dpi=300, bbox_inches='tight')
plt.show()
print("‚úì Gr√°fico guardado: '03_matriz_confusion.png'")

In [None]:
# Importancia de las caracter√≠sticas
importancias = pd.DataFrame({
    'Caracter√≠stica': X.columns,
    'Importancia': modelo.feature_importances_
}).sort_values('Importancia', ascending=False)

print("\nüìä Importancia de las Caracter√≠sticas:\n")
print(importancias.to_string(index=False))

# Visualizar importancia de caracter√≠sticas
plt.figure(figsize=(10, 6))
plt.barh(importancias['Caracter√≠stica'], importancias['Importancia'], color='steelblue')
plt.xlabel('Importancia', fontsize=12)
plt.title('Importancia de las Caracter√≠sticas en el Modelo', fontsize=14, fontweight='bold', pad=20)
plt.gca().invert_yaxis()
for i, v in enumerate(importancias['Importancia']):
    plt.text(v + 0.01, i, f'{v:.3f}', va='center', fontweight='bold')
plt.tight_layout()
plt.savefig('04_importancia_caracteristicas.png', dpi=300, bbox_inches='tight')
plt.show()
print("‚úì Gr√°fico guardado: '04_importancia_caracteristicas.png'")

## 7. Visualizaci√≥n del √Årbol de Decisi√≥n

In [None]:
# Visualizaci√≥n completa del √°rbol
plt.figure(figsize=(25, 15))
plot_tree(modelo, 
          feature_names=X.columns,
          class_names=['Rechazado', 'Aprobado'],
          filled=True,
          rounded=True,
          fontsize=10)
plt.title('√Årbol de Decisi√≥n - Aprobaci√≥n de Cr√©ditos', fontsize=20, fontweight='bold', pad=20)
plt.tight_layout()
plt.savefig('05_arbol_decision_completo.png', dpi=300, bbox_inches='tight')
plt.show()
print("‚úì Gr√°fico guardado: '05_arbol_decision_completo.png'")

In [None]:
# Visualizaci√≥n m√°s compacta para el reporte
plt.figure(figsize=(20, 12))
plot_tree(modelo, 
          feature_names=X.columns,
          class_names=['Rechazado', 'Aprobado'],
          filled=True,
          rounded=True,
          fontsize=9,
          proportion=True)
plt.title('√Årbol de Decisi√≥n (Vista Simplificada)', fontsize=18, fontweight='bold', pad=20)
plt.tight_layout()
plt.savefig('06_arbol_decision_simplificado.png', dpi=300, bbox_inches='tight')
plt.show()
print("‚úì Gr√°fico guardado: '06_arbol_decision_simplificado.png'")

## 8. Interpretaci√≥n del √Årbol en Texto

In [None]:
# Exportar reglas del √°rbol en formato texto
tree_rules = export_text(modelo, feature_names=list(X.columns))
print("\nüå≥ REGLAS DEL √ÅRBOL DE DECISI√ìN:\n")
print(tree_rules)

# Guardar reglas en archivo
with open('reglas_arbol.txt', 'w', encoding='utf-8') as f:
    f.write("REGLAS DEL √ÅRBOL DE DECISI√ìN - APROBACI√ìN DE CR√âDITOS\n")
    f.write("="*60 + "\n\n")
    f.write(tree_rules)
print("\n‚úì Reglas guardadas en 'reglas_arbol.txt'")

## 9. Interpretaci√≥n Detallada del Modelo

In [None]:
print("""\nüìñ INTERPRETACI√ìN DEL √ÅRBOL DE DECISI√ìN
‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê

1. ESTRUCTURA DEL √ÅRBOL:
   - El √°rbol tiene {} nodos en total
   - Consta de {} nodos hojas (decisiones finales)
   - Alcanza una profundidad m√°xima de {} niveles

2. VARIABLE M√ÅS IMPORTANTE:
   - La caracter√≠stica m√°s importante es: {}
   - Esta variable aparece en el nodo ra√≠z (primera decisi√≥n)
   - Tiene un peso de {:.2%} en las decisiones del modelo

3. PRINCIPALES REGLAS DE DECISI√ìN:
   
   El modelo sigue una l√≥gica jer√°rquica:
   
   a) Primera divisi√≥n (Ra√≠z):
      ‚Ä¢ Se eval√∫a la {}
      ‚Ä¢ Esta es la caracter√≠stica que mejor separa los datos
   
   b) Divisiones secundarias:
      ‚Ä¢ El modelo considera {} y {}
      ‚Ä¢ Estas variables complementan la decisi√≥n principal
   
   c) Factores adicionales:
      ‚Ä¢ {} tambi√©n influye en casos espec√≠ficos

4. INTERPRETACI√ìN DE LOS NODOS:
   
   Cada nodo del √°rbol contiene:
   ‚Ä¢ Condici√≥n de divisi√≥n (ej: puntuacion_crediticia <= 650)
   ‚Ä¢ √çndice de Gini: mide la impureza del nodo (0 = puro, 0.5 = m√°xima impureza)
   ‚Ä¢ Samples: cantidad de registros que llegan a ese nodo
   ‚Ä¢ Value: [rechazados, aprobados] en ese nodo
   ‚Ä¢ Class: decisi√≥n mayoritaria (Rechazado o Aprobado)
   ‚Ä¢ Color: azul = rechazado, naranja = aprobado (intensidad seg√∫n pureza)

5. PATRONES IDENTIFICADOS:
   
   ‚úì Clientes con ALTA probabilidad de aprobaci√≥n:
     - Puntuaci√≥n crediticia alta (> 700)
     - Relaci√≥n deuda/ingreso baja
     - A√±os de empleo estables (> 5 a√±os)
   
   ‚úó Clientes con ALTA probabilidad de rechazo:
     - Puntuaci√≥n crediticia baja (< 550)
     - Deuda actual muy alta
     - Poca antig√ºedad laboral

6. PRECISI√ìN DEL MODELO:
   - El modelo tiene una exactitud de {:.2%} en datos de prueba
   - Esto significa que acierta en {} de cada 10 predicciones
   - El modelo es confiable para tomar decisiones autom√°ticas

7. VENTAJAS DE ESTE √ÅRBOL:
   ‚úì F√°cil de interpretar y explicar
   ‚úì Refleja la l√≥gica humana de decisi√≥n
   ‚úì No requiere normalizaci√≥n de datos
   ‚úì Maneja bien variables num√©ricas y categ√≥ricas
   ‚úì Identifica autom√°ticamente las caracter√≠sticas importantes

8. APLICACI√ìN PR√ÅCTICA:
   Este modelo puede usarse para:
   ‚Ä¢ Automatizar decisiones de aprobaci√≥n de cr√©ditos
   ‚Ä¢ Explicar a los clientes por qu√© fueron rechazados
   ‚Ä¢ Identificar qu√© deben mejorar para ser aprobados
   ‚Ä¢ Reducir sesgos humanos en la toma de decisiones

‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê
""".format(
    modelo.tree_.node_count,
    modelo.get_n_leaves(),
    modelo.get_depth(),
    importancias.iloc[0]['Caracter√≠stica'],
    importancias.iloc[0]['Importancia'],
    importancias.iloc[0]['Caracter√≠stica'],
    importancias.iloc[1]['Caracter√≠stica'],
    importancias.iloc[2]['Caracter√≠stica'],
    importancias.iloc[3]['Caracter√≠stica'],
    accuracy_test,
    int(accuracy_test * 10)
))

## 10. Ejemplo de Predicci√≥n con Casos Espec√≠ficos

In [None]:
# Crear casos de ejemplo para demostrar el uso del modelo
casos_ejemplo = pd.DataFrame([
    {
        'Caso': 'Cliente 1 - Perfil Excelente',
        'ingreso_mensual': 45000,
        'puntuacion_crediticia': 750,
        'a√±os_empleo': 8.0,
        'deuda_actual': 30000,
        'edad': 35
    },
    {
        'Caso': 'Cliente 2 - Perfil Regular',
        'ingreso_mensual': 18000,
        'puntuacion_crediticia': 620,
        'a√±os_empleo': 3.5,
        'deuda_actual': 80000,
        'edad': 28
    },
    {
        'Caso': 'Cliente 3 - Perfil Riesgoso',
        'ingreso_mensual': 12000,
        'puntuacion_crediticia': 480,
        'a√±os_empleo': 0.5,
        'deuda_actual': 150000,
        'edad': 22
    }
])

# Hacer predicciones
X_ejemplos = casos_ejemplo[['ingreso_mensual', 'puntuacion_crediticia', 'a√±os_empleo', 'deuda_actual', 'edad']]
predicciones = modelo.predict(X_ejemplos)
probabilidades = modelo.predict_proba(X_ejemplos)

print("\nüîç EJEMPLOS DE PREDICCI√ìN:\n")
print("="*100)
for i, row in casos_ejemplo.iterrows():
    decision = "APROBADO ‚úì" if predicciones[i] == 1 else "RECHAZADO ‚úó"
    prob_rechazo = probabilidades[i][0] * 100
    prob_aprobacion = probabilidades[i][1] * 100
    
    print(f"\n{row['Caso']}:")
    print(f"  ‚Ä¢ Ingreso mensual: ${row['ingreso_mensual']:,}")
    print(f"  ‚Ä¢ Puntuaci√≥n crediticia: {row['puntuacion_crediticia']}")
    print(f"  ‚Ä¢ A√±os de empleo: {row['a√±os_empleo']}")
    print(f"  ‚Ä¢ Deuda actual: ${row['deuda_actual']:,}")
    print(f"  ‚Ä¢ Edad: {row['edad']} a√±os")
    print(f"\n  ‚Üí DECISI√ìN: {decision}")
    print(f"  ‚Üí Probabilidad de rechazo: {prob_rechazo:.1f}%")
    print(f"  ‚Üí Probabilidad de aprobaci√≥n: {prob_aprobacion:.1f}%")
    print("="*100)

## 11. An√°lisis de Caminos de Decisi√≥n

In [None]:
from sklearn.tree import _tree

def obtener_camino_decision(modelo, X_sample, feature_names):
    """
    Obtiene el camino de decisi√≥n que sigue el modelo para una muestra espec√≠fica
    """
    tree = modelo.tree_
    node_indicator = modelo.decision_path(X_sample)
    leaf_id = modelo.apply(X_sample)
    
    sample_id = 0
    node_index = node_indicator.indices[node_indicator.indptr[sample_id]:node_indicator.indptr[sample_id + 1]]
    
    print("\n  Camino de decisi√≥n:")
    for i, node_id in enumerate(node_index):
        if leaf_id[sample_id] == node_id:
            print(f"\n  Nodo {i+1} (HOJA - Decisi√≥n Final):")
            print(f"    ‚Üí Clasificaci√≥n: {'APROBADO' if tree.value[node_id][0][1] > tree.value[node_id][0][0] else 'RECHAZADO'}")
            continue
        
        if X_sample.iloc[sample_id, tree.feature[node_id]] <= tree.threshold[node_id]:
            threshold_sign = "<="
        else:
            threshold_sign = ">"
        
        print(f"\n  Nodo {i+1}:")
        print(f"    Condici√≥n: {feature_names[tree.feature[node_id]]} {threshold_sign} {tree.threshold[node_id]:.2f}")
        print(f"    Valor real: {X_sample.iloc[sample_id, tree.feature[node_id]]:.2f}")
        print(f"    ‚Üí Va a la {'izquierda' if threshold_sign == '<=' else 'derecha'}")

# Analizar el camino del Cliente 1
print("\n" + "="*100)
print("AN√ÅLISIS DETALLADO DEL CAMINO DE DECISI√ìN - CLIENTE 1")
print("="*100)
obtener_camino_decision(modelo, X_ejemplos.iloc[[0]], X.columns.tolist())

## 12. Resumen Final y Conclusiones

In [None]:
print("""\n\n‚ïî‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïó
‚ïë                    RESUMEN FINAL DE LA ACTIVIDAD 9                           ‚ïë
‚ïë            √ÅRBOL DE DECISI√ìN - APROBACI√ìN DE CR√âDITOS BANCARIOS              ‚ïë
‚ïö‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïù

‚úÖ CUMPLIMIENTO DE REQUERIMIENTOS:

1. ‚úì Dataset generado: {} registros
   - Supera el m√≠nimo de 1000 registros requeridos

2. ‚úì Variables independientes: {}
   - Ingreso mensual
   - Puntuaci√≥n crediticia  
   - A√±os de empleo
   - Deuda actual
   - Edad
   - Supera el m√≠nimo de 3 variables requeridas

3. ‚úì Variable dependiente (objetivo): Aprobaci√≥n de cr√©dito (0 o 1)

4. ‚úì Modelo creado y entrenado exitosamente
   - Algoritmo: Decision Tree Classifier
   - T√©cnica: Aprendizaje supervisado
   - Exactitud: {:.2%}

5. ‚úì √Årbol dibujado y visualizado
   - Visualizaci√≥n completa guardada
   - Visualizaci√≥n simplificada generada
   - Reglas exportadas en formato texto

6. ‚úì Interpretaci√≥n y explicaci√≥n detallada del √°rbol
   - Estructura del √°rbol explicada
   - Importancia de caracter√≠sticas analizada
   - Reglas de decisi√≥n interpretadas
   - Ejemplos pr√°cticos demostrados

üìä ARCHIVOS GENERADOS:

   Datos:
   ‚Ä¢ dataset_creditos.csv - Dataset completo
   ‚Ä¢ reglas_arbol.txt - Reglas del √°rbol en texto
   
   Visualizaciones:
   ‚Ä¢ 01_analisis_exploratorio.png
   ‚Ä¢ 02_matriz_correlacion.png
   ‚Ä¢ 03_matriz_confusion.png
   ‚Ä¢ 04_importancia_caracteristicas.png
   ‚Ä¢ 05_arbol_decision_completo.png
   ‚Ä¢ 06_arbol_decision_simplificado.png

üìà M√âTRICAS PRINCIPALES:

   ‚Ä¢ Exactitud en prueba: {:.2%}
   ‚Ä¢ Registros totales: {}
   ‚Ä¢ Variables predictoras: {}
   ‚Ä¢ Profundidad del √°rbol: {}
   ‚Ä¢ N√∫mero de nodos: {}
   ‚Ä¢ N√∫mero de hojas: {}

üéØ CONCLUSIONES:

   El modelo de √°rbol de decisi√≥n desarrollado es capaz de predecir con una
   exactitud de {:.2%} si un cliente ser√° aprobado para un cr√©dito bancario.
   
   La puntuaci√≥n crediticia es el factor m√°s determinante, seguido de la
   relaci√≥n deuda/ingreso y los a√±os de empleo. El modelo es interpretable
   y puede explicar cada decisi√≥n, lo que lo hace ideal para aplicaciones
   en instituciones financieras que requieren transparencia.

‚úÖ Todos los requerimientos de la actividad han sido cumplidos exitosamente.

‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê
""".format(
    len(df),
    len(X.columns),
    accuracy_test,
    accuracy_test,
    len(df),
    len(X.columns),
    modelo.get_depth(),
    modelo.tree_.node_count,
    modelo.get_n_leaves(),
    accuracy_test
))

## 13. Preparaci√≥n de Datos para el Reporte PDF

Ahora ejecuta el script `generar_reporte_pdf.py` para crear el reporte final en PDF.