## Actividad: Ensambles en un problema real (trabajo individual o en parejas)

**Datos**: Elige un dataset binario de Kaggle (churn/fraude/crédito o similar).  
**Flujo mínimo exigido (sin validación cruzada):**
1) Particiona en *train/test* con `train_test_split` (estratificado).  
2) Entrena tres clasificadores base (sugerencia: Regresión Logística, Árbol, SVM con `probability=True`).  
3) Compara `VotingClassifier` con `voting='hard'` y `voting='soft'`.  
4) Entrena `BaggingClassifier` (árbol base).  
5) Entrena `RandomForestClassifier` con `oob_score=True`; reporta OOB y compáralo con test.  
6) Reporta **Accuracy, Precision, Recall, F1** y matriz de confusión.  
7) Muestra **feature importances** (MDI) y, si el dataset tiene >5 features, complementa con **Permutation Importance**.  
8) **Discusión** (10–15 líneas): ¿qué método funcionó mejor y por qué? Relaciona con diversidad, varianza, *oob*, y la posible calibración de probabilidades (hard vs soft voting).


## Rúbrica

| **Dimensión**                                                                  | **5 — Excelente**                                                                                                                | **4 — Muy bueno**                                                                          | **3 — Aceptable**                                                            | **2 — Básico**                                                      | **1 — Insuficiente**                                               |
| ------------------------------------------------------------------------------ | -------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------ | ---------------------------------------------------------------------------- | ------------------------------------------------------------------- | ------------------------------------------------------------------ |
| **Preparación y partición de datos**                                           | Realiza la partición estratificada de manera correcta; justifica la elección y asegura balance entre clases.                     | Realiza partición estratificada correcta, pero con justificación superficial.              | Partición realizada, pero no asegura balance en todas las clases.            | Partición realizada parcialmente, con errores en estratificación.   | No realiza partición correcta o no entrega evidencia del proceso.  |
| **Implementación de clasificadores base**                                      | Entrena correctamente 3 clasificadores distintos, configurados con parámetros adecuados, justifica su elección.                  | Entrena 3 clasificadores, con pequeños errores de configuración o sin justificación clara. | Entrena solo 2 clasificadores correctamente.                                 | Entrena 1 clasificador o los entrena con errores graves.            | No implementa clasificadores o el código no funciona.              |
| **Uso de métodos de ensamble (Voting, Bagging, Random Forest)**                | Implementa y compara Voting (hard y soft), Bagging y Random Forest con OOB correctamente; explica resultados.                    | Implementa los 3 métodos, con leves errores o explicaciones incompletas.                   | Implementa 2 métodos de ensamble correctamente.                              | Implementa solo 1 método o los aplica con errores graves.           | No implementa métodos de ensamble o los resultados no son válidos. |
| **Métricas de evaluación (Accuracy, Precision, Recall, F1, Confusion Matrix)** | Reporta todas las métricas con claridad; interpreta correctamente cada una con respecto al problema.                             | Reporta todas las métricas, pero con interpretación superficial.                           | Reporta solo parte de las métricas o con errores menores.                    | Reporta pocas métricas y con errores en su interpretación.          | No reporta métricas o son incorrectas.                             |
| **Feature Importances (MDI y Permutation)**                                    | Presenta importancias correctamente calculadas y explicadas; compara MDI vs Permutation con interpretación crítica.              | Presenta importancias con explicación parcial o comparación superficial.                   | Calcula solo un tipo de importancia (MDI o Permutation) sin discusión clara. | Calcula importancias con errores o sin relación con el problema.    | No reporta ni analiza importancias.                                |
| **Discusión y análisis crítico**                                               | Discusión profunda (10–15 líneas), conecta con diversidad, varianza, OOB y calibración; argumenta qué método es mejor y por qué. | Discusión adecuada (8–12 líneas), toca la mayoría de los puntos pedidos.                   | Discusión básica (5–8 líneas), cubre parcialmente los puntos.                | Discusión mínima (menos de 5 líneas) o sin profundidad analítica.   | No presenta discusión o carece de relación con la actividad.       |
| **Claridad, orden y presentación**                                             | Trabajo impecable, con código organizado, comentarios claros y redacción fluida.                                                 | Trabajo bien organizado, con leves errores de orden o redacción.                           | Trabajo aceptable, pero con secciones poco claras o desordenadas.            | Trabajo poco organizado y con deficiencias importantes en claridad. | Trabajo desordenado, sin coherencia ni presentación adecuada.      |


In [2]:
import pandas as pd

In [3]:
df = pd.read_csv("./loan_data.csv")
df.head()

Unnamed: 0,person_age,person_gender,person_education,person_income,person_emp_exp,person_home_ownership,loan_amnt,loan_intent,loan_int_rate,loan_percent_income,cb_person_cred_hist_length,credit_score,previous_loan_defaults_on_file,loan_status
0,22.0,female,Master,71948.0,0,RENT,35000.0,PERSONAL,16.02,0.49,3.0,561,No,1
1,21.0,female,High School,12282.0,0,OWN,1000.0,EDUCATION,11.14,0.08,2.0,504,Yes,0
2,25.0,female,High School,12438.0,3,MORTGAGE,5500.0,MEDICAL,12.87,0.44,3.0,635,No,1
3,23.0,female,Bachelor,79753.0,0,RENT,35000.0,MEDICAL,15.23,0.44,2.0,675,No,1
4,24.0,male,Master,66135.0,1,RENT,35000.0,MEDICAL,14.27,0.53,4.0,586,No,1


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45000 entries, 0 to 44999
Data columns (total 14 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   person_age                      45000 non-null  float64
 1   person_gender                   45000 non-null  object 
 2   person_education                45000 non-null  object 
 3   person_income                   45000 non-null  float64
 4   person_emp_exp                  45000 non-null  int64  
 5   person_home_ownership           45000 non-null  object 
 6   loan_amnt                       45000 non-null  float64
 7   loan_intent                     45000 non-null  object 
 8   loan_int_rate                   45000 non-null  float64
 9   loan_percent_income             45000 non-null  float64
 10  cb_person_cred_hist_length      45000 non-null  float64
 11  credit_score                    45000 non-null  int64  
 12  previous_loan_defaults_on_file  

In [5]:
categorical = df.select_dtypes(include=['object'])

In [6]:
for c in object_columns_df:
    display(df[c].value_counts())
    print("\n")

NameError: name 'object_columns_df' is not defined

In [None]:
df['previous_loan_defaults_on_file']= df['previous_loan_defaults_on_file'].apply(lambda x: True if x=='Yes' else False,)

In [None]:
df.head()

In [None]:
from sklearn.model_selection import train_test_split

y = df['loan_status']
X = df.drop('loan_status', axis=1)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42, stratify=y)

In [None]:
from sklearn.preprocessing import OneHotEncoder

df_encoded = pd.get_dummies(df, columns=categorical, drop_first=True)
#df_categoric = df[categorical]
#enc = OneHotEncoder(handle_unknown='ignore')
#one_hot_encoded = enc.fit_transform(df_categoric)
#one_hot_df = pd.DataFrame(one_hot_encoded, columns=enc.get_feature_names_out(categorical))


In [None]:
from sklearn.ensemble import VotingClassifier, RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier

log_clf = LogisticRegression(random_state=42)
tree_clf = DecisionTreeClassifier(max_depth=None, random_state=42)
svc_clf = SVC(kernel="rbf", gamma="scale", probability=True, random_state=42)  # probability=True habilita soft voting

# Hard voting
voting_hard = VotingClassifier(
    estimators=[("lr", log_clf), ("tree", tree_clf), ("svc", svc_clf)],
    voting="hard"
)
# Soft voting
voting_soft = VotingClassifier(
    estimators=[("lr", log_clf), ("tree", tree_clf), ("svc", svc_clf)],
    voting="soft"  # promedia probabilidades
)

for name, clf in [("LogReg", log_clf), ("Tree", tree_clf), ("SVC", svc_clf), ("HardVote", voting_hard), ("SoftVote", voting_soft)]:
    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)
    print(f"{name:9s}  Acc={accuracy_score(y_test, y_pred):.3f}  F1={f1_score(y_test, y_pred):.3f}")