# Hola &#x1F600;,

Soy **Hesus Garcia** – **"Soy el único Hesus que conoces (y probablemente conocerás) 🌟"** – Sí, como "Jesús", pero con una H que me hace único. Puede sonar raro, pero créeme, ¡no lo olvidarás! Como tu revisor en Triple-Ten, estoy aquí para guiarte y ayudarte a mejorar tu código. Si algo necesita un ajuste, no hay de qué preocuparse; ¡aquí estoy para hacer que tu trabajo brille con todo su potencial! ✨

Cada vez que encuentre un detalle importante en tu código, te lo señalaré para que puedas corregirlo y así te prepares para un ambiente de trabajo real, donde el líder de tu equipo actuaría de manera similar. Si en algún momento no logras solucionar el problema, te daré más detalles para ayudarte en nuestra próxima oportunidad de revisión.

Es importante que cuando encuentres un comentario, **no los muevas, no los modifiques, ni los borres**.

---

### Formato de Comentarios

Revisaré cuidadosamente cada implementación en tu notebook para asegurar que cumpla con los requisitos y te daré comentarios de acuerdo al siguiente formato:


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>
    
<b>Éxito</b> - ¡Excelente trabajo! Esta parte está bien implementada y contribuye significativamente al análisis de datos o al proyecto. Continúa aplicando estas buenas prácticas en futuras secciones.
    
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>
    
<b>Atención</b> ⚠️ - Este código está correcto, pero se puede optimizar. Considera implementar mejoras para que sea más eficiente y fácil de leer. Esto fortalecerá la calidad de tu proyecto.
    
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>
    
<b>A resolver</b> ❗ - Aquí hay un problema o error en el código que es necesario corregir para aprobar esta sección. Por favor, revisa y corrige este punto, ya que es fundamental para la validez del análisis y la precisión de los resultados.
    
</div>

---

Al final de cada revisión, recibirás un **Comentario General del Revisor** que incluirá:

- **Aspectos positivos:** Un resumen de los puntos fuertes de tu proyecto.
- **Áreas de mejora:** Sugerencias sobre aspectos donde puedes mejorar.
- **Temas adicionales para investigar:** Ideas de temas opcionales que puedes explorar por tu cuenta para desarrollar aún más tus habilidades.

Estos temas adicionales no son obligatorios en esta etapa, pero pueden serte útiles para profundizar en el futuro.

---


Esta estructura en viñetas facilita la lectura y comprensión de cada parte del comentario final.

También puedes responderme de la siguiente manera si tienes alguna duda o quieres aclarar algo específico:


<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>
    
Aquí puedes escribir tu respuesta o pregunta sobre el comentario.
    
</div>


**¡Empecemos!** &#x1F680;


# Modelo Predictivo para Beta Bank

# Introduccion

El presente trabajo tiene como objetivo evaluar y comparar distintos modelos de clasificación para resolver un problema de detección binaria de clientes propensos a realizar cancelaciones. Para ello, se implementaron y analizaron modelos de Regresión Logística, Árboles de Decisión y Bosques Aleatorios.
Dado que se trata de un conjunto de datos desbalanceado, se aplicaron técnicas de ajuste de equilibrio como la asignación de pesos a las clases, sobremuestreo (upsampling) y submuestreo (downsampling), con el fin de mejorar el desempeño de los modelos en la clase minoritaria.

El rendimiento de cada modelo se midió a través de la métrica F1, considerando un valor mínimo de 0.59 como criterio de aceptación. Asimismo, para el mejor modelo se calculó el valor de AUC-ROC

# Descripcion de datos.


In [1]:
# Importamos librerias.
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score
from sklearn.utils import shuffle

# Exploracion inicial de datos.

In [None]:
# Leemos el archivo CSV y lo almacenamos como un DataFrame llamado data.
data = pd.read_csv('data\Churn.csv')

**Descripción de los datos.**

- RowNumber: índice de cadena de datos
- CustomerId: identificador de cliente único
- Surname: apellido
- CreditScore: valor de crédito
- Geography: país de residencia
- Gender: sexo
- Age: edad
- Tenure: período durante el cual ha madurado el depósito a plazo fijo de un cliente (años)
- Balance: saldo de la cuenta
- NumOfProducts: número de productos bancarios utilizados por el cliente
- HasCrCard: el cliente tiene una tarjeta de crédito (1 - sí; 0 - no)
- IsActiveMember: actividad del cliente (1 - sí; 0 - no)
- EstimatedSalary: salario estimado


**Objetivo:**
- Exited: El cliente se ha ido (1 - sí; 0 - no)

In [3]:
# Mostramos las primeras 5 filas.
print(data.head(5))

   RowNumber  CustomerId   Surname  CreditScore Geography  Gender  Age  \
0          1    15634602  Hargrave          619    France  Female   42   
1          2    15647311      Hill          608     Spain  Female   41   
2          3    15619304      Onio          502    France  Female   42   
3          4    15701354      Boni          699    France  Female   39   
4          5    15737888  Mitchell          850     Spain  Female   43   

   Tenure    Balance  NumOfProducts  HasCrCard  IsActiveMember  \
0     2.0       0.00              1          1               1   
1     1.0   83807.86              1          0               1   
2     8.0  159660.80              3          1               0   
3     1.0       0.00              2          0               0   
4     2.0  125510.82              1          1               1   

   EstimatedSalary  Exited  
0        101348.88       1  
1        112542.58       0  
2        113931.57       1  
3         93826.63       0  
4         790

In [4]:
# Mostramos info para 'data'
print(data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   RowNumber        10000 non-null  int64  
 1   CustomerId       10000 non-null  int64  
 2   Surname          10000 non-null  object 
 3   CreditScore      10000 non-null  int64  
 4   Geography        10000 non-null  object 
 5   Gender           10000 non-null  object 
 6   Age              10000 non-null  int64  
 7   Tenure           9091 non-null   float64
 8   Balance          10000 non-null  float64
 9   NumOfProducts    10000 non-null  int64  
 10  HasCrCard        10000 non-null  int64  
 11  IsActiveMember   10000 non-null  int64  
 12  EstimatedSalary  10000 non-null  float64
 13  Exited           10000 non-null  int64  
dtypes: float64(3), int64(8), object(3)
memory usage: 1.1+ MB
None


**Observaciones:**

- `data` tiene 10000 filas y 14 columnas.
- Los tipos de datos son correctos para cada columna.
- Vemos que tenemos NaN en la columna 'Tenure'.

In [5]:
# Mostramos describe en 'data'
print(data.describe())

         RowNumber    CustomerId   CreditScore           Age       Tenure  \
count  10000.00000  1.000000e+04  10000.000000  10000.000000  9091.000000   
mean    5000.50000  1.569094e+07    650.528800     38.921800     4.997690   
std     2886.89568  7.193619e+04     96.653299     10.487806     2.894723   
min        1.00000  1.556570e+07    350.000000     18.000000     0.000000   
25%     2500.75000  1.562853e+07    584.000000     32.000000     2.000000   
50%     5000.50000  1.569074e+07    652.000000     37.000000     5.000000   
75%     7500.25000  1.575323e+07    718.000000     44.000000     7.000000   
max    10000.00000  1.581569e+07    850.000000     92.000000    10.000000   

             Balance  NumOfProducts    HasCrCard  IsActiveMember  \
count   10000.000000   10000.000000  10000.00000    10000.000000   
mean    76485.889288       1.530200      0.70550        0.515100   
std     62397.405202       0.581654      0.45584        0.499797   
min         0.000000       1.00000

**Observaciones:**
- **Exited:** muestra un promedio de 0.203 lo que representa que el 20.3% de los clientes se ha retirado del banco.
- **Tenure:**	Tiene 9091 no nulos. Debemos observar con detalle.
- **Balance:**	25% de los clientes tienen saldo 0.
- **NumOfProducts:**	Casi todos tienen 1 o 2 productos.
- **IsActiveMember:**	Un promdeio de 51.5% de clientes activos 
- **CreditScore:**	Promedio en 650, con mínimo de 350.
- **Age:**	Amplio rango, desde los 18 hasta 92 años.

In [6]:
# Comprobamos el numero de duplicados en 'data'.
print("Número de filas duplicadas en data", data.duplicated().sum())

Número de filas duplicadas en data 0


In [7]:
# Contamos NaN en 'data'.
print("Número de NaN en users_behavior", data.isna().sum())

Número de NaN en users_behavior RowNumber            0
CustomerId           0
Surname              0
CreditScore          0
Geography            0
Gender               0
Age                  0
Tenure             909
Balance              0
NumOfProducts        0
HasCrCard            0
IsActiveMember       0
EstimatedSalary      0
Exited               0
dtype: int64


Gracias por compartir esta primera parte del proyecto. Aquí tienes el comentario correspondiente:
<div class="alert alert-block alert-success">

<b>Comentario del revisor</b> <a class="tocSkip"></a><br>

<b>Éxito</b> - Muy buen comienzo. La introducción está bien contextualizada y la descripción de los datos es clara y detallada. Has identificado correctamente las variables relevantes, la presencia de valores faltantes en `Tenure` y la distribución de clases en `Exited`, lo cual es clave para preparar un modelo predictivo eficaz. Además, la exploración inicial es completa y ordenada. ¡Excelente trabajo!

</div>



## Manejo de NaN en `Tenure`.

Debido a que los valores ausentes corresponde al 9% los reemplazaremos con la mediana de la columna.

In [8]:
# Reemplazamos NaN con la mediana de 'Tenure'.
data['Tenure'] = data['Tenure'].fillna(data['Tenure'].median())

# Contamos el numero de NaN en 'data'
print("Número de NaN en users_behavior", data.isna().sum())

# Mostramos describe en 'data'
print(data.describe())

Número de NaN en users_behavior RowNumber          0
CustomerId         0
Surname            0
CreditScore        0
Geography          0
Gender             0
Age                0
Tenure             0
Balance            0
NumOfProducts      0
HasCrCard          0
IsActiveMember     0
EstimatedSalary    0
Exited             0
dtype: int64
         RowNumber    CustomerId   CreditScore           Age       Tenure  \
count  10000.00000  1.000000e+04  10000.000000  10000.000000  10000.00000   
mean    5000.50000  1.569094e+07    650.528800     38.921800      4.99790   
std     2886.89568  7.193619e+04     96.653299     10.487806      2.76001   
min        1.00000  1.556570e+07    350.000000     18.000000      0.00000   
25%     2500.75000  1.562853e+07    584.000000     32.000000      3.00000   
50%     5000.50000  1.569074e+07    652.000000     37.000000      5.00000   
75%     7500.25000  1.575323e+07    718.000000     44.000000      7.00000   
max    10000.00000  1.581569e+07    850.00000

**Observaciones:**

- Para 'Tenure' ahora el numero de valores es 10000.
- El promedio, Q2 y Q3 se mantienen igual.
- Q1 aumenta de 2 a 3.
- La desviacion estandar se disminuyó 0,134713.













<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>

<b>Éxito</b> - Excelente manejo de valores nulos. Elegiste correctamente reemplazar con la mediana dado el bajo porcentaje de valores faltantes y la naturaleza discreta de la variable. Además, acompañaste el cambio con un análisis descriptivo que demuestra una revisión cuidadosa del impacto del imputado. ¡Buen trabajo documentando el efecto en los cuantiles y la desviación estándar!

</div>

# Desarrollo del modelo predictivo.

# 1. Transformacion de características categóricas en numéricas.

Las columnas 'Geography' y 'Gender' no muestran categorias que necesiten numeracion ordinal, el nombre de los paises o el sexo de los clientes es indiferente sea cual sea el numero que se les otorgue. Es por esto que los datos de estas columnas son *variables nominales.*

In [9]:
# Transformamos  características categóricas en numéricas
data_ohe = pd.get_dummies(data[['Geography', 'Gender']], drop_first = True)

# Unimos data con data_ohe elimimando las columnas 'Geography', 'Gender' de data
data_final = pd.concat([data.drop(['Geography', 'Gender'], axis=1), data_ohe], axis=1)

# Mostramos data_final
print(data_final.head(3))

# Usamos describe en 'data_final'
print(data_final.describe())

   RowNumber  CustomerId   Surname  CreditScore  Age  Tenure    Balance  \
0          1    15634602  Hargrave          619   42     2.0       0.00   
1          2    15647311      Hill          608   41     1.0   83807.86   
2          3    15619304      Onio          502   42     8.0  159660.80   

   NumOfProducts  HasCrCard  IsActiveMember  EstimatedSalary  Exited  \
0              1          1               1        101348.88       1   
1              1          0               1        112542.58       0   
2              3          1               0        113931.57       1   

   Geography_Germany  Geography_Spain  Gender_Male  
0                  0                0            0  
1                  0                1            0  
2                  0                0            0  
         RowNumber    CustomerId   CreditScore           Age       Tenure  \
count  10000.00000  1.000000e+04  10000.000000  10000.000000  10000.00000   
mean    5000.50000  1.569094e+07    650.5288

**Observaciones:**

- El 54.45% de los clientes son hombres.
- Se distribuyen geograficamente en 25.09% en Germany, 24.77% en Spain y 50.14% en France.

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>

<b>Éxito</b> - ¡Muy bien aplicado el one-hot encoding! Has identificado correctamente que las variables 'Geography' y 'Gender' son categóricas nominales, y realizaste la transformación de forma adecuada usando pd.get_dummies() con drop_first=True para evitar la multicolinealidad. Además, tu análisis posterior de distribución por género y país en las nuevas variables demuestra un entendimiento sólido del proceso de transformación. ¡Sigue así!

</div>

# 2. Definicion de features y target para cada categoria.

In [10]:
# Definimos las variables para features y target
# Eliminamos las columnas que no aportan valor en features.
features = data_final.drop(['RowNumber','CustomerId','Surname','Exited'], axis=1)
target = data_final['Exited']

# Dividimos en variables para entrenamiento y validacion
features_train, features_valid, target_train, target_valid = train_test_split(features,
                                                                              target,
                                                                              test_size = 0.25,
                                                                              random_state = 12345)


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>

<b>Éxito</b> - Excelente definición de las variables features y target. Has identificado correctamente columnas que no aportan valor predictivo (RowNumber, CustomerId, Surname) y las has excluido de features. Además, la división entre conjunto de entrenamiento y validación está bien ejecutada con train_test_split, incluyendo la semilla random_state para asegurar reproducibilidad. ¡Buen trabajo organizando tu flujo de trabajo!

</div>

# 3. Entrenamiento de modelos sin Equilibrar las Clases.

## 3.1. Regresion logistica.

In [11]:
# Definimos el modelo con LogisticRegression
model_1 = LogisticRegression(random_state = 12345, solver = 'liblinear')

# Entrenamos al modelo con features_train y target_train
model_1.fit(features_train, target_train)

# Definimos una variable para las predicciones del modelo
predicted_valid_1 = model_1.predict(features_valid)

# Calculamos  Precision
print("Precision-Score:", precision_score(target_valid, predicted_valid_1))

# Calculamos  Recall
print("Recall-Score:", recall_score(target_valid, predicted_valid_1))

# Calculamos  F1
print("F1-Score:", f1_score(target_valid, predicted_valid_1))

Precision-Score: 0.45
Recall-Score: 0.06728971962616823
F1-Score: 0.11707317073170732


**Observaciones:**

- Precision nos muestra que de todos los clientes que el modelo predijo que se irían, solo el 45% realmente se fueron.
- Recall nos muestra que de todos los clientes que realmente se fueron, el modelo solo detectó el 6.72%.
- El valor de F1 muestra un bajo desempeño del modelo. No se acerca al valor objetivo de 0.59. 

## 3.2. Árbol de Decisión.

In [12]:
# Creamos un ciclo for para determinar el valor para max_depth donde f1_score sea mayor.
best_f1 = 0
best_depth = None

for depth in range(1, 30):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model.fit(features_train, target_train)
    predicted_valid = model.predict(features_valid)
    f1 = f1_score(target_valid, predicted_valid)

    if f1 > best_f1:
        best_f1 = f1
        best_depth = depth

# Mostrar el mejor si supera 0.59
if best_f1 >= 0.59:
    print(f'Mejor max_depth: {best_depth}, F1-Score: {best_f1:.3f}')
else:
    print('Ningún valor en el rango superó el valor mínimo en F1 (0.59)')


Ningún valor en el rango superó el valor mínimo en F1 (0.59)


Aunque ningun valor en max_depth nos permitirá igualar o superar la metrica para f1. Realizaremos la prueba con el modelo y veremos sus otras metricas.

In [13]:
# Buscamos el mejor valor para max_depth
best_f1 = 0
best_depth = 0

for depth in range(1, 10):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model.fit(features_train, target_train)
    predictions_valid = model.predict(features_valid)
    f1 = f1_score(target_valid, predictions_valid)
    if f1 > best_f1:
        best_f1 = f1
        best_depth = depth

print(f'Mejor max_depth: {best_depth} con F1: {best_f1}')

Mejor max_depth: 5 con F1: 0.5697940503432494


In [14]:
# Entrenamos el modelo teniendo en cuenta los hiperparametros.
model_2 = DecisionTreeClassifier(random_state=12345, max_depth=5)
model_2.fit(features_train, target_train)
predicted_valid_2 = model_2.predict(features_valid)

print('Precision:', precision_score(target_valid, predicted_valid_2))
print('Recall:', recall_score(target_valid, predicted_valid_2))
print('F1:', f1_score(target_valid, predicted_valid_2))

Precision: 0.7345132743362832
Recall: 0.4654205607476635
F1: 0.5697940503432494


**Observaciones.**

- Precision nos muestra que de todos los clientes que el modelo predijo que se irían, el 73% realmente se fueron.
- Recall nos muestra que de todos los clientes que realmente se fueron, el modelo  detectó el 46.54%.
- El valor de F1 muestra un desempeño de 0.569, un valor cercano al umbral deseado de 0.59

## 3.3. Bosque Aleatorio.

In [15]:
# Creamos un ciclo for para determinar el mejor valor para n_estimators

best_score = 0
best_est = 0
for est in range(1, 11):
    model = RandomForestClassifier(random_state=54321, n_estimators=est)
    model.fit(features_train,target_train)
    score = model.score(features_valid,target_valid)
    if score > best_score:
        best_score = score
        best_est = est

print("La exactitud del mejor modelo en el conjunto de validación (n_estimators = {}): {}".format(best_est, best_score))


La exactitud del mejor modelo en el conjunto de validación (n_estimators = 9): 0.8436


In [16]:
# Creamos el modelo de Bosque Aleatorio teniendo en cuenta los hiperparametros.
model_3 = RandomForestClassifier(random_state=54321, n_estimators=9)
model_3.fit(features_train, target_train)
predicted_valid_3 = model_3.predict(features_valid)

# Calculamos  Precision
print("Precision-Score:", precision_score(target_valid, predicted_valid_3))

# Calculamos  Recall
print("Recall-Score:", recall_score(target_valid, predicted_valid_3))

# Calculamos  F1
print("F1-Score:", f1_score(target_valid, predicted_valid_3))

Precision-Score: 0.6978021978021978
Recall-Score: 0.4747663551401869
F1-Score: 0.5650723025583982


**Observaciones:**
- Precision nos muestra que de todos los clientes que el modelo predijo que se irían, el 69.78% realmente se fueron.
- Recall nos muestra que de todos los clientes que realmente se fueron, el modelo  detectó el 47.47%.
- El valor de F1 muestra un desempeño de 0.565. Aunque está muy cerca, todavía le falta para alcanzar el umbral de 0.59.

## 3.4. Conclusiones sobre los modelos sin balancear ni escalar.

**Observaciones:**

- Los modelos de Árbol de Decisión y Bosque Aleatorio mostraron un desempeño superior al modelo de Regresión Logística, tanto en precisión, recall y F1-Score, acercándose al umbral objetivo de 0.59 para F1.

- El Bosque Aleatorio presentó una ligera mejora en la capacidad de detección de clientes que efectivamente se fueron del banco, con un recall 0.93% mayor respecto al Árbol de Decisión, aunque su F1-Score resultó levemente inferior.


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>

<b>Éxito</b> - ¡Muy bien hecho! Has implementado correctamente tres modelos distintos (Regresión Logística, Árbol de Decisión y Bosque Aleatorio), comparando sus métricas clave sin aplicar técnicas de balanceo. Especial mención al uso de ciclos para optimización de hiperparámetros (max_depth, n_estimators) y la claridad con la que interpretas precisión, recall y F1. Tus conclusiones reflejan una comprensión sólida del comportamiento de modelos en datasets desbalanceados. ¡Sigue así!

</div>

# 4. Entrenamiento de modelos con clases equilibrados y carateristicas escaladas.

## 4.1. Modelos de Regresion Logistica.

### 4.1.1. Regresión Logística balanceada

In [17]:
# Definimos el modelo con LogisticRegression
model_4 = LogisticRegression(random_state = 12345, solver = 'liblinear', class_weight = 'balanced')

# Entrenamos al modelo con features_train y target_train
model_4.fit(features_train, target_train)

# Definimos una variable para las predicciones del modelo
predicted_valid_4 = model_4.predict(features_valid)

# Calculamos  Precision
print("Precision-Score:", precision_score(target_valid, predicted_valid_4))

# Calculamos  Recall
print("Recall-Score:", recall_score(target_valid, predicted_valid_4))

# Calculamos  F1
print("F1-Score:", f1_score(target_valid, predicted_valid_4))

Precision-Score: 0.37475149105367794
Recall-Score: 0.7046728971962617
F1-Score: 0.48929266709928615


**Observaciones.**

- Precision nos muestra que de todos los clientes que el modelo predijo que se irían, solo el 37.47% realmente se fueron.
- Recall nos muestra que de todos los clientes que realmente se fueron, el modelo solo detectó el 70.46%.
- El valor de F1 muestra un desempeño de 0.489. Aun le falta para alcanzar el umbral de 0.59.

**Comparacion con el modelo no balanceado:** 
- Vemos una disminucion en la precision.
- Aumento en la detección de clientes que se fueron.
- Aumento en el desempeño general del modelo pero sin alcanzar el umbral objetivo de 0.59.


### 4.1.2.Regresión logística balanceada y escalado.

In [18]:
# Inicializamos el scaler
scaler = StandardScaler()

# Ajustamos y transformamos solo las features de entrenamiento
scaler.fit(features_train)
features_train_esc = scaler.transform(features_train)
features_valid_esc = scaler.transform(features_valid)

# Creamos el modelo 
model_logreg = LogisticRegression(random_state=12345, solver='liblinear', class_weight = 'balanced')
model_logreg.fit(features_train_esc, target_train)
predicted_valid_logreg = model_logreg.predict(features_valid_esc)

print('F1:', f1_score(target_valid, predicted_valid_logreg))

F1: 0.5050234427327529


**Observaciones:**
- El modelo presenta un desempeño inferior al requerido de 0.59

### 4.1.2. Regresión Logística con Sobremuestreo, balaceada y escalado.

In [19]:
# Convertir numpy array escalado a DataFrame y resetear índices
features_train_esc_df = pd.DataFrame(features_train_esc, columns=features_train.columns).reset_index(drop=True)
target_train_reset = target_train.reset_index(drop=True)

# Escribimos una funcion para el sobremuestreo.
def upsample(features, target, repeat):

    # Separamos las clases
    features_zeros = features[target == 0]
    features_ones = features[target == 1]
    target_zeros = target[target == 0]
    target_ones = target[target == 1]

    features_upsampled = pd.concat([features_zeros] + [features_ones] * repeat)
    target_upsampled = pd.concat([target_zeros] + [target_ones] * repeat)

    # Mezclamos aleatoriamente los datos balanceados
    features_upsampled, target_upsampled = shuffle(
        features_upsampled, target_upsampled, random_state=12345
    )

    return features_upsampled, target_upsampled


# Creamos las variables llamando a la funcion upsample y usando las variables escaladas.
features_upsampled, target_upsampled = upsample(
    features_train_esc_df, target_train_reset, 10
)

# Creamos y entrenamos el modelo de regresión logística
model_5 = LogisticRegression(random_state = 12345, solver = 'liblinear', class_weight = 'balanced')
model_5.fit(features_upsampled,target_upsampled)
predicted_valid_5 = model_5.predict(features_valid_esc)

# Mostramos el valor de F1
print('F1:', f1_score(target_valid, predicted_valid_5))

F1: 0.5050234427327529


**Observaciones:**
- El modelo presenta un desempeño inferior al requerido de 0.59 y un desemepño similar al modelo sin sobremuestreo.

### 4.1.3. Regresión Logística con Submuestreo, escalado y balanceada.

In [20]:
# Escribimos una funcion para el submuestreo.
def downsample(features, target, fraction):
    
    # Separamos las clases
    features_zeros = features[target == 0]
    features_ones = features[target == 1]
    target_zeros = target[target == 0]
    target_ones = target[target == 1]

    features_downsampled = pd.concat(
        [features_zeros.sample(frac=fraction, random_state=12345)]
        + [features_ones]
    )
    target_downsampled = pd.concat(
        [target_zeros.sample(frac=fraction, random_state=12345)]
        + [target_ones]
    )
    
    # Mezclamos aleatoriamente los datos balanceados
    features_downsampled, target_downsampled = shuffle(
        features_downsampled, target_downsampled, random_state=12345
    )

    return features_downsampled, target_downsampled

# Creamos las variables llamando a la funcion downsample y usando las variables escaladas.
features_downsampled, target_downsampled = downsample(
    features_train_esc_df, target_train_reset, 0.1
)

# Creamos y entrenamos el modelo de regresión logística
model_6 = LogisticRegression(random_state=12345, solver = 'liblinear', class_weight = 'balanced')
model_6.fit(features_downsampled, target_downsampled)
predicted_valid_6 = model_6.predict(features_valid_esc)

print('F1:', f1_score(target_valid, predicted_valid_6))

F1: 0.5099601593625498


**Observaciones:**
- El modelo no alcanza el valor necesario de 0.59 para F1.
- El modelo con submuestreo muestra un resultado ligeramente superior al modelo con sobremeustreo pero sin mejora significativa.

## 4.2. Modelo de Arbol de Decision.

### 4.2.1. Árbol de Decisión balanceado.

In [21]:
# Definimos y entrenamos el modelo teniendo en cuenta los hiperparametros.
model_7 = DecisionTreeClassifier(random_state=12345, max_depth=5, class_weight = 'balanced')
model_7.fit(features_train, target_train)
predicted_valid_7 = model_7.predict(features_valid)

# Calculamos  Precision
print('Precision:', precision_score(target_valid, predicted_valid_7))

# Calculamos  Recall
print('Recall:', recall_score(target_valid, predicted_valid_7))

# Calculamos  F1
print('F1:', f1_score(target_valid, predicted_valid_7))

Precision: 0.5290780141843971
Recall: 0.697196261682243
F1: 0.6016129032258064


**Observaciones:**
- El modelo con clase balanceada muestra un valor para F1 de 0.60 superando el valor necesario de 0.59 para F1.

### 4.2.2. Árbol de Decisión con Sobremuestreo.

In [22]:
# Creamos el modelo usando las variables resultantes de la funcion upsample
model_8 = DecisionTreeClassifier(random_state=12345, max_depth=5)
model_8.fit(features_upsampled,target_upsampled)
predicted_valid_8 = model_8.predict(features_valid)

# Mostramos el valor para F1
print('F1:', f1_score(predicted_valid_8, target_valid))

F1: 0.3525535420098847


**Observaciones:**
- El modelo no alcanza el valor necesario de 0.59 para F1.

### 4.2.3. Árbol de Decisión con Submuestreo.

In [23]:
# # Creamos el modelo usando las variables resultantes de la funcion downsample
model_9 = DecisionTreeClassifier(random_state=12345, max_depth=5)
model_9.fit(features_downsampled,target_downsampled)
predicted_valid_9 = model_9.predict(features_valid)

# Mostramos el valor para F1
print('F1:', f1_score(predicted_valid_9, target_valid))

F1: 0.060390763765541734


**Observaciones:**
- El modelo no alcanza el valor necesario de 0.59 para F1.

### 4.2.4. Conclusiones sobre los modelos de Arbol de Decision con equilibrio de clases.

- El Arbol de Decision Balanceado mostró el mejor desempeño para F1= 0.60.
- El arbol de decision sobremuestrado mostró un desempeño inferior en F1 con un valor de 0.35
- el arbol de decision submuestrado mostró el menor desempeño de los 3 modelos con un valor de F1=0.06

## 4.3. Bosque Aleatorio Balanceado.

In [24]:
# Creamos el modelo de Bosque Aleatorio teniendo en cuenta los hiperparametros.
model_10 = RandomForestClassifier(random_state=54321, n_estimators=9, class_weight = 'balanced')
model_10.fit(features_train, target_train)
predicted_valid_10 = model_10.predict(features_valid)

# Calculamos  Precision
print("Precision-Score:", precision_score(target_valid, predicted_valid_10))

# Calculamos  Recall
print("Recall-Score:", recall_score(target_valid, predicted_valid_10))

# Calculamos  F1
print("F1-Score:", f1_score(target_valid, predicted_valid_10))

Precision-Score: 0.7205882352941176
Recall-Score: 0.45794392523364486
F1-Score: 0.5599999999999999


**Observaciones:**
- El modelo muestra un desempeño cercano pero inferior al requerido de 0.59 para F1.

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>

<b>Éxito</b> - Excelente avance en la sección de modelos con clases equilibradas y características escaladas. Has aplicado correctamente varias técnicas de balanceo (ponderación de clases, sobremuestreo, submuestreo) y evaluado su impacto en distintos algoritmos. Destaco especialmente el Árbol de Decisión balanceado que supera el umbral de F1 ≥ 0.59, cumpliendo así con los objetivos del proyecto. Tu análisis comparativo demuestra un enfoque sólido y reflexivo. ¡Sigue así!

</div>

# 5. Curva ROC para el modelo con mejor desempeño en F1.

En la siguiente tabla presentamos el desempeño  medido por F1 para los modelos con clase balanceada y corrección de equilibrio.

| Modelo | Valor F1|
|---|---|
| Regresión Logística balanceada|  0.489 | 
| Regresión Logística balanceada + Escalado | 0.505 | 
| Regresión Logística + Sobremuestreo + Escalado | 0.505 | 
| Regresión Logística + Submuestreo + Escalado | 0.5099 |
| **Árbol de Decisión balanceado** | **0.60** |
| Árbol de Decisión + Sobremuestreo | 0.352 |
| Árbol de Decisión + Submuestreo | 0.060 | 
| Bosque Aleatorio balanceado | 0.559 |

- El Modelo de  **Árbol de Decisión Balanceado** muestra el mejor desempeño de todos los modelos planteados.
- El Modelo de  **Árbol de Decisión Balanceado** supera el valor requerido de 0.59 para F1.

Teniendo esto en cuenta, hallaremos el valor de AUC ROC para este modelo.

In [25]:
# Creamos el modelo final con los hiperparametros que maximizaron su rendimiento.
model_tree_final = DecisionTreeClassifier(random_state=12345, max_depth=5, class_weight = 'balanced')

# Entrenamos el modelo 
model_tree_final.fit(features_train, target_train)
predicted_valid_final = model_tree_final.predict(features_valid)

# Calculamos  F1
print('F1:', f1_score(target_valid, predicted_valid_final))

# Predecimos las probabilidades para la clase positiva
probs_valid = model_tree_final.predict_proba(features_valid)[:, 1]

# Calculamos AUC-ROC
auc_roc = roc_auc_score(target_valid, probs_valid)
print('AUC-ROC:', auc_roc)

F1: 0.6016129032258064
AUC-ROC: 0.8461211386173932


**Observacion:** 
- Muestra un AUC-ROC de 0.846, indicando que el modelo tiene una excelente capacidad para diferenciar entre las clases positivas y negativas.

# 6. Conclusiones.

Tras el análisis comparativo, se determinó que el modelo **Árbol de Decisión con clases balanceadas alcanzó el mejor desempeño, con un valor F1 de 0.60**, superando el umbral establecido de 0.59. Además, este modelo obtuvo un **valor de AUC-ROC de 0.846, evidenciando una adecuada capacidad para discriminar entre las clases positivas y negativas.**

Los resultados mostraron que, si bien las técnicas de sobremuestreo y submuestreo aportan mejoras en modelos como la Regresión Logística, su efecto en Árboles de Decisión no siempre es favorable. En este caso particular, el ajuste mediante pesos de clase en el Árbol de Decisión resultó ser la estrategia más efectiva.

Con base en estos hallazgos, se recomienda utilizar el Árbol de Decisión balanceado como modelo final para este problema de clasificación, por su solidez en términos de precisión, equilibrio en la clasificación de ambas clases y su adecuada área bajo la curva ROC.

## Comentario general del revisor 



<div class="alert alert-block alert-success">

<b>Comentario del revisor</b> <a class="tocSkip"></a>

¡Felicidades, Cristian! Tu proyecto está <b>aprobado</b>. Has demostrado un sólido conocimiento en el manejo de datos, desarrollo y evaluación de modelos de clasificación, aplicando técnicas esenciales para tratar conjuntos desbalanceados. Tu análisis paso a paso está muy bien documentado y el uso de métricas relevantes permite entender claramente la toma de decisiones durante la optimización de los modelos.

#### Puntos Positivos:

* **Limpieza de datos:** Excelente manejo de valores nulos, justificado y correctamente ejecutado.
* **Codificación de variables categóricas:** Implementación adecuada de one-hot encoding sin pérdida de información.
* **Balanceo de clases:** Aplicaste diversas técnicas (class\_weight, upsampling, downsampling) y comparaste su impacto con criterio.
* **Evaluación de modelos:** Uso exhaustivo de F1, precisión, recall, y AUC-ROC con reflexiones claras sobre sus implicaciones.
* **Selección del mejor modelo:** Fundada en métricas y resultados, seleccionando el Árbol de Decisión balanceado como el más eficaz.

#### Áreas para Seguir Investigando:

* **Optimización de hiperparámetros:** Podrías explorar `GridSearchCV` o `RandomizedSearchCV` para encontrar combinaciones más robustas.
* **Cross-validation estratificado:** Aporta mayor estabilidad al evaluar modelos, especialmente en datasets desbalanceados.
* **Manejo avanzado de desbalance:** Técnicas como SMOTE o ADASYN podrían potenciar aún más el rendimiento.
* **Evaluación económica del modelo:** Analizar el impacto financiero de falsos positivos/negativos para el negocio.

¡Sigue así, estás haciendo un gran trabajo! 

</div>
