# Hola &#x1F600;,

Soy **Hesus Garcia** – **"Soy el único Hesus que conoces (y probablemente conocerás) 🌟"** – Sí, como "Jesús", pero con una H que me hace único. Puede sonar raro, pero créeme, ¡no lo olvidarás! Como tu revisor en Triple-Ten, estoy aquí para guiarte y ayudarte a mejorar tu código. Si algo necesita un ajuste, no hay de qué preocuparse; ¡aquí estoy para hacer que tu trabajo brille con todo su potencial! ✨

Cada vez que encuentre un detalle importante en tu código, te lo señalaré para que puedas corregirlo y así te prepares para un ambiente de trabajo real, donde el líder de tu equipo actuaría de manera similar. Si en algún momento no logras solucionar el problema, te daré más detalles para ayudarte en nuestra próxima oportunidad de revisión.

Es importante que cuando encuentres un comentario, **no los muevas, no los modifiques, ni los borres**.

---

### Formato de Comentarios

Revisaré cuidadosamente cada implementación en tu notebook para asegurar que cumpla con los requisitos y te daré comentarios de acuerdo al siguiente formato:


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>
    
<b>Éxito</b> - ¡Excelente trabajo! Esta parte está bien implementada y contribuye significativamente al análisis de datos o al proyecto. Continúa aplicando estas buenas prácticas en futuras secciones.
    
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>
    
<b>Atención</b> ⚠️ - Este código está correcto, pero se puede optimizar. Considera implementar mejoras para que sea más eficiente y fácil de leer. Esto fortalecerá la calidad de tu proyecto.
    
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>
    
<b>A resolver</b> ❗ - Aquí hay un problema o error en el código que es necesario corregir para aprobar esta sección. Por favor, revisa y corrige este punto, ya que es fundamental para la validez del análisis y la precisión de los resultados.
    
</div>

---

Al final de cada revisión, recibirás un **Comentario General del Revisor** que incluirá:

- **Aspectos positivos:** Un resumen de los puntos fuertes de tu proyecto.
- **Áreas de mejora:** Sugerencias sobre aspectos donde puedes mejorar.
- **Temas adicionales para investigar:** Ideas de temas opcionales que puedes explorar por tu cuenta para desarrollar aún más tus habilidades.

Estos temas adicionales no son obligatorios en esta etapa, pero pueden serte útiles para profundizar en el futuro.

---


Esta estructura en viñetas facilita la lectura y comprensión de cada parte del comentario final.

También puedes responderme de la siguiente manera si tienes alguna duda o quieres aclarar algo específico:


<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>
    
Aquí puedes escribir tu respuesta o pregunta sobre el comentario.
    
</div>


**¡Empecemos!** &#x1F680;


# Recomendación de Planes Móviles para Megaline
Megaline ha detectado que una parte significativa de sus clientes continúa utilizando planes heredados, lo cual limita la adopción de sus nuevas ofertas. Con el objetivo de optimizar la experiencia del usuario y fomentar la migración hacia sus planes actuales —Smart y Ultra— se propone el desarrollo de un modelo de clasificación capaz de analizar el comportamiento de los suscriptores y recomendar el plan más adecuado.

Para este proyecto, se cuenta con un conjunto de datos que refleja el comportamiento de clientes que ya han realizado el cambio a los nuevos planes, lo que permite entrenar el modelo con información relevante y actualizada. Dado que el procesamiento de datos ya ha sido completado en etapas anteriores, el enfoque se centrará directamente en la construcción y evaluación del modelo.

El objetivo es alcanzar una precisión mínima de 0.75, utilizando el dataset disponible como base para validar el rendimiento del modelo. Este umbral garantiza que las recomendaciones sean confiables y útiles para la toma de decisiones comercial

## Cargar y explorar los datos

In [7]:
import pandas as pd

# Cargar dataset
df = pd.read_csv('/datasets/users_behavior.csv')

# Revisión inicial
print(df.head())
print(df.info())
print(df.describe())
print(df.isnull().sum())  # Verificar valores nulos

   calls  minutes  messages   mb_used  is_ultra
0   40.0   311.90      83.0  19915.42         0
1   85.0   516.75      56.0  22696.96         0
2   77.0   467.66      86.0  21060.45         0
3  106.0   745.53      81.0   8437.39         1
4   66.0   418.74       1.0  14502.75         0
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB
None
             calls      minutes     messages       mb_used     is_ultra
count  3214.000000  3214.000000  3214.000000   3214.000000  3214.000000
mean     63.038892   438.208787    38.281269  17207.673836     0.306472
std      33.236368   234.569872    36.148326   7570.968246  

El dataset contiene 3214 observaciones y 5 columnas: calls, minutes, messages, mb_used y is_ultra. Las cuatro primeras son variables numéricas continuas (float64) y la variable objetivo is_ultra es entera (int64).

No se encontraron valores nulos ni inconsistencias tipográficas en los nombres de columnas. La estadística descriptiva muestra valores coherentes con el comportamiento esperado de usuarios móviles, aunque con alta variabilidad en llamadas, mensajes y tráfico de datos.

 ## Separar variables predictoras y objetivo

Los datos se segmentaron en:

1. Entrenamiento: 60 % del total, utilizado para el ajuste de parámetros del modelo.
2. Validación: 20 %, empleado para evaluar diferentes modelos y seleccionar hiperparámetros óptimos.
3. Prueba: 20 %, reservado exclusivamente para la evaluación final del modelo seleccionado.

Esta segmentación garantiza independencia entre el ajuste de parámetros y la evaluación final, evitando sesgos por sobreajuste.

In [8]:
features = df.drop('is_ultra', axis=1)
target = df['is_ultra']

In [9]:
from sklearn.model_selection import train_test_split

# Primero separar train+temp y test
features_train, features_temp, target_train, target_temp = train_test_split(
    features, target, test_size=0.4, random_state=12345)

# Luego dividir temp en validación y prueba
features_valid, features_test, target_valid, target_test = train_test_split(
    features_temp, target_temp, test_size=0.5, random_state=12345)


<div class="alert alert-block alert-success"> <b>Comentario del revisor</b> <a class="tocSkip"></a><br> <b>Éxito</b> - Correcta carga, exploración y segmentación del dataset, con verificación de valores nulos y división equilibrada entre entrenamiento, validación y prueba, asegurando la independencia de evaluaciones. Trabajo bien estructurado para avanzar con el modelado. </div>


## Comparación de modelos y ajuste de hiperparámetros
Se evaluaron tres algoritmos:

1. Árbol de Decisión: mejor desempeño con max_depth=3 y exactitud de 0.785 en el conjunto de validación.

2. Random Forest: mejor desempeño con max_depth=8 y n_estimators=50, alcanzando 0.807 en validación.
3.Regresión Logística: exactitud de 0.709, inferior a los modelos basados en árboles, lo que sugiere que la relación entre variables y objetivo no es estrictamente lineal.

El Random Forest superó a los demás modelos en exactitud y robustez, confirmando su capacidad para capturar interacciones no lineales entre las variables predictoras.

In [10]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Árbol de decision
best_tree_score = 0
best_tree_depth = 0
for depth in range(1, 11):
    model = DecisionTreeClassifier(max_depth=depth, random_state=12345)
    model.fit(features_train, target_train)
    predictions = model.predict(features_valid)
    score = accuracy_score(target_valid, predictions)
    if score > best_tree_score:
        best_tree_score = score
        best_tree_depth = depth
print(f"Árbol de Decisión - Mejor exactitud: {best_tree_score:.3f} con max_depth={best_tree_depth}")

# Random Forest
best_rf_score = 0
best_rf_params = (0, 0)
for depth in range(5, 16):
    for estimators in [10, 50, 100]:
        model = RandomForestClassifier(
            max_depth=depth, n_estimators=estimators, random_state=12345)
        model.fit(features_train, target_train)
        predictions = model.predict(features_valid)
        score = accuracy_score(target_valid, predictions)
        if score > best_rf_score:
            best_rf_score = score
            best_rf_params = (depth, estimators)
print(f"Random Forest - Mejor exactitud: {best_rf_score:.3f} con max_depth={best_rf_params[0]}, n_estimators={best_rf_params[1]}")

# Regresion logistica
log_model = LogisticRegression(random_state=12345, solver='liblinear')
log_model.fit(features_train, target_train)
log_score = accuracy_score(target_valid, log_model.predict(features_valid))
print(f"Regresión logística - Exactitud: {log_score:.3f}")


Árbol de Decisión - Mejor exactitud: 0.785 con max_depth=3
Random Forest - Mejor exactitud: 0.807 con max_depth=8, n_estimators=50
Regresión logística - Exactitud: 0.709


<div class="alert alert-block alert-success"> <b>Comentario del revisor</b> <a class="tocSkip"></a><br> <b>Éxito</b> - Comparativa de modelos bien ejecutada, con ajuste sistemático de hiperparámetros y justificación clara del mejor rendimiento obtenido con Random Forest, respaldada por métricas precisas en el conjunto de validación. </div>


## Evaluación final en el conjunto de prueba
El modelo Random Forest seleccionado obtuvo una exactitud de 0.799 en el conjunto de prueba, superando el umbral mínimo requerido de 0.75. El desempeño en prueba es cercano al observado en validación (0.807), lo que indica buena generalización y ausencia de sobreajuste relevante.

In [11]:
# Entrenar con train+valid y evaluar en test
final_model = RandomForestClassifier(
    max_depth=best_rf_params[0], 
    n_estimators=best_rf_params[1], 
    random_state=12345
)
final_model.fit(pd.concat([features_train, features_valid]), 
                pd.concat([target_train, target_valid]))

final_predictions = final_model.predict(features_test)
final_score = accuracy_score(target_test, final_predictions)
print(f"Exactitud final en test: {final_score:.3f}")


Exactitud final en test: 0.799


<div class="alert alert-block alert-success"> <b>Comentario del revisor</b> <a class="tocSkip"></a><br> <b>Éxito</b> - Evaluación final bien realizada, con un resultado de exactitud en prueba consistente con la validación, confirmando la solidez del modelo y su capacidad de generalización. </div>


## Prueba de cordura (sanity check)
Se comparó el modelo final con un clasificador ingenuo que siempre predice la clase mayoritaria (plan Smart). Este modelo base obtuvo una exactitud de 0.684.
El Random Forest mejoró el rendimiento en +0.115 puntos de exactitud, demostrando que aprende patrones reales en los datos y no se limita a la distribución de clases.

In [12]:
# Modelo ingenuo: siempre predice la clase más frecuente
most_common_class = target_train.mode()[0]
dummy_accuracy = accuracy_score(target_test, [most_common_class] * len(target_test))
print(f"Exactitud del modelo ingenuo: {dummy_accuracy:.3f}")
print(f"Mejora del modelo entrenado: {final_score - dummy_accuracy:.3f}")


Exactitud del modelo ingenuo: 0.684
Mejora del modelo entrenado: 0.115


<div class="alert alert-block alert-success"> <b>Comentario del revisor</b> <a class="tocSkip"></a><br> <b>Éxito</b> - La prueba de cordura está bien aplicada, mostrando una comparación clara con un modelo base y evidenciando la ganancia real de rendimiento del modelo final. Análisis sólido para cerrar la validación. </div>


## Comentario general del revisor 

# Comentario General del Revisor

<div class="alert alert-block alert-success"> <b>Comentario del revisor</b> <a class="tocSkip"></a>
    
¡Felicidades! Tu proyecto está **aprobado**. Has demostrado un excelente manejo de los datos, análisis exploratorio y aplicación de modelos de clasificación con un enfoque claro en la optimización de hiperparámetros. A continuación, destaco los puntos positivos:  

#### Puntos Positivos:  
- **Procesamiento de datos:** Carga, exploración y verificación de calidad de datos impecables.  
- **Segmentación de datos:** División correcta en entrenamiento, validación y prueba, garantizando evaluaciones independientes.  
- **Comparación de modelos:** Análisis detallado y justificación sólida de la selección de Random Forest como mejor modelo.  
- **Evaluación final:** Exactitud en el conjunto de prueba superior al umbral, confirmando la capacidad de generalización.  
- **Prueba de cordura:** Validación extra que evidencia la mejora sobre un modelo base simple.  

Este proyecto cumple plenamente con lo solicitado en el brief. </div>
