Hola, Erick!

Mi nombre es Tonatiuh Cruz. Me complace revisar tu proyecto hoy.

Al identificar cualquier error inicialmente, simplemente los destacaré. Te animo a localizar y abordar los problemas de forma independiente como parte de tu preparación para un rol como data-scientist. En un entorno profesional, tu líder de equipo seguiría un enfoque similar. Si encuentras la tarea desafiante, proporcionaré una pista más específica en la próxima iteración.

Encontrarás mis comentarios a continuación - **por favor no los muevas, modifiques o elimines**.

Puedes encontrar mis comentarios en cajas verdes, amarillas o rojas como esta:

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Éxito. Todo está hecho correctamente.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Observaciones. Algunas recomendaciones.
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Necesita corrección. El bloque requiere algunas correcciones. El trabajo no puede ser aceptado con comentarios en rojo.
</div>

Puedes responderme utilizando esto:

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante.</b> <a class="tocSkip"></a>

<div class="alert alert-block alert-success">
<b>Resumen de la revisión</b> <a class="tocSkip"></a>

Hola Erick, tu código está bien ordenado y tus resultados son correctos dados el dataset. Solo te recomendaría que en los siguientes sprints entrenaras los modelos con un par más de hiperparámetros y que realizaras una conclusión al final del notebook de tus interpretaciones de los resultados y el modelo seleccionado. Sigue con el excelente trabajo!
</div>

# Sprint 9 - Proyecto: Predicción de planes Megaline

En este proyecto construiremos un modelo de **Machine Learning** para predecir si un usuario elegirá el plan **Smart** o **Ultra** de Megaline, utilizando sus datos de comportamiento mensual.

**Objetivo:**  
Desarrollar un modelo de clasificación con una **exactitud mínima de 0.75**, usando los datos proporcionados en `/datasets/users_behavior.csv`.


## 1. Carga y exploración de los datos

En esta sección cargamos los datos y examinamos las primeras filas para entender las columnas y los tipos de datos.


In [1]:
import pandas as pd

# Cargar dataset
df = pd.read_csv('/datasets/users_behavior.csv')

# Mostrar las primeras filas
df.head()


Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Buen trabajo cargando las librerías y el dataset para el proyecto! Además usas el método head(), los cuales son muy importantes para conocer la estructura de nuestros datos.
</div>

**Explicación:**  
La tabla muestra las columnas: `calls`, `minutes`, `messages`, `mb_used` y `is_ultra`. La columna `is_ultra` será nuestra variable objetivo (1 = Ultra, 0 = Smart). Esto nos permite identificar patrones de comportamiento de los usuarios.


## 2. Preparación de datos

Separaremos los datos en **conjunto de entrenamiento, validación y prueba**.  
Usaremos **70% entrenamiento, 15% validación y 15% prueba**.


In [2]:
from sklearn.model_selection import train_test_split

# Variables características y objetivo
features = df.drop('is_ultra', axis=1)
target = df['is_ultra']

# División en entrenamiento (70%) y conjunto temporal (30%)
features_train, features_temp, target_train, target_temp = train_test_split(
    features, target, test_size=0.3, random_state=12345, stratify=target)

# División del conjunto temporal en validación (15%) y prueba (15%)
features_valid, features_test, target_valid, target_test = train_test_split(
    features_temp, target_temp, test_size=0.5, random_state=12345, stratify=target_temp)

# Mostrar tamaños
print("Tamaño conjunto entrenamiento:", features_train.shape)
print("Tamaño conjunto validación:", features_valid.shape)
print("Tamaño conjunto prueba:", features_test.shape)


Tamaño conjunto entrenamiento: (2249, 4)
Tamaño conjunto validación: (482, 4)
Tamaño conjunto prueba: (483, 4)


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Muy bien, dividiste adecuadamente los datos en entrenamiento, validación y prueba. Los tres conjuntos son muy importantes, el de validación en particular nos es útil para probar los diferentes hiperparámetros antes de hacer el testeo final con el set de prueba.
</div>

**Explicación:**  
Dividimos los datos en tres conjuntos para poder entrenar, ajustar hiperparámetros y evaluar la calidad del modelo de manera imparcial. Usamos `stratify=target` para mantener la proporción de planes Smart y Ultra en todos los conjuntos.


## 3. Entrenamiento y evaluación de modelos

Probaremos diferentes modelos de clasificación y ajustaremos sus hiperparámetros:

1. Árbol de decisión
2. Bosque aleatorio
3. Regresión logística


In [3]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score


### 3.1 Árbol de decisión

Exploramos distintas profundidades del árbol y evaluamos en el conjunto de validación.


In [4]:
best_score = 0
best_depth = 0
for depth in range(1, 11):
    dt_model = DecisionTreeClassifier(max_depth=depth, random_state=12345)
    dt_model.fit(features_train, target_train)
    score = dt_model.score(features_valid, target_valid)
    print(f"max_depth={depth}, Exactitud validación={score:.4f}")
    if score > best_score:
        best_score = score
        best_depth = depth

print(f"Mejor árbol de decisión - profundidad: {best_depth}, Exactitud validación: {best_score:.4f}")


max_depth=1, Exactitud validación=0.7344
max_depth=2, Exactitud validación=0.7905
max_depth=3, Exactitud validación=0.8008
max_depth=4, Exactitud validación=0.7842
max_depth=5, Exactitud validación=0.8071
max_depth=6, Exactitud validación=0.7988
max_depth=7, Exactitud validación=0.8008
max_depth=8, Exactitud validación=0.7967
max_depth=9, Exactitud validación=0.7905
max_depth=10, Exactitud validación=0.7905
Mejor árbol de decisión - profundidad: 5, Exactitud validación: 0.8071


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Muy bien! El ciclo que creaste es muy bueno para probar el parámetro de la profundidad del árbol. 
</div>

**Explicación:**  
El árbol de decisión permite entender la importancia de las características, pero puede sobreajustarse si la profundidad es muy alta. Ajustando `max_depth` encontramos la mejor configuración.


### 3.2 Bosque aleatorio

Probamos distintos números de estimadores (`n_estimators`) y profundidades (`max_depth`).


In [5]:
best_score_rf = 0
best_est = 0
best_depth_rf = 0

for est in [10, 30, 50]:
    for depth in range(1, 11):
        rf_model = RandomForestClassifier(n_estimators=est, max_depth=depth, random_state=12345)
        rf_model.fit(features_train, target_train)
        score = rf_model.score(features_valid, target_valid)
        print(f"n_estimators={est}, max_depth={depth}, Exactitud validación={score:.4f}")
        if score > best_score_rf:
            best_score_rf = score
            best_est = est
            best_depth_rf = depth

print(f"Mejor bosque aleatorio - n_estimators: {best_est}, max_depth: {best_depth_rf}, Exactitud validación: {best_score_rf:.4f}")


n_estimators=10, max_depth=1, Exactitud validación=0.7718
n_estimators=10, max_depth=2, Exactitud validación=0.7946
n_estimators=10, max_depth=3, Exactitud validación=0.8112
n_estimators=10, max_depth=4, Exactitud validación=0.8154
n_estimators=10, max_depth=5, Exactitud validación=0.8195
n_estimators=10, max_depth=6, Exactitud validación=0.8071
n_estimators=10, max_depth=7, Exactitud validación=0.8008
n_estimators=10, max_depth=8, Exactitud validación=0.8008
n_estimators=10, max_depth=9, Exactitud validación=0.8091
n_estimators=10, max_depth=10, Exactitud validación=0.7905
n_estimators=30, max_depth=1, Exactitud validación=0.7697
n_estimators=30, max_depth=2, Exactitud validación=0.8091
n_estimators=30, max_depth=3, Exactitud validación=0.8154
n_estimators=30, max_depth=4, Exactitud validación=0.8112
n_estimators=30, max_depth=5, Exactitud validación=0.8071
n_estimators=30, max_depth=6, Exactitud validación=0.8050
n_estimators=30, max_depth=7, Exactitud validación=0.8112
n_estimators=

**Explicación:**  
El bosque aleatorio combina varios árboles de decisión y mejora la generalización del modelo. Ajustando `n_estimators` y `max_depth` buscamos la mejor exactitud en validación.


### 3.3 Regresión logística

Entrenamos una regresión logística para comparar su desempeño con los modelos basados en árboles.


In [6]:
lr_model = LogisticRegression(random_state=12345, solver='liblinear')
lr_model.fit(features_train, target_train)
score_train_lr = lr_model.score(features_train, target_train)
score_valid_lr = lr_model.score(features_valid, target_valid)

print(f"Regresión logística - Exactitud entrenamiento: {score_train_lr:.4f}")
print(f"Regresión logística - Exactitud validación: {score_valid_lr:.4f}")


Regresión logística - Exactitud entrenamiento: 0.7141
Regresión logística - Exactitud validación: 0.7054


**Explicación:**  
La regresión logística es un modelo lineal que puede funcionar bien si las relaciones entre las características y el plan son lineales. Comparamos su exactitud con los modelos basados en árboles.


## 4. Evaluación final en el conjunto de prueba

Seleccionamos el mejor modelo según la validación y lo evaluamos en el conjunto de prueba.


In [7]:
# Supongamos que el mejor modelo fue el bosque aleatorio
final_model = RandomForestClassifier(n_estimators=best_est, max_depth=best_depth_rf, random_state=12345)
final_model.fit(pd.concat([features_train, features_valid]), pd.concat([target_train, target_valid]))

final_score = final_model.score(features_test, target_test)
print(f"Exactitud en conjunto de prueba: {final_score:.4f}")


Exactitud en conjunto de prueba: 0.8157


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Buen trabajo realizando la evaluación final del modelo con el conjunto de prueba

**Explicación:**  
Entrenamos el modelo final con todo el conjunto de entrenamiento + validación para aprovechar toda la información disponible y evaluamos en el conjunto de prueba para obtener una medición realista de su desempeño.


## 5. Conclusión general

- El modelo que mejor desempeño mostró fue el **bosque aleatorio**.  
- La exactitud obtenida en el conjunto de prueba fue superior al **umbral mínimo de 0.75**.  
- La prueba de cordura y la comparación con otros modelos nos permite confiar en que el modelo generaliza correctamente.  
- Ajustando hiperparámetros como `n_estimators` y `max_depth` logramos optimizar el desempeño sin sobreajuste.  
- Los modelos lineales como la regresión logística fueron útiles como referencia, pero no superaron al bosque aleatorio en este caso.  
