<b>¡Hola Cesar!</b>

Mi nombre es Alejandro Abia y tengo el gusto de revisar tu proyecto.

A continuación, encontrarás mis comentarios en celdas pintadas de tres colores (verde, amarillo y rojo), a manera de semáforo. Por favor, <b>no las borres ni muevas de posición</b> mientras dure el proceso de revisión.

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>
En celdas verdes encontrarás comentarios en relación a tus aciertos y fortalezas.
</div>
<div class="alert alert-block alert-warning">
<b>Atención</b> <a class="tocSkip"></a>
Utilizaré el color amarillo para llamar tu atención, expresar algo importante o compartirte alguna idea de valor.
</div>
<div class="alert alert-block alert-danger">
<b>A resolver</b> <a class="tocSkip"></a>
En rojo emitiré aquellos puntos que podrían impedir que el proyecto se ejecute correctamente. No son errores, sino oportunidades importantes de mejora.
</div>
<div class="alert alert-block alert-info">
<b>Comentario estudiante</b> <a class="tocSkip"></a>
Si durante la revisión deseas dejarme algún comentario, por favor utiliza celdas azules como esta.
</div>
Tu proyecto será considerado aprobado cuando las observaciones en rojo hayan sido atendidas.  
¡Empecemos!

## Bibliotecas, dataframe y división de datos

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV, StratifiedKFold
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import joblib

<div class="alert alert-block alert-success">
<b>Acierto o fortaleza</b> <a class="tocSkip"></a><br>
En la celda [1], importas de forma ordenada las librerías clave (modelado, validación, métricas y persistencia con <code>joblib</code>). Esto es un acierto porque deja claro el ecosistema que usarás y facilita la reproducibilidad del entorno. Mantener esta sección limpia y completa ayuda a otros (y a ti en el futuro) a entender rápidamente las dependencias del proyecto.
</div>

In [2]:
df = pd.read_csv('/datasets/users_behavior.csv')
df

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.90,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0
...,...,...,...,...,...
3209,122.0,910.98,20.0,35124.90,1
3210,25.0,190.36,0.0,3275.61,0
3211,97.0,634.44,70.0,13974.06,0
3212,64.0,462.32,90.0,31239.78,0


<div class="alert alert-block alert-warning">
<b>Oportunidad de mejora</b> <a class="tocSkip"></a><br>
En la celda [2], cargas el DataFrame y muestras todo con <code>df</code>. Esto puede producir una salida muy extensa y no te confirma aspectos básicos de calidad de datos. Te conviene mostrar un vistazo breve y validar tipos/nulos. Si no lo haces, podrías pasar por alto valores faltantes o tipos incorrectos que afecten los modelos. Acción: usa <code>df.head()</code>, <code>df.info()</code> y <code>df.isna().sum()</code> para verificar estructura y nulos antes de dividir y modelar.
</div>

In [3]:
features = df.drop('is_ultra',axis=1)
features

Unnamed: 0,calls,minutes,messages,mb_used
0,40.0,311.90,83.0,19915.42
1,85.0,516.75,56.0,22696.96
2,77.0,467.66,86.0,21060.45
3,106.0,745.53,81.0,8437.39
4,66.0,418.74,1.0,14502.75
...,...,...,...,...
3209,122.0,910.98,20.0,35124.90
3210,25.0,190.36,0.0,3275.61
3211,97.0,634.44,70.0,13974.06
3212,64.0,462.32,90.0,31239.78


<div class="alert alert-block alert-success">
<b>Acierto o fortaleza</b> <a class="tocSkip"></a><br>
En la celda [3], separas con claridad <code>features</code> y <code>target</code> usando <code>drop</code> sobre <code>is_ultra</code>. Esta organización es correcta y previene fugas involuntarias de la variable objetivo durante el preprocesamiento. Mantener esta separación desde el inicio hace el flujo más seguro y legible.
</div>

In [4]:
target = df['is_ultra']
target

0       0
1       0
2       0
3       1
4       0
       ..
3209    1
3210    0
3211    0
3212    0
3213    1
Name: is_ultra, Length: 3214, dtype: int64

In [5]:
features_train, features_val, target_train, target_val = train_test_split(features,target,test_size=.25,random_state=12345)

<div class="alert alert-block alert-warning">
<b>Oportunidad de mejora</b> <a class="tocSkip"></a><br>
En la celda [5], realizas <code>train_test_split</code> sin <code>stratify</code>. En clasificación, estratificar es importante para mantener la proporción de clases en train y validación; si no se hace, una partición desafortunada puede sesgar la evaluación (por ejemplo, empeorar el recall de la clase minoritaria). Acción: añade <code>stratify=target</code> para que ambas particiones conserven la distribución original de <code>is_ultra</code>.
</div>

------

## MODELO: Árbol de Decisión

In [6]:
param_grid_dt = {
    "max_depth":[3,5,10,None],
    "min_samples_split":[2,5,10],
    "min_samples_leaf":[1,2,4],
    "criterion":["gini","entropy"]
}

<div class="alert alert-block alert-success">
<b>Acierto o fortaleza</b> <a class="tocSkip"></a><br>
En la celda [6], el <code>param_grid</code> del Árbol de Decisión está bien planteado: exploras <code>max_depth</code>, <code>min_samples_split</code>, <code>min_samples_leaf</code> y el criterio. Cubrir profundidad y mínimos por nodo controla la complejidad del árbol y ayuda a evitar overfitting. Buena cobertura de hiperparámetros clave.
</div>

In [7]:
dt = DecisionTreeClassifier(random_state=54321)

In [8]:
grid_dt = GridSearchCV(
    estimator=dt,
    param_grid=param_grid_dt,
    cv=3,
    scoring='accuracy',
    verbose=1
)

<div class="alert alert-block alert-warning">
<b>Oportunidad de mejora</b> <a class="tocSkip"></a><br>
En la celda [8], configuras <code>GridSearchCV</code> con <code>cv=3</code> por defecto (no estratificado). En clasificación, usar <code>StratifiedKFold</code> reduce la varianza de la métrica entre folds y respeta el balance de clases. Si no estratificas, podrías obtener estimaciones inestables de accuracy y elegir hiperparámetros subóptimos. Acción: define <code>cv=StratifiedKFold(n_splits=5, shuffle=True, random_state=54321)</code> y, ya que hay posible desequilibrio, considera <code>scoring='balanced_accuracy'</code> o <code>'f1'</code> además de <code>'accuracy'</code>.
</div>

In [9]:
grid_dt.fit(features_train,target_train)

Fitting 3 folds for each of 72 candidates, totalling 216 fits


GridSearchCV(cv=3, estimator=DecisionTreeClassifier(random_state=54321),
             param_grid={'criterion': ['gini', 'entropy'],
                         'max_depth': [3, 5, 10, None],
                         'min_samples_leaf': [1, 2, 4],
                         'min_samples_split': [2, 5, 10]},
             scoring='accuracy', verbose=1)

In [10]:
print('Mejores hiperparámetros:', grid_dt.best_params_)

Mejores hiperparámetros: {'criterion': 'entropy', 'max_depth': 10, 'min_samples_leaf': 4, 'min_samples_split': 10}


<div class="alert alert-block alert-success">
<b>Acierto o fortaleza</b> <a class="tocSkip"></a><br>
En las celdas [10]-[11], reportas <code>best_params_</code> y <code>best_score_</code> del Árbol de Decisión. Comunicar explícitamente los mejores hiperparámetros y la métrica media de CV facilita la trazabilidad del experimento y la comparación entre modelos. Muy buena práctica de transparencia en resultados.
</div>

In [11]:
print('Mejor Accuracy:', grid_dt.best_score_)

Mejor Accuracy: 0.7950208484352831


-------

## MODELO: Random Forest

In [12]:
param_grid_rf = {
    "n_estimators": [50,100,200],
    "max_depth": [3,5,10,None],
    "min_samples_split": [2,5,10],
    "min_samples_leaf": [1,2,4]
}

<div class="alert alert-block alert-warning">
<b>Oportunidad de mejora</b> <a class="tocSkip"></a><br>
En la celda [12], el grid de Random Forest es sólido, pero puedes reforzarlo para datos potencialmente desbalanceados y explorar mejor el sesgo-varianza. Si no ajustas esto, el modelo puede favorecer la clase mayoritaria. Acción: añade <code>class_weight</code> en <code>{'balanced', 'balanced_subsample'}</code> y prueba <code>max_features</code> (por ejemplo <code>['sqrt','log2', None]</code>). Considera ampliar <code>n_estimators</code> (p.ej. 200-500) para estabilizar la performance del bosque.
</div>

In [13]:
rf = RandomForestClassifier(random_state=54321)

In [14]:
grid_rf = GridSearchCV(
    estimator=rf,
    param_grid=param_grid_rf,
    cv=3,
    scoring='accuracy',
    verbose=1
)

In [15]:
grid_rf.fit(features_train,target_train)

Fitting 3 folds for each of 108 candidates, totalling 324 fits


GridSearchCV(cv=3, estimator=RandomForestClassifier(random_state=54321),
             param_grid={'max_depth': [3, 5, 10, None],
                         'min_samples_leaf': [1, 2, 4],
                         'min_samples_split': [2, 5, 10],
                         'n_estimators': [50, 100, 200]},
             scoring='accuracy', verbose=1)

In [16]:
print("Mejores hiperparámetros",grid_rf.best_params_)

Mejores hiperparámetros {'max_depth': 10, 'min_samples_leaf': 4, 'min_samples_split': 2, 'n_estimators': 50}


In [17]:
print("Mejor Accuracy:",grid_rf.best_score_)

Mejor Accuracy: 0.8153591734147857


<div class="alert alert-block alert-success">
<b>Acierto o fortaleza</b> <a class="tocSkip"></a><br>
En la celda [17], el Random Forest logra el mejor <code>best_score_</code> (≈0.815). Es consistente que un ensamble supere a un único árbol al reducir la varianza. Buen criterio al comparar modelos por validación cruzada y quedarte con el mejor para la etapa de validación final.
</div>

--------

## MODELO: Regresión Logística

In [18]:
scaler = StandardScaler()

In [19]:
features_train_scaled = scaler.fit_transform(features_train)

<div class="alert alert-block alert-warning">
<b>Oportunidad de mejora</b> <a class="tocSkip"></a><br>
En la celda [19], escalas <i>antes</i> de la validación cruzada de la regresión logística. Esto introduce una pequeña fuga de información porque el <code>StandardScaler</code> usa la media/desviación de todo <code>features_train</code> (incluyendo los folds de validación). La consecuencia es un optimismo leve en el CV. Acción: usa un <code>Pipeline</code> con <code>('scaler', StandardScaler())</code> y <code>('clf', LogisticRegression(...))</code> dentro de <code>GridSearchCV</code>, para que el escalado se ajuste solo en cada fold de entrenamiento.
</div>

In [20]:
log_reg = LogisticRegression(max_iter=1000, random_state=54321)

In [21]:
param_grid_log = {
    "solver":["lbfgs","newton-cg","saga","liblinear"]
}

<div class="alert alert-block alert-warning">
<b>Oportunidad de mejora</b> <a class="tocSkip"></a><br>
En la celda [21], exploras diferentes <code>solver</code> en la regresión logística, pero no ajustas la complejidad del modelo. Si no sintonizas <code>C</code> y <code>penalty</code>, podrías dejar performance en la mesa. Acción: añade a tu grid <code>C</code> (p.ej. <code>[0.01, 0.1, 1, 10]</code>) y <code>penalty</code> (consistente con el solver elegido: <code>l2</code> para <code>lbfgs/newton-cg</code>, <code>l1</code> o <code>l2</code> para <code>liblinear/saga</code>), dentro de un <code>Pipeline</code> para evitar fugas.
</div>

In [22]:
cv = StratifiedKFold(n_splits=5,shuffle=True,random_state=54321)

<div class="alert alert-block alert-success">
<b>Acierto o fortaleza</b> <a class="tocSkip"></a><br>
En la celda [22], usas <code>StratifiedKFold</code> para la regresión logística. Excelente elección en clasificación: así mantienes la proporción de clases en cada fold y obtienes estimaciones más estables de la métrica.
</div>

In [23]:
grid_log = GridSearchCV(
    estimator=log_reg,
    param_grid=param_grid_log,
    scoring="accuracy",
    cv=cv,
    verbose=1
)

In [24]:
grid_log.fit(features_train_scaled,target_train)

Fitting 5 folds for each of 4 candidates, totalling 20 fits


GridSearchCV(cv=StratifiedKFold(n_splits=5, random_state=54321, shuffle=True),
             estimator=LogisticRegression(max_iter=1000, random_state=54321),
             param_grid={'solver': ['lbfgs', 'newton-cg', 'saga', 'liblinear']},
             scoring='accuracy', verbose=1)

In [25]:
print("Mejores hiperparámetros:",grid_log.best_params_)

Mejores hiperparámetros: {'solver': 'lbfgs'}


In [26]:
print("Mejor accuracy:",grid_log.best_score_)

Mejor accuracy: 0.7439834024896266


-------

## Resultados

In [27]:
pd.DataFrame({
    "Modelo":["DecisionTreeClassifier","RandomForestClassifier","LogisticRegression"],
    "Accuracy":[grid_dt.best_score_,grid_rf.best_score_,grid_log.best_score_]
})

Unnamed: 0,Modelo,Accuracy
0,DecisionTreeClassifier,0.795021
1,RandomForestClassifier,0.815359
2,LogisticRegression,0.743983


<div class="alert alert-block alert-success">
<b>Acierto o fortaleza</b> <a class="tocSkip"></a><br>
En la celda [27], presentas una tabla comparando accuracies de CV entre modelos. Esta síntesis es clara y facilita decidir el candidato ganador. Mantener un resumen compacto de resultados ayuda a comunicar hallazgos en una sola mirada.
</div>

El mejor modelo con los hiperparámetros que configure fue el RandomForestClassifier

------

## Predicción

In [28]:
best_model = grid_rf.best_estimator_

In [29]:
predict_best_model = best_model.predict(features_val)

In [30]:
accuracy_score(target_val,predict_best_model)

0.8034825870646766

<div class="alert alert-block alert-success">
<b>Acierto o fortaleza</b> <a class="tocSkip"></a><br>
En las celdas [28]-[30], evalúas el mejor modelo sobre el conjunto de validación separado previamente y reportas <code>accuracy</code> ≈ 0.803. Esta separación clara entre selección (CV) y evaluación (holdout) refuerza la validez de tus resultados. Muy bien aplicada la metodología.
</div>

In [31]:
classification_report(target_val, predict_best_model)

'              precision    recall  f1-score   support\n\n           0       0.82      0.92      0.87       563\n           1       0.74      0.53      0.62       241\n\n    accuracy                           0.80       804\n   macro avg       0.78      0.72      0.74       804\nweighted avg       0.80      0.80      0.79       804\n'

<div class="alert alert-block alert-warning">
<b>Oportunidad de mejora</b> <a class="tocSkip"></a><br>
En la celda [31], el <code>classification_report</code> aparece entre comillas porque se devuelve como cadena. Imprimirlo mejora la legibilidad, y además conviene ajustar el umbral para mejorar el recall de la clase 1. Si no trabajas el umbral, el modelo seguirá priorizando la clase 0. Acción: usa <code>print(classification_report(...))</code> y prueba <code>y_proba = best_model.predict_proba(features_val)[:,1]</code> junto con la curva precisión-recall para elegir un umbral que aumente el recall de la clase 1 sin perder demasiado precisión (por ejemplo, evalúa varios thresholds y elige el que maximiza <code>f1</code> o <code>recall</code> de la clase 1).
</div>

In [32]:
confusion_matrix(target_val,predict_best_model)

array([[519,  44],
       [114, 127]])

<div class="alert alert-block alert-warning">
<b>Oportunidad de mejora</b> <a class="tocSkip"></a><br>
En la celda [32], la matriz de confusión es útil, pero los números crudos pueden ser difíciles de comparar. Si no normalizas o visualizas, cuesta ver tasas de error relativas. Acción: muestra una versión normalizada o un heatmap legible con <code>ConfusionMatrixDisplay.from_predictions(..., normalize='true')</code> o un <code>seaborn.heatmap</code> con etiquetas; así verás con claridad dónde se concentran los errores.
</div>

Según el classification report el modelo detecta bien a la clase Smart-0 pero no tan bien cuando se trata de la clase Ultra-1. Lo mismo sucede en la matriz de confusión, el modelo esta muy enfocado en detectar a los que prefieren el plan smart-0, quiza ajustando la sensibilidad del modelo mejor la predicción de los que prefieren el plan ultra-1.

------

## Guardar el mejor modelo

In [33]:
joblib.dump(best_model,"mejor_modelo_megaline.joblib")

['mejor_modelo_megaline.joblib']

<div class="alert alert-block alert-warning">
<b>Oportunidad de mejora</b> <a class="tocSkip"></a><br>
En la celda [33], guardas el mejor modelo con <code>joblib</code>, buen paso para despliegue. Para evitar sorpresas en inferencia, conviene guardar también el contexto: orden de columnas y, si el modelo requiere preprocesamiento, un <code>Pipeline</code> completo. Si no lo haces, un cambio en el orden de columnas podría degradar la predicción. Acción: persiste un diccionario con <code>{'model': best_model, 'feature_names': features.columns.tolist(), 'version': 'v1'}</code>; y si eligieras un modelo que necesite escalado, guarda el pipeline entero.
</div>

<div class="alert alert-block alert-success">
<b>Comentario final</b> <a class="tocSkip"></a><br>
¡Muy buen trabajo, Cesar! A lo largo del proyecto mostraste fortalezas muy claras:<br><br>
• Separación correcta y explícita entre <code>features</code> y <code>target</code> desde el inicio.<br>
• Uso consistente de semillas (<code>random_state</code>) para garantizar reproducibilidad.<br>
• Configuración de <code>GridSearchCV</code> con grids bien pensados para Árbol de Decisión y Random Forest.<br>
• Reporte claro de <code>best_params_</code> y <code>best_score_</code> en cada modelo, facilitando la trazabilidad.<br>
• Inclusión de un modelo lineal (Regresión Logística) con escalado, ampliando el espectro de hipótesis.<br>
• Empleo de <code>StratifiedKFold</code> en la logística, cuidando la proporción de clases en CV.<br>
• Comparación estructurada de modelos mediante una tabla de resultados de CV.<br>
• Selección razonada del mejor modelo y evaluación posterior en un conjunto de validación independiente.<br>
• Presentación de métricas detalladas (classification report) para entender precisión, recall y f1 por clase.<br>
• Uso de la matriz de confusión para analizar tipos de error de forma tangible.<br>
• Persistencia del modelo entrenado con <code>joblib</code>, pensando en el siguiente paso (despliegue/uso).<br>
• Estructura ordenada del notebook por secciones (modelos y resultados), lo que facilita la lectura.<br>
• Parámetros clave ajustados en árboles (<code>max_depth</code>, <code>min_samples_leaf</code>) para controlar la complejidad.<br>
• Buen balance entre modelos de distinta naturaleza (árboles vs. lineal), aumentando robustez de la comparación.<br>
• Validación cruzada usada para seleccionar hiperparámetros, en lugar de solo un split, mejorando la confiabilidad.<br><br>
¡Felicidades!
</div>