# ¡Hola Juani! 😊

Mi nombre es **Alejandro Castellanos** y hoy tengo el placer de ser el revisor de tu proyecto.

Voy a revisar todo tu código con detalle, buscando tanto los puntos fuertes como aquellos en los que podrías mejorar. Te dejaré comentarios a lo largo del notebook, destacando lo que has hecho bien y sugiriendo ajustes donde sea necesario. Si encuentro algún error, no te preocupes, te lo haré saber de forma clara y te daré información útil para que puedas corregirlo en la próxima iteración. Si en algún punto tienes comentarios, siéntete libre de dejarlos también.


Encontrarás mis comentarios específicos dentro de cajas verdes, amarillas o rojas, es muy importante que no muevas, modifiques o borres mis comentarios, con el fin de tener un seguimiento adecuado de tu proceso:


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si todo está perfecto.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si tu código está bien pero se puede mejorar o hay algún detalle que le hace falta.
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si de pronto hace falta algo o existe algún problema con tu código o conclusiones.
</div>

Puedes responderme de esta forma:
<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class=“tocSkip”></a>
</div>

A continuación te dejaré un comentario general con mi valoración del proyecto. **¡Mi objetivo es que sigas aprendiendo y mejorando con cada paso!**

----

<div class="alert alert-block alert-warning">
<b>Comentario General del revisor (1ra Iteración)</b> <a class=“tocSkip”></a>

Juani hiciste un gran trabajo en el desarrollo del proyecto, la estructura general de éste es correcta, pero recuerda que es crucial incluir tus análisis en cada sección y una conclusión general. Un proyecto en el contexto de ciencia o análisis de datos va más allá de escribir código y obtener valores; se trata de darles sentido y contexto para convertirlos en conocimiento útil. No basta con ejecutar funciones y visualizar datos; es fundamental comprender lo que significan, identificar patrones, detectar anomalías y extraer conclusiones relevantes. Este proceso permite tomar decisiones informadas, optimizar modelos y comunicar hallazgos de manera clara y efectiva, asegurando que el análisis no solo sea técnico, sino también comprensible y aplicable a la resolución de problemas reales. Cuando incluyas tus interpretaciones, análisis y conclusiones podré aprobar tu proyecto.
    
Estaré atento a tu próxima iteración 👀
    
*Estado del Proyecto:* **No Aprobado**

</div>

<div class="alert alert-block alert-success">
<b>Comentario General del revisor (2da Iteración)</b> <a class=“tocSkip”></a>

¡Juani excelente trabajo con los ajustes! Tu proyecto ahora cumple con todos los objetivos propuestos. Estoy seguro de que lo que aprendiste aquí te será muy útil en futuros proyectos. ¡Éxito en tu próximo sprint! 🚀

*Estado del Proyecto:* **Aprobado**

</div>

----

In [1]:
# Importar librerías
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# Cargar el dataset
file_path = '/datasets/users_behavior.csv'
df = pd.read_csv(file_path)

# Ver las primeras filas para examinar la estructura de los datos
print(df.head())

# Ver estadísticas generales y tipos de datos
print(df.info())
print(df.describe())

   calls  minutes  messages   mb_used  is_ultra
0   40.0   311.90      83.0  19915.42         0
1   85.0   516.75      56.0  22696.96         0
2   77.0   467.66      86.0  21060.45         0
3  106.0   745.53      81.0   8437.39         1
4   66.0   418.74       1.0  14502.75         0
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB
None
             calls      minutes     messages       mb_used     is_ultra
count  3214.000000  3214.000000  3214.000000   3214.000000  3214.000000
mean     63.038892   438.208787    38.281269  17207.673836     0.306472
std      33.236368   234.569872    36.148326   7570.968246  

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteración)</b> <a class=“tocSkip”></a>

Muy buen trabajo importando las librerías y los datos del proyecto. Adicionalmente usaste correctamente las funciones `info`, `describe` y `head`, esto te permite hacer una primera revisión de los datos, su estructura y contenido. Con esta información, podemos establecer una hoja de ruta para ajustar, modificar y analizar los datos de una manera adecuada. 

</div>

In [2]:
# Verificar valores nulos
print(df.isnull().sum())

calls       0
minutes     0
messages    0
mb_used     0
is_ultra    0
dtype: int64


<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteración)</b> <a class=“tocSkip”></a>

Genial Juani, es clave hacer una validación de valores faltantes con el fin de evitar errores en la implementación de nuestros modelos predictivos

</div>

In [3]:
# Normalizar o estandarizar las columnas numéricas
scaler = StandardScaler() 
df[['calls', 'minutes', 'messages', 'mb_used']] = scaler.fit_transform(df[['calls', 'minutes', 'messages', 'mb_used']])

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteración)</b> <a class=“tocSkip”></a>

Excelente trabajo escalando los datos, esto le dará robustez al modelo y mejorará su rendimiento
</div>

In [4]:
# Variables predictoras (X) y objetivo (y)
X = df.drop('is_ultra', axis=1)
y = df['is_ultra']

# Dividir los datos en entrenamiento, validación y prueba
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.3, random_state=42)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteración)</b> <a class=“tocSkip”></a>

Buen trabajo segmentando los datos en los subconjuntos de entrenamiento, validación y prueba.

</div>

In [5]:
# Inicializar y entrenar la Regresión Logística
log_reg = LogisticRegression(random_state=42)
log_reg.fit(X_train, y_train)

# Predecir en el conjunto de validación
y_pred_log_reg = log_reg.predict(X_val)

# Evaluar precisión
accuracy_log_reg = accuracy_score(y_val, y_pred_log_reg)
print(f'Regresión Logística Accuracy: {accuracy_log_reg:.4f}')

Regresión Logística Accuracy: 0.7656


<div class="alert alert-block alert-info">
<b>En el código anterior podemos visualizar que al implementar la regresión logística el modelo cumple con el % del umbral de exactitud requerida > 75%</b> <a class=“tocSkip”></a>
</div>

In [6]:
# Modelo de bosque aleatorio
rf = RandomForestClassifier(random_state=42)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_val)

accuracy_rf = accuracy_score(y_val, y_pred_rf)
print(f'Random Forest Accuracy: {accuracy_rf:.4f}')

Random Forest Accuracy: 0.8278


<div class="alert alert-block alert-info">
<b>Probamos ahora con un modelo de Bosque Aleatorio, el cual nos arroja el mejor resultado en cuanto a exactitud, alcanzando un 82,7%. Sin dudas que éste modelo tiende a ser el mejor, pero no nos quedaremos solo con estos resultados, seguiremos desarrollando más modelos.</b> <a class=“tocSkip”></a>
</div>

In [7]:
# Inicializar y entrenar el Árbol de Decisión
dt = DecisionTreeClassifier(random_state=42)
dt.fit(X_train, y_train)

# Predecir en el conjunto de validación
y_pred_dt = dt.predict(X_val)

# Evaluar precisión
accuracy_dt = accuracy_score(y_val, y_pred_dt)
print(f'Árbol de Decisión Accuracy: {accuracy_dt:.4f}')

Árbol de Decisión Accuracy: 0.7303


<div class="alert alert-block alert-info">
<b>El último modelo a probar es el Arbol de decisión, el cual nos arroja un porcentaje inferior al mínimo requerido en la consigna, por ende quedará descartado su utilización.</b> <a class=“tocSkip”></a>
</div>

In [8]:
# Definir los parámetros a probar
param_grid = {
    'n_estimators': [100, 200],
    'max_depth': [10, 20, None],
    'min_samples_split': [2, 5],
}

# Realizar GridSearch
grid_search = GridSearchCV(estimator=RandomForestClassifier(random_state=42), param_grid=param_grid, cv=3)
grid_search.fit(X_train, y_train)

# Mejor combinación de parámetros
print("Best Parameters:", grid_search.best_params_)

# Evaluar con la mejor combinación de parámetros
best_rf = grid_search.best_estimator_
y_pred_best_rf = best_rf.predict(X_val)

accuracy_best_rf = accuracy_score(y_val, y_pred_best_rf)
print(f'Optimized Random Forest Accuracy: {accuracy_best_rf:.4f}')

Best Parameters: {'max_depth': 10, 'min_samples_split': 5, 'n_estimators': 200}
Optimized Random Forest Accuracy: 0.8216


<div class="alert alert-block alert-info">
<b>En el código anterior lo que se hizo fue: mediante GridSearchCV se buscan los mejores hiperparámetros que se ajusten a nuestra tarea. Ésto se llama Ajuste de hiperparámetros. Consiste en probar diferentes valores de hiperparámetros y calcular una puntuación de validación cruzada para ellos. Luego simplemente eligimos el valor que genere la mejor puntuación. </b> <a class=“tocSkip”></a>
</div>

In [9]:
# Utilizamos el modelo con mejor desempeño, el Random Forest optimizado
# O usamos el mejor modelo obtenido con GridSearchCV
final_model = rf

# Evaluación en el conjunto de prueba
y_pred_test = final_model.predict(X_test)
accuracy_test = accuracy_score(y_test, y_pred_test)
print(f'Test Accuracy: {accuracy_test:.4f}')

Test Accuracy: 0.7764


<div class="alert alert-block alert-info">
<b>Conclusión:

En este proyecto, se ha desarrollado un modelo predictivo y diversas técnicas de aprendizaje automático para predecir si es conveniente ofrecerle a un usuario un plan "Smart/ultra" en función de su comportamiento (como llamadas, minutos, mensajes y datos utilizados).    A lo largo del proyecto, se llevaron a cabo varias etapas clave, incluyendo la carga y exploración de los datos, la normalización de las variables numéricas, y la división adecuada de los datos en conjuntos de entrenamiento, validación y prueba.
    
Se probaron tres modelos principales: regresión logística, bosque aleatorio y árbol de decisión. Resultando Bosque Aleatorio nuestra mejor opción para el caso en cuestión.
    
El árbol de decisión, aunque útil en otros contextos, mostró una precisión inferior al umbral requerido y, por lo tanto, fue descartado como opción viable. Este resultado resalta la importancia de realizar una comparación exhaustiva entre diferentes modelos para escoger el más apropiado.
 </b> <a class=“tocSkip”></a>
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor (1ra Iteración)</b> <a class=“tocSkip”></a>

Juani aunque la implementación de tus modelos de clasificación es correcta, así como el uso del subcojunto de validación para realizar la optimización de hiperpárametros con `GridSearchCV` es necesario que incluyas análisis y una conclusión general a tu trabajo, para que éste no se limite a ser código sin un contexto claro. Recuerda que es importante contar con la habilidad de convertir los datos en información que sirva como herramienta para la toma de decisiones.

</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor (2da Iteración)</b> <a class=“tocSkip”></a>

Juani tu conclusión resume de manera clara y concisa los aspectos más relevantes del proyecto, destacando el enfoque metodológico y los resultados obtenidos. Has identificado correctamente que el modelo de Bosque Aleatorio es el más adecuado para predecir la conveniencia de ofrecer un plan a los usuarios, lo que refleja una comprensión sólida de las fortalezas y limitaciones de los diferentes algoritmos probados. La mención de la precisión inferior del árbol de decisión subraya la importancia de evaluar múltiples modelos antes de tomar una decisión final, lo que demuestra un enfoque riguroso y bien fundamentado. Para futuros trabajos, podrías incorporar técnicas de ingeniería de características para mejorar aún más la precisión del modelo. 


</div>