<b>¡Hola Carlos!</b>

Mi nombre es Alejandro Abia y tengo el gusto de revisar tu proyecto.

A continuación, encontrarás mis comentarios en celdas pintadas de tres colores (verde, amarillo y rojo), a manera de semáforo. Por favor, <b>no las borres ni muevas de posición</b> mientras dure el proceso de revisión.

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>
En celdas verdes encontrarás comentarios en relación a tus aciertos y fortalezas.
</div>
<div class="alert alert-block alert-warning">
<b>Antención</b> <a class="tocSkip"></a>
Utilizaré el color amarillo para llamar tu atención, expresar algo importante o compartirte alguna idea de valor.
</div>
<div class="alert alert-block alert-danger">
<b>A resolver</b> <a class="tocSkip"></a>
En rojo emitiré aquellos puntos que deberás atender para aprobar la revisión.
</div>
<div class="alert alert-block alert-info">
<b>Comentario estudiante</b><a class="tocSkip"></a>
Es factible que, a lo largo del proceso de revisión, quieras dejarme comentarios. Si es el caso, por favor realízalo dentro de celdas azules como esta.
</div>
Respecto del proceso de revisión, tu proyecto será aceptado una vez que los comentarios en rojo hayan sido atendidos.
¡Empecemos!

______________

# Descripción del proyecto
Se requiere desarrollar un modelo que pueda analizar el comportamiento de los clientes y recomendar uno de los nuevos planes de Megaline: Smart o Ultra.

## Objetivo del proyecto
Se debe crear un modelo que escoja el plan correcto con la mayor exactitud posible. 
El umbral es de 0.75.

In [5]:
# Importación de librerias
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.dummy import DummyClassifier

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>
Buen inicio, Carlos. La importación de las librerías principales para la manipulación de datos y la creación de modelos de clasificación (como pandas y sklearn) está bien organizada. Además, la elección de `DummyClassifier` para realizar una prueba de cordura es un buen detalle para validar la precisión del modelo. </div>


In [6]:
#lectura del dataset
df = pd.read_csv('/datasets/users_behavior.csv')
print(df.info())
df.head(10)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB
None


Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0
5,58.0,344.56,21.0,15823.37,0
6,57.0,431.64,20.0,3738.9,1
7,15.0,132.4,6.0,21911.6,0
8,7.0,43.39,3.0,2538.67,1
9,90.0,665.41,38.0,17358.61,0


<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>
Has cargado el conjunto de datos correctamente y utilizaste `df.info()` y `df.head()` para inspeccionarlo, lo cual es una buena práctica para entender la estructura y verificar la integridad de los datos.</div>




In [7]:
# Segmentación de los datos fuente en entrenamiento (60%), validación(20%) y prueba(20%)
df_train, df_test = train_test_split(df, test_size=0.4, random_state=92124)  # 60% para df_train, 40% df_test
df_valid, df_test = train_test_split(df_test, test_size=0.5, random_state=92124)  # 40% dividido en 20% df_valid y 20% df_test

# Separación de características y etiquetas para cada conjunto
features_train = df_train.drop('is_ultra', axis=1)
target_train = df_train['is_ultra']
features_valid = df_valid.drop('is_ultra', axis=1)
target_valid = df_valid['is_ultra']
features_test = df_test.drop('is_ultra', axis=1)
target_test = df_test['is_ultra']

<div class="alert alert-block alert-warning">
<b>Atención</b> <a class="tocSkip"></a>
Carlos, has realizado una segmentación en entrenamiento (60%), validación (20%) y prueba (20%) adecuadamente. Sin embargo, te sugeriría establecer <code>stratify=target</code> dentro de la función <code>train_test_split()</code> si deseas mantener la misma proporción de clases en cada subconjunto. Esto puede ser particularmente útil para mejorar la consistencia de los resultados en conjuntos desbalanceados.
</div>


In [8]:
# Modelo 1: DecisionTreeClassifier
tree_model = DecisionTreeClassifier(max_depth=10, min_samples_split=8, random_state=92124)
tree_model.fit(features_train, target_train)
tree_valid_predictions = tree_model.predict(features_valid)
tree_valid_accuracy = accuracy_score(target_valid, tree_valid_predictions)
print(f"Exactitud del modelo DecisionTreeClassifier en validación: {tree_valid_accuracy:.8f}")

Exactitud del modelo DecisionTreeClassifier en validación: 0.74494557


<div class="alert alert-block alert-warning">
<b>Atención</b> <a class="tocSkip"></a>
La implementación del <code>DecisionTreeClassifier</code> es correcta y produce una exactitud en validación de 0.7449. Considera probar con valores adicionales para <code>max_depth</code> y <code>min_samples_split</code> mediante una búsqueda en cuadrícula o <code>GridSearchCV</code> para identificar los mejores hiperparámetros y mejorar potencialmente la exactitud.
</div>


In [9]:
# Modelo 2: RandomForestClassifier
forest_model = RandomForestClassifier(n_estimators=60, max_depth=10, min_samples_split=8, random_state=92124)
forest_model.fit(features_train, target_train)
forest_valid_predictions = forest_model.predict(features_valid)
forest_valid_accuracy = accuracy_score(target_valid, forest_valid_predictions)
print(f"Exactitud del modelo RandomForestClassifier en el conjunto de validación (n_estimators = {forest_model.n_estimators}): {forest_valid_accuracy:.8f}")

Exactitud del modelo RandomForestClassifier en el conjunto de validación (n_estimators = 60): 0.78227061


<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>
Buen trabajo implementando el <code>RandomForestClassifier</code>. Has elegido correctamente los hiperparámetros y obtenido una exactitud de 0.7823 en el conjunto de validación, superando el umbral de 0.75 establecido en el objetivo del proyecto. Esto muestra que el modelo de bosque aleatorio es una opción robusta para tu tarea.
</div>
<div class="alert alert-block alert-warning">
<b>Atención</b> <a class="tocSkip"></a>
Te recomendaría experimentar con el número de estimadores y otros parámetros (por ejemplo, <code>max_features</code>) para verificar si puedes aumentar aún más el rendimiento del modelo. Una búsqueda en cuadrícula también puede ser beneficiosa aquí.
</div>


In [10]:
# Modelo 3: LogisticRegression
logistic_model = LogisticRegression(random_state=92124)
logistic_model.fit(features_train, target_train)
logistic_valid_predictions = logistic_model.predict(features_valid)
logistic_valid_accuracy = accuracy_score(target_valid, logistic_valid_predictions)
print(f"Exactitud del modelo LogisticRegression en validación: {logistic_valid_accuracy:.8f}")

Exactitud del modelo LogisticRegression en validación: 0.71073095


<div class="alert alert-block alert-warning">
<b>Atención</b> <a class="tocSkip"></a>
La exactitud de la <code>LogisticRegression</code> en validación es 0.7107, inferior al umbral deseado. Este resultado es esperado, ya que la regresión logística puede tener limitaciones al tratar datos con relaciones no lineales. Si deseas optimizar este modelo, puedes considerar la estandarización de variables para mejorar la convergencia y estabilidad de los coeficientes.
</div>


Mis hallazgos frente a los módelos utilizados es que bajo los hiperparámetros usados en cada uno, el que presenta un mejor rendimiento es el 'RandomForestClassifier', no obstante, se debe tener en cuenta que solamente el 79% de las instancias del conjunto de datos se predijo correctamente. 

In [11]:
#Comprobación de prueba la calidad del modelo usando el conjunto de prueba en Modelo 1 (test): DecisionTreeClassifier
tree_model = DecisionTreeClassifier(max_depth=10, min_samples_split=8, random_state=92124)
tree_model.fit(features_train, target_train)
tree_test = tree_model.score(features_test, target_test)
print(f"Exactitud del modelo DecisionTreeClassifier en el conjunto de prueba: {tree_test:.8f}")

Exactitud del modelo DecisionTreeClassifier en el conjunto de prueba: 0.77449456


In [12]:
#Comprobación de prueba la calidad del modelo usando el conjunto de prueba en Modelo 2 (test): RandomForestClassifier
forest_model = RandomForestClassifier(n_estimators=60, max_depth=10, min_samples_split=8, random_state=92124)
forest_model.fit(features_train, target_train)
forest_test = forest_model.score(features_test, target_test)
print(f"Exactitud del modelo RandomForestClassifier en el conjunto de prueba (n_estimators = {forest_model.n_estimators}): {forest_test:.8f}")

Exactitud del modelo RandomForestClassifier en el conjunto de prueba (n_estimators = 60): 0.80870918


In [13]:
#Comprobación de prueba la calidad del modelo usando el conjunto de prueba en Modelo 3 (test): LogisticRegression
logistic_model = LogisticRegression(random_state=92124)
logistic_model.fit(features_train, target_train)
logistic_test = logistic_model.score(features_test, target_test)
print(f"Exactitud del modelo LogisticRegression en el conjunto de prueba: {logistic_test:.8f}")

Exactitud del modelo LogisticRegression en el conjunto de prueba: 0.73716952


<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>
Carlos, hiciste un buen análisis al evaluar cada modelo en el conjunto de prueba. La mejora en la exactitud del <code>RandomForestClassifier</code> (hasta 0.8087) confirma su superioridad respecto a los otros modelos y respalda su selección como el modelo óptimo.
</div>
<div class="alert alert-block alert-warning">
<b>Atención</b> <a class="tocSkip"></a>
Al comparar los resultados en los diferentes conjuntos, es una buena práctica analizar posibles razones detrás de las variaciones en la exactitud. Este análisis ayuda a entender mejor el comportamiento de los modelos y su estabilidad.
</div>


Comprobando la calidad del modelo en el conjunto de prueba se puede evidenciar que para el caso 1 'DecisionTreeClassifier', la exactitud del modelo es muy similar a la resultante del ejercicio con el conjunto de validación.
En el segundo caso 'RandomForestClassifier' la calidad incrementa a un 81%, aproximadamente un 2% más que en la prueba con el conjunto o datos de validación. Lo cual afirma que el modelo que mejor se ajusta para el ejercicio es este.
En el tercer caso 'LogisticRegression' la calidad tambien incrementa en un 2% con respecto a la prueba con los datos de validación.

Revisando la documentación en linea pude identificar que el uso de 'DummyClassifier' sirve para realizar una prueba de cordura.

In [14]:
#prueba de cordura
dummy_model = DummyClassifier(strategy="most_frequent")
dummy_model.fit(features_train, target_train)
dummy_test_predictions = dummy_model.predict(features_test)
dummy_test_accuracy = accuracy_score(target_test, dummy_test_predictions)
print("\nPrueba de cordura:")
print(f"Exactitud del modelo en el conjunto de prueba: {dummy_test_accuracy:.4f}")



Prueba de cordura:
Exactitud del modelo en el conjunto de prueba: 0.6874


<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>
Excelente inclusión de la prueba de cordura utilizando <code>DummyClassifier</code>. Esto permite establecer un umbral base y comparar la efectividad de los otros modelos.
</div>
<div class="alert alert-block alert-warning">
<b>A resolver</b> <a class="tocSkip"></a>
Carlos, la idea de la prueba de cordura es demostrar que tus modelos no son aleatorios y superan la exactitud de una clasificación simple, en este caso "la clase más frecuente". Como tus modelos presentan una exactitud significativamente mayor que este clasificador, puedes concluir que han aprendido patrones relevantes en los datos.
</div>


A pesar de que busque documentación para realizar este último paso, no me es del todo claro que se puede inferir con esta última prueba o cómo puedo enlazarla con lo evidenciado en el desarrollo del ejercicio.

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>
Carlos, ¡felicitaciones por tu trabajo! Has implementado correctamente los pasos principales para entrenar y evaluar modelos de clasificación, además de utilizar una prueba de cordura. Considera mis sugerencias para refinar aún más el modelo y mejorar su rendimiento. Es un muy buen proyecto, que demuestra un entendimiento sólido de los conceptos básicos de modelado y evaluación. ¡Sigue así!
</div>
