Hola!

Soy **Patricio Requena** 👋. Es un placer ser el revisor de tu proyecto el día de hoy!

Revisaré tu proyecto detenidamente con el objetivo de ayudarte a mejorar y perfeccionar tus habilidades. Durante mi revisión, identificaré áreas donde puedas hacer mejoras en tu código, señalando específicamente qué y cómo podrías ajustar para optimizar el rendimiento y la claridad de tu proyecto. Además, es importante para mí destacar los aspectos que has manejado excepcionalmente bien. Reconocer tus fortalezas te ayudará a entender qué técnicas y métodos están funcionando a tu favor y cómo puedes aplicarlos en futuras tareas. 

_**Recuerda que al final de este notebook encontrarás un comentario general de mi parte**_, empecemos!

Encontrarás mis comentarios dentro de cajas verdes, amarillas o rojas, ⚠️ **por favor, no muevas, modifiques o borres mis comentarios** ⚠️:


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si todo está perfecto.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si tu código está bien pero se puede mejorar o hay algún detalle que le hace falta.
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si de pronto hace falta algo o existe algún problema con tu código o conclusiones.
</div>

Puedes responderme de esta forma:
<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class=“tocSkip”></a>
Muchísimas gracias por las observaciones 🤗
</div>

# Introducción

Megaline es una empresa de telefonía móvil que ofrece diferentes planes a sus clientes. Hace poco lanzaron dos planes nuevos: Smart y Ultra, pero muchas personas todavía usan planes antiguos.

Para mejorar el servicio, la empresa quiere recomendar el plan más adecuado según cómo usa el cliente su celular: cuántas llamadas hace, cuántos mensajes envía y cuántos datos móviles consume.

En este proyecto se va a crear un modelo que, con base en ese comportamiento, pueda predecir si una persona debería tener el plan Smart o Ultra.

## Carga y exploración de los datos

In [1]:
import pandas as pd

df = pd.read_csv('/datasets/users_behavior.csv')

df.info()
df.head()
df.describe()
df.isnull().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


calls       0
minutes     0
messages    0
mb_used     0
is_ultra    0
dtype: int64

No hay valores nulos en el conjunto de datos.

Las columnas tienen nombres claros y tipos de datos correctos.

Algunas personas no envían mensajes ni usan muchos datos, lo cual puede influir en el tipo de plan

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Buen trabajo con la exploración inicial de los datos para entender con lo que trabajarás
</div>

## División del conjunto de datos

In [2]:
from sklearn.model_selection import train_test_split

X = df.drop('is_ultra', axis=1)
y = df['is_ultra']

X_train_val, X_test, y_train_val, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
X_train, X_valid, y_train, y_valid = train_test_split(X_train_val, y_train_val, test_size=0.25, random_state=42)

Los datos fueron divididos de forma que se evita usar información del conjunto de prueba en la etapa de entrenamiento.

El objetivo es entrenar con un grupo, validar con otro y al final comprobar el resultado con datos completamente nuevos.

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Muy bien realizada la división de los datos para evaluar correctamente los modelos
</div>

## Entrenamiento y comparación de modelos

Se probarán tres modelos diferentes: Árbol de decisión, Bosque aleatorio y Regresión logística.

In [3]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

### Árbol de decisión

In [4]:
for depth in range(1, 11):
    model = DecisionTreeClassifier(max_depth=depth, random_state=42)
    model.fit(X_train, y_train)
    pred = model.predict(X_valid)
    acc = accuracy_score(y_valid, pred)
    print(f'Profundidad {depth} - Exactitud: {acc:.3f}')

Profundidad 1 - Exactitud: 0.742
Profundidad 2 - Exactitud: 0.774
Profundidad 3 - Exactitud: 0.774
Profundidad 4 - Exactitud: 0.781
Profundidad 5 - Exactitud: 0.771
Profundidad 6 - Exactitud: 0.779
Profundidad 7 - Exactitud: 0.788
Profundidad 8 - Exactitud: 0.771
Profundidad 9 - Exactitud: 0.785
Profundidad 10 - Exactitud: 0.765


### Bosque aleatorio

In [5]:
for est in range(10, 101, 10):
    model = RandomForestClassifier(n_estimators=est, random_state=42)
    model.fit(X_train, y_train)
    pred = model.predict(X_valid)
    acc = accuracy_score(y_valid, pred)
    print(f'Estimadores {est} - Exactitud: {acc:.3f}')

Estimadores 10 - Exactitud: 0.767
Estimadores 20 - Exactitud: 0.776
Estimadores 30 - Exactitud: 0.787
Estimadores 40 - Exactitud: 0.782
Estimadores 50 - Exactitud: 0.788
Estimadores 60 - Exactitud: 0.792
Estimadores 70 - Exactitud: 0.792
Estimadores 80 - Exactitud: 0.793
Estimadores 90 - Exactitud: 0.792
Estimadores 100 - Exactitud: 0.795


### Regresión logística

In [6]:
model = LogisticRegression(random_state=42, max_iter=1000)
model.fit(X_train, y_train)
pred = model.predict(X_valid)
print('Regresión logística - Exactitud:', accuracy_score(y_valid, pred))

Regresión logística - Exactitud: 0.7200622083981337


Hallazgos:

El bosque aleatorio fue el modelo que dio mejores resultados, con exactitud alta y estable.

El árbol de decisión funciona bien con baja profundidad, pero pierde precisión si es muy profundo.

La regresión logística tuvo un resultado más bajo que los otros modelos.

## Evaluación final con el mejor modelo

In [7]:
final_model = RandomForestClassifier(n_estimators=100, random_state=42)
final_model.fit(X_train_val, y_train_val)

# Evaluar con el conjunto de prueba
final_predictions = final_model.predict(X_test)
print('Exactitud final en conjunto de prueba:', accuracy_score(y_test, final_predictions))

Exactitud final en conjunto de prueba: 0.8118195956454122


Hallazgos:

El modelo final mantiene una buena exactitud con datos nuevos.

Esto confirma que el modelo puede generalizar bien y servir en situaciones reales.

## Prueba de cordura

In [8]:
import numpy as np
nuevos_datos = pd.DataFrame({
    'calls': [0, 250],
    'minutes': [0, 3000],
    'messages': [0, 200],
    'mb_used': [0, 50000]
})

print('Predicción para casos extremos:', final_model.predict(nuevos_datos))

Predicción para casos extremos: [1 1]


Hallazgos:

El modelo predice “Smart” para un usuario con casi ningún uso, y “Ultra” para uno con uso muy alto.

Esto indica que el modelo aprendió bien el comportamiento general de los usuarios.

## Conclusión

En este proyecto se creó un modelo para ayudar a Megaline a recomendar entre los planes Smart y Ultra. Se analizaron los datos de comportamiento mensual de los usuarios y se probaron varios algoritmos.

El modelo de bosque aleatorio fue el más preciso. Luego de entrenarlo y probarlo con datos nuevos, se comprobó que predice correctamente la mayoría de los casos. Además, reaccionó bien a situaciones extremas en la prueba de cordura.

Este modelo puede servir como herramienta para que la empresa mejore sus recomendaciones y ayude a los clientes a elegir el plan más adecuado.

<div class="alert alert-block alert-warning">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Buen trabajo con tu proyecto! Entrenaste los modelos correctamente y los fuiste mejorando cambiando los hiperparámetros logrando así una métrica por encima del umbral que se propuso para este proyecto.
    
También podrías realizar un EDA de los datos un poco más detallado, puedes generar gráficas y explorar las diferentes variables ya que así entenderás mejor los datos y sabrás que es lo que puede afectar tu modelo.

    
Saludos!
</div>