Hola **Carolina**!

Soy **Patricio Requena** 👋. Es un placer ser el revisor de tu proyecto el día de hoy!

Revisaré tu proyecto detenidamente con el objetivo de ayudarte a mejorar y perfeccionar tus habilidades. Durante mi revisión, identificaré áreas donde puedas hacer mejoras en tu código, señalando específicamente qué y cómo podrías ajustar para optimizar el rendimiento y la claridad de tu proyecto. Además, es importante para mí destacar los aspectos que has manejado excepcionalmente bien. Reconocer tus fortalezas te ayudará a entender qué técnicas y métodos están funcionando a tu favor y cómo puedes aplicarlos en futuras tareas. 

_**Recuerda que al final de este notebook encontrarás un comentario general de mi parte**_, empecemos!

Encontrarás mis comentarios dentro de cajas verdes, amarillas o rojas, ⚠️ **por favor, no muevas, modifiques o borres mis comentarios** ⚠️:


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si todo está perfecto.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si tu código está bien pero se puede mejorar o hay algún detalle que le hace falta.
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si de pronto hace falta algo o existe algún problema con tu código o conclusiones.
</div>

Puedes responderme de esta forma:
<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class=“tocSkip”></a>
</div>

Objetivo de la actividad: modelo que pueda analizar el comportamiento de los clientes y recomendar uno de los nuevos planes de Megaline: Smart o Ultra.

Requerimientos
° umbral de exactitud es 0.75 (buscar la mayor exactitud posible)


Descripción de datos(contiene información del comportamiento mensual sobre un usuario):
* сalls — número de llamadas,
* minutes — duración total de la llamada en minutos,
* messages — número de mensajes de texto,
* mb_used — Tráfico de Internet utilizado en MB,
* is_ultra — plan para el mes actual (Ultra - 1, Smart - 0)

In [1]:
#importacion de liberias
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

In [2]:
#Carga del dataframe
df = pd.read_csv('/datasets/users_behavior.csv')

In [3]:
#Examinar el df
df.info()
print("-" * 30)
df.sample(5)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB
------------------------------


Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
2967,80.0,583.37,58.0,20898.57,1
192,123.0,810.67,12.0,36684.49,1
1452,40.0,263.64,56.0,11382.98,0
1696,159.0,1174.0,149.0,33258.6,1
2966,128.0,869.07,0.0,21723.95,1


observaciones de los datos:
* ninguna fila contiene datos nulos
* verificar si calls y messages realmente usan decimales o se puede transformar a int
* contar los valores de is_ulta

In [4]:
# Verificacion de decimales
print("¿Todos los valores de 'calls' son enteros?", (df['calls'] % 1 == 0).all())
print("¿Todos los valores de 'messages' son enteros?", (df['messages'] % 1 == 0).all())
print("-" * 30)

#cambiar tipo de dato
columnas_a_convertir = ['calls', 'messages']
df[columnas_a_convertir] = df[columnas_a_convertir].astype(int)

#contar los valores de 0 y 1
print(df['is_ultra'].value_counts())
print("-" * 30)

#estadisticas extra
print(df.describe())

¿Todos los valores de 'calls' son enteros? True
¿Todos los valores de 'messages' son enteros? True
------------------------------
0    2229
1     985
Name: is_ultra, dtype: int64
------------------------------
             calls      minutes     messages       mb_used     is_ultra
count  3214.000000  3214.000000  3214.000000   3214.000000  3214.000000
mean     63.038892   438.208787    38.281269  17207.673836     0.306472
std      33.236368   234.569872    36.148326   7570.968246     0.461100
min       0.000000     0.000000     0.000000      0.000000     0.000000
25%      40.000000   274.575000     9.000000  12491.902500     0.000000
50%      62.000000   430.600000    30.000000  16943.235000     0.000000
75%      82.000000   571.927500    57.000000  21424.700000     1.000000
max     244.000000  1632.060000   224.000000  49745.730000     1.000000


In [5]:
#Segmentacion de los datosen un conjunto de entrenamiento, uno de validación y uno de prueba.
features = df.drop(['is_ultra'], axis=1)
target = df['is_ultra'] 

In [6]:
# Primera división, hare un 6/2/2
features_divisible_1, features_test_1, target_divisible_1, target_test_1 = train_test_split(features, target, test_size=0.2, random_state=12345)
# Segunda división
features_train_1, features_valid_1, target_train_1, target_valid_1 = train_test_split(features_divisible_1, target_divisible_1, test_size=0.25, random_state=12345)

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Muy bien realizada la división de los datos para evaluar correctamente los modelos. Es importante tener dividido los datos ya que no se puede evaluar el modelo sobre los mismos datos que ya vió para su entrenamiento
</div>

In [7]:
#Regresion logistica con la primera particion
model = LogisticRegression(random_state=54321, solver='liblinear')
model.fit(features_train_1, target_train_1) # entrena el modelo

score_train = model.score(features_train_1, target_train_1) 
score_valid = model.score(features_valid_1,target_valid_1) 
score_test = model.score(features_test_1,target_test_1)

print("Accuracy del modelo de regresión logística en el conjunto de entrenamiento:", score_train)
print("Accuracy del modelo de regresión logística en el conjunto de validación:", score_valid)
print("Accuracy del modelo de regresión logística en el conjunto de prueba:", score_test)


Accuracy del modelo de regresión logística en el conjunto de entrenamiento: 0.7028008298755186
Accuracy del modelo de regresión logística en el conjunto de validación: 0.6998444790046656
Accuracy del modelo de regresión logística en el conjunto de prueba: 0.6998444790046656


In [8]:
# Primera división, hare un 5/2.5/2.5
features_divisible_2, features_test_2, target_divisible_2, target_test_2 = train_test_split(features, target, test_size=0.25, random_state=12345)
# Segunda división
features_train_2, features_valid_2, target_train_2, target_valid_2 = train_test_split(features_divisible_2, target_divisible_2, test_size=0.33, random_state=12345)

In [9]:
#Regresion logistica con el segundo particionamiento
model = LogisticRegression(random_state=54321, solver='liblinear')
model.fit(features_train_2, target_train_2) # entrena el modelo

score_train = model.score(features_train_2, target_train_2) 
score_valid = model.score(features_valid_2,target_valid_2) 
score_test = model.score(features_test_2,target_test_2)

print("Accuracy del modelo de regresión logística en el conjunto de entrenamiento:", score_train)
print("Accuracy del modelo de regresión logística en el conjunto de validación:", score_valid)
print("Accuracy del modelo de regresión logística en el conjunto de prueba:", score_test)


Accuracy del modelo de regresión logística en el conjunto de entrenamiento: 0.7453531598513011
Accuracy del modelo de regresión logística en el conjunto de validación: 0.7298994974874372
Accuracy del modelo de regresión logística en el conjunto de prueba: 0.7574626865671642


In [10]:
#bosque aleatorio de clasificacion con el segundo particionamiento
best_score = 0
best_train = 0
best_test = 0

best_est = 0
for est in range(1, 51): # selecciona el rango del hiperparámetro
    model = RandomForestClassifier(random_state=54321, n_estimators=est)
    model.fit(features_train_1,target_train_1) 
    
    score = model.score(features_valid_1,target_valid_1) 
    train = model.score(features_train_1, target_train_1) 
    test = model.score(features_test_1,target_test_1)
    
    if score > best_score:
        best_score = score 
        best_est = est 
        best_train = train
        best_test = test

print(f"La exactitud del mejor modelo en el conjunto de validación: {best_score}")
print(f"La exactitud del mejor modelo en el conjunto de entrenamiento: {best_train}")
print(f"La exactitud del mejor modelo en el conjunto de testeo: {best_test}")
print(f"La exactitud del mejor modelo en el mejor numero arboles:  {best_est}")

La exactitud del mejor modelo en el conjunto de validación: 0.7978227060653188
La exactitud del mejor modelo en el conjunto de entrenamiento: 0.9984439834024896
La exactitud del mejor modelo en el conjunto de testeo: 0.7853810264385692
La exactitud del mejor modelo en el mejor numero arboles:  35


In [11]:
#bosque aleatorio de clasificacion con el segundo particionamiento
best_score = 0
best_train = 0
best_test = 0

best_est = 0
for est in range(1, 51): # selecciona el rango del hiperparámetro
    model = RandomForestClassifier(random_state=54321, n_estimators=est)
    model.fit(features_train_2,target_train_2) 
    
    score = model.score(features_valid_2,target_valid_2) 
    train = model.score(features_train_2, target_train_2) 
    test = model.score(features_test_2,target_test_2)
    
    if score > best_score:
        best_score = score 
        best_est = est 
        best_train = train
        best_test = test

print(f"La exactitud del mejor modelo en el conjunto de validación: {best_score}")
print(f"La exactitud del mejor modelo en el conjunto de entrenamiento: {best_train}")
print(f"La exactitud del mejor modelo en el conjunto de testeo: {best_test}")
print(f"La exactitud del mejor modelo en el mejor numero arboles:  {best_est}")

La exactitud del mejor modelo en el conjunto de validación: 0.8090452261306532
La exactitud del mejor modelo en el conjunto de entrenamiento: 0.9950433705080545
La exactitud del mejor modelo en el conjunto de testeo: 0.7935323383084577
La exactitud del mejor modelo en el mejor numero arboles:  26


<div class="alert alert-block alert-warning">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Aquí hay que tener cuidado con el entrenamiento del modelo, si te das cuenta el score de entrenamiento es casi 1.0, un puntaje perfecto, pero la diferencia en test y validación es considerable lo que indica que tu modelo está tendiendo al sobre-ajuste
</div>

In [12]:
#arbol de decision primera particion
best_score = 0
best_train = 0
best_test = 0
best_depth = 0
for depth in range(1,6):
    model = DecisionTreeClassifier(max_depth=depth, random_state=12345)
    model.fit(features_train_1, target_train_1)  

    score = model.score(features_valid_1,target_valid_1) 
    train = model.score(features_train_1, target_train_1) 
    test = model.score(features_test_1,target_test_1)

    if score > best_score:
        best_score = score 
        best_test = test 
        best_train = train
        best_depth = depth
        
print(f"La exactitud del mejor modelo en el conjunto de validación: {best_score}")
print(f"La exactitud del mejor modelo en el conjunto de entrenamiento: {best_train}")
print(f"La exactitud del mejor modelo en el conjunto de testeo: {best_test}")
print(f"La mejor exactitud del mejor modelo fue en la capa:  {best_depth}")

La exactitud del mejor modelo en el conjunto de validación: 0.7651632970451011
La exactitud del mejor modelo en el conjunto de entrenamiento: 0.8117219917012448
La exactitud del mejor modelo en el conjunto de testeo: 0.7869362363919129
La mejor exactitud del mejor modelo fue en la capa:  3


<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Muy bien planteado el código para probar con los diferentes modelos para conseguir un mejor performance!
</div>

In [13]:
#arbol de decision segunda particion
best_score = 0
best_train = 0
best_test = 0
best_depth = 0
for depth in range(1,6):
    model = DecisionTreeClassifier(max_depth=depth, random_state=12345)
    model.fit(features_train_2, target_train_2)  

    score = model.score(features_valid_2,target_valid_2) 
    train = model.score(features_train_2, target_train_2) 
    test = model.score(features_test_2,target_test_2)

    if score > best_score:
        best_score = score 
        best_test = test 
        best_train = train
        best_depth = depth
        
print(f"La exactitud del mejor modelo en el conjunto de validación: {best_score}")
print(f"La exactitud del mejor modelo en el conjunto de entrenamiento: {best_train}")
print(f"La exactitud del mejor modelo en el conjunto de testeo: {best_test}")
print(f"La mejor exactitud del mejor modelo fue en la capa:  {best_depth}")

La exactitud del mejor modelo en el conjunto de validación: 0.7876884422110553
La exactitud del mejor modelo en el conjunto de entrenamiento: 0.8011152416356877
La exactitud del mejor modelo en el conjunto de testeo: 0.7910447761194029
La mejor exactitud del mejor modelo fue en la capa:  3


Describe brevemente los hallazgos del estudio:

* Comparación de Divisiones de Datos
División 60/20/20 vs 50/25/25:

La división 50/25/25 consistentemente supera a la 60/20/20
Diferencia promedio: ~5-8% mejor accuracy esto dependiendo igual cual de los 3 conjuntos es: normalmente tiene un resultado mas alto en validacion y testo, pero 60/20/20 muestra mayor presicion en entrenamiento

Rendimiento por Modelo:

RandomForest (fue el de mejores resultados):
Mejor accuracy: 80.9% (validación) con 26 árboles
Test accuracy: 79.4% - SUPERA el umbral de 75%
Muestra signos de sobreajuste (99.5% en entrenamiento)

DecisionTree:
Mejor accuracy: 76.5% (validación) con profundidad 3
Test accuracy: 78.7% - SUPERA el umbral de 75%
Menos sobreajuste que RandomForest

LogisticRegression:
Accuracy: 72.9% (validación)
Test accuracy: 75.7% - Apenas supera el umbral
Modelo más estable, menos sobreajuste

tambien tomemos en cuenta que hubo algo de varion en los resultados  por las diferentes visiones, aunque en todos se obtuvieron buenos resultados

mejores resultados:
Modelo recomendado: RandomForest con 26 estimadores
- Mejor balance entre accuracy y generalización
- Supera claramente el umbral requerido (75%)
  

In [14]:
#prueba de cordura al modelo
from sklearn.dummy import DummyClassifier # Modelo que predice aleatoriamente

dummy_model = DummyClassifier(strategy='uniform', random_state=12345)
dummy_model.fit(features_train_2, target_train_2)

testeo = dummy_model.score(features_test_2, target_test_2)
print(f"Accuracy predicción aleatoria del testeo: {testeo}")

valid = dummy_model.score(features_valid_2, target_valid_2)
print(f"Accuracy predicción aleatoria del testeo: {valid}")

train = dummy_model.score(features_train_2, target_train_2)
print(f"Accuracy predicción aleatoria del testeo: {train}")

Accuracy predicción aleatoria del testeo: 0.4987562189054726
Accuracy predicción aleatoria del testeo: 0.5175879396984925
Accuracy predicción aleatoria del testeo: 0.48698884758364314


Resultados finales:

# Objetivo Cumplido 
Se logró desarrollar un modelo de clasificación que supera el umbral requerido de 75% de exactitud para recomendar planes Smart o Ultra a los clientes de Megaline.

# Distribución de datos (2314 filas totales)
- Plan Smart (0): 2,229 usuarios (69.4%)
- Plan Ultra (1): 985 usuarios (30.6%)

# Mejor division:
La división 50/25/25 mostró  mejores resultados
- Mejor generalización del modelo
- Mayor accuracy en validación y prueba
- Diferencia promedio: 5-8% superior
- aunque posiblemente tenga sobreajuste

# Mejor modelo:
Random Forest:
- Accuracy validación: 80.9% con 26 estimadores
- Accuracy prueba: 79.4%  Supera umbral
- Observación: Presenta sobreajuste (99.5% en entrenamiento)

Decision Tree:
- Accuracy validación: 78.8% con profundidad 3
- Accuracy prueba: 79.1%  Supera umbral
- Menor sobreajuste que Random Forest

Logistic Regression:
- Accuracy validación: 73.0%
- Accuracy prueba: 75.7%  Apenas supera umbral
- Modelo más estable, sin sobreajuste

# prueba de cordura:
El modelo dummy (predicción aleatoria) obtuvo ~50% de accuracy, confirmando que nuestros modelos (75-79%) son significativamente mejores que el azar

<div class="alert alert-block alert-warning">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Buen trabajo con tu proyecto! Entrenaste los modelos correctamente obteniendo una métrica por encima de lo propuesto.
    
También podrías realizar un EDA de los datos un poco más detallado, puedes generar gráficas y explorar las diferentes variables ya que así entenderás mejor los datos y sabrás que es lo que puede afectar tu modelo.
    
Saludos!
</div>