¡Hola Lilian! Como te va?

Mi nombre es Facundo Lozano! Un gusto conocerte, seré tu revisor en este proyecto.

A continuación un poco sobre la modalidad de revisión que usaremos:

Cuando enccuentro un error por primera vez, simplemente lo señalaré, te dejaré encontrarlo y arreglarlo tú cuenta. Además, a lo largo del texto iré haciendo algunas observaciones sobre mejora en tu código y también haré comentarios sobre tus percepciones sobre el tema. Pero si aún no puedes realizar esta tarea, te daré una pista más precisa en la próxima iteración y también algunos ejemplos prácticos. Estaré abierto a comentarios y discusiones sobre el tema.

Encontrará mis comentarios a continuación: **no los mueva, modifique ni elimine**.

Puedes encontrar mis comentarios en cuadros verdes, amarillos o rojos como este:

<div class="alert alert-block alert-success">
<b>Comentario del revisor.</b> <a class="tocSkip"></a>

Exito. Todo se ha hecho de forma exitosa.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor.</b> <a class="tocSkip"></a>

Observación. Algunas recomendaciones.
</div>

<div class="alert alert-block alert-danger">

<b>Comentario del revisor.</b> <a class="tocSkip"></a>

Necesita arreglos. Este apartado necesita algunas correcciones. El trabajo no puede ser aceptado con comentarios rojos. 
</div>

Puedes responder utilizando esto:

<div class="alert alert-block alert-info">
<b>Respuesta de estudiante.</b> <a class="tocSkip"></a>
</div>

### Importación de librerias

In [1]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.svm import SVC


### Analisis de datos

In [3]:
df= pd.read_csv('/datasets/users_behavior.csv')

In [4]:
print(df.shape)

(3214, 5)


In [5]:
display(df.head(5))

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


<div class="alert alert-block alert-success">

<b>Comentario del revisor. (Iteración 1)
    
</b> <a class="tocSkip"></a>

    
Excelente implementación de importaciones y carga de datos. Felicitaciones por mantener los procesos en celdas separadas! A la vez excelente implementación de los métodos para observar la composición de los datos!

In [7]:
df.duplicated().sum()

0

In [8]:
df.isna().sum()

calls       0
minutes     0
messages    0
mb_used     0
is_ultra    0
dtype: int64

In [9]:
#Se saca el resumen descriptivo de las columnas
df.describe()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
count,3214.0,3214.0,3214.0,3214.0,3214.0
mean,63.038892,438.208787,38.281269,17207.673836,0.306472
std,33.236368,234.569872,36.148326,7570.968246,0.4611
min,0.0,0.0,0.0,0.0,0.0
25%,40.0,274.575,9.0,12491.9025,0.0
50%,62.0,430.6,30.0,16943.235,0.0
75%,82.0,571.9275,57.0,21424.7,1.0
max,244.0,1632.06,224.0,49745.73,1.0


<div class="alert alert-block alert-success">

<b>Comentario del revisor. (Iteración 1)
    
</b> <a class="tocSkip"></a>

    
Nuevamente perfecto aquí al profundizar sobre los duplicados y nulos, bien hecho Lilian!

#### Se revisa la informacion del data frame, no se encuentran datos nulos ni duplicados en la informacion.

## Segmentacion de datos en un conjunto de entrenamiento, uno de validación y uno de prueba.

In [10]:
#Definimos las caracteristicas y el objetivo
features = df.drop('is_ultra', axis=1) 
target = df['is_ultra']

In [11]:
# Dividir los datos en conjunto de entrenamiento y conjunto de prueba + validación (40%)
features_train, features_temp, target_train, target_temp = train_test_split(features, target, test_size=0.4, random_state=42)

In [12]:
# Dividir el conjunto de prueba + validación en conjunto de validación y conjunto de prueba (50%)
features_valid, features_test, target_valid, target_test = train_test_split(features_temp, target_temp, test_size=0.5, random_state=42)

In [13]:
# Ver las dimensiones de los conjuntos resultantes
print("Dimensiones del conjunto de entrenamiento:", features_train.shape)
print("Dimensiones del conjunto de validación:", features_valid.shape)
print("Dimensiones del conjunto de prueba:", features_test.shape)

Dimensiones del conjunto de entrenamiento: (1928, 4)
Dimensiones del conjunto de validación: (643, 4)
Dimensiones del conjunto de prueba: (643, 4)


<div class="alert alert-block alert-success">

<b>Comentario del revisor. (Iteración 1)
    
</b> <a class="tocSkip"></a>

    
Una división perfecta de los datos en los 3 conjuntos, tal como debíamos en entrenamiento, validación y testeo. Bien hecho!

## Investiga diferentes modelos cambiando hiperparametros

In [14]:
# Define el modelo
model = RandomForestClassifier()

# Define la cuadrícula de búsqueda de hiperparámetros
param_grid = {
    'n_estimators': [100, 200, 300],  # Número de árboles en el bosque
    'max_depth': [None, 10, 20],  # Profundidad máxima de los árboles
    'min_samples_split': [2, 5, 10],  # Número mínimo de muestras requeridas para dividir un nodo interno
    'min_samples_leaf': [1, 2, 4]  # Número mínimo de muestras requeridas para ser una hoja
}


In [15]:
# Define la búsqueda en cuadrícula con validación cruzada
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5, scoring='accuracy')
# Entrena la búsqueda en cuadrícula en los datos de entrenamiento
grid_search.fit(features_train, target_train)

KeyboardInterrupt: 

In [None]:
# Obtiene los mejores hiperparámetros encontrados
best_params = grid_search.best_params_
# Obtiene el mejor modelo encontrado
best_model = grid_search.best_estimator_

In [None]:
# Realiza predicciones en el conjunto de validación
predictions = best_model.predict(features_valid)
# Calcula la precisión del modelo en el conjunto de validación
accuracy = accuracy_score(target_valid, predictions)

In [None]:
# Imprime los mejores hiperparámetros encontrados
print("Mejores hiperparámetros:", best_params)
# Imprime la precisión del modelo en el conjunto de validación
print("Precisión del modelo en el conjunto de validación:", accuracy)

### Prueba con otro modelo distinto

In [16]:
# Define el modelo SVC
svc_model = SVC()
# Define la cuadrícula de búsqueda de hiperparámetros
param_grid_svc = {
    'C': [0.1, 1, 10, 100],
    'gamma': [1, 0.1, 0.01, 0.001],
    'kernel': ['rbf', 'poly', 'sigmoid']
}
param_grid_svc = { # ejemplo
    'C': [0.1]
}


In [17]:
# Define la búsqueda en cuadrícula con validación cruzada
grid_search_svc = GridSearchCV(estimator=svc_model, param_grid=param_grid_svc, cv=5, scoring='accuracy')
# Entrena la búsqueda en cuadrícula en los datos de entrenamiento
grid_search_svc.fit(features_train, target_train)

GridSearchCV(cv=5, estimator=SVC(), param_grid={'C': [0.1]}, scoring='accuracy')

<div class="alert alert-block alert-warning">

<b>Comentario del revisor. (Iteración 1)
    
</b> <a class="tocSkip"></a>

En primera isntancia felicitaciones Lilian porque has implementado correctamente el modelo, el problema que comentas en realidad no es un problema ni un error sino que le estamos pasando una grilla muy grande, debemos pensar que el modelo entrenará tantas combinaciones de hiperparámetros por lo que en este caso (4^4)^3. Si vemos la grilla que agregue con un unico parametro vemos como si corre por ejemplo.

## Comprobacion de la calidad del modelo usando el conjunto de prueba

In [20]:
# Realiza predicciones en el conjunto de prueba usando el mejor modelo encontrado
predictions_test = best_model.predict(features_test)
# Calcula la precisión del modelo en el conjunto de prueba
accuracy_test = accuracy_score(target_test, predictions_test)
# Imprime la precisión del modelo en el conjunto de prueba
print("Precisión del modelo en el conjunto de prueba:", accuracy_test)

Precisión del modelo en el conjunto de prueba: 0.8133748055987559


In [28]:

extreme_features= [[1, 100, 10, 500],
                   [2, 200, 20, 1000],
                   [3, 300, 30, 1500]]
# Crear un DataFrame con nombres de características
extreme_features_df = pd.DataFrame(data=extreme_features, columns=['calls', 'minutes', 'messages', 'mb_used'])
# Utilizar el DataFrame para hacer predicciones
predictions = best_model.predict(extreme_features_df)
# Suprimir las advertencias
import warnings
warnings.filterwarnings("ignore")

In [None]:
# 1. Pruebas de límites
# Prueba el modelo con valores extremos para las características
extreme_features = [[1000, 1000, 100, 1000000], [-100, 0, 0, 0]]
for features in extreme_features:
    prediction = best_model.predict([features])
    print("Predicción para características extremas:", prediction)

Predicción para características extremas: [1]
Predicción para características extremas: [1]


In [None]:
# 2. Pruebas de sensibilidad
# Realiza pequeños cambios en las características y verifica si las predicciones cambian
small_changes = [[1, 1, 1, 1], [0.01, 0.01, 0.01, 0.01]]
for changes in small_changes:
    new_features = [old_value + change for old_value, change in zip(features, changes)]
    prediction = best_model.predict([new_features])
    print("Predicción para pequeños cambios en las características:", prediction)

Predicción para pequeños cambios en las características: [1]
Predicción para pequeños cambios en las características: [1]


<div class="alert alert-block alert-success">

<b>Comentario del revisor. (Iteración 1)
    
</b> <a class="tocSkip"></a>

Nuevamente un muy buen procedimiento para corroborar la calidad de nuestro modelo Lilian, tal como debíamos hemos evaluado sobre el conjunto de prueba.

<div class="alert alert-block alert-success">

<b>Comentario del revisor. (Iteración 1)
    
</b> <a class="tocSkip"></a>

Excelente agregado como te comente Lilian, felicitiaciones!

La precisión del modelo en los conjuntos de validación y prueba es alta, lo que indica que el modelo es capaz de predecir correctamente si un cliente debería estar en el plan Smart o Ultra.
Se encontraron los mejores hiperparámetros que aseguran que el modelo esté optimizado para el conjunto de datos proporcionado.

Basado en el comportamiento del cliente (llamadas, minutos, mensajes y datos), el modelo puede recomendar con precisión si el cliente debería usar el plan Smart o Ultra.
Esto puede ayudar a Megaline a mover a los clientes de los planes heredados a los nuevos planes de manera eficiente, asegurando que cada cliente obtenga el plan que mejor se adapta a su uso.