# Megaline Telecom Modelo Predictivo

# Descripción del proyecto
La compañía móvil Megaline no está satisfecha al ver que muchos de sus clientes utilizan planes heredados. Quieren desarrollar un modelo que pueda analizar el comportamiento de los clientes y recomendar uno de los nuevos planes de Megaline: *Smart o Ultra.*

Tienes acceso a los datos de comportamiento de los suscriptores que ya se han cambiado a los planes nuevos (del proyecto del sprint de Análisis estadístico de datos). Para esta tarea de clasificación debes crear un modelo que escoja el plan correcto. Como ya hiciste el paso de procesar los datos, puedes lanzarte directo a crear el modelo.

Desarrolla un modelo con la mayor exactitud posible. En este proyecto, el umbral de exactitud es 0.75. Usa el dataset para comprobar la exactitud.


# Instrucciones del proyecto.
Abre y examina el archivo de datos. Dirección al archivo:/datasets/users_behavior.csv Descarga el dataset
Segmenta los datos fuente en un conjunto de entrenamiento, uno de validación y uno de prueba.
Investiga la calidad de diferentes modelos cambiando los hiperparámetros. Describe brevemente los hallazgos del estudio.
Comprueba la calidad del modelo usando el conjunto de prueba.
Tarea adicional: haz una prueba de cordura al modelo. Estos datos son más complejos que los que habías usado antes así que no será una tarea fácil. Más adelante lo veremos con más detalle.
Descripción de datos
Cada observación en el dataset contiene información del comportamiento mensual sobre un usuario. La información dada es la siguiente:

сalls — número de llamadas,
minutes — duración total de la llamada en minutos,
messages — número de mensajes de texto,
mb_used — Tráfico de Internet utilizado en MB,
is_ultra — plan para el mes actual (Ultra - 1, Smart - 0).
Evaluación del proyecto
Hemos definido los criterios de evaluación para el proyecto. Lee esto con atención antes de pasar al ejercicio. 

In [1]:
## Importar librerías

from scipy import stats as st
import pandas as pd
from matplotlib import pyplot as plt

## RandomForestRegression
## Train_test_split

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split


## mean_squared_error

from sklearn.metrics import mean_squared_error

## precisión

from sklearn.metrics import accuracy_score# < importa la función de cálculo de precisión 

In [2]:
## Descargar el DataSet

df_megaline = pd.read_csv('/datasets/users_behavior.csv')


<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Buen trabajo con la carga e importación de librerías!
    
</div>

In [3]:
## Detalles del 
df_megaline.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Muy bien realizada la división de los datos para evaluar correctamente los modelos 
</div>

In [4]:

# Dividir los datos en entrenamiento, validación y prueba
features = df_megaline.drop(['is_ultra'], axis=1)
target = df_megaline['is_ultra']

# Dividir en entrenamiento y prueba (20% para prueba)
features_train, features_test, target_train, target_test = train_test_split(
    features, target, test_size=0.20, random_state=54321
)

# Dividir el conjunto de entrenamiento en entrenamiento y validación (20% para validación)
features_train, features_valid, target_train, target_valid = train_test_split(
    features_train, target_train, test_size=0.20, random_state=54321
)

# Inicializar mejores valores
best_accuracy = 0
best_est = 0
best_depth = 0
best_min_samples_split = 0

# Búsqueda de hiperparámetros
for est in range(1, 11, 1):  # Probar con n_estimators en este rango
    for depth in range(1, 11):  # Probar con max_depth en este rango
        for min_samples_split in [2, 5, 10]:  # Probar con varios valores de min_samples_split
            model = RandomForestClassifier(
                random_state=54321,
                n_estimators=est,
                max_depth=depth,
                min_samples_split=min_samples_split
            )
            # Ajustar el modelo
            model.fit(features_train, target_train)

            # Calcular accuracy en el conjunto de validación
            score_valid = model.score(features_valid, target_valid)
            score_test = model.score(features_test, target_test)

            print(f'est = {est}, depth = {depth}, min_samples_split = {min_samples_split}')
            print("Accuracy en validación:", score_valid)
            print("Accuracy en prueba:", score_test)

            # Actualizar los mejores hiperparámetros si se encuentra un mejor accuracy
            if score_valid > best_accuracy:
                best_accuracy = score_valid
                best_est = est
                best_depth = depth
                best_min_samples_split = min_samples_split

# Mostrar los mejores resultados
print('\n')
print("Mejor accuracy en validación:", best_accuracy)
print("Mejores hiperparámetros -> n_estimators:", best_est, ", max_depth:", best_depth, ", min_samples_split:", best_min_samples_split)



est = 1, depth = 1, min_samples_split = 2
Accuracy en validación: 0.7669902912621359
Accuracy en prueba: 0.7247278382581649
est = 1, depth = 1, min_samples_split = 5
Accuracy en validación: 0.7669902912621359
Accuracy en prueba: 0.7247278382581649
est = 1, depth = 1, min_samples_split = 10
Accuracy en validación: 0.7669902912621359
Accuracy en prueba: 0.7247278382581649
est = 1, depth = 2, min_samples_split = 2
Accuracy en validación: 0.7825242718446602
Accuracy en prueba: 0.744945567651633
est = 1, depth = 2, min_samples_split = 5
Accuracy en validación: 0.7825242718446602
Accuracy en prueba: 0.744945567651633
est = 1, depth = 2, min_samples_split = 10
Accuracy en validación: 0.7825242718446602
Accuracy en prueba: 0.744945567651633
est = 1, depth = 3, min_samples_split = 2
Accuracy en validación: 0.7902912621359224
Accuracy en prueba: 0.749611197511664
est = 1, depth = 3, min_samples_split = 5
Accuracy en validación: 0.7902912621359224
Accuracy en prueba: 0.749611197511664
est = 1, de

est = 3, depth = 4, min_samples_split = 2
Accuracy en validación: 0.8097087378640777
Accuracy en prueba: 0.7698289269051322
est = 3, depth = 4, min_samples_split = 5
Accuracy en validación: 0.8097087378640777
Accuracy en prueba: 0.7698289269051322
est = 3, depth = 4, min_samples_split = 10
Accuracy en validación: 0.8097087378640777
Accuracy en prueba: 0.7698289269051322
est = 3, depth = 5, min_samples_split = 2
Accuracy en validación: 0.8155339805825242
Accuracy en prueba: 0.7729393468118196
est = 3, depth = 5, min_samples_split = 5
Accuracy en validación: 0.8097087378640777
Accuracy en prueba: 0.7744945567651633
est = 3, depth = 5, min_samples_split = 10
Accuracy en validación: 0.8174757281553398
Accuracy en prueba: 0.7776049766718507
est = 3, depth = 6, min_samples_split = 2
Accuracy en validación: 0.8155339805825242
Accuracy en prueba: 0.7744945567651633
est = 3, depth = 6, min_samples_split = 5
Accuracy en validación: 0.8213592233009709
Accuracy en prueba: 0.7853810264385692
est = 

est = 5, depth = 6, min_samples_split = 10
Accuracy en validación: 0.8233009708737864
Accuracy en prueba: 0.776049766718507
est = 5, depth = 7, min_samples_split = 2
Accuracy en validación: 0.8271844660194175
Accuracy en prueba: 0.776049766718507
est = 5, depth = 7, min_samples_split = 5
Accuracy en validación: 0.8213592233009709
Accuracy en prueba: 0.7807153965785381
est = 5, depth = 7, min_samples_split = 10
Accuracy en validación: 0.8077669902912621
Accuracy en prueba: 0.7682737169517885
est = 5, depth = 8, min_samples_split = 2
Accuracy en validación: 0.8097087378640777
Accuracy en prueba: 0.7791601866251944
est = 5, depth = 8, min_samples_split = 5
Accuracy en validación: 0.8271844660194175
Accuracy en prueba: 0.7838258164852255
est = 5, depth = 8, min_samples_split = 10
Accuracy en validación: 0.8174757281553398
Accuracy en prueba: 0.7869362363919129
est = 5, depth = 9, min_samples_split = 2
Accuracy en validación: 0.8135922330097087
Accuracy en prueba: 0.7807153965785381
est = 5

est = 7, depth = 9, min_samples_split = 2
Accuracy en validación: 0.8194174757281554
Accuracy en prueba: 0.7869362363919129
est = 7, depth = 9, min_samples_split = 5
Accuracy en validación: 0.8233009708737864
Accuracy en prueba: 0.7900466562986003
est = 7, depth = 9, min_samples_split = 10
Accuracy en validación: 0.8135922330097087
Accuracy en prueba: 0.776049766718507
est = 7, depth = 10, min_samples_split = 2
Accuracy en validación: 0.8116504854368932
Accuracy en prueba: 0.7853810264385692
est = 7, depth = 10, min_samples_split = 5
Accuracy en validación: 0.8135922330097087
Accuracy en prueba: 0.7931570762052877
est = 7, depth = 10, min_samples_split = 10
Accuracy en validación: 0.8213592233009709
Accuracy en prueba: 0.7853810264385692
est = 8, depth = 1, min_samples_split = 2
Accuracy en validación: 0.7864077669902912
Accuracy en prueba: 0.7636080870917574
est = 8, depth = 1, min_samples_split = 5
Accuracy en validación: 0.7864077669902912
Accuracy en prueba: 0.7636080870917574
est 

est = 10, depth = 2, min_samples_split = 10
Accuracy en validación: 0.7883495145631068
Accuracy en prueba: 0.7620528771384136
est = 10, depth = 3, min_samples_split = 2
Accuracy en validación: 0.8038834951456311
Accuracy en prueba: 0.776049766718507
est = 10, depth = 3, min_samples_split = 5
Accuracy en validación: 0.8038834951456311
Accuracy en prueba: 0.776049766718507
est = 10, depth = 3, min_samples_split = 10
Accuracy en validación: 0.8038834951456311
Accuracy en prueba: 0.776049766718507
est = 10, depth = 4, min_samples_split = 2
Accuracy en validación: 0.8213592233009709
Accuracy en prueba: 0.7869362363919129
est = 10, depth = 4, min_samples_split = 5
Accuracy en validación: 0.8213592233009709
Accuracy en prueba: 0.7869362363919129
est = 10, depth = 4, min_samples_split = 10
Accuracy en validación: 0.8194174757281554
Accuracy en prueba: 0.7869362363919129
est = 10, depth = 5, min_samples_split = 2
Accuracy en validación: 0.8155339805825242
Accuracy en prueba: 0.7791601866251944


In [5]:
final_model = RandomForestClassifier(
    random_state=54321,
    n_estimators=best_est,
    max_depth=best_depth,
    min_samples_split=best_min_samples_split
)
final_model.fit(features_train, target_train)

# Evaluar el modelo en el conjunto de prueba
target_pred = final_model.predict(features_test)
accuracy = accuracy_score(target_test, target_pred)

print(f'Accuracy final en prueba: {accuracy}')

Accuracy final en prueba: 0.7947122861586314


## Conclusiones

La búsqueda exhaustiva de hiperparámetros mediante un ciclo de pruebas permitió identificar la combinación más efectiva de parámetros para el RandomForestClassifier, optimizando su capacidad para predecir el comportamiento de los usuarios en cuanto a su elección de plan (Ultra vs Smart).

La métrica de precisión se utilizó como criterio para evaluar el rendimiento del modelo en los conjuntos de validación y prueba, lo que permitió ajustar los parámetros y seleccionar el modelo más efectivo. Los mejores resultados fueron alcanzados con una configuración de n_estimators, max_depth y min_samples_split específicos, mostrando una mejora significativa en la capacidad predictiva respecto a otros modelos probados.

Este enfoque no solo optimizó el modelo para un rendimiento máximo, sino que también validó que el proceso de ajuste de hiperparámetros y evaluación de modelos es crucial para obtener predicciones precisas en problemas de clasificación más complejos.

En resumen, el proceso fue exitoso, y los resultados obtenidos proporcionan una base sólida para continuar con la mejora y la implementación de modelos predictivos aún más complejos.