# TItulo.

# Indice

1. [Descripción del proyecto.](#Descripción-del-proyecto.).
2. [Introducción.](#Introducción.)
3. [Pasos iniciales.](#Pasos-iniciales.)
4. [Limpieza y preprocesamiento de los datos.](#Limpieza-y-preprocesamiento-de-los-datos.)
5. [Entrenamiento y selección del modelo.](#Entrenamiento-y-selección-del-modelo.)
6. [Evaluación del modelo.](#Evaluación-del-modelo)
7. [Conclusión.](#Conclusión.)

## Descripción del proyecto.
La compañía móvil Megaline no está satisfecha al ver que muchos de sus clientes utilizan planes heredados. Quieren desarrollar un modelo que pueda analizar el comportamiento de los clientes y recomendar uno de los nuevos planes de Megaline: Smart o Ultra.

Tienes acceso a los datos de comportamiento de los suscriptores que ya se han cambiado a los planes nuevos (del proyecto del sprint de Análisis estadístico de datos). Para esta tarea de clasificación debes crear un modelo que escoja el plan correcto. Como ya hiciste el paso de procesar los datos, puedes lanzarte directo a crear el modelo.

Desarrolla un modelo con la mayor exactitud posible. En este proyecto, el umbral de exactitud es 0.75. Usa el dataset para comprobar la exactitud.

## Introducción.

La compañía móvil **Megaline** enfrenta un desafío significativo con la persistencia de muchos de sus clientes en el uso de planes heredados. Para abordar esta situación, se ha decidido desarrollar un modelo de clasificación que analice el comportamiento de los clientes y recomiende uno de los nuevos planes disponibles: **Smart** o **Ultra**. Con acceso a datos de comportamiento de suscriptores que ya han realizado la transición a estos nuevos planes, se busca crear un modelo que no solo identifique las características clave de los usuarios, sino que también logre una alta precisión en sus recomendaciones. Este proyecto tiene como objetivo alcanzar un umbral de exactitud mínimo de **0.75**, asegurando así que las recomendaciones sean efectivas y basadas en un análisis sólido de datos.

## Pasos iniciales.

Para comenzar, es esencial configurar correctamente el entorno de trabajo, lo cual implica cargar las librerías necesarias y los datos con los que se trabajará en el análisis. En esta sección nos enfocaremos exclusivamente en preparar estas tareas preliminares, garantizando que todas las dependencias y el conjunto de datos estén listos para el procesamiento posterior.

### Inicialización.

A continuación, se realizará la importación de las librerías necesarias para el desarrollo del proyecto. Estas librerías serán utilizadas a lo largo de todo el proceso, garantizando que todas las herramientas y funcionalidades estén disponibles desde el inicio.

In [1]:
# Importación de las librerias necesarias.
import pandas as pd
import numpy as np
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

### Cargar datos.

Los datos que se utilizarán para entrenar el modelo serán cargados en un dataframe denominado `df_users_behavior`. Este dataframe contendrá toda la información necesaria para realizar las operaciones de análisis y modelado durante el proyecto.

In [2]:
df_users_behavior = pd.read_csv('/datasets/users_behavior.csv')

### Exploración de datos (EDA).

En esta sección se llevará a cabo una breve exploración de los datos con el objetivo de identificar posibles errores y comprender cómo están estructurados. Este análisis preliminar permitirá detectar inconsistencias, valores faltantes u otros problemas que puedan afectar el rendimiento del modelo en etapas posteriores.

In [3]:
# Muestra aleatoria del conjunto de datos.
df_users_behavior.sample(10)

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
2436,81.0,627.34,56.0,17266.0,0
2510,63.0,508.7,21.0,19254.67,1
937,55.0,354.67,16.0,16405.57,0
112,68.0,482.78,26.0,8620.51,0
3084,34.0,244.71,7.0,10529.97,0
2849,91.0,582.01,55.0,16614.04,0
260,117.0,832.78,52.0,2949.68,1
1480,72.0,526.05,24.0,19545.92,0
863,120.0,929.36,39.0,15080.13,0
439,52.0,342.1,4.0,17785.85,0


In [4]:
# Información general del dataframe.
df_users_behavior.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


In [5]:
# Estadisticas generales del dataframe.
df_users_behavior.describe()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
count,3214.0,3214.0,3214.0,3214.0,3214.0
mean,63.038892,438.208787,38.281269,17207.673836,0.306472
std,33.236368,234.569872,36.148326,7570.968246,0.4611
min,0.0,0.0,0.0,0.0,0.0
25%,40.0,274.575,9.0,12491.9025,0.0
50%,62.0,430.6,30.0,16943.235,0.0
75%,82.0,571.9275,57.0,21424.7,1.0
max,244.0,1632.06,224.0,49745.73,1.0


## Limpieza y preprocesamiento de los datos.

Gracias a la exploración inicial, se ha identificado que no hay datos faltantes ni errores de tipado en las columnas. Sin embargo, en esta sección se realizará una comprobación adicional para garantizar la calidad de los datos. En caso de detectar errores, se llevarán a cabo las correcciones pertinentes para asegurar que los datos estén listos para su uso en las etapas siguientes del proyecto.

### Busqueda de datos ausentes.

In [6]:
# comprobamos los datos faltantes en el dataframe.
df_users_behavior.isna().sum()

calls       0
minutes     0
messages    0
mb_used     0
is_ultra    0
dtype: int64

No se encontraron datos faltantes en el dataframe.

### Busqueda de datos duplicados.

In [7]:
duplicates = df_users_behavior.duplicated().sum()

print(f'El total de registros duplicados es de: {duplicates}')

El total de registros duplicados es de: 0


No se encontraron duplicados en el dataframe.

### Conclusión de la Verificación de Datos

Después de realizar las comprobaciones necesarias, podemos confirmar que los datos del dataframe cumplen con los estándares de calidad esperados. Con esta validación completada, es posible proceder de manera segura al siguiente paso del proyecto.

## Selección y entrenamiento del modelo.

En esta sección, se probarán diferentes modelos con el objetivo de evaluar cuál de ellos presenta el mejor desempeño. Este proceso de comparación nos permitirá seleccionar el modelo más adecuado para el análisis y la predicción en base a nuestros datos.

### Segmentación de datos.

El primer paso en este proceso será la preparación de los datos. Esto incluirá:

1. **Separación de Features y Target**: Se realizará la separación de las características (features) del objetivo (target).
2. **División del Conjunto de Datos**: A continuación, se dividirá el conjunto de datos en tres partes: entrenamiento, validación y prueba.

Este enfoque asegurará que los datos estén organizados de manera adecuada para el modelado.

In [8]:
# Separamos features de target.
df_features = df_users_behavior.drop(['is_ultra'], axis=1)
df_target = df_users_behavior['is_ultra']

# Segmentamos datos
features_train, features_temp, target_train, target_temp = train_test_split( df_features, df_target, test_size=.40, random_state=51999 )
features_valid, features_test, target_valid, target_test = train_test_split( features_temp, target_temp, test_size=.5, random_state=51999 )


### Modelo DecisionTreeClassifier.

El primer modelo que se probará será el **DecisionTreeClassifier**. Este modelo es conocido por su simplicidad y rapidez en la ejecución. El objetivo es experimentar con diferentes valores del hiperparámetro `max_depth` para identificar el valor que ofrezca los mejores resultados en términos de rendimiento del modelo.

In [9]:
best_score = 0
best_depth = 0

for depth in range(1, 10):
    model_1 = DecisionTreeClassifier( max_depth=depth, random_state=51999 )
    model_1.fit( features_train, target_train)
    score_valid = model_1.score( features_valid, target_valid )
    
    if score_valid > best_score:
        best_score = score_valid
        best_depth = depth
print( f'El mejor score es {best_score} con un depth de: {best_depth}' )

El mejor score es 0.8227060653188181 con un depth de: 4


El modelo ha demostrado un buen rendimiento, obteniendo un score de **0.8227**, lo que implica aproximadamente **82 predicciones correctas** por cada **100**. Este resultado sugiere que el modelo tiene una capacidad considerable para clasificar correctamente los datos.

### Modelo RandomForestClassifier

El siguiente modelo a probar será el **RandomForestClassifier**, que es similar al modelo anterior, el **DecisionTreeClassifier**, pero con una diferencia clave: este modelo crea múltiples árboles de decisión y luego realiza una votación para determinar el valor final. Aunque el **RandomForestClassifier** puede ofrecer una mayor precisión en comparación con el modelo anterior, también es más costoso en términos computacionales.

In [13]:
best_score = 0
best_est = 0

for est in range(1,11):
    
    model_2 = RandomForestClassifier( n_estimators=est, random_state=51999, max_depth=3 )
    model_2.fit( features_train, target_train)
    score_valid = model_2.score( features_valid, target_valid)
    
    if score_valid > best_score:
        best_score = score_valid
        best_est = est

print( f'El mejor score es {best_score} con un est de: {best_est}' )

El mejor score es 0.8149300155520995 con un est de: 9


En este caso, se probaron variaciones en el hiperparámetro **n_estimators**. El mejor resultado obtenido fue un score de **0.8149**, lo que indica menos de **82 predicciones correctas** por cada **100**. Aunque este es un buen resultado, es ligeramente inferior al rendimiento del modelo **DecisionTreeClassifier**.

### Modelo LogisticRegression

El siguiente modelo que se evaluará es el **LogisticRegression**. Este modelo es ampliamente utilizado para problemas de clasificación binaria y se basa en la función logística para predecir la probabilidad de pertenencia a una clase específica. 

In [11]:
model_3 = LogisticRegression(random_state=551999, solver='liblinear')
model_3.fit( features_train, target_train)
score_valid = model_3.score(features_valid, target_valid)
print("Accuracy del modelo de regresión logística en el conjunto de validación:", score_valid)

Accuracy del modelo de regresión logística en el conjunto de validación: 0.7527216174183515


El modelo **LogisticRegression** alcanzó un score máximo de **0.7527**. Este resultado indica que el modelo logró alrededor de **75 predicciones correctas** por cada **100**. Aunque este desempeño es aceptable, es inferior al de los modelos **DecisionTreeClassifier** y **RandomForestClassifier**.

En las pruebas realizadas, los modelos **DecisionTreeClassifier** y **RandomForestClassifier** obtuvieron los puntajes más altos. Sin embargo, dado que el **RandomForestClassifier** es más lento y resultó ser ligeramente menos eficiente, se ha decidido utilizar el modelo **DecisionTreeClassifier**. Esta elección se basa en su rendimiento superior y en la necesidad de un enfoque más ágil en el proceso de clasificación.

## Evaluación del modelo.

Ahora que se ha seleccionado el modelo **DecisionTreeClassifier**, se procederá a realizar una prueba utilizando el conjunto de prueba para evaluar los resultados obtenidos. Este proceso permitirá medir el rendimiento del modelo en datos no vistos y determinar su capacidad de generalización. A continuación, se llevarán a cabo las predicciones. 

In [12]:
predictions_test = model_1.predict(features_test)

score_test = accuracy_score( predictions_test, target_test )

#####Prueba de cordura#####
expected_accuracy_treshold = .75
######Comprobamos que el score este por encima de .75
if score_test > expected_accuracy_treshold:
    print( f"El score es: {score_test}, mayor que el esperado {expected_accuracy_treshold}.")
else:
    print( f"El score es: {score_test}, menor que el esperado {expected_accuracy_treshold}.")

#####Comprobamos que el modelo no genere valores diferentes de 1 y 0
unique_values = df_target.unique()
if all(np.isin( predictions_test, unique_values )):
    print("Las predicciones no tienen valores diferentes de 1 y 0")
else:
    print('El modelo generó valores incorrectos.')

El score es: 0.7791601866251944, mayor que el esperado 0.75.
Las predicciones no tienen valores diferentes de 1 y 0


Después de realizar la prueba del modelo con el conjunto de datos de prueba, se ha comprobado que la precisión del modelo se encuentra por encima de **0.75** (el valor mínimo esperado). Este resultado indica que el modelo ha alcanzado los objetivos establecidos y ha obtenido resultados satisfactorios en su capacidad de clasificación.

## Conclusión.


Tras realizar un análisis exhaustivo y el desarrollo de un modelo de clasificación utilizando el **DecisionTreeClassifier**, se ha logrado alcanzar una precisión superior a **0.75** en el conjunto de prueba. Esto confirma que el modelo es capaz de recomendar de manera efectiva los nuevos planes **Smart** y **Ultra** a los clientes de Megaline, mejorando así la satisfacción del cliente y promoviendo la adopción de los planes más recientes. Los resultados obtenidos indican que la implementación del modelo puede tener un impacto positivo en la retención de clientes y en el crecimiento del negocio, al facilitar la transición hacia planes más modernos y competitivos. Con este éxito, Megaline está en una posición favorable para mejorar su oferta y satisfacer las necesidades de sus suscriptores.