<h1 align="center">Sistema Predictivo de Planes Móviles - Introducción al Machine Learning</h1>

La compañía de telecomunicaciones Megaline no está satisfecha al observar que muchos de sus clientes siguen utilizando planes antiguos. La empresa desea desarrollar un modelo que analice el comportamiento de los clientes y recomiende uno de los nuevos planes de Megaline: Smart o Ultra.

El proyecto cuenta con acceso a los datos de comportamiento de los suscriptores que ya han cambiado a los nuevos planes. **El objetivo de esta tarea de clasificación es crear un modelo que seleccione el plan adecuado para los clientes.** 

El reto consiste en desarrollar un modelo con la mayor *precisión* posible. En este proyecto, el umbral de *precisión* es del 75%. El dataset proporcionado debe utilizarse para comprobar la *precisión* del modelo.

## Instrucciones del Proyecto

1. Examina el archivo de datos que se encuentra en el siguiente directorio: `./datasets/users_behavior.csv`.
2. Segmentar los datos en un conjunto de entrenamiento, uno de validación y uno de prueba.
3. Evaluar la calidad de diferentes modelos ajustando los hiperparámetros y describir brevemente los resultados obtenidos.
4. Verificar la calidad del modelo utilizando el conjunto de prueba.

## Diccionario de datos

Cada observación en el dataset contiene información mensual sobre el comportamiento de un usuario. 

La información proporcionada incluye:

    - `calls`: Número de llamadas.
    - `minutes`: Duración total de las llamadas en minutos.
    - `messages`: Número de mensajes de texto.
    - `mb_used`: Tráfico de Internet utilizado en MB.
    - `is_ultra`: Plan correspondiente al mes actual (Ultra - 1, Smart - 0).

# Contenido <a id='back'></a>

* [Desarrollo del proyecto](#develop)
    * [Segmentación de los datos fuente en un conjuntos de entrenamiento, validación y prueba](#segmentation) 
    * [Evaluar la calidad de diferentes modelos ajustando los hiperparámetros](#evaluate_models)
    * [Verificar la calidad del modelo utilizando el conjunto de prueba](#verify)
* [Conclusión](#end)

## Desarrollo del proyecto <a id='develop'></a>

In [1]:
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression

In [2]:
# Acceso a los registros del recurso "users behavior"

df_megaline = pd.read_csv('./datasets/users_behavior.csv')

In [3]:
# Obtener información general sobre los registros del DataFrame 'users behavior'

print("\033[1m Muestra aleatoria de filas del DataFrame 'users behavior':")

display(df_megaline.sample(15, random_state=1425))

print("\033[1m Resumen del DataFrame 'users behavior':\033[0m \n")

df_megaline.info()

[1m Muestra aleatoria de filas del DataFrame 'users behavior':


Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
2397,51.0,375.07,117.0,6967.0,0
2967,80.0,583.37,58.0,20898.57,1
2393,51.0,360.56,53.0,19683.68,0
1827,78.0,569.16,19.0,16795.58,0
2624,58.0,373.66,22.0,19410.7,0
696,56.0,338.17,37.0,21337.74,0
2845,105.0,711.11,21.0,24619.57,1
1491,63.0,385.09,18.0,14518.03,0
758,45.0,319.26,26.0,13376.33,0
1454,71.0,544.49,35.0,14460.01,0


[1m Resumen del DataFrame 'users behavior':[0m 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


El DataFrame `df_megaline` contiene un total de 3214 registros. Las columnas tienen los tipos de datos adecuados para su contenido: las variables numéricas (`calls`, `minutes`, `messages`, `mb_used`) están representadas como tipo `float64`, lo cual es apropiado para medidas continuas, mientras que la variable objetivo (`is_ultra`) está representada como tipo `int64`, indicando una clasificación binaria codificada como 0 y 1 (Smart y Ultra respectivamente).

[Volver a Contenidos](#back)

## Segmentación de los datos fuente en un conjuntos de entrenamiento, validación y prueba <a id='segmentation'></a>

In [4]:

# Segmentación de datos

df_training , df_test_validation =  train_test_split(df_megaline, test_size=0.4, random_state=789)

df_test, df_validation = train_test_split(df_test_validation, test_size=0.20, random_state=789)


# Features and targets 
features_training = df_training.drop('is_ultra', axis=1)
target_training = df_training['is_ultra']

features_validation = df_validation.drop('is_ultra', axis=1)
target_validation = df_validation['is_ultra']

features_test = df_test.drop('is_ultra', axis=1)
target_test = df_test['is_ultra']


[Volver a Contenidos](#back)

## Evaluar la calidad de diferentes modelos ajustando los hiperparámetros <a id="evaluate_models"></a>

In [5]:
# Investigación de la calidad de los diferentes modelos cambiando sus hiperparámetros.

# DecisionTreeClassifier

best_score = 0
best_depth = 0
best_model_tree = None
for depth in range(1, 11):
    model_tree = DecisionTreeClassifier(random_state = 459, max_depth = depth)
    model_tree.fit(features_training, target_training)
    score = model_tree.score(features_validation, target_validation)
    if score > best_score:
        best_score = score
        best_depth = depth
        best_model_tree = model_tree
print("En el modelo 'DecisionTreeClassifier' se logra la mejor exactitud ({}) con una produndidad de {} nodos".format(best_score, best_depth))


# RandomForestClassifier

best_score_forest = 0
best_depth_forest = 0
best_estimators = 0
best_model_forest = None
for est in range(1, 10):
    for depth in range(1, 10):
        model_forest = RandomForestClassifier(random_state=459, max_depth=depth, n_estimators=est)
        model_forest.fit(features_training, target_training)
        score = model_forest.score(features_validation, target_validation)
        if score > best_score_forest:
            best_score_forest = score
            best_depth_forest = depth
            best_estimators = est
            best_model_forest = model_forest
print("En el modelo 'RandomForestClassifier' se logra la mejor exactitud ({}) con un total de {} árboles y una produndidad de {} nodos".format(best_score_forest,best_estimators, best_depth_forest))

  
# LogisticRegression
model_regression = LogisticRegression(random_state=459, solver='liblinear')
model_regression.fit(features_training, target_training)
score = model_regression.score(features_validation, target_validation)
print("En el modelo 'LogisticRegression' se logra la mejor exactitud ({})".format(score))


En el modelo 'DecisionTreeClassifier' se logra la mejor exactitud (0.7596899224806202) con una produndidad de 7 nodos
En el modelo 'RandomForestClassifier' se logra la mejor exactitud (0.7674418604651163) con un total de 6 árboles y una produndidad de 8 nodos
En el modelo 'LogisticRegression' se logra la mejor exactitud (0.6782945736434108)


---
**Análisis**

Dada la investigación sobre la calidad de diferentes modelos variando sus hiperparámetros, se encontró que el modelo 'RandomForestClassifier' alcanzó la mayor precisión, con un 76.74%, utilizando un total de 6 árboles con una profundidad de 8 nodos. El modelo 'DecisionTreeClassifier' logró una precisión del 75.97% con una profundidad de 7 nodos. Sin embargo, la regresión logística no logró igualar el rendimiento de los otros modelos, con una precisión de apenas el 67.83%. En resumen, los hallazgos indican que el modelo de bosque aleatorio es efectivo para predecir el comportamiento de los clientes y recomendar los planes de Megaline.

[Volver a Contenidos](#back)

## Verificar la calidad del modelo utilizando el conjunto de prueba <a id="verify"></a>

In [6]:
# Comprobar la calidad del modelo

score_test = best_model_forest.score(features_test, target_test)

print("Precisión del modelo en el conjunto de prueba:", score_test)


Precisión del modelo en el conjunto de prueba: 0.8093385214007782


[Volver a Contenidos](#back)

Después de comprobar la calidad del modelo utilizando el conjunto de prueba, se obtuvo una precisión impresionante de aproximadamente 80.93%. Este resultado confirma la robustez del modelo seleccionado, el RandomForestClassifier con los hiperparámetros óptimos, para predecir el comportamiento de los clientes y recomendar los planes de Megaline. La precisión del 80.93% indica que el modelo es capaz de clasificar correctamente la gran mayoría de los casos en el conjunto de prueba, lo que sugiere que puede ser confiable para su implementación en la práctica. Esto respalda aún más la elección de este modelo como el más adecuado para la tarea en cuestión y refuerza su utilidad para ayudar a Megaline a tomar decisiones informadas sobre sus planes de telefonía móvil.

## Conclusión <a id="end"></a>


En este proyecto, se desarrolló un modelo de machine learning con el objetivo de predecir el comportamiento de los clientes de la compañía de telecomunicaciones Megaline y recomendar uno de sus nuevos planes: Smart o Ultra. A través de un análisis exhaustivo de varios modelos de clasificación y la optimización de sus hiperparámetros, se determinó que el modelo *RandomForestClassifier* era el más efectivo, alcanzando una precisión del 76.74% durante las pruebas iniciales.

El *RandomForestClassifier* demostró su superioridad en comparación con otros modelos, como el *DecisionTreeClassifier* y la regresión logística, destacándose como el mejor para la tarea de clasificación en cuestión. Tras la evaluación final utilizando un conjunto de prueba independiente, el modelo alcanzó una impresionante precisión del 80.93%, lo que sugiere que es altamente efectivo para clasificar correctamente el plan adecuado para la mayoría de los clientes.

Estos resultados refuerzan la confiabilidad del modelo seleccionado y su potencial para ser implementado en la práctica. Megaline puede utilizar este modelo para tomar decisiones informadas, mejorando así la experiencia de sus clientes al recomendarles los planes más adecuados según su comportamiento. En resumen, el proyecto ha cumplido su objetivo de desarrollar un modelo predictivo robusto y preciso, capaz de aportar un valor significativo a la estrategia comercial de Megaline.

[Volver a Contenidos](#back)