<h1>Tabla de Contenidos<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Introducción" data-toc-modified-id="Introducción-2">Introducción</a></span><ul class="toc-item"><li><span><a href="#Estrategia" data-toc-modified-id="Estrategia-2.1">Estrategia</a></span></li><li><span><a href="#Inicialización" data-toc-modified-id="Inicialización-2.2">Inicialización</a></span></li><li><span><a href="#Cargar-los-datos" data-toc-modified-id="Cargar-los-datos-2.3">Cargar los datos</a></span></li><li><span><a href="#Explorar-datos-iniciales" data-toc-modified-id="Explorar-datos-iniciales-2.4">Explorar datos iniciales</a></span></li></ul></li><li><span><a href="#Segmentar-los-datos" data-toc-modified-id="Segmentar-los-datos-3">Segmentar los datos</a></span></li><li><span><a href="#Probar-diferentes-modelos" data-toc-modified-id="Probar-diferentes-modelos-4">Probar diferentes modelos</a></span><ul class="toc-item"><li><span><a href="#Árbol-de-decisiones" data-toc-modified-id="Árbol-de-decisiones-4.1">Árbol de decisiones</a></span></li><li><span><a href="#Bosque-aleatorio" data-toc-modified-id="Bosque-aleatorio-4.2">Bosque aleatorio</a></span></li><li><span><a href="#Regresión-logística" data-toc-modified-id="Regresión-logística-4.3">Regresión logística</a></span></li></ul></li><li><span><a href="#Comprobar-la-calidad-del-modelo" data-toc-modified-id="Comprobar-la-calidad-del-modelo-5">Comprobar la calidad del modelo</a></span><ul class="toc-item"><li><span><a href="#Prueba-de-cordura-del-modelo" data-toc-modified-id="Prueba-de-cordura-del-modelo-5.1">Prueba de cordura del modelo</a></span></li></ul></li><li><span><a href="#Conclusiones-generales" data-toc-modified-id="Conclusiones-generales-6">Conclusiones generales</a></span></li></ul></div>

# Introducción

La compañía Megaline quiere desarrollar un modelo que pueda analizar el comportamiento de los clientes y recomendar uno de los nuevos planes de Megaline: Smart o Ultra.

## Estrategia

Durante este proyecto se propbarán tres tipos de modelos de clasificación de machine learning de la librería `scikit-learn`. Estos modelos serán:
   - Árbol de decisiones (`DecisionTreeClassifier`)
   - Bosque aleatorio (`RandomForestClassifier`)
   - Regresión logística (`LogisticRegression`)
    
**Selección del mejor modelo**

Se probarán distintos valores de los hiperparámetros hasta encontrar el ajuste que arroje una puntuación más alta en la prueba de _accuracy_. De los tres modelos probados, se elegirá aquel modelo con mayor exactitud.

## Inicialización

Para iniciar el proyecto, en primer lugar cargaremos las librerías que necesitaremos para la creación y entrenamiento del modelo, así como la librería `pandas` para manejar los DataFrames.

In [2]:
# Carga las librerías

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

## Cargar los datos

Para este proyecto contamos con los datos de comportamiento de los suscriptores que ya se han cambiado a los planes nuevos.

In [3]:
# Carga los datos

try:
    users_behavior = pd.read_csv('users_behavior.csv')
except:
    users_behavior = pd.read_csv('/datasets/users_behavior.csv')

## Explorar datos iniciales

El DataFrame contiene los siguientes datos:

 - `calls` - número de llamadas.
 - `minutes` - duración total de la llamada en minutos.
 - `messages` - número de mensajes de texto.
 - `mb_used` - tráfico de Internet utilizado en MB.
 - `is_ultra` - plan del mes actual (Ultra - 1, Smart - 0).

In [4]:
# Imprime información general del DataFrame
users_behavior.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


In [5]:
# Imprime una muestra de los datos

users_behavior.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


# Segmentar los datos

En esta parte del proyecto segmentaremos los datos en un conjunto de entrenamiento, un conjunto de validación y otro de prueba.

In [6]:
# Definimos las características y el objetivo
# Este será el conjunto de prueba

features = users_behavior.drop(['is_ultra'], axis=1)
target = users_behavior['is_ultra']

# Segmentamos los datos en un conjunto de entrenamiento y uno de validación

features_train, features_valid, target_train, target_valid = train_test_split(
    features, target, test_size=0.40, random_state=12345)

# Segmentamos el conjunto de validación para obtener el conjunto de prueba 
features_valid, features_test, target_valid, target_test = train_test_split(
    features_valid, target_valid, test_size=0.50, random_state=12345)

Para la segmentación de los conjuntos de datos se ha dividido el conjunto principal en una proporción 60%-40% y a su vez, el conjunto de validación lo hemos dividido con una proporción 50%-50% para obtener el conjunto de prueba.

In [7]:
# Comprobamos el tamaño de los conjuntos de datos

print('Tamaño total del dataset:', users_behavior.shape)
print()
print('Tamaño de features_train:', features_train.shape)
print('Tamaño de features_valid:', features_valid.shape)
print('Tamaño de features_test:', features_test.shape)
print('Tamaño de target_train:', target_train.shape)
print('Tamaño de target_valid:', target_valid.shape)
print('Tamaño de target_test:', target_test.shape)

Tamaño total del dataset: (3214, 5)

Tamaño de features_train: (1928, 4)
Tamaño de features_valid: (643, 4)
Tamaño de features_test: (643, 4)
Tamaño de target_train: (1928,)
Tamaño de target_valid: (643,)
Tamaño de target_test: (643,)


# Probar diferentes modelos

Con los datos segmentados, en esta parte investigaremos diferentes modelos de clasificación binaria, haciendo pruebas con diferentes hiperparámetros para encontrar el modelo resultados más exactos.

## Árbol de decisiones

Comenzaremos probando un modelo de árbol de decisiones. Para este modelo probaremos con distintos valores en el parámetro `max_depth`.

In [8]:
tree_best_score = 0
tree_best_depth = 0

# Prueba diferentes valores de profundidad del árbol de decisiones desde 1 nodo hasta 10 nodos
for depth in range(1, 11):
    tree_model = DecisionTreeClassifier(max_depth=depth, random_state=12345)
    tree_model.fit(features_train, target_train)
    
    score = tree_model.score(features_valid, target_valid)
    
    if score > tree_best_score:
        tree_best_score = score
        tree_best_depth = depth

print("Exactitud del mejor modelo en el conjunto de validación (depth = {}): {}".format(
    tree_best_depth, tree_best_score))

Exactitud del mejor modelo en el conjunto de validación (depth = 3): 0.7853810264385692


**Hallazgos**

Tras varias pruebas con distintos rangos de valores en el parámetro `max_depth` para un modelo de árbol de decisiones, obtenemos la mejor puntuación con un valor de profundidad de 3 nodos.

## Bosque aleatorio

El siguiente modelo que probaremos será un modelo de bosque aleatorio. En este modelo realizaremos pruebas ajustando la profundidad de los árboles (`max_depth`) y el número de estimadores (`n_estimators`).

In [9]:
forest_best_score = 0
forest_best_depth = 0
forest_best_est = 0

# Prueba distintos valores de número de estimadores desde 10 hasta 50 en intervalos de 5
for est in range(10, 51, 10):
    for depth in range (1, 11): # Prueba distintos valores de profundidad de cada árbol individual
        forest_model = RandomForestClassifier(max_depth=depth, n_estimators=est, random_state=12345)
        forest_model.fit(features_train, target_train)
        
        score = forest_model.score(features_valid, target_valid)
        
        if score > forest_best_score:
            forest_best_score = score
            forest_best_depth = depth
            forest_best_est = est
            
print("Exactitud del mejor modelo en el conjunto de validación (n_estimators = {} y depth = {}): {}".format(
    forest_best_est, forest_best_depth, forest_best_score))

Exactitud del mejor modelo en el conjunto de validación (n_estimators = 40 y depth = 8): 0.8087091757387247


**Hallazgos**

Probando distintos rangos de valores para los valores `n_estimators` y `max_depth`, obtenemos la mejor puntuación en un modelo de bosque aleatorio con 40 estimadores y una profundidad de árbol individual de 8 nodos.

Además, con este modelo obtenemos una mejor puntuación en la prueba de _accuracy_ que con el modelo de árbol de decisiones.

## Regresión logística

Finalmenrte probaremos un modelo de regresión logística. Este modelo es más sencillo pero a la vez es algo más robusto ante el sobreajuste. En el parámetro `solver` utilizaremos el valor 'liblinear', ya que funciona mejor para conjuntos de datos más pequeños.

Calcularemos además la exactitud del modelo tanto para el conjunto de entrenamiento como para el conjunto de validación.

In [10]:
log_reg_model = LogisticRegression(random_state=12345, solver='liblinear')
log_reg_model.fit(features_train, target_train)

score_train = log_reg_model.score(features_train, target_train)
score_valid = log_reg_model.score(features_valid, target_valid)

print('Exactitud del modelo de regresión logística en el conjunto de entrenamiento:', score_train)
print('Exactitud del modelo de regresión logística en el conjunto de validación:', score_valid)

Exactitud del modelo de regresión logística en el conjunto de entrenamiento: 0.7505186721991701
Exactitud del modelo de regresión logística en el conjunto de validación: 0.7589424572317263


**Hallazgos**

Con un modelo de regresión logística obtenemos la peor de las puntuaciones en la prueba de _accuracy_, dónde con el conjunto de entrenamiento nos quedamos justo en el umbral de 0.75% y con el conjunto de validación apenas superamos el umbral del 0.75%.

**Conclusiones intermedias**

Hemos podido comprobar que el modelo que mejores resultados ha dado ha sido el modelo de bosque aleatorio con 40 estimadores y una profundidad de 8 nodos.

En la siguiente parte del proyecto probaremos este modelo con el conjunto de prueba.

# Comprobar la calidad del modelo

En la parte anterior pudimos comprobar que el modelo que mejores resultados obtuvo con el conjunto de datos de validación fue el modelo de bosque aleatorio (`forest_model`), dónde obtuvimos una _accuracy_ del 80%. Después de éste, el segundo modelo que mejor puntuación obtuvo fue el modelo de árbol de decisiones (`tree_model`), el cual obtuvo una puntuación de _accuracy_ del 78.5%. 

En el siguiente bloque de código comprobaremos el desempeño del modelo `forest_model` (bosque aleatorio) con el conjunto de datos de prueba (`features_test`). Guardaremos el resultado de las predicciones sobre los datos del conjunto de prueba en `predictions_test` y después comprobamos el valor de _accuracy_ con el método `accuracy_score`.

In [11]:
predictions_test = forest_model.predict(features_test)
final_accuracy = accuracy_score(target_test, predictions_test)
print('Accuracy del modelo de bosque aleatorio con el dataset de prueba:', final_accuracy)

Accuracy del modelo de bosque aleatorio con el dataset de prueba: 0.8009331259720062


El modelo arroja una puntuación del 80% también en la métrica de _accuracy_ realizando predicciones sobre el conjunto de datos de prueba, manteniéndose sobre un porcentaje similar al obtenido con el conjunto de validación durante la fase de pruebas y ajuste de los modelos.  

## Prueba de cordura del modelo

En la prueba de cordura comprobaremos que nuestro modelo realiza las predicciones adecuadamente. Importaremos el objeto `default_rng` del módulo `random` de la librería `numpy` para crear un conjunto de datos con clasificaciones aleatorias que usaremos para realizar la prueba de cordura.

En el siguiente bloque de código crearemos un conjunto de datos dónde asignaremos de forma aleatoria el valor 0 ó 1 y tendrá la misma longitud que el _test set_. Llamaremos a este conjunto de datos `dummy_set`.

In [16]:
from numpy.random import default_rng 

# Inicia el objeto defaul_rng con la seed '12345'
dummy_model = default_rng(12345) 

# Crea un conjunto de clasificaciones de forma aleatoria con la misma longitud que nuestro test set
dummy_set = dummy_model.choice([0,1], len(target_test))
print('Accuracy de un modelo simple con clasificaciones al azar:', accuracy_score(target_test, dummy_set))

Accuracy de un modelo simple con clasificaciones al azar: 0.5132192846034215


El modelo simple ha obtenido una exactitud del 51% frente a la exactitud del 80% obtenida por el modelo entrenado. Podemos decir que pasa correctamente la prueba de cordura.

# Conclusiones generales

Finalmente, se enumeran las conclusiones obtenidas a lo largo del proyecto:

   1. De los 3 modelo probados, el que mejor desempeño tiene es el modelo de bosque aleatorio, configurado con los hiperparámetros de `n_estimators` en 40 y `max_depth` en 8.
   2. El _accuracy_ del modelo de bosque aleatorio entrenado es del 80%.
   3. El modelo entrenado supera en puntuación a un modelo simple en la prueba de cordura.
    