# Modelo de Machine Learning para la empresa de telefonía móvil Megaline

<h1>Tabla de Contenidos<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Introducción" data-toc-modified-id="Introducción-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Introducción</a></span></li><li><span><a href="#Objetivos" data-toc-modified-id="Objetivos-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Objetivos</a></span></li><li><span><a href="#Inicialización" data-toc-modified-id="Inicialización-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Inicialización</a></span><ul class="toc-item"><li><span><a href="#Cargar-datos" data-toc-modified-id="Cargar-datos-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Cargar datos</a></span></li><li><span><a href="#Explorar-datos-iniciales" data-toc-modified-id="Explorar-datos-iniciales-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Explorar datos iniciales</a></span></li><li><span><a href="#Conclusiones" data-toc-modified-id="Conclusiones-3.3"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>Conclusiones</a></span></li></ul></li><li><span><a href="#Segmentación-de-datos-fuente" data-toc-modified-id="Segmentación-de-datos-fuente-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Segmentación de datos fuente</a></span><ul class="toc-item"><li><span><a href="#Conclusiones" data-toc-modified-id="Conclusiones-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Conclusiones</a></span></li></ul></li><li><span><a href="#Investigación-de-modelos-predictivos" data-toc-modified-id="Investigación-de-modelos-predictivos-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Investigación de modelos predictivos</a></span><ul class="toc-item"><li><span><a href="#Árbol-de-decisión" data-toc-modified-id="Árbol-de-decisión-5.1"><span class="toc-item-num">5.1&nbsp;&nbsp;</span>Árbol de decisión</a></span></li><li><span><a href="#Bosque-Aleatorio" data-toc-modified-id="Bosque-Aleatorio-5.2"><span class="toc-item-num">5.2&nbsp;&nbsp;</span>Bosque Aleatorio</a></span></li><li><span><a href="#Regresión-Logística" data-toc-modified-id="Regresión-Logística-5.3"><span class="toc-item-num">5.3&nbsp;&nbsp;</span>Regresión Logística</a></span></li></ul></li><li><span><a href="#Calidad-del-modelo" data-toc-modified-id="Calidad-del-modelo-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Calidad del modelo</a></span></li><li><span><a href="#Prueba-de-cordura" data-toc-modified-id="Prueba-de-cordura-7"><span class="toc-item-num">7&nbsp;&nbsp;</span>Prueba de cordura</a></span></li><li><span><a href="#Conclusiones" data-toc-modified-id="Conclusiones-8"><span class="toc-item-num">8&nbsp;&nbsp;</span>Conclusiones</a></span></li></ul></div>

## Introducción

La compañía móvil Megaline no está satisfecha al ver que muchos de sus clientes utilizan planes heredados. La mayor parte de usuarios utilizan planes ilimitados antiguos, siendo pocos los que han actualizado su plan a uno más nuevo. Un plan más moderno presenta varios beneficios desde funciones adicionales hasta precios más bajos. Considerando todo esto, la compañía busca desarrollar un modelo que pueda analizar el comportamiento de los clientes y recomendar uno de los nuevos planes de Megaline: Smart o Ultimate.

Para lograr esto, se utilizará machine learning, una herramienta que permite crear modelos predictivos a partir de un conjunto de datos, mientras más datos más complejos pueden ser los programas que se pueden escribir. En este proyecto se tiene acceso a los datos de comportamiento de los suscriptores que ya se han cambiado a los planes nuevos, y lo que buscaremos es crear un modelo predictivo que escoja el plan correcto con un umbral de exactitud de 0.75. 

## Objetivos

1. Establecer el mejor modelo predictivo que permita escoger el plan de telefonía correcto para clientes con planes heredados. 
2. Investigar la calidad de diferentes modelos predictivos y escoger aquel modelo con la exactitud más alta. 
3. Comprobar la calidad del modelo.
4. Realizar una prueba de cordura al modelo. 

 

## Inicialización

En primer lugar, vamos a importar todas las librerías necesarias que permitan un correcto desarrollo de un modelo de machen learning. En este caso trabajaremos con la librería `pandas` y Scikit-learn o `sklearn` que nos permitirán leer los archivos, trabajar con datos y crear modelos.


In [1]:
import numpy as np
import pandas as pd
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

### Cargar datos

En segundo lugar, vamos a importar el archivo con la información de planes de telefonía, para esto llamaremos a la función `pd.read_csv` de la librería pandas y colocaremos como argumento la dirección en la cual se encuentra nuestro dataset, el cual será guardado en la variable `df`.

In [2]:
df = pd.read_csv('datasets/users_behavior.csv')

### Explorar datos iniciales

Una vez importado el dataset con la información sobre planes de servicios móviles, vamos a examinar la información con la que se trabajará en nuestro modelo de machine learning. Para esto llamamos al atributo `shape`, y a los métodos `head` y `tail`. 

In [3]:
df.shape

(3214, 5)

In [4]:
df.head(5)

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


In [5]:
df.tail(5)

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
3209,122.0,910.98,20.0,35124.9,1
3210,25.0,190.36,0.0,3275.61,0
3211,97.0,634.44,70.0,13974.06,0
3212,64.0,462.32,90.0,31239.78,0
3213,80.0,566.09,6.0,29480.52,1


Nuestro dataset `df` cuenta con 3214 observaciones, cada observación contiene información sobre el comportamiento mensual sobre un usuario. La información dada es la siguiente:

- `calls`: número de llamadas,
- `minutes`: duración total de la llamada en minutos,
- `messages`: número de mensajes de texto,
- `mb_used`: tráfico de Internet utilizado en MB,
- `is_ultra`: plan para el mes actual (Ultimate - 1, Surf - 0)

Podemos observar que las características/variables de nuestros datos corresponden a `calls`, `minutes`, `messages` y `mb_used`. Las preguntas para el desarrollo de nuestro modelo se desarrollarán en base a estas cuatro características. Mientras que las columna `is_ultra` es nuestro característica a predecir u objetivo.  

Ahora comprobaremos que no existan valores duplicados o ausentes, llamando al método `info`, `isna` y `duplicated`. 

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


In [7]:
df.isna().sum()

calls       0
minutes     0
messages    0
mb_used     0
is_ultra    0
dtype: int64

In [8]:
df.duplicated().sum()

0

Al llamar al método info  e isna en todo nuestro dataset se confirma que no existen valores ausentes, encontrando el mismo número de filas en todas las columnas. A su vez se confirma que los tipos de datos son los correctos para todas las variables que van a ser estudiadas. Al llamar al método duplicated y sum no se registran valores duplicados en nuestro dataset.

Ahora analizaremos los datos categóricos del dataset, para esto aplicaremos value_counts a la columna `is_ultra`. 

In [9]:
df['is_ultra'].value_counts()

0    2229
1     985
Name: is_ultra, dtype: int64

Se registran más clientes pertenecientes al plan Surf con 2229 registros, mientras que para el plan Ultimate se observan 985 registros. Finalmente, analicemos las variables numéricas en nuestro dataset, para esto aplicaremos el método describe() a las columnas `calls`, `minutes`, `messages` y `mb_used`. 



In [10]:
numerical_df = df[['calls', 'minutes', 'messages', 'mb_used']]
numerical_df.describe()

Unnamed: 0,calls,minutes,messages,mb_used
count,3214.0,3214.0,3214.0,3214.0
mean,63.038892,438.208787,38.281269,17207.673836
std,33.236368,234.569872,36.148326,7570.968246
min,0.0,0.0,0.0,0.0
25%,40.0,274.575,9.0,12491.9025
50%,62.0,430.6,30.0,16943.235
75%,82.0,571.9275,57.0,21424.7
max,244.0,1632.06,224.0,49745.73


Tanto para la columna `calls`, `minutes`, `messages` y `mb_used` se registra un promedio mayor a la mediana, por lo que se puede establecer una asimetría positiva, con un mayor número de valores a la derecha del pico más alto, lo que denota un sesgo hacia la derecha de nuestros datos. A su vez, se registran altas desviaciones estándar, por lo que se puede confirmar la presencia de valores atípicos, esto también se evidencia en los valores máximos de las cuatro variables, que representan más de tres desviaciones estándar. 

### Conclusiones

1. Nuestro dataset no presentó valores ausentes ni tampoco valores duplicados, y a su vez no se evidenciaron tipos de datos incorrectos que requieran una posterior correción.
2. Para construir nuestro modelo de machine leargning se necesitará trabajar con las columnas `calls`, `minutes`, `messages` y `mb_used` como características, mientras que la columna `is_ultra` será nuestro variable objetivo. 
3. Al analizar las variables categóricas se observa un mayor número de registros en el Plan Surf, en comparación con el Plan Ultimate. Por otro lado, al analizar las variables numéricas se observó que todas las variables presentan una asimetría positiva.

## Segmentación de datos fuente

Como se mencionó anteriormente las características de nuestro modelo serán `calls`, `minutes`, `messages` y `mb_used`, mientras que el objetivo será el tipo de plan `is_ultra`. En este caso desarrollaremos un modelo predictivo de aprendizaje supervisado, ya que tratamos de reproducir un valor conocido de un conjunto de datos. El tipo de tarea con la que se trabajará es una tarea de clasificación binaria con un objetivo categórico que presenta dos posibles respuestas Ultimate-1 o Surf-0.

Una vez definidas las observaciones, características, objetivo y tipo de tarea de nuestro dataset fuente, vamos a proceder con su segmentación. En este caso, será necesario dividir nuestros datos en tres datasets: dataset de entrenamiento, dataset de validación y dataset prueba. Se realizará esta división ya que no contamos con un dataset de prueba y un dataset de validación mostrará como se comporta el modelo y si existe un sobreajuste. 

Al dividir un dataset fuente en tres partes la proporción ideal es de 3:1:1, es decir el 60% de datos se asignarán al conjunto de entrenamiento, 20% al conjunto de validación y 20% al conjunto de prueba. Para realizar la división utilizaremos la función `train_test_split` de la librería Skicit-Learn. 

Empezaremos dividiendo nuestro dataset fuente `df` en el conjunto de datos para el entrenamiento `df_train` con el 60% de datos, y `df_40` que contendrá el 40% de los datos, para esto estableceremos los parámetros `test_size` en 0.40 y `random_state` en 12345. Posteriormente, vamos a dividir `df_40` en nuestros conjuntos de validación `df_valid` y de prueba `df_test`. Cada conjunto contiene el 20% de los datos, por lo que estableceremos `test_size` en 0.50, para obtener dos datasets que contengas el 50% del dataset `df_40` que a su vez correspondría con el 20% del dataset fuente.  

In [11]:
df_train, df_40 = train_test_split(df, test_size=0.40, random_state=12345)

df_valid, df_test = train_test_split(df_40, test_size=0.50, random_state=12345)

Comprobamos que nuestros conjunto de datos de entrenamiento `df_train`, validación `df_valid` y prueba `df_test` se hayan dividido correctamente llamando al método info en cada dataset.

In [12]:
df_train.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1928 entries, 3027 to 482
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     1928 non-null   float64
 1   minutes   1928 non-null   float64
 2   messages  1928 non-null   float64
 3   mb_used   1928 non-null   float64
 4   is_ultra  1928 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 90.4 KB


In [13]:
df_valid.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 643 entries, 1386 to 3197
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     643 non-null    float64
 1   minutes   643 non-null    float64
 2   messages  643 non-null    float64
 3   mb_used   643 non-null    float64
 4   is_ultra  643 non-null    int64  
dtypes: float64(4), int64(1)
memory usage: 30.1 KB


In [14]:
df_test.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 643 entries, 160 to 2313
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     643 non-null    float64
 1   minutes   643 non-null    float64
 2   messages  643 non-null    float64
 3   mb_used   643 non-null    float64
 4   is_ultra  643 non-null    int64  
dtypes: float64(4), int64(1)
memory usage: 30.1 KB


Se verifica entonces que el dataset de entrenamiento contiene el 60% de datos(1928 observaciones), y los dataset de validación y prueba el 20% de datos(643 observaciones cada uno). 

Una vez establecidos nuestros tres conjuntos de datos, vamos a establecer las características y objetivos de cada dataset. Para las características vamos a utilizar la función drop que eliminará la columna `is_ultra`, y nos quedaremos únicamente con las columnas `calls`, `minutes`, `messages` y `mb_used`, guardaremos estos resultados en las variables `features_train`, `features_valid` y `features_test`. Para el objetivo de cada dataset simplemente llamaremos a la columna `is_ultra` y se guardarán estos valores en las variables `target_train`, `target_valid` y `target_test`. 

In [15]:
# Establecemos las características y objetivo del conjunto de datos para el entrenamiento
features_train = df_train.drop('is_ultra', axis=1)
target_train = df_train['is_ultra']

# Establecemos las características y objetivo del conjunto de datos para la validación
features_valid = df_valid.drop('is_ultra', axis=1)
target_valid = df_valid['is_ultra']

# Establecemos las características y objetivo del conjunto de datos para la prueba
features_test = df_test.drop('is_ultra', axis=1)
target_test = df_test['is_ultra']

Comprobamos que los nuevos datasets solo presenten las características llamando al método info en cada conjunto de datos.

In [16]:
features_train.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1928 entries, 3027 to 482
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     1928 non-null   float64
 1   minutes   1928 non-null   float64
 2   messages  1928 non-null   float64
 3   mb_used   1928 non-null   float64
dtypes: float64(4)
memory usage: 75.3 KB


In [17]:
features_valid.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 643 entries, 1386 to 3197
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     643 non-null    float64
 1   minutes   643 non-null    float64
 2   messages  643 non-null    float64
 3   mb_used   643 non-null    float64
dtypes: float64(4)
memory usage: 25.1 KB


In [18]:
features_test.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 643 entries, 160 to 2313
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     643 non-null    float64
 1   minutes   643 non-null    float64
 2   messages  643 non-null    float64
 3   mb_used   643 non-null    float64
dtypes: float64(4)
memory usage: 25.1 KB


Efectivamente solo se registran las columnas `calls`, `minutes`, `messages` y `mb_used` dentro de las variables features de cada conjunto de datos. Finalicemos la segmentación de datos, comprobando que los objetivos de los tres conjuntos presentan un propoción similar de registros para el plan Ultimate y Surf, para esto llamaremos al método value_counts con el argumento normalize=True para obtener valores relativos. 

In [19]:
target_train.value_counts(normalize=True)

0    0.692427
1    0.307573
Name: is_ultra, dtype: float64

In [20]:
target_valid.value_counts(normalize=True)

0    0.706065
1    0.293935
Name: is_ultra, dtype: float64

In [21]:
target_test.value_counts(normalize=True)

0    0.684292
1    0.315708
Name: is_ultra, dtype: float64

Se comprueba que la proporción de clientes Surf y Ultimate es similar en los tres conjuntos de datos, pudiendo encontrar alrededor del 70% de clientes Surf y 30% de clientes Ultimate tanto en el conjunto para el entrenamiento, validación y prueba. 

### Conclusiones

1. Se dividió nuestro dataset fuente en tres conjuntos de datos necesarios para desarrollar un modelo de machine learning, el primer conjunto de datos para el entrenamiento `df_train` contiene el 60% de datos, el conjunto de validación `df_valid` contiene el 20% de datos y el conjunto de prueba `df_test` con el 20% de datos. 
2. Posteriormente se establecieron las características y objetivo de cada conjunto de datos, siendo las columnas `calls`, `messages`, `mb_used` y `minutes` las variables características y la columna `is_ultra` nuestro objetivo, ya que es el valor que nuestro modelo predicirá. 

## Investigación de modelos predictivos

Una vez separado el conjunto de datos y establecidas las características y objetivo del conjunto de datos para el entrenamiento, validación y prueba, procederemos a investigar la calidad de diferentes modelos y escogeremos aquel que presente la mayor Exactitud (relación entre el número de respuestas correctas y el número total de preguntas). 

Recordemos que estamos trabajando con un objetivo categórico(Ultimate-1, Surf-0), por lo que vamos a trabajar con tres algoritmos de aprendizaje supervisado para generar diferentes modelos: árbol de decisión, bosque aleatorio y regresión logística. 

### Árbol de decisión

El primer algoritmo de aprendizaje supervisado que utilizaremos es un árbol de decisión, este divide los datos en dos o más conjuntos homogéneos y utiliza reglas if-then o condiciones para separar los datos según las dos categorías que se busca predecir. Para trabajar con un árbol de decisión clasificatorio vamos a llamar a la función DecissionTreeClassifier del módulo tree en la librería Scikit-Learn, lo que ya hemos realizado en la sección de inicialización. 

Guardaremos a nuestro modelo en la variable `tree_model`, dentro de la cual llamaremos a la función DecissionTreeClassifier y estableceremos el hiperparamétro random_state=12345 para poder duplicar modelos existosos utilizando el mismo conjunto de números pseudoaleatorios. Para establecer la profundidad máxima o el número máximo de condiciones más apropiada para nuestro modelo, construiremos un bucle for que iterará por diferentes profundidades dentro del rango de 1 a 10. 

Posteriormente, vamos a entrenar nuestro modelo para esto pasaremos las características y el objetivo de nuestro conjunto de entrenamiento como argumento de la función fit. Luego crearemos la variable `predictions_valid` que predecirá los valores de clientes Surf o Ultimate en base a nuestro dataset de validación. A continuación, vamos a calcular la exactitud de cada modelo a diferentes profundidaes máximas, para esto utilizaremos la función `accuracy_score` que comparará los valores reales de planes en `target_valid` con los valores predichos `predictions_valid`. 



In [22]:
for depth in range(1,11):
    
    tree_model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    
    tree_model.fit(features_train, target_train)
    
    predictions_valid = tree_model.predict(features_valid)
       
    print('max_depth=', depth, ':', end='')
    print(accuracy_score(target_valid, predictions_valid))
    

max_depth= 1 :0.7542768273716952
max_depth= 2 :0.7822706065318819
max_depth= 3 :0.7853810264385692
max_depth= 4 :0.7791601866251944
max_depth= 5 :0.7791601866251944
max_depth= 6 :0.7838258164852255
max_depth= 7 :0.7822706065318819
max_depth= 8 :0.7791601866251944
max_depth= 9 :0.7822706065318819
max_depth= 10 :0.7744945567651633


Al analizar los resultados de exactitud de nuestro modelo entrenado en el conjunto de validación, se puede concluir que la exactitud más alta registrada de 0.7853 corresponde al modelo de Árbol de Decisición clasificatorio con una profundidad máxima de 3, este sería nuestro modelo más exitoso ya que se encuentra por encima del umbral de exactitud esperado de 0.75.

### Bosque Aleatorio

Nuestro segundo modelo lo vamos a construir a partir del algoritmo de aprendizaje conocido como Bosque Aleatorio. Estos se basan en árboles de decisión, pero no entrena un sólo árbol sino un bosque o una gran cantidad de árboles independientes y toman decisiones mediante el voto, es decir suman los votos de diferentes formaciones aleatorias de los árboles de decisión para determinar la clase final a la que pertenece un cliente. 

Para determinar el modelo de Bosque Aleatorio con mayor exactitud vamos a llamar a la función RandomForestClassifier del módulo ensemble de la librería Scikit-Learn, y guardaremos nuestro modelo en la variable `forest_model`. Dentro de la función pasaremos el hiperpárametro random_state=12345 para poder replicar nuestro modelo utilizando los mismos números pseudoaleatorios. En el caso de los hiperparámetros n-estimators(número de árboles en el bosque) y max_depth(profundidad máxima) vamos a generar un doble bucle for que iterará por un rango de profundidades de 1 a 10 y un rango de árboles de 10 a 50, en intervalos de 10, estableciendo así los valores ideales para un modelo de mayor exactitud. 

Entrenaremos nuestro modelo `forest_model` con nuestro conjunto de datos para el entrenamiento `features_train` y `target_train`, y posteriormente evaluaremos la calidad de nuestro modelo aplicando la función score a nuestro conjunto de validación `features_valid` y `target_valid`. Para poder determinar el número de árboles y profundidad máxima que generó el modelo con mayor exactitud vamos a establecer tres contadores `best_score`, `best_est` y `best_depth` que si registran el valor de exactitud más alto, guardarán los valores de max_depth y n_estimators que generaron dicha exactitud en los contadores previamente mencionados. 

In [23]:
best_score = 0
best_est = 0
best_depth = 0

for est in range(10,51,10):
    
    for depth in range(1,11):
        
        forest_model= RandomForestClassifier(random_state=12345, n_estimators=est, max_depth=depth)
        
        forest_model.fit(features_train, target_train)
        
        score = forest_model.score(features_valid, target_valid)
        
        if score > best_score:
            
            best_score = score
            best_est = est
            best_depth = depth

print("Exactitud del mejor modelo en el conjunto de validación (n_estimators = {}, max_depth = {}): {}".format(best_est, best_depth, best_score))

Exactitud del mejor modelo en el conjunto de validación (n_estimators = 40, max_depth = 8): 0.8087091757387247


El mejor modelo de Bosque Aleatorio presentó una exactitud de 0.8087 en el conjunto de validación, con un número de árboles de decisión de 40 y una profundidad máxima de 8. Este modelo presenta una exactitud más alta que el modelo de Árbol de decisión que registró una exactitud 0.7853, sin embargo hay que considerar que el modelo es mucho más lento en su ejecución ya que mientras más árboles formen parte del modelo más lento trabajará el modelo.

### Regresión Logística

El último algoritmo de aprendizaje que utilizaremos para entrenar a nuestro modelo será el de Regresión Logística. Este algoritmo coloca nuestros datos en forma de una curva sigmoide y establece la probabilidad de que un determinado valor de llamadas, mensajes o datos corresponda con el plan Surf o Ultimate. El modelo calcula la proximidad de clase para cada observación en los datos de entrenamiento y les asigna leyendas, si la probabilidad es más cercana a cero se clasificará como Surf-0 y si la probabilidad es más cercana a 1 entonces se clasificará como Ultimate-1.

Llamaremos a nuestro modelo `regression_model` y llamaremos a la función LogisticRegressión del módulo linear_model de la librería Scikit-learn, a esta función pasaremos los hiperparámetros para el posterior entrenamiento del modelo. Estableceremos los hiperparámetros random_state=12345 que volverá estática la pseudoaleatoriedad y solver=liblinear que se utiliza para el ajuste de curva del algoritmo en datasets pequeños. 

A continuación entrenaremos el modelo de regresión con el conjunto de entrenamiento `features_train` y `target_train` y evaluaremos la calidad del modelo en nuestro conjunto de validación para evitar el sobreajuste, para esto llamaremos a la función score y pasaremos como argumentos `features_valid` y `target_valid` para obtener la exactitud de nuestro modelo. 

In [24]:
regression_model = LogisticRegression(random_state=12345, solver='liblinear')

regression_model.fit(features_train, target_train)

score = regression_model.score(features_valid, target_valid)

print("Exactitud del modelo de Regresión Logística en el conjunto de validación:", score)

Exactitud del modelo de Regresión Logística en el conjunto de validación: 0.7091757387247278


Para el modelo de regresión logística se obtuvo una exactitud de 0.7091, la cual se encuentra por debajo de nuestro umbral de exactitud de 0.75, por lo que no se considerará este modelo para su aplicación en el conjunto de prueba que fue separado previamente. La exactitud de este modelo se encuentra por debajo de los modelos de árbol de decisión y bosque aleatorio, los cuales registraron valores por encima del umbral establecido en este proyecto.


## Calidad del modelo

Al investigar diferentes modelos predictivos se pudo establecer que los modelos que mejor predicen a qué plan de telefonía debería pertenecer un cliente son el modelo de Árbol de decisión y el modelo de Bosque Aleatorio que registraron una exactitud de 0.78 y 0.80 respectivamente. En el caso del modelo de Regresión Logística se registró una exactitud de 0.70, que se encuentra por debajo del umbral de 0.75 por lo que solo vamos a analizar la calidad de los dos primeros modelos en nuestro conjunto de prueba. 

En el caso del modelo de árbol de decisión se registró la exactitud más alta para un profundidad máxima de 3, así que aplicaremos estos valores de hiperparámetro a nuestro modelo, luego entrenaremos a nuestro modelo con el conjunto de datos de entrenamiento y estableceremos la exactitud del modelo en nuestro conjunto de prueba a través de score que tomará como argumentos `features_test` y `target_test`.

In [25]:
tree_model = DecisionTreeClassifier(random_state=12345, max_depth=3)

tree_model.fit(features_train, target_train)

print('Exactitud del modelo de Árbol de Decisión en el conjunto de prueba', tree_model.score(features_test, target_test))

Exactitud del modelo de Árbol de Decisión en el conjunto de prueba 0.7791601866251944


Para el modelo de bosque aleatorio se registró la exactitud más alta con una profundidad máxima de 8 y un número de árboles de 40, entrenaremos nuestro modelo en base a estos hiperparámetros con el conjunto de datos de entrenamiento y obtendremos la exactitud del modelo en nuestro conjunto de datos de prueba, por lo que utilizaremos score tomando como argumentos a nuestro dataset de prueba.

In [26]:
forest_model = RandomForestClassifier(random_state=12345, n_estimators=40, max_depth=8)

forest_model.fit(features_train, target_train)

print('Exactitud del modelo de Bosque Aleatorio en el conjunto de prueba', forest_model.score(features_test, target_test))

Exactitud del modelo de Bosque Aleatorio en el conjunto de prueba 0.7962674961119751


Al probar nuestros dos modelos en el conjunto de prueba se registra una exactitud de 0.77 para el modelo de Árbol de Decisión y 0.79 para el modelo de Bosque Aleatorio. Considerando que la exactitud es un criterio clave para las empresas, ya que una exactitud alta va a categorizar correctamente a los usuarios de acuerdo al plan ideal de acuerdo a su consumo, generando más ingresos para Megaline, vamos a tomar al modelo de Bosque Aleatorio como nuestro modelo predictivo para este proyecto. 

## Prueba de cordura

Una vez establecido nuestro modelo predictivo de Bosque Aleatorio como el más propicio para predecir el plan ideal para clientes de Megaline, vamos a realizar un último análisis conocido como Prueba de Cordura que buscará problemas en las clasificicación del modelo comparando las predicciones en el conjunto de prueba con la aleatoriedad. Para esto vamos a generar una serie que será rellenada con valores aleatorios de 0 ó 1 y la guardaremos en la variable `predictions_random`. Para construir nuestro objeto Series vamos a utilizar la función pd.Series de Pandas y pasaremos como tamaño del objetivo valores aleatorios de 0 ó 1 a través de la función random.choice de numpy, estableceremos el tamaño de nuestro array de valores igual al tamaño de `target_test`. A su vez, estableceremos como índice del objeto Series los índices registrados en `target_test`.

In [27]:
#Establecemos el valor que se establecerá como semilla para el generador de números pseudoaleatorios
np.random.seed(54321)

#Construimos nuestro objeto Series de valores aleatorios 0 ó 1
predictions_random =  pd.Series(np.random.choice([0, 1], size=len(target_test)), index=target_test.index)

#Comprobamos los valores únicos del objeto Series llamando a value_counts
predictions_random.value_counts(dropna=False)

0    325
1    318
dtype: int64

Se comprueba que nuestro objeto series está correctamente conformado por únicamente valores 0 ó 1, ahora vamos a realizar nuestra prueba de cordura para esto estableceremos la exactitud comparando los valores objetivo de nuestro conjunto de prueba con nuestras predicciones aleatorias `predictions_random`. Llamaremos a la función accuracy_score del módulo metrics de la librería Scikit-Learn. 

In [28]:
print('Exactitud aleatoriedad:', accuracy_score(target_test, predictions_random))
print('Exactitud modelo predictivo:', forest_model.score(features_test, target_test))

Exactitud aleatoriedad: 0.49455676516329705
Exactitud modelo predictivo: 0.7962674961119751


La exactitud de la aleatoriedad es de 0.48, menor a la exactitud de nuestro modelo de Bosque Aleatorio de 0.79, por lo que nuestro modelo ha pasado la prueba de cordura y presenta una exactitud mayor a la aleatoriedad, pudiendo predecir valores mejor que la posibilidad del azar. 

## Conclusiones

1. Para la construcción de nuestro modelo, se segmentó nuestro dataset fuente en tres conjuntos de datos: conjunto de datos para el entrenamiento (60%), conjunto de datos para la validación (20%) y conjunto de datos prueba (20%). Esto se realizó para evitar el sobreajuste del modelo y para la correcta verificación de la calidad del modelo. 

2. Se probaron tres modelos de aprendizaje supervisado: árbol de decisión, bosque aleatorio y regresión logística. Se escogieron estos modelos ya que sirven para predecir tareas de tipo clasificatorio. 

3. El modelo de regresión logística registró una exactitud de 0.70 por debajo del umbral de este proyecto, por lo que fue descartado para el análisis de calidad del modelo. Por otro lado, el modelo de árbol de decisión presentó una exactitud de 0.77 en el conjunto de prueba y 0.78 en el conjunto de validación, por encima del umbral de 0.75 pero inferior a nuestro modelo de bosque aleatorio. 

4. Se concluye que el mejor modelo predictivo que permitirá escoger el plan de telefonía correcto para clientes con planes heredados de la telefonía Megaline es el modelo de Bosque Aleatorio. Este modelo presentó la exactitud más alta de 0.80 para el conjunto de validación y 0.79 para el conjunto de prueba, con hiperparámetros de n_estimators=40 y max_depth=8. A su vez, al comparar la exactitud del modelo con la aleatoriedad, este valor se mantuvo por encima del valor de exactitud del azar de 0.49, por lo que nuestro modelo es mejor categorizando a los clientes de Megaline que el azar. 
