# Curso de Capacitación en Machine Learning para la Industria (ML CETAM) - Sesión 2 (Tarea)

<img src='https://ia.inf.pucp.edu.pe/static/images/logo.svg' width=300px>
<img src='https://dci.pucp.edu.pe/wp-content/uploads/2014/02/logo-color-pucp1.gif' width=200px>


PhD. Edwin Villanueva, PhD. Soledad Espezua, BSc. Daniel Saromo

<font color='#008B72'> Predicción de afiliación a débito automático en la industria de las telecomunicaciones: Preprocesamiento de datos. </font>

## Caso: Afiliación al débito automático en la industria de las telecomunicaciones

Hoy en día, la industria de las telecomunicaciones no está creciendo tanto como antes. Por ejemplo, en el primer trimestre de 2017, el producto bruto interno del sector de las telecomunicaciones (PBI) creció un 8,8%, mientras que en el segundo trimestre de 2018 creció solo un 5,5%. Dado que la tasa de crecimiento está disminuyendo, hay dos objetivos que se buscan comúnmente: reducción de costos operativos y minimización de riesgos. Para lograrlos, cada empresa del rubro de telecomunicaciones (como Movistar, Claro, Entel  o Bitel) adopta muchas estrategias. Una de esas estrategias es afiliar a sus clientes al débito automático.

El débito automático es un método de pago en el que la facturación del servicio se carga todos los meses a una cuenta bancaria de forma automática. Para entender el concepto, imagina el siguiente ejemplo: hoy en día es común tener una suscripción a servicios como Netflix y Spotify. Para acceder a una versión premium del servicio, a menudo se requiere tener una tarjeta de crédito. Después de la facturación, la tarjeta de crédito se carga con la cantidad acordada cada mes. De manera similar, el monto facturado por el servicio de telefonía móvil se carga a una tarjeta de débito en el pago de débito automático.

La suscripción al débito automático ayuda a lograr la reducción de costos (lo cual está relacionado con rentabilidad) porque ya no es necesario que la empresa pague a cada socio el costo de realizar las campañas de cobranza. Además, reduce la cantidad de insolvencias en cada empresa, ya que el riesgo de tener un cliente con malos hábitos de pago se comparte con cada banco.

## Solución desde el punto de vista de ML

De acuerdo al caso planteado, el objetivo del proyecto es mejorar la tasa de suscripción al método de pago con débito automático. Una forma de hacerlo es crear campañas especiales para los clientes que tienen más probabilidades de suscribirse. Por lo tanto, lo que podríamos hacer es predecir, dado un conjunto de clientes, cuáles tienen más probabilidades de suscribirse. Dado que los datos históricos sobre los clientes que están suscritos al débito automático están disponibles, esta estimación probablemente sea una tarea adecuada para un sistema de aprendizaje supervisado. Además, como solo hay dos clases (cliente que se suscribe y cliente que no se suscribe), este es un problema de clasificación binaria.

Para el desafío de esta semana, se va a realizar únicamente el preprocesamiento de los datos. Este caso de estudio **será revisado nuevamente en la semana 4**, junto con otro ejemplo práctico, para poder terminar de elaborar un modelo de clasificación funcional.

Completar con su código los campos indicados y subir su notebook solucionado a la plataforma PAIDEIA.

El formato del nombre del archivo es: `Desafio2_APELLIDOPATERNO_NOMBRE.ipynb`. Subir solo su notebook resuelto, y **no el dataset**. Respetar los lineamientos de la entrega de archivo influirá en su calificación. La fecha límite de entrega del presente desafío se encuentra en PAIDEIA.

In [None]:
#libraries required
import pandas as pd
import seaborn as sn
import matplotlib.pyplot as plt

%matplotlib inline

Pasos para poder adjuntar un archivo en Google Colab:

0.   Se requiere estar conectado a un entorno de ejecución.
1.   En la barra lateral izquierda, selecciona el icono de la pestaña `Archivos`.
2.   Elige la opción `Subir`.
3.   Sigue las instrucciones que aparecen.



Se puede también enlazar tu cuenta de Google, para que el notebook pueda acceder a los archivos alojados en tu unidad de Google Drive.

In [None]:
#LOAD THE DRIVE HELPER AND MOUNT
from google.colab import drive

#THIS WILL PROMPT FOR AUTHORIZATION
drive.mount('/content/drive')

!ls "/content/drive/My Drive/ZZZ" #ROUTING EXAMPLE
#/content/drive ROOT DIRECTORY

Si deseas, puedes apretar el botón `Activar Drive`, dentro de la pestaña `Archivos`, para tener los códigos necesarios para enlazar tu cuenta de Google Drive.

In [None]:
# Read the dataset
dataset = pd.read_csv('Dataset_AfiliacionDebitoAutom.csv',
                      sep=',',#siempre revisar!
                      encoding='utf-8',
                      na_values=' ')

In [None]:
dataset.columns.values.tolist()

['N_ACTIVE_LINES',
 'N_SUSPENDED_LINES',
 'DEBT_CAPACITY',
 'AGE',
 'INCOME',
 'OLDEST_LINE_MONTHS',
 'SAME_BILLING_3M',
 'DIGITAL_BILL',
 'MB_3G_USE',
 'MB_4G_USE',
 'VOICE_IN_3M',
 'VOICE_OUT_3M',
 'SUBSCRIPTION_FLAG']

Descripción de los atributos del dataset

*   **N_ACTIVE_LINES** = Número de líneas móviles activas del cliente.
*   **N_SUSPENDED_LINES** = Número de líneas móviles suspendidas del cliente (sin servicio).
*   **DEBT_CAPACITY** = Estimación de la cantidad de dinero que la persona puede pedir prestado de un banco.
*   **AGE** = Edad del cliente.
*   **INCOME** = Ingresos
*   **OLDEST_LINE_MONTHS** = Número de meses que la línea más antigua del cliente ha permanecido en la compañía.
*   **SAME_BILLING_3M** = `1` si el cliente facturó el mismo monto con la compañía, por los últimos 3 meses.
*   **DIGITAL_BILL** = `1` si el cliente se ha suscrito al servicio de facturación digital (la factura se envía por correo electrónico en lugar de usar métodos tradicionales).
*   **MB_3G_USE** = Cantidad de MB usados en 3G.
*   **MB_4G_USE** = Cantidad de MB usados en 4G.
*   **VOICE_IN_3M** =Cantidad de minutos en llamadas de voz realizadas "hacia adentro" (desde una operadora externa hacia nuestra operadora).
*   **VOICE_OUT_3M** = Cantidad de minutos en llamadas de voz realizadas "hacia afuera" (desde nuestra operadora hacia otra operadora).
*   **SUBSCRIPTION_FLAG** = `1` indica que el cliente se ha afiliado al débito automático para su facturación.



Primero, hacemos una exploración preliminar de los datos. ¿Cuál sería la variable objetivo (target)?

In [None]:
dataset.describe()

Unnamed: 0,N_ACTIVE_LINES,N_SUSPENDED_LINES,DEBT_CAPACITY,AGE,INCOME,OLDEST_LINE_MONTHS,SAME_BILLING_3M,DIGITAL_BILL,MB_3G_USE,MB_4G_USE,VOICE_IN_3M,VOICE_OUT_3M
count,101.0,101.0,101.0,95.0,101.0,101.0,101.0,101.0,101.0,101.0,100.0,101.0
mean,1.059406,0.138614,172.861386,36.463158,68.047274,17.237624,0.633663,0.80198,731.056436,7166.463366,250.911619,620.20187
std,0.580031,0.374959,126.132948,9.120716,43.298222,15.643624,0.484206,0.400495,1781.948329,10819.287102,474.152642,724.473191
min,0.0,0.0,0.0,24.0,18.978,2.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,1.0,0.0,90.0,28.0,41.900002,6.0,0.0,1.0,21.1,377.2,50.146125,154.9
50%,1.0,0.0,160.0,35.0,62.9,11.0,1.0,1.0,167.8,3389.5,125.7085,418.7003
75%,1.0,0.0,220.0,43.0,79.000056,26.0,1.0,1.0,604.6,9061.3,303.779625,871.9845
max,3.0,2.0,570.0,57.0,309.599459,80.0,1.0,1.0,14734.0,56071.0,4296.1829,5014.4003


Revisamos si es que hay valores faltantes (null), para determinar si se requiere hacer una imputación o no. Este dato ya lo sabíamos previamente? :o

In [None]:
dataset.isnull().sum(axis=0)

N_ACTIVE_LINES        0
N_SUSPENDED_LINES     0
DEBT_CAPACITY         0
AGE                   6
INCOME                0
OLDEST_LINE_MONTHS    0
SAME_BILLING_3M       0
DIGITAL_BILL          0
MB_3G_USE             0
MB_4G_USE             0
VOICE_IN_3M           1
VOICE_OUT_3M          0
SUBSCRIPTION_FLAG     0
dtype: int64

Se observa que se tienen datos faltantes. Como parte del desafío de la semana, se les pide completar los valores faltantes de edad con la mediana. Si es que hubiera otro atributo faltante, completar con el promedio de los valores que sí se tienen.

In [None]:
# Fill null values
dataset = dataset.fillna({'AGE':18})#como ejemplo, pongo que el valor a llenar es 18

In [None]:
# TO DO :::::
# Completar el otro atributo faltante

Además, observamos que hay registros donde no se tiene información del flag deseado. Descartar dichos campos.

In [None]:
# TO DO :::::

Revisamos la variable target. ¿Por qué es importante?

In [None]:
dataset.SUBSCRIPTION_FLAG.value_counts()

1    60
0    40
Name: SUBSCRIPTION_FLAG, dtype: int64

In [None]:
target_var = 'SUBSCRIPTION_FLAG'

In [None]:
# Si no está familiarizado con esta parte del código, revise list comprehensions de Python
features   = [x for x in dataset.columns.values if x!=target_var]
X = dataset.copy()[features]
y = dataset.copy()[target_var]

Se le pide también, que balancee su dataset. Hacer un sampling aleatorio de los datos, de manera que se tenga la misma cantidad de afiliados y no afiliados.

In [None]:
# TO DO :::

Verificar el balanceo. ¿Qué valores deberían estar aquí?

In [None]:
dataset.SUBSCRIPTION_FLAG.value_counts()

Divida su nuevo dataset en subconjuntos de train y test. ¿Por qué es necesario hacer esto? ¿Hay un valor "perfecto" universal para el ratio de test/train? Para su tarea, considere que *aproximadamente*, por cada dato de test deberían haber 4 datos de train. Utilice `random_state=22`.

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = ...

Realice una normalización de los valores numéricos de los atributos, al rango 0 a 1. ¿Cuáles son los atributos que debes considerar aquí? ¿Todos?

**BONUS**: ¿Por qué hacemos este escalamiento? [Puedes revisar este enlace](https://towardsdatascience.com/scale-standardize-or-normalize-with-scikit-learn-6ccc7d176a02)

In [None]:
from sklearn.preprocessing import MinMaxScaler #por defecto a qué rango lleva los datos?
scaler = MinMaxScaler()
scaler...
# Notar que la transformación se debe hacer con el mismo scaler tanto a los datos de train como a los de test!
X_train_s = scaler.transform(...
X_test_s  = ...

Otra práctica usual en ML consiste en estandarizar los datos: $X' = \frac{X - \mu}{\sigma}$; donde $X$ es el data vector, $\mu$ es el vector de promedios, y $\sigma$ es el standard deviation vector.

In [None]:
# Definir y entrenar el clasificador...
# ESTO LO VEREMOS MÁS ADELANTE EN EL CURSO ;)