In [3]:
import pandas as pd 

Importamos a continuación los datos a memoria y mostramos unos pocos valores con head().

In [4]:
df = pd.read_csv('../datasets/WA_Fn-UseC_-Telco-Customer-Churn.csv')
print(len(df))
df.head()

7043


Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,...,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


Vemos como se han importado 7043 datos que se encuentran en 5 filas y con 21 columnas. A continuación y para verlo más fácilmente, transponemos las columnas a filas. 

In [5]:
print(len(df))
df.head().T

7043


Unnamed: 0,0,1,2,3,4
customerID,7590-VHVEG,5575-GNVDE,3668-QPYBK,7795-CFOCW,9237-HQITU
gender,Female,Male,Male,Male,Female
SeniorCitizen,0,0,0,0,0
Partner,Yes,No,No,No,No
Dependents,No,No,No,No,No
tenure,1,34,2,45,2
PhoneService,No,Yes,Yes,No,Yes
MultipleLines,No phone service,No,No,No phone service,No
InternetService,DSL,DSL,DSL,DSL,Fiber optic
OnlineSecurity,No,Yes,Yes,Yes,No


La columna que queremos predecir es **churn** y nos dice si el cliente se ha dado de baja o no en función de los distintos parámetros. 

Seguimos analizando el dataset viendo los tipos de datos que se han identicado para cada columna:

In [6]:
df.dtypes

customerID           object
gender               object
SeniorCitizen         int64
Partner              object
Dependents           object
tenure                int64
PhoneService         object
MultipleLines        object
InternetService      object
OnlineSecurity       object
OnlineBackup         object
DeviceProtection     object
TechSupport          object
StreamingTV          object
StreamingMovies      object
Contract             object
PaperlessBilling     object
PaymentMethod        object
MonthlyCharges      float64
TotalCharges         object
Churn                object
dtype: object

Todo parece tener sentido, salvo **TotalCharges** porque probablemente tengan valores vacíos. Para corregir esto, vamos a realizar lo siguiente:

In [7]:
total_charges = pd.to_numeric(df.TotalCharges, errors='coerce')
df.TotalCharges = pd.to_numeric(df.TotalCharges, errors='coerce')
df.TotalCharges = df.TotalCharges.fillna(0)
df[total_charges.isnull()][['customerID','TotalCharges']]

Unnamed: 0,customerID,TotalCharges
488,4472-LVYGI,0.0
753,3115-CZMZD,0.0
936,5709-LVOEQ,0.0
1082,4367-NUYAO,0.0
1340,1371-DWPAZ,0.0
3331,7644-OMVMY,0.0
3826,3213-VVOLG,0.0
4380,2520-SGTTA,0.0
5218,2923-ARZLG,0.0
6670,4075-WKNIU,0.0


Para dar consistencia a los nombres de columnas (algunas comienzan con minúsculas) y algunos valores como "No phone service" tienen espacios en blanco. Vamos a trabajar el dataframe para que sea más consistente.

In [8]:
replacer = lambda str: str.lower().str.replace(' ', '_')

df.columns = replacer(df.columns.str)
for col in list(df.dtypes[df.dtypes == 'object'].index):
    df[col] = replacer(df[col].str)
df.head().T

Unnamed: 0,0,1,2,3,4
customerid,7590-vhveg,5575-gnvde,3668-qpybk,7795-cfocw,9237-hqitu
gender,female,male,male,male,female
seniorcitizen,0,0,0,0,0
partner,yes,no,no,no,no
dependents,no,no,no,no,no
tenure,1,34,2,45,2
phoneservice,no,yes,yes,no,yes
multiplelines,no_phone_service,no,no,no_phone_service,no
internetservice,dsl,dsl,dsl,dsl,fiber_optic
onlinesecurity,no,yes,yes,yes,no


Podemos comprobar que se han sustituido los espacios por líneas de subrayado.

Otra modificación que podríamos hacer es, cambiar el tipo de valor de la variable *churn* para trabajarla de manera más sencilla pasándola a tipo de dato entero con valores 0 ó 1.

In [9]:
df.churn = (df.churn == 'yes').astype(int)
df.churn.head()

0    0
1    0
2    1
3    0
4    1
Name: churn, dtype: int64

In [10]:
df.dtypes

customerid           object
gender               object
seniorcitizen         int64
partner              object
dependents           object
tenure                int64
phoneservice         object
multiplelines        object
internetservice      object
onlinesecurity       object
onlinebackup         object
deviceprotection     object
techsupport          object
streamingtv          object
streamingmovies      object
contract             object
paperlessbilling     object
paymentmethod        object
monthlycharges      float64
totalcharges        float64
churn                 int64
dtype: object

Un problema que podría darse es que se encontraran valores categóricos erróneos en el sistema. Esto puede comprobarse, a veces, listando el número de valores que tiene cada una de las columnas categóricas. 
En el siguiente script realizamos la cuenta de valores únicos de cada uno de ellos:

In [11]:
categorical = ['gender', 'seniorcitizen', 'partner', 'dependents', 'phoneservice', 'multiplelines','internetservice','onlinesecurity','onlinebackup','deviceprotection', 'techsupport','streamingtv','streamingmovies','contract','paperlessbilling', 'paymentmethod']
numerical =['tenure','monthlycharges','totalcharges']
df[categorical].nunique()

gender              2
seniorcitizen       2
partner             2
dependents          2
phoneservice        2
multiplelines       3
internetservice     3
onlinesecurity      3
onlinebackup        3
deviceprotection    3
techsupport         3
streamingtv         3
streamingmovies     3
contract            3
paperlessbilling    2
paymentmethod       4
dtype: int64

Una vez el dataset preparado, podemos pasar a dividir el dataset en dos partes:
una para datos de entrenamiento y otra para datos de prueba. 

Asignaremos un 20% para datos de test y el resto para entrenamiento. 
Especificamos un valor para **random_state** de forma que el dataset sea reproducible en ejecuciones posteriores. 


In [12]:
from sklearn.model_selection import train_test_split
df_train_full, df_test = train_test_split(df, test_size=0.2, random_state=1)

Dividimos de nuevo los datos entre:  
> **df_train**: datos de entrenamiento reales  
> **df_val**: datos de validación (para comprobar que nuestro modelo predice los datos realmente)  

In [13]:
df_train, df_val = train_test_split(df_train_full, test_size=0.33, random_state=1)
y_train = df_train.churn.values
y_val = df_val.churn.values

En el proceso anterior, tomamos un 33% para un tipo y el resto para el otro y mantenemos **random_state** para poder reproducirlo.

Finalmente, eliminamos la columna *churn*, que anteriormente se han guardado en dos variables. De esta manera no se utilicen para el entrenamiento.

In [14]:
del df_train['churn']
del df_val['churn']

df_train.head().T

Unnamed: 0,4204,7034,5146,5184,1310
customerid,4395-pzmsn,0639-tsiqw,3797-fkogq,7570-welny,6393-wryze
gender,male,female,male,female,female
seniorcitizen,1,0,0,0,0
partner,no,no,no,yes,yes
dependents,no,no,yes,no,no
tenure,5,67,11,68,34
phoneservice,yes,yes,yes,yes,yes
multiplelines,no,yes,yes,yes,yes
internetservice,fiber_optic,fiber_optic,fiber_optic,fiber_optic,fiber_optic
onlinesecurity,no,yes,no,yes,no


## 2 Análisis de importancia de propiedades

A continuación, vamos a comprobar el porcentaje de clientes que se han dado de baja del servicio, utilizando el dataset.

Como ya hicimos una transformación de la columna **churn** a valores 0 y 1, desde los primitivos Yes, No, ahora podemos utilizarla para calcular la media sobre 1. Es decir, podremos calcular el porcentaje de 1s que hay en la columna. 

In [15]:
global_mean = df_train_full.churn.mean()
round(global_mean, 3)

0.27

Vemos al ejecutar el elemento anterior, que el valor medio de 1 que se encuentran, que hay un 27% de personas que se han dado de baja del servicio.

Sabiendo esta media/probabilidad global de todas las filas con churn, ahora podemos ir viendo para cada una de las columnas si la probabilidad de cada tipo se acerca a la global.

A continuación lo comprobamos utilizando la columna gender-female / male y así comparamos por sexo:

In [16]:
female_mean = df_train_full[df_train_full.gender == 'female'].churn.mean()
print(round(female_mean, 3))
male_mean = df_train_full[df_train_full.gender == 'male'].churn.mean()
print(round(male_mean, 3))

0.277
0.263


Se puede apreciar como el porcentaje de mujeres (female_mean) es 0.277 muy muy cercano a la media obtenida del total. En el caso de los hombres, sucede lo mismo: el porcentaje es muy similar. 
Así las cosas podemos interpretar que: *el sexo no es una variable que repercuta en el porcentaje de población que se da de baja de nuestro servicio.*

In [17]:
partner_yes = df_train_full[df_train_full.partner == 'yes'].churn.mean()
print(round(partner_yes, 3))
partner_no = df_train_full[df_train_full.partner == 'no'].churn.mean()
print(round(partner_no, 3))

0.205
0.33


In [18]:
from sklearn.metrics import mutual_info_score
calculate_mi = lambda col: mutual_info_score(col, df_train_full.churn)

df_mi = df_train_full[categorical].apply(calculate_mi)
df_mi = df_mi.sort_values(ascending=False).to_frame(name='MI')
df_mi


Unnamed: 0,MI
contract,0.09832
onlinesecurity,0.063085
techsupport,0.061032
internetservice,0.055868
onlinebackup,0.046923
deviceprotection,0.043453
paymentmethod,0.04321
streamingtv,0.031853
streamingmovies,0.031581
paperlessbilling,0.017589


Si queremos comprobar como afectan las variables numéricas (hasta ahora hemos usado solo las categóricas), podemos utilizar el coeficiente de correlación de Pearson.

In [19]:
print(df_train_full[numerical].corrwith(df_train_full.churn))

tenure           -0.351885
monthlycharges    0.196805
totalcharges     -0.196353
dtype: float64


In [20]:
print(round(df_train_full[df_train_full.tenure <= 2].churn.mean(),3))

0.595


# 3. Ingeniería de propiedades

En este apartado vamos a tratar los distintos parámetros para que sean aceptados y se puedan utilizar con los distintos algoritmos de aprendizaje automático.

In [21]:
train_dict = df_train[categorical + numerical].to_dict(orient='records')
dict(sorted(train_dict[0].items()))

{'contract': 'month-to-month',
 'dependents': 'no',
 'deviceprotection': 'no',
 'gender': 'male',
 'internetservice': 'fiber_optic',
 'monthlycharges': 85.55,
 'multiplelines': 'no',
 'onlinebackup': 'yes',
 'onlinesecurity': 'no',
 'paperlessbilling': 'yes',
 'partner': 'no',
 'paymentmethod': 'electronic_check',
 'phoneservice': 'yes',
 'seniorcitizen': 1,
 'streamingmovies': 'yes',
 'streamingtv': 'no',
 'techsupport': 'no',
 'tenure': 5,
 'totalcharges': 408.5}

La función a la que se llama para realizar la conversión que se muestra en el código anterior es `.to_dict` que genera un diccionario desde el array y **orient='records'** que le indica que sean los primeros valores de cada uno de los pares del diccionario, las cabeceras de las columnas (arrays) que teníamos.

En el paso anterior, convertimos los items de entrenamiento en una lista de diccionarios donde, la clave es el nombre de la columna y los valores, todos los valores que toman cada una de las filas.

Una vez hecho esto, debemos transformar los datos a un formato que sea optimo para nuestro algoritmo. En el caso de trabajo, usaremos un modelo de regresión logística para clasificación binaria. Este algoritmo espera los datos en forma de una matriz numérica. Sin embargo, en nuestro ejemplo tenemos valores categóricos.. Para ello usaremos una transformación denominada [ONE-HOT ENCODING](https://es.wikipedia.org/wiki/One-hot)

El método de codificación llamado *One Hot Encoding* consiste en crear una columna binaria (que solo puede contener los valores 0 o 1) para cada valor único que exista en la variable categórica que estamos codificando, y marcar con un 1 la columna correspondiente al valor presente en cada registro, dejando las demás columnas con un valor de 0. 

Por ejemplo, en el caso de la variable "gender" del ejercicio, One Hot Encoding crearía dos columnas binarias (una para el valor "male" y otra para el valor "female"). Para cada cliente, se asignaría un valor de 1 a la columna correspondiente a su género y un valor de 0 a la columna del género opuesto. De esta manera, cada registro queda representado por un vector binario que indica la presencia o ausencia de cada valor categórico, y se evita la posibilidad de que los algoritmos malinterpreten los valores numéricos asignados

In [22]:
from sklearn.feature_extraction import DictVectorizer

dv = DictVectorizer(sparse=False)
dv.fit(train_dict)

Una vez realizado lo anterior, podemos pasar a transformar el diccionario en una matríz numérica:

In [23]:
X_train = dv.transform(train_dict)
X_train[0]

array([  1.  ,   0.  ,   0.  ,   1.  ,   0.  ,   1.  ,   0.  ,   0.  ,
         0.  ,   1.  ,   0.  ,   1.  ,   0.  ,  85.55,   1.  ,   0.  ,
         0.  ,   0.  ,   0.  ,   1.  ,   1.  ,   0.  ,   0.  ,   0.  ,
         1.  ,   1.  ,   0.  ,   0.  ,   0.  ,   1.  ,   0.  ,   0.  ,
         1.  ,   1.  ,   0.  ,   0.  ,   1.  ,   1.  ,   0.  ,   0.  ,
         1.  ,   0.  ,   0.  ,   5.  , 408.5 ])

In [24]:
dv.get_feature_names_out()

array(['contract=month-to-month', 'contract=one_year',
       'contract=two_year', 'dependents=no', 'dependents=yes',
       'deviceprotection=no', 'deviceprotection=no_internet_service',
       'deviceprotection=yes', 'gender=female', 'gender=male',
       'internetservice=dsl', 'internetservice=fiber_optic',
       'internetservice=no', 'monthlycharges', 'multiplelines=no',
       'multiplelines=no_phone_service', 'multiplelines=yes',
       'onlinebackup=no', 'onlinebackup=no_internet_service',
       'onlinebackup=yes', 'onlinesecurity=no',
       'onlinesecurity=no_internet_service', 'onlinesecurity=yes',
       'paperlessbilling=no', 'paperlessbilling=yes', 'partner=no',
       'partner=yes', 'paymentmethod=bank_transfer_(automatic)',
       'paymentmethod=credit_card_(automatic)',
       'paymentmethod=electronic_check', 'paymentmethod=mailed_check',
       'phoneservice=no', 'phoneservice=yes', 'seniorcitizen',
       'streamingmovies=no', 'streamingmovies=no_internet_service',

## 4. Entrenamiento del modelo

In [25]:
from sklearn.linear_model import LogisticRegression

model = LogisticRegression(solver='liblinear')
model.fit(X_train, y_train)

In [26]:
val_dict = df_val[categorical + numerical].to_dict(orient='records')
X_val = dv.transform(val_dict)
y_pred = model.predict_proba(X_train)
y_pred

array([[0.2845874 , 0.7154126 ],
       [0.81223443, 0.18776557],
       [0.38571342, 0.61428658],
       ...,
       [0.4539349 , 0.5460651 ],
       [0.96965628, 0.03034372],
       [0.31202281, 0.68797719]])

In [27]:
y_pred = model.predict_proba(X_val)[:, 1]
y_pred

array([0.00857286, 0.20971288, 0.21635546, ..., 0.64335704, 0.18944084,
       0.12738071])

In [28]:
churn = y_pred >= 0.5
churn

array([False, False, False, ...,  True, False, False])

In [44]:
round((y_val == churn).mean(), 3)

0.805

## 5. Serialización del modelo

Hasta ahora, hemos realizado todo el proceso de entrenamiento del modelo en memoría. Es decir, si queremos volver a realizar predicciones, tendremos que lanzar todos los comandos anteriores para poder trabajar. Esto no tiene mucho sentido en un entorno real, por lo que a continuación se explicará como utilizar un módulo de la librería `pickle`para evitarnos todo ese trabajo.

In [2]:
import pickle

una vez importado `pickle` creamos una carpeta denominada *models* en nuestro directorio en el que guardaremos, utilizando el formato binario de la librería, el modelo que hemos creado antes:

In [45]:
with open('../models/churn-model.pck', 'wb') as f:
    pickle.dump((dv, model) , f)

In [47]:
with open('../models/churn-model.pck','rb') as f:
    dv, model = pickle.load(f)
    X_val = dv.transform(val_dict)
    y_pred = model.predict_proba(X_val)

# ANEXO: Creación de un servicio para utilizar el modelo

In [None]:
def predict_single(customer, dv, model):
    x = dv.transform(customer)
    y_pred = model.predict_proba(x)[:,1]
    return (y_pred[0] >= 0.5, y_pred[0])


In [1]:
import pickle

from flask import Flask, jsonify, request

from churn_predict_service import predict_single

app = Flask('churn-predict')

with open('models/churn-model.pck', 'rb') as f:
    dv, model = pickle.load(f)


@app.route('/predict', methods=['POST'])
def predict():
    customer = request.get_json()
    churn, prediction = predict_single(customer, dv, model)

    result = {
        'churn': bool(churn),
        'churn_probability': float(prediction),
    }

    return jsonify(result)


if __name__ == '__main__':
    app.run(debug=True, port=8000)

ModuleNotFoundError: No module named 'flask'