# Condiciones de la asignación principal

Al operador de telecomunicaciones Interconnect le gustaría poder pronosticar su tasa de cancelación de clientes. Si se descubre que un usuario o usuaria planea irse, se le ofrecerán códigos promocionales y opciones de planes especiales. El equipo de marketing de Interconnect ha recopilado algunos de los datos personales de sus clientes, incluyendo información sobre sus planes y contratos.

### Servicios de Interconnect

Interconnect proporciona principalmente dos tipos de servicios:

1. Comunicación por teléfono fijo. El teléfono se puede conectar a varias líneas de manera simultánea.
2. Internet. La red se puede configurar a través de una línea telefónica (DSL, *línea de abonado digital*) o a través de un cable de fibra óptica.

Algunos otros servicios que ofrece la empresa incluyen:

- Seguridad en Internet: software antivirus (*ProtecciónDeDispositivo*) y un bloqueador de sitios web maliciosos (*SeguridadEnLínea*).
- Una línea de soporte técnico (*SoporteTécnico*).
- Almacenamiento de archivos en la nube y backup de datos (*BackupOnline*).
- Streaming de TV (*StreamingTV*) y directorio de películas (*StreamingPelículas*)

La clientela puede elegir entre un pago mensual o firmar un contrato de 1 o 2 años. Puede utilizar varios métodos de pago y recibir una factura electrónica después de una transacción.

### Descripción de los datos

Los datos consisten en archivos obtenidos de diferentes fuentes:

- `contract.csv` — información del contrato;
- `personal.csv` — datos personales del cliente;
- `internet.csv` — información sobre los servicios de Internet;
- `phone.csv` — información sobre los servicios telefónicos.

En cada archivo, la columna `customerID` (ID de cliente) contiene un código único asignado a cada cliente. La información del contrato es válida a partir del 1 de febrero de 2020.

Realizaremos los siguientes pasos para preparar estos datos y trabajar con ellos para posteriormente realizar un plan de trabajo.

- Creamos un DataFrame con el dataset disponible si es que lo hay para poder trabajar con el de una manera mas sencilla.

Luego comenzamos con un analisis exploratorio de los datos con dos metodos escenciales.

- dataframe.info(): para poder revisar el tipo de datos con el que estamos trabajando y el numero de fila que contiene el DataFrame, este metodo tambien permite visualizar las filas nulas o ausentes.

- dataframe.head(): para poder ver las primeras filas del dataframe y tener una vision más clara de los datos que estamos trabajando.

- dataframe.describe(): nos permite conocer valores como la media, varianza, minimo, maximo y quartiles del dataframe en los tipos de datos que permiten calcular estos valores.

Y por otro lado como solo estamos haciendo un analisis exploratorio no necesitamos remplazar los datos ausentes o eliminar los duplicados, pero si necesitamos conocer cuantos de estos datos son ausentes y estan duplicados en el dataframe, eso lo podemos hacer con el metodo.

- dataframe.duplicated().sum(): nos muestra cuantos datos duplicados tiene el datFrame.
- dataframe.isnull().sum()= nos muestra cuantos datos ausentes hay en el dataframe.

In [22]:
# Importacion de librerias

import pandas
import numpy

In [23]:

# Cargamos los datasets

#df_contract = pandas.read_csv('/datasets/final_provider/contract.csv')
#df_personal = pandas.read_csv('/datasets/final_provider/personal.csv')
#df_internet = pandas.read_csv('/datasets/final_provider/internet.csv')
#df_phone = pandas.read_csv('/datasets/final_provider/phone.csv')

# Carga de los datasets por archivos locales

df_contract = pandas.read_csv('contract.csv')
df_personal = pandas.read_csv('personal.csv')
df_internet = pandas.read_csv('internet.csv')
df_phone = pandas.read_csv('phone.csv')

## Descripcion General y procesamiento de datos.

Primero revisaremos los datos de cada DataFrame y posteriormente una descripcion de como procesaremos esos datos.

### Comenzamos por el DataFrame 'df_contract'

In [24]:
display(df_contract.info())
display(df_contract.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   BeginDate         7043 non-null   object 
 2   EndDate           7043 non-null   object 
 3   Type              7043 non-null   object 
 4   PaperlessBilling  7043 non-null   object 
 5   PaymentMethod     7043 non-null   object 
 6   MonthlyCharges    7043 non-null   float64
 7   TotalCharges      7043 non-null   object 
dtypes: float64(1), object(7)
memory usage: 440.3+ KB


None

Unnamed: 0,customerID,BeginDate,EndDate,Type,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges
0,7590-VHVEG,2020-01-01,No,Month-to-month,Yes,Electronic check,29.85,29.85
1,5575-GNVDE,2017-04-01,No,One year,No,Mailed check,56.95,1889.5
2,3668-QPYBK,2019-10-01,2019-12-01 00:00:00,Month-to-month,Yes,Mailed check,53.85,108.15
3,7795-CFOCW,2016-05-01,No,One year,No,Bank transfer (automatic),42.3,1840.75
4,9237-HQITU,2019-09-01,2019-11-01 00:00:00,Month-to-month,Yes,Electronic check,70.7,151.65


In [25]:
display(df_contract.describe())

Unnamed: 0,MonthlyCharges
count,7043.0
mean,64.761692
std,30.090047
min,18.25
25%,35.5
50%,70.35
75%,89.85
max,118.75


In [26]:
df_contract['Type'].unique()

array(['Month-to-month', 'One year', 'Two year'], dtype=object)

In [27]:
print('Comprobamos los datos duplicados en el dataset.')
print('El dataset tiene',df_contract.duplicated().sum(),'duplicados.')

Comprobamos los datos duplicados en el dataset.
El dataset tiene 0 duplicados.


In [28]:
print('Comprobamos si hay datos nulos.')
print(df_contract.isnull().sum())

Comprobamos si hay datos nulos.
customerID          0
BeginDate           0
EndDate             0
Type                0
PaperlessBilling    0
PaymentMethod       0
MonthlyCharges      0
TotalCharges        0
dtype: int64


Procesaremos los datos de la siguiente manera:

- Convertir los nombres de las columnas en minusculas con espacios en guion bajo y cambiar el 'Type' a 'contract_type' para facilitar la comprensión y lectura de datos.
- Convertir "month-to-month" en la columna 'contract_type' a "monthly", con los objetivos de reducir la longitud del String y el segundo es que "monthly" es mas sencillo de entender.
- Convertir Fechas al tipo de datos 'datetime', esto requerirá convertir los valores "No" en 'enddate' a valores faltantes.
- Crear dos nuevas columnas que seran 'contract_duration_months' con un valor entero que representa la cantidad de meses que un cliente permaneció antes de abandonar el servicio y valores faltantes para aquellos que no lo han hecho y 'contract_cancelled' con 1 y 0 determinado por 'enddate'.
- Convertir los valores de 'YES' y 'NO' a 1 y 0.
- Convertir la columna 'total_charges' a float
- En este DataFrame no es necesario eliminar datos duplicados y nulos.

### Dataframe 'df_personal'

In [29]:
display(df_personal.info())
display(df_personal.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   customerID     7043 non-null   object
 1   gender         7043 non-null   object
 2   SeniorCitizen  7043 non-null   int64 
 3   Partner        7043 non-null   object
 4   Dependents     7043 non-null   object
dtypes: int64(1), object(4)
memory usage: 275.2+ KB


None

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents
0,7590-VHVEG,Female,0,Yes,No
1,5575-GNVDE,Male,0,No,No
2,3668-QPYBK,Male,0,No,No
3,7795-CFOCW,Male,0,No,No
4,9237-HQITU,Female,0,No,No


In [30]:
display(df_personal.describe())

Unnamed: 0,SeniorCitizen
count,7043.0
mean,0.162147
std,0.368612
min,0.0
25%,0.0
50%,0.0
75%,0.0
max,1.0


In [31]:
df_personal['gender'].unique()

array(['Female', 'Male'], dtype=object)

In [32]:
df_personal['SeniorCitizen'].unique()

array([0, 1], dtype=int64)

In [33]:
print('Comprobamos los datos duplicados en el dataset.')
print('El dataset tiene',df_personal.duplicated().sum(),'duplicados.')

Comprobamos los datos duplicados en el dataset.
El dataset tiene 0 duplicados.


In [34]:
print('Comprobamos si hay datos nulos.')
print(df_personal.isnull().sum())

Comprobamos si hay datos nulos.
customerID       0
gender           0
SeniorCitizen    0
Partner          0
Dependents       0
dtype: int64


Procesamos los datos de la siguiente manera:

- Convertir los nombres de las columnas en minusculas con espacios en guion bajo y cambiar el 'Type' a 'contract_type' para facilitar la comprensión y lectura de datos.
- Cambiar los valores 'Male' a 1 y los valores 'Female' a 0, esto se guardará con OHE durante la ingeniería de características y se mantendrá con un formato estandarizado 1 y 0.
- Convertir los valores de 'YES' y 'NO' a 1 y 0.
- En este DataFrame no es necesario eliminar datos duplicados y nulos.

### Dataframe 'df_internet'

In [35]:
display(df_internet.info())
display(df_internet.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5517 entries, 0 to 5516
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   customerID        5517 non-null   object
 1   InternetService   5517 non-null   object
 2   OnlineSecurity    5517 non-null   object
 3   OnlineBackup      5517 non-null   object
 4   DeviceProtection  5517 non-null   object
 5   TechSupport       5517 non-null   object
 6   StreamingTV       5517 non-null   object
 7   StreamingMovies   5517 non-null   object
dtypes: object(8)
memory usage: 344.9+ KB


None

Unnamed: 0,customerID,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies
0,7590-VHVEG,DSL,No,Yes,No,No,No,No
1,5575-GNVDE,DSL,Yes,No,Yes,No,No,No
2,3668-QPYBK,DSL,Yes,Yes,No,No,No,No
3,7795-CFOCW,DSL,Yes,No,Yes,Yes,No,No
4,9237-HQITU,Fiber optic,No,No,No,No,No,No


In [36]:
display(df_internet.describe())

Unnamed: 0,customerID,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies
count,5517,5517,5517,5517,5517,5517,5517,5517
unique,5517,2,2,2,2,2,2,2
top,7590-VHVEG,Fiber optic,No,No,No,No,No,No
freq,1,3096,3498,3088,3095,3473,2810,2785


In [37]:
print('Comprobamos los datos duplicados en el dataset.')
print('El dataset tiene',df_internet.duplicated().sum(),'duplicados.')

Comprobamos los datos duplicados en el dataset.
El dataset tiene 0 duplicados.


In [38]:
print('Comprobamos si hay datos nulos.')
print(df_internet.isnull().sum())

Comprobamos si hay datos nulos.
customerID          0
InternetService     0
OnlineSecurity      0
OnlineBackup        0
DeviceProtection    0
TechSupport         0
StreamingTV         0
StreamingMovies     0
dtype: int64


Procesaremos los datos de la siguiente manera:

- Convertir los nombres de las columnas en minusculas.
- Convertir los valores de 'YES' y 'NO' a 1 y 0.
- Crearemos una columna llamada 'has_internet' con valor 1 y 0 para decir si el usuario tiene(1) o no internet(0)
- En este DataFrame no es necesario eliminar datos duplicados y nulos.

### Dataframe 'df_phone'

In [39]:
display(df_phone.info())
display(df_phone.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6361 entries, 0 to 6360
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   customerID     6361 non-null   object
 1   MultipleLines  6361 non-null   object
dtypes: object(2)
memory usage: 99.5+ KB


None

Unnamed: 0,customerID,MultipleLines
0,5575-GNVDE,No
1,3668-QPYBK,No
2,9237-HQITU,No
3,9305-CDSKC,Yes
4,1452-KIOVK,Yes


In [40]:
display(df_phone.describe())

Unnamed: 0,customerID,MultipleLines
count,6361,6361
unique,6361,2
top,5575-GNVDE,No
freq,1,3390


In [41]:
print('Comprobamos los datos duplicados en el dataset.')
print('El dataset tiene',df_phone.duplicated().sum(),'duplicados.')

Comprobamos los datos duplicados en el dataset.
El dataset tiene 0 duplicados.


In [42]:
print('Comprobamos si hay datos nulos.')
print(df_phone.isnull().sum())

Comprobamos si hay datos nulos.
customerID       0
MultipleLines    0
dtype: int64


Procesaremos los datos de la siguiente manera:

- Convertir los nombres de las columnas en minusculas.
- Convertir los valores de 'YES' y 'NO' a 1 y 0.
- Crearemos una columna llamada 'phone_service' con valor 1 y 0 para decir si el usuario tiene(1) o no tiene(0)
- En este DataFrame no es necesario eliminar datos duplicados y nulos.

## Plan de trabajo propuesto

### Cargar datos y bibliotecas

- Inspeccionar conjuntos de datos para preprocesamiento, EDA e ingeniería de características

### Procesar datos

- Llevar a cabo los planes indicados anteriormente con cada dataframe.
- Combinar los dataframes individuales en customerID para crear un dataframe con todos los datos.

### Análisis exploratorio

- Historgrama de tiempo antes de que canceleren los contratos.
- Gráfico de barras que muestra los contratos cancelados en contra a los vigentes y los tipos de contrato.
- Gráfico de barras que muestra los contratos cancelados en contra a los vigentes y los tipos de pago.
- Diagramas de caja y bigotes que muestran la distribución de:
    - Cargos mensuales de clientes que han cancelado contrato.
    - Cargos totales de clientes que han cancelado contrato.
    - Cargos mensuales de clientes vigentes.
    - Cargos totales de clientes vigentes.
- Gráfico de barras que muestra la información personal de los clientes han cancelado contrato en contra a los clientes vigentes a traves de los valores totales por:
    - Género
    - si estan jubilados
    - si estan en pareja
    - si son dependientes
- Gráfico de barras que muestra el tipo de contrato en relación con la información personal a traves de los valores totales por:
    - Género
    - si estan jubilados
    - si estan en pareja
    - si son dependientes
- Gráfico de barras para los clientes que cancelaron contrato y estan vigentes en relación con el tipo de servicio de Internet.
- Gráfico de barras para el tipo de contrato en relación con el tipo de servicio de Internet.
- Gráfico de barras que muestra los servicios de Internet y las multiples lineas telefonicas de los clientes que cancelaron contrato y estan vigentes a traves de los valores totales por:
    - Seguridad en línea
    - Copia de seguridad en línea
    - Protección de dispositivos
    - Soporte técnico
    - Transmisión de TV
    - Transmisión de películas
    - Multiples lineas telefonicas
- Gráfico de barras que muestra el tipo de contrato de los clientes con los servicios de Internet y multiples lineas telefonicas a traves de los valores totales por:
    - Seguridad en línea
    - Copia de seguridad en línea
    - Protección de dispositivos
    - Soporte técnico
    - Transmisión de TV
    - Transmisión de películas
    - Multiples lineas telefonicas

### Ingeniería de características.

- Crear nuevas columnas con el objetivo de:
    - Determinar meses restantes de los contratos.
    - Determianar el promedio de cargos por cliente y cargos adicionales.
    - Determinar precio por servicio
- Aplicar codificacion de datos.

### Entrenamiento de modelos.

- Se dividirán conjuntos de entrenamiento, validación y prueba en una proporción de 3:1:1.
- La división se estratificará en función de la rotación para garantizar una distribución uniforme entre los dos conjuntos.
- Las características serán casi todas las columnas, con la excepción de 'customer_id', 'begin_date', 'end_date','contract_duration_months'.
- El objetivo será la columna contract_cancelled.
- Entrenar y evaluar modelos de arbol de decisiones, bosque aletorio y regresion logistica.
- La puntuación utilizada será AUC-ROC con un objetivo de 0,90 o superior.
- Seleccionar el modelo con mejor rendimiento en función de AUC_ROC.

### Conclusión

- Se resumirán los hallazgos de la EDA.
- El modelo seleccionado será recomendado.