# Fuga de Clientes

Al operador de telecomunicaciones Interconnect le gustaría poder pronosticar su tasa de cancelación de clientes. Si se descubre que un usuario o usuaria planea irse, se le ofrecerán códigos promocionales y opciones de planes especiales. El equipo de marketing de Interconnect ha recopilado algunos de los datos personales de sus clientes, incluyendo información sobre sus planes y contratos.

### Servicios de Interconnect

Interconnect proporciona principalmente dos tipos de servicios:

1. Comunicación por teléfono fijo. El teléfono se puede conectar a varias líneas de manera simultánea.
2. Internet. La red se puede configurar a través de una línea telefónica (DSL, *línea de abonado digital*) o a través de un cable de fibra óptica.

Algunos otros servicios que ofrece la empresa incluyen:

- Seguridad en Internet: software antivirus (*ProtecciónDeDispositivo*) y un bloqueador de sitios web maliciosos (*SeguridadEnLínea*).
- Una línea de soporte técnico (*SoporteTécnico*).
- Almacenamiento de archivos en la nube y backup de datos (*BackupOnline*).
- Streaming de TV (*StreamingTV*) y directorio de películas (*StreamingPelículas*)

La clientela puede elegir entre un pago mensual o firmar un contrato de 1 o 2 años. Puede utilizar varios métodos de pago y recibir una factura electrónica después de una transacción.

### Descripción de los datos

Los datos consisten en archivos obtenidos de diferentes fuentes:

- `contract.csv` — información del contrato;
- `personal.csv` — datos personales del cliente;
- `internet.csv` — información sobre los servicios de Internet;
- `phone.csv` — información sobre los servicios telefónicos.

## Inicialización

In [1]:
# Importar librerías
import pandas as pd

## Carga de datos

In [3]:
# Importar datastes
contract = pd.read_csv("./files/datasets/input/contract.csv")
internet = pd.read_csv("./files/datasets/input/internet.csv")
personal = pd.read_csv("./files/datasets/input/personal.csv")
phone = pd.read_csv("./files/datasets/input/phone.csv")

## Análisis exploratorio

### contract

In [48]:
# Imprimir datos
contract

Unnamed: 0,customerID,BeginDate,EndDate,Type,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges
0,7590-VHVEG,2020-01-01,No,Month-to-month,Yes,Electronic check,29.85,29.85
1,5575-GNVDE,2017-04-01,No,One year,No,Mailed check,56.95,1889.5
2,3668-QPYBK,2019-10-01,2019-12-01 00:00:00,Month-to-month,Yes,Mailed check,53.85,108.15
3,7795-CFOCW,2016-05-01,No,One year,No,Bank transfer (automatic),42.30,1840.75
4,9237-HQITU,2019-09-01,2019-11-01 00:00:00,Month-to-month,Yes,Electronic check,70.70,151.65
...,...,...,...,...,...,...,...,...
7038,6840-RESVB,2018-02-01,No,One year,Yes,Mailed check,84.80,1990.5
7039,2234-XADUH,2014-02-01,No,One year,Yes,Credit card (automatic),103.20,7362.9
7040,4801-JZAZL,2019-03-01,No,Month-to-month,Yes,Electronic check,29.60,346.45
7041,8361-LTMKD,2019-07-01,2019-11-01 00:00:00,Month-to-month,Yes,Mailed check,74.40,306.6


In [5]:
# Ver información del dataset
contract.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   BeginDate         7043 non-null   object 
 2   EndDate           7043 non-null   object 
 3   Type              7043 non-null   object 
 4   PaperlessBilling  7043 non-null   object 
 5   PaymentMethod     7043 non-null   object 
 6   MonthlyCharges    7043 non-null   float64
 7   TotalCharges      7043 non-null   object 
dtypes: float64(1), object(7)
memory usage: 440.3+ KB


In [13]:
# Verificar número de cliente únicos
contract['customerID'].nunique()

7043

In [15]:
# Verificar contenido en 'TotalCharges'
contract['TotalCharges'].value_counts()

TotalCharges
          11
20.2      11
19.75      9
20.05      8
19.9       8
          ..
6849.4     1
692.35     1
130.15     1
3211.9     1
6844.5     1
Name: count, Length: 6531, dtype: int64

In [20]:
# Ver casos con valores nulos
contract.query("TotalCharges==' '")

Unnamed: 0,customerID,BeginDate,EndDate,Type,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges
488,4472-LVYGI,2020-02-01,No,Two year,Yes,Bank transfer (automatic),52.55,
753,3115-CZMZD,2020-02-01,No,Two year,No,Mailed check,20.25,
936,5709-LVOEQ,2020-02-01,No,Two year,No,Mailed check,80.85,
1082,4367-NUYAO,2020-02-01,No,Two year,No,Mailed check,25.75,
1340,1371-DWPAZ,2020-02-01,No,Two year,No,Credit card (automatic),56.05,
3331,7644-OMVMY,2020-02-01,No,Two year,No,Mailed check,19.85,
3826,3213-VVOLG,2020-02-01,No,Two year,No,Mailed check,25.35,
4380,2520-SGTTA,2020-02-01,No,Two year,No,Mailed check,20.0,
5218,2923-ARZLG,2020-02-01,No,One year,Yes,Mailed check,19.7,
6670,4075-WKNIU,2020-02-01,No,Two year,No,Mailed check,73.35,


In [28]:
# Filtrar contratos sin cobos totales
contract_with_charges = contract.query("TotalCharges not in' '")
contract_with_charges.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7032 entries, 0 to 7042
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7032 non-null   object 
 1   BeginDate         7032 non-null   object 
 2   EndDate           7032 non-null   object 
 3   Type              7032 non-null   object 
 4   PaperlessBilling  7032 non-null   object 
 5   PaymentMethod     7032 non-null   object 
 6   MonthlyCharges    7032 non-null   float64
 7   TotalCharges      7032 non-null   object 
dtypes: float64(1), object(7)
memory usage: 494.4+ KB


In [50]:
# Ver información estadísica de varaible numéricas
contract_with_charges['TotalCharges'] = contract_with_charges['TotalCharges'].astype(float)
contract_with_charges.describe()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  contract_with_charges['TotalCharges'] = contract_with_charges['TotalCharges'].astype(float)


Unnamed: 0,MonthlyCharges,TotalCharges
count,7032.0,7032.0
mean,64.798208,2283.300441
std,30.085974,2266.771362
min,18.25,18.8
25%,35.5875,401.45
50%,70.35,1397.475
75%,89.8625,3794.7375
max,118.75,8684.8


### internet

In [51]:
# Ver sample de data
internet.sample(10)

Unnamed: 0,customerID,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies
3001,6872-HXFNF,DSL,No,No,Yes,Yes,No,No
2603,0840-DFEZH,Fiber optic,No,No,No,No,No,No
4759,9795-NREXC,DSL,Yes,No,Yes,Yes,Yes,Yes
4495,4583-PARNH,Fiber optic,No,No,Yes,Yes,No,Yes
826,6445-TNRXS,Fiber optic,Yes,Yes,Yes,Yes,Yes,Yes
3518,5329-KRDTM,DSL,No,Yes,Yes,Yes,Yes,No
536,2800-VEQXM,Fiber optic,No,No,Yes,No,No,No
4394,9670-BPNXF,DSL,Yes,Yes,No,Yes,No,No
2330,9348-ROUAI,DSL,Yes,Yes,Yes,Yes,Yes,Yes
3642,8741-LQOBK,DSL,Yes,Yes,No,No,No,No


In [43]:
# Ver clientes únicos
internet['customerID'].nunique()

5517

In [7]:
# Ver info de data
internet.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5517 entries, 0 to 5516
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   customerID        5517 non-null   object
 1   InternetService   5517 non-null   object
 2   OnlineSecurity    5517 non-null   object
 3   OnlineBackup      5517 non-null   object
 4   DeviceProtection  5517 non-null   object
 5   TechSupport       5517 non-null   object
 6   StreamingTV       5517 non-null   object
 7   StreamingMovies   5517 non-null   object
dtypes: object(8)
memory usage: 344.9+ KB


### personal

In [21]:
# Ver sample de data
personal.sample(10)

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents
498,6235-VDHOM,Female,1,No,No
2612,8198-RKSZG,Female,0,Yes,Yes
5647,7502-BNYGS,Female,0,Yes,No
5858,8241-JUIQO,Female,0,No,No
1646,2581-VKIRT,Female,0,Yes,Yes
1864,7105-MXJLL,Female,1,Yes,No
5675,4983-CCWMC,Male,0,No,No
224,5961-VUSRV,Female,0,No,No
1216,0040-HALCW,Male,0,Yes,Yes
3900,8008-OTEZX,Female,0,Yes,Yes


In [22]:
# Ver info de data
personal.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   customerID     7043 non-null   object
 1   gender         7043 non-null   object
 2   SeniorCitizen  7043 non-null   int64 
 3   Partner        7043 non-null   object
 4   Dependents     7043 non-null   object
dtypes: int64(1), object(4)
memory usage: 275.2+ KB


### phone

In [23]:
# Ver sample de data
phone.sample(10)

Unnamed: 0,customerID,MultipleLines
6097,1960-UOTYM,No
4307,9298-WGMRW,Yes
5638,2330-PQGDQ,Yes
4998,6586-MYGKD,Yes
1741,5668-MEISB,Yes
62,3170-NMYVV,No
1114,7115-IRDHS,Yes
1670,3030-YDNRM,Yes
6315,3585-ISXZP,Yes
2939,3890-RTCMS,No


In [24]:
# Ver info de data
phone.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6361 entries, 0 to 6360
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   customerID     6361 non-null   object
 1   MultipleLines  6361 non-null   object
dtypes: object(2)
memory usage: 99.5+ KB


In [35]:
# Verificar si hay clinetes con ambos servicios
phone.merge(internet, how='left')

Unnamed: 0,customerID,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies
0,5575-GNVDE,No,DSL,Yes,No,Yes,No,No,No
1,3668-QPYBK,No,DSL,Yes,Yes,No,No,No,No
2,9237-HQITU,No,Fiber optic,No,No,No,No,No,No
3,9305-CDSKC,Yes,Fiber optic,No,No,Yes,No,Yes,Yes
4,1452-KIOVK,Yes,Fiber optic,No,Yes,No,No,Yes,No
...,...,...,...,...,...,...,...,...,...
6356,2569-WGERO,No,,,,,,,
6357,6840-RESVB,Yes,DSL,Yes,No,Yes,Yes,Yes,Yes
6358,2234-XADUH,Yes,Fiber optic,No,Yes,Yes,No,Yes,Yes
6359,8361-LTMKD,Yes,Fiber optic,No,No,No,No,No,No


## Preguntas

1. ¿A qué se refiere la columnas PaperlessBilling en el dataset contract? Algunos casos de mailcheck cuentan con valor "YES" y "NO". ¿Qué significan estos casos?, ¿Son errores?.
2. ¿Los contratos son por producto o servicio total?, algunos clientes tienen ambos productos, pero solo un contrato.
3. En el caso del producto de internet, esta se puede configurar a través de una línea telefónica. ¿Esta línea puede ser de otro proveedor?
4. ¿El tipo de configuración de internet tiene algún efecto en la calidad del mismo? Por ejemplo: fibra óptica.
5. Actualmente, utilizar un medio de pago físico (papel) puede generar un cobro adicional ¿Ocurre en este caso?
6. ¿Hay algún beneifico entre eligir un plan de largo plazo en vez de uno de corto plazo?

## Plan de trabajo

1. Incialización
Describiremos el proyecto, establceremos los objetivos del mismo y haremos un pequeño resumen del contenido de nuestros datasets.
2. Cargar de datos
3. Análisis exploratorio
Realizaremos un análisis de nuestra data, veremos tanto si nuestros datos cuantan con valores atípicos, ausentes, duplicados o algún otro problema que creamos que debamos investigar más a fondo.
4. Análisis de datos
Haremos un análisis profundo de nuestras variables donde veremos la distribución de las mismas, relación entre ellas y otros aspectos necesarios para determinar el comportamiento de las mismas y, con ello, ver si es necesario hacer una modificación en alguna de ellas más adelante.
5. Preparación de datos
Prepararemos nuestros datos según las conclusiones de nuestro análisis previo. El objetivo de esta etapa es obtener nuestro dataset listo para poder utilizarlo en nuestros modelos, esto incluye tratamiento de ausentes y valores atpipicos, creación de nuevas variables, modificación de tipos de datos, adición de nuevas variables, entre otros relacionados.
6. Creación y evaluación de modelos
Crearemos distintos modelos, identificaremos los mejores hiperparámetros para cada uno, los entrenaremos con nuestro dataset y los evaluaremos. Estableceremos los resultados e identificaremos el mejor modelo.
7. Conclusión
Finalmente, haremos un resumen de los pasos realizados en el proyecto, insghts importantes encontrados y la conclusión acerca de nuestros modelos.