# Condiciones de la asignación principal

Al operador de telecomunicaciones Interconnect le gustaría poder pronosticar su tasa de cancelación de clientes. Si se descubre que un usuario o usuaria planea irse, se le ofrecerán códigos promocionales y opciones de planes especiales. El equipo de marketing de Interconnect ha recopilado algunos de los datos personales de sus clientes, incluyendo información sobre sus planes y contratos.

### Servicios de Interconnect

Interconnect proporciona principalmente dos tipos de servicios:

1. Comunicación por teléfono fijo. El teléfono se puede conectar a varias líneas de manera simultánea.
2. Internet. La red se puede configurar a través de una línea telefónica (DSL, *línea de abonado digital*) o a través de un cable de fibra óptica.

Algunos otros servicios que ofrece la empresa incluyen:

- Seguridad en Internet: software antivirus (*ProtecciónDeDispositivo*) y un bloqueador de sitios web maliciosos (*SeguridadEnLínea*).
- Una línea de soporte técnico (*SoporteTécnico*).
- Almacenamiento de archivos en la nube y backup de datos (*BackupOnline*).
- Streaming de TV (*StreamingTV*) y directorio de películas (*StreamingPelículas*)

La clientela puede elegir entre un pago mensual o firmar un contrato de 1 o 2 años. Puede utilizar varios métodos de pago y recibir una factura electrónica después de una transacción.

### Descripción de los datos

Los datos consisten en archivos obtenidos de diferentes fuentes:

- `contract.csv` — información del contrato;
- `personal.csv` — datos personales del cliente;
- `internet.csv` — información sobre los servicios de Internet;
- `phone.csv` — información sobre los servicios telefónicos.

En cada archivo, la columna `customerID` (ID de cliente) contiene un código único asignado a cada cliente. La información del contrato es válida a partir del 1 de febrero de 2020.

# Librerias

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from IPython.display import HTML
import seaborn as sns

# Importacion de datos

In [2]:
# Importamos archivos
df_contract = pd.read_csv("datasets/final_provider/contract.csv")
df_internet = pd.read_csv("datasets/final_provider/internet.csv")
df_personal = pd.read_csv("datasets/final_provider/personal.csv")
df_phone = pd.read_csv("datasets/final_provider/phone.csv")

# Plan de trabajo

Deberás realizar un análisis exploratorio de datos. Al final de Jupyter Notebook, escribe:

- una lista de preguntas aclaratorias;
- un plan aproximado para resolver la tarea, que especifica de 3 a 5 pasos básicos y los explica en uno o dos enunciados.

El líder del equipo revisará tus preguntas y plan de trabajo. Las preguntas serán respondidas durante una videollamada. El código será revisado por el líder del equipo solo si hay algunas dudas.

# EDA

## Correcciones de data frames

## Mostrar informacion de los dataframes

In [3]:
# Contracts ------------------------|
display(HTML('<h1> Contracts'))
display(df_contract.sample(10))
display(df_contract.info())
display(df_contract.describe())
display(df_contract.isnull().sum())
display(HTML('<hr>'))

# Internet -------------------------|
display(HTML('<h1> Internet'))
display(df_internet.sample(10))
display(df_internet.info())
display(df_internet.describe())
display(df_internet.isnull().sum())
display(HTML('<hr>'))

# Personal -------------------------|
display(HTML('<h1> Personal'))
display(df_personal.sample(10))
display(df_personal.info())
display(df_personal.describe())
display(df_personal.isnull().sum())
display(HTML('<hr>'))

# Phone ----------------------------|
display(HTML('<h1> Phone'))
display(df_phone.sample(10))
display(df_phone.info())
display(df_phone.describe())
display(df_phone.isnull().sum())
display(HTML('<hr>'))



Unnamed: 0,customerID,BeginDate,EndDate,Type,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges
4175,6248-BSHKG,2015-01-01,No,One year,No,Mailed check,20.4,1226.45
5478,3374-TTZTK,2015-10-01,No,Two year,Yes,Electronic check,106.3,5487.0
1642,1498-DQNRX,2017-09-01,No,Month-to-month,No,Mailed check,19.85,573.05
4556,3750-CKVKH,2019-09-01,2019-11-01 00:00:00,Month-to-month,Yes,Electronic check,67.75,116.65
6826,7976-CICYS,2019-10-01,No,Month-to-month,Yes,Credit card (automatic),20.7,83.75
5234,3858-XHYJO,2016-10-01,No,One year,No,Bank transfer (automatic),105.75,4228.55
5557,6918-UMQCG,2019-09-01,No,Month-to-month,No,Electronic check,80.2,384.25
4727,3154-HMWUU,2015-02-01,No,Two year,Yes,Bank transfer (automatic),20.5,1198.8
6468,2599-CZABP,2018-12-01,No,One year,No,Electronic check,44.6,641.25
1485,9809-IMGCQ,2018-01-01,2019-11-01 00:00:00,Month-to-month,Yes,Electronic check,96.7,2082.95


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   BeginDate         7043 non-null   object 
 2   EndDate           7043 non-null   object 
 3   Type              7043 non-null   object 
 4   PaperlessBilling  7043 non-null   object 
 5   PaymentMethod     7043 non-null   object 
 6   MonthlyCharges    7043 non-null   float64
 7   TotalCharges      7043 non-null   object 
dtypes: float64(1), object(7)
memory usage: 440.3+ KB


None

Unnamed: 0,MonthlyCharges
count,7043.0
mean,64.761692
std,30.090047
min,18.25
25%,35.5
50%,70.35
75%,89.85
max,118.75


customerID          0
BeginDate           0
EndDate             0
Type                0
PaperlessBilling    0
PaymentMethod       0
MonthlyCharges      0
TotalCharges        0
dtype: int64

Unnamed: 0,customerID,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies
3027,5299-SJCZT,Fiber optic,No,No,Yes,No,Yes,Yes
1256,2720-FVBQP,DSL,No,No,No,No,No,No
133,5997-OPVFA,DSL,Yes,Yes,Yes,Yes,Yes,Yes
4841,7547-EKNFS,Fiber optic,No,Yes,Yes,No,Yes,No
1727,9798-DRYDS,DSL,No,No,Yes,Yes,No,No
2416,3853-LYGAM,Fiber optic,No,No,Yes,Yes,No,Yes
398,0388-EOPEX,Fiber optic,Yes,No,No,No,No,No
5351,8465-SBRXP,Fiber optic,No,No,Yes,Yes,Yes,No
4738,8085-MSNLK,Fiber optic,Yes,Yes,Yes,Yes,Yes,Yes
5365,1195-OIYEJ,Fiber optic,No,No,No,No,Yes,Yes


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5517 entries, 0 to 5516
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   customerID        5517 non-null   object
 1   InternetService   5517 non-null   object
 2   OnlineSecurity    5517 non-null   object
 3   OnlineBackup      5517 non-null   object
 4   DeviceProtection  5517 non-null   object
 5   TechSupport       5517 non-null   object
 6   StreamingTV       5517 non-null   object
 7   StreamingMovies   5517 non-null   object
dtypes: object(8)
memory usage: 344.9+ KB


None

Unnamed: 0,customerID,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies
count,5517,5517,5517,5517,5517,5517,5517,5517
unique,5517,2,2,2,2,2,2,2
top,7590-VHVEG,Fiber optic,No,No,No,No,No,No
freq,1,3096,3498,3088,3095,3473,2810,2785


customerID          0
InternetService     0
OnlineSecurity      0
OnlineBackup        0
DeviceProtection    0
TechSupport         0
StreamingTV         0
StreamingMovies     0
dtype: int64

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents
4397,7663-YJHSN,Female,0,Yes,No
5199,7245-JMTTQ,Female,0,No,No
4482,6711-FLDFB,Female,0,No,No
1101,4712-UYOOI,Female,0,Yes,Yes
7012,6691-CCIHA,Female,0,Yes,No
1217,0784-GTUUK,Male,0,Yes,No
3458,0311-UNPFF,Female,0,No,No
6584,6340-DACFT,Female,0,Yes,Yes
5483,5536-SLHPM,Female,0,Yes,No
984,8165-ZJRNM,Female,0,Yes,Yes


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   customerID     7043 non-null   object
 1   gender         7043 non-null   object
 2   SeniorCitizen  7043 non-null   int64 
 3   Partner        7043 non-null   object
 4   Dependents     7043 non-null   object
dtypes: int64(1), object(4)
memory usage: 275.2+ KB


None

Unnamed: 0,SeniorCitizen
count,7043.0
mean,0.162147
std,0.368612
min,0.0
25%,0.0
50%,0.0
75%,0.0
max,1.0


customerID       0
gender           0
SeniorCitizen    0
Partner          0
Dependents       0
dtype: int64

Unnamed: 0,customerID,MultipleLines
3208,9026-RNUJS,No
6332,5482-NUPNA,No
643,7929-DMBCV,No
5545,3308-DGHKL,No
319,9294-TDIPC,No
352,6599-CEBNN,No
2482,0244-LGNFY,Yes
6079,2068-WWXQZ,No
5562,0870-VEMYL,No
3952,0096-BXERS,Yes


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6361 entries, 0 to 6360
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   customerID     6361 non-null   object
 1   MultipleLines  6361 non-null   object
dtypes: object(2)
memory usage: 99.5+ KB


None

Unnamed: 0,customerID,MultipleLines
count,6361,6361
unique,6361,2
top,5575-GNVDE,No
freq,1,3390


customerID       0
MultipleLines    0
dtype: int64

### Conclusion sobre los datos

Calidad de los datos 

1. Los cuatro conjuntos de datos (contratos, internet, personal, y teléfono) están libres de valores nulos y duplicados. Esto indica una alta calidad en la gestión y mantenimiento de los registros de los clientes.
   
2. Cada conjunto de datos incluye todos los registros esperados con completitud en todas las columnas esenciales, lo que permite una integración y comparación efectiva entre diferentes tipos de información del cliente.

Caracteristicas de los datos

1. Contratos (Contract): Los datos muestran una variedad de tipos de contratos (mes a mes, anual, y bianual), diferentes métodos de pago, y una amplia gama de cargos mensuales. La columna TotalCharges está clasificada como objeto, lo que podría necesitar una conversión a tipo numérico para análisis futuros.

2. Servicios de Internet(internet): Los servicios de internet son variados, incluyendo DSL y fibra óptica, y opciones adicionales como seguridad en línea, respaldo en línea, protección de dispositivos, soporte técnico, y servicios de streaming. Esto refleja una diversidad de ofertas que pueden influir en la satisfacción y retención del cliente.

3. Información Personal(personal): Incluye género, si el cliente es un ciudadano senior, y detalles familiares como si tienen pareja o dependientes. Esta información puede ser crucial para segmentar la base de clientes y entender diferentes comportamientos y necesidades.

4. Servicios de Teléfono(Phone): Aproximadamente la mitad de los clientes tienen múltiples líneas, lo que podría estar correlacionado con mayores necesidades de comunicación o mayores niveles de gasto en servicios.

Potencial de Análisis Futuros

1. Análisis Predictivo: Los datos están bien preparados para construir modelos predictivos de churn (cancelación de servicios) basados en características contractuales, personales, y de servicio. Especialmente, la diversidad en tipos de servicios y características del cliente ofrece una oportunidad rica para explorar qué factores influyen más significativamente en la lealtad del cliente.

2. Segmentación del Cliente: Utilizar la información demográfica y de servicios para segmentar la base de clientes podría ayudar a Interconnect a personalizar sus ofertas y estrategias de retención.

3. Optimización de Ofertas: Analizar la relación entre los tipos de servicios contratados y la satisfacción del cliente podría permitir a Interconnect optimizar sus paquetes de servicios para maximizar la retención.

### Preguntas aclaratorias 

1. ¿Por qué hay fechas de contratos anteriores al 1 de febrero de 2020 si se menciona que la información es válida a partir de esa fecha?
2. ¿Existen detalles adicionales sobre el historial de pagos y posibles impagos que puedan ser relevantes para el análisis de cancelación?