# Interconnect - Modelo para predecir tasa de cancelación de clientes

# Contenido <a id='back'></a>

* [Descripcipción del proyecto](#intro)
* [Objetivo](#objective)
* [Preguntas a responder](#questions_to_answer)
* [¿Qué se planea realizar? (Plan de Trabajo)](#work_plan)
* [Etapa 1. Preparación y Análisis exploratorio de los datos.](#data_preparation_review)
    * [Inicialización](#initialization)
    * [Cargar datos](#upload_data)
* [Etapa 2. Preprocesamiento de los datos.](#data_preprocessing)
    * [Segmentación de conjuntos de datos](#split_data)
    * [Estandarización de los datos](#scaling_data)
    * [Codificación de los datos](#encoding_data)
* [Etapa 3. Evaluación de modelos.](#model_evaluation)
* [Etapa 4. Preparación del informe y Conclusiones](#conclusions)

# Descripcipción del proyecto<a id='intro'></a>


La empresa Interconnect desea pronosticar su tasa de cancelación de clientes. Si se descubre que un usuario o usuaria planea irse, se le ofrecerán códigos promocionales y opciones de planes especiales. Por lo tanto se busca analizar los datos contractuales, personales y de uso de servicios de los clientes que el equipo de marketing de Interconnect ha recopilado para identificar patrones que influyan en la tasa de cancelación. Con esto, la empresa podrá anticipar qué clientes tienen mayor riesgo de darse de baja y tomar medidas preventivas.

# Objetivo<a id='objective'></a>

Desarrollar un modelo predictivo capaz de predecir la tasa de cancelación de clientes de Interconnect usando métricas de evaluación, como principal AUC-ROC que sea igual o mayor a 0.88 y exactitud como secundaria.

# Preguntas a responder<a id='questions_to_answer'></a>

¿Cómo se distribuye la tasa de cancelación entre los diferentes tipos de contrato?

¿Qué tipo de servicio de internet está más asociado con cancelaciones?

¿Cuáles son las variables con mayor correlación respecto a que un cliente cancele o no su contrato?

# ¿Qué se planea realizar?

De primera instancia, para llevar acabo el desarrollo del proyecto y cumplir con el objetivo se plantea las siguientes etapas: 

1. **Preparación y Análisis exploratorio de los datos:** Cargar los datos provenientes de los archivos contract.csv, personal.csv, internet.csv y phone.csv. Revisar valores ausentes, duplicados y los tipos de variables. Generar estadísticas descriptivas y revisar si existe algún desbalanceo de clases en la variable objetivo. Analizar la correlación entre variables.

2. **Preprocesamiento de los datos:** Manejar valores ausentes, duplicados, nombres de columnas y los tipos de variables. Segmentar los datos. Codificar variables categóricas; en caso de que haya un desbalanceo de clases, entonces balancear la variable objetivo mediante técnicas como sobremuestreo o submuestreo.

3. **Evaluación de modelos:** Probar varios algoritmos como Regresión Logística, Bosque Aleatorio, CatBoost, LightBoost y XGBoost, utilizando también GridSearchCV para encontrar los mejores hiperparámetros para cada modelo. Y evaluamos cada uno de los modelos con AUC-ROC como métrica principal y exactitud como métrica adicional.

4. **Preparación del informe y Conclusiones:** Tras la evaluación de los modelos, comparamos los resultados y elegimos el mejor modelo según el umbral de AUC-ROC mayor o igual a 0.88. Explicamos los hallazgos del proyecto y brindamos recomendaciones al equipo de marketing.

Dicho esto, empezamos con la preparación de los datos e iniciamos con un pequeño análisis exploratorio para analizar los datos que estaremos tratando y cómo los preprocesaremos. Tras las primeras conclusiones, seguiremos con el EDA a profundidad más adelante.

# Etapa 1. Preparación y Análisis exploratorio de los datos<a id='data_preparation_review'></a>

## Inicialización<a id='initialization'></a>

In [None]:
# Cargar librerias
import pandas as pd

In [None]:
# Declaramos un str como el path donde provienen los datasets
path = './datasets/final_provider/'

## Cargar datos<a id='upload_data'></a>

### Contratos

In [None]:
df_contracts = pd.read_csv(path + 'contract.csv')
df_contracts

Unnamed: 0,customerID,BeginDate,EndDate,Type,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges
0,7590-VHVEG,2020-01-01,No,Month-to-month,Yes,Electronic check,29.85,29.85
1,5575-GNVDE,2017-04-01,No,One year,No,Mailed check,56.95,1889.5
2,3668-QPYBK,2019-10-01,2019-12-01 00:00:00,Month-to-month,Yes,Mailed check,53.85,108.15
3,7795-CFOCW,2016-05-01,No,One year,No,Bank transfer (automatic),42.30,1840.75
4,9237-HQITU,2019-09-01,2019-11-01 00:00:00,Month-to-month,Yes,Electronic check,70.70,151.65
...,...,...,...,...,...,...,...,...
7038,6840-RESVB,2018-02-01,No,One year,Yes,Mailed check,84.80,1990.5
7039,2234-XADUH,2014-02-01,No,One year,Yes,Credit card (automatic),103.20,7362.9
7040,4801-JZAZL,2019-03-01,No,Month-to-month,Yes,Electronic check,29.60,346.45
7041,8361-LTMKD,2019-07-01,2019-11-01 00:00:00,Month-to-month,Yes,Mailed check,74.40,306.6


In [4]:
df_contracts.info()
print("\nDatos Duplicados: ", df_contracts.duplicated().sum())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   BeginDate         7043 non-null   object 
 2   EndDate           7043 non-null   object 
 3   Type              7043 non-null   object 
 4   PaperlessBilling  7043 non-null   object 
 5   PaymentMethod     7043 non-null   object 
 6   MonthlyCharges    7043 non-null   float64
 7   TotalCharges      7043 non-null   object 
dtypes: float64(1), object(7)
memory usage: 440.3+ KB

Datos Duplicados:  0


### Internet

In [7]:
df_internet = pd.read_csv(path + 'internet.csv')
df_internet

Unnamed: 0,customerID,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies
0,7590-VHVEG,DSL,No,Yes,No,No,No,No
1,5575-GNVDE,DSL,Yes,No,Yes,No,No,No
2,3668-QPYBK,DSL,Yes,Yes,No,No,No,No
3,7795-CFOCW,DSL,Yes,No,Yes,Yes,No,No
4,9237-HQITU,Fiber optic,No,No,No,No,No,No
...,...,...,...,...,...,...,...,...
5512,6840-RESVB,DSL,Yes,No,Yes,Yes,Yes,Yes
5513,2234-XADUH,Fiber optic,No,Yes,Yes,No,Yes,Yes
5514,4801-JZAZL,DSL,Yes,No,No,No,No,No
5515,8361-LTMKD,Fiber optic,No,No,No,No,No,No


In [8]:
df_internet.info()
print("\nDatos Duplicados: ", df_internet.duplicated().sum())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5517 entries, 0 to 5516
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   customerID        5517 non-null   object
 1   InternetService   5517 non-null   object
 2   OnlineSecurity    5517 non-null   object
 3   OnlineBackup      5517 non-null   object
 4   DeviceProtection  5517 non-null   object
 5   TechSupport       5517 non-null   object
 6   StreamingTV       5517 non-null   object
 7   StreamingMovies   5517 non-null   object
dtypes: object(8)
memory usage: 344.9+ KB

Datos Duplicados:  0


### Personal

In [9]:
df_personal = pd.read_csv(path + 'personal.csv')
df_personal

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents
0,7590-VHVEG,Female,0,Yes,No
1,5575-GNVDE,Male,0,No,No
2,3668-QPYBK,Male,0,No,No
3,7795-CFOCW,Male,0,No,No
4,9237-HQITU,Female,0,No,No
...,...,...,...,...,...
7038,6840-RESVB,Male,0,Yes,Yes
7039,2234-XADUH,Female,0,Yes,Yes
7040,4801-JZAZL,Female,0,Yes,Yes
7041,8361-LTMKD,Male,1,Yes,No


In [10]:
df_personal.info()
print("\nDatos Duplicados: ", df_personal.duplicated().sum())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   customerID     7043 non-null   object
 1   gender         7043 non-null   object
 2   SeniorCitizen  7043 non-null   int64 
 3   Partner        7043 non-null   object
 4   Dependents     7043 non-null   object
dtypes: int64(1), object(4)
memory usage: 275.2+ KB

Datos Duplicados:  0


### Teléfono

In [11]:
df_phone = pd.read_csv(path + 'phone.csv')
df_phone

Unnamed: 0,customerID,MultipleLines
0,5575-GNVDE,No
1,3668-QPYBK,No
2,9237-HQITU,No
3,9305-CDSKC,Yes
4,1452-KIOVK,Yes
...,...,...
6356,2569-WGERO,No
6357,6840-RESVB,Yes
6358,2234-XADUH,Yes
6359,8361-LTMKD,Yes


In [12]:
df_phone.info()
print("\nDatos Duplicados: ", df_phone.duplicated().sum())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6361 entries, 0 to 6360
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   customerID     6361 non-null   object
 1   MultipleLines  6361 non-null   object
dtypes: object(2)
memory usage: 99.5+ KB

Datos Duplicados:  0


### Conclusiones:

Al cargar los datos observamos lo siguiente:

* No se encontraron valores ausentes ni valores duplicados en ninguno de los dataframes.

* Se requiere normalizar/limpiar los nombres de todas las columnas de los dataframes.

* En el dataframe contracts se encuentra que:
    * La columna TotalCharges tiene un tipo de dato str enves de float, podria significar que haya valores en blanco(vacios).
    * La columna BeginDate tiene tipo de dato str enves de datetime.
    * Se requiere codificar las variables categoricas.
* En el dataframe internet se encuentra que:
    * Se requiere codificar las variables categoricas.
* En el dataframe personal se encuentra que:
    * Se requiere codificar las variables categoricas.
* En el dataframe phone se encuentra que:
    * Se requiere codificar la variable categorica.

[Volver a Contenidos](#back)