# Plan de trabajo

El objetivo de este proyecto es predecir la tasa de cancelación de clientes (Churn) de la empresa de telecomunicaciones Interconnect. Utilizando información de contratos, datos personales, servicios de internet y teléfono, construiremos un modelo de aprendizaje automático que permitirá identificar clientes propensos a cancelar su servicio. Esto ayudará a la empresa a retener clientes mediante ofertas personalizadas.

Como primer paso, realizaremos un análisis exploratorio de datos (EDA) para entender mejor el contenido y la calidad de los datos, identificar posibles problemas, y guiar la construcción del modelo. Posteriormente, definiremos preguntas aclaratorias y un plan aproximado para resolver la tarea.

In [4]:
import pandas as pd

In [5]:
contract = pd.read_csv('/datasets/final_provider/contract.csv')
personal = pd.read_csv('/datasets/final_provider/personal.csv')
internet = pd.read_csv('/datasets/final_provider/internet.csv')
phone = pd.read_csv('/datasets/final_provider/phone.csv')

In [10]:
print("Primeras filas de 'contract':")
print(contract.head(), "\n")

Primeras filas de 'contract':
   customerID   BeginDate              EndDate            Type  \
0  7590-VHVEG  2020-01-01                   No  Month-to-month   
1  5575-GNVDE  2017-04-01                   No        One year   
2  3668-QPYBK  2019-10-01  2019-12-01 00:00:00  Month-to-month   
3  7795-CFOCW  2016-05-01                   No        One year   
4  9237-HQITU  2019-09-01  2019-11-01 00:00:00  Month-to-month   

  PaperlessBilling              PaymentMethod  MonthlyCharges TotalCharges  
0              Yes           Electronic check           29.85        29.85  
1               No               Mailed check           56.95       1889.5  
2              Yes               Mailed check           53.85       108.15  
3               No  Bank transfer (automatic)           42.30      1840.75  
4              Yes           Electronic check           70.70       151.65   



In [7]:
print("Primeras filas de 'personal':")
print(personal.head(), "\n")

Primeras filas de 'personal':
   customerID  gender  SeniorCitizen Partner Dependents
0  7590-VHVEG  Female              0     Yes         No
1  5575-GNVDE    Male              0      No         No
2  3668-QPYBK    Male              0      No         No
3  7795-CFOCW    Male              0      No         No
4  9237-HQITU  Female              0      No         No 



In [8]:
print("Primeras filas de 'internet':")
print(internet.head(), "\n")

Primeras filas de 'internet':
   customerID InternetService OnlineSecurity OnlineBackup DeviceProtection  \
0  7590-VHVEG             DSL             No          Yes               No   
1  5575-GNVDE             DSL            Yes           No              Yes   
2  3668-QPYBK             DSL            Yes          Yes               No   
3  7795-CFOCW             DSL            Yes           No              Yes   
4  9237-HQITU     Fiber optic             No           No               No   

  TechSupport StreamingTV StreamingMovies  
0          No          No              No  
1          No          No              No  
2          No          No              No  
3         Yes          No              No  
4          No          No              No   



In [9]:
print("Primeras filas de 'phone':")
print(phone.head(), "\n")

Primeras filas de 'phone':
   customerID MultipleLines
0  5575-GNVDE            No
1  3668-QPYBK            No
2  9237-HQITU            No
3  9305-CDSKC           Yes
4  1452-KIOVK           Yes 



In [11]:
print("Información de 'contract':")
print(contract.info(), "\n")
print(contract.describe(include='all'), "\n")

Información de 'contract':
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   BeginDate         7043 non-null   object 
 2   EndDate           7043 non-null   object 
 3   Type              7043 non-null   object 
 4   PaperlessBilling  7043 non-null   object 
 5   PaymentMethod     7043 non-null   object 
 6   MonthlyCharges    7043 non-null   float64
 7   TotalCharges      7043 non-null   object 
dtypes: float64(1), object(7)
memory usage: 440.3+ KB
None 

        customerID   BeginDate EndDate            Type PaperlessBilling  \
count         7043        7043    7043            7043             7043   
unique        7043          77       5               3                2   
top     6432-TWQLB  2014-02-01      No  Month-to-month              Yes   
freq             1         366    51

In [12]:
print("Información de 'personal':")
print(personal.info(), "\n")
print(personal.describe(include='all'), "\n")

Información de 'personal':
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   customerID     7043 non-null   object
 1   gender         7043 non-null   object
 2   SeniorCitizen  7043 non-null   int64 
 3   Partner        7043 non-null   object
 4   Dependents     7043 non-null   object
dtypes: int64(1), object(4)
memory usage: 275.2+ KB
None 

        customerID gender  SeniorCitizen Partner Dependents
count         7043   7043    7043.000000    7043       7043
unique        7043      2            NaN       2          2
top     6432-TWQLB   Male            NaN      No         No
freq             1   3555            NaN    3641       4933
mean           NaN    NaN       0.162147     NaN        NaN
std            NaN    NaN       0.368612     NaN        NaN
min            NaN    NaN       0.000000     NaN        NaN
25%            NaN    NaN  

In [13]:
print("Información de 'internet':")
print(internet.info(), "\n")
print(internet.describe(include='all'), "\n")

Información de 'internet':
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5517 entries, 0 to 5516
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   customerID        5517 non-null   object
 1   InternetService   5517 non-null   object
 2   OnlineSecurity    5517 non-null   object
 3   OnlineBackup      5517 non-null   object
 4   DeviceProtection  5517 non-null   object
 5   TechSupport       5517 non-null   object
 6   StreamingTV       5517 non-null   object
 7   StreamingMovies   5517 non-null   object
dtypes: object(8)
memory usage: 344.9+ KB
None 

        customerID InternetService OnlineSecurity OnlineBackup  \
count         5517            5517           5517         5517   
unique        5517               2              2            2   
top     7180-PISOG     Fiber optic             No           No   
freq             1            3096           3498         3088   

       DeviceProtection Tec

In [14]:
print("Información de 'phone':")
print(phone.info(), "\n")
print(phone.describe(include='all'), "\n")

Información de 'phone':
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6361 entries, 0 to 6360
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   customerID     6361 non-null   object
 1   MultipleLines  6361 non-null   object
dtypes: object(2)
memory usage: 99.5+ KB
None 

        customerID MultipleLines
count         6361          6361
unique        6361             2
top     6432-TWQLB            No
freq             1          3390 



In [15]:
print("Valores nulos en 'contract':")
print(contract.isnull().sum(), "\n")

Valores nulos en 'contract':
customerID          0
BeginDate           0
EndDate             0
Type                0
PaperlessBilling    0
PaymentMethod       0
MonthlyCharges      0
TotalCharges        0
dtype: int64 



In [16]:
print("Valores nulos en 'personal':")
print(personal.isnull().sum(), "\n")

Valores nulos en 'personal':
customerID       0
gender           0
SeniorCitizen    0
Partner          0
Dependents       0
dtype: int64 



In [17]:
print("Valores nulos en 'internet':")
print(internet.isnull().sum(), "\n")

Valores nulos en 'internet':
customerID          0
InternetService     0
OnlineSecurity      0
OnlineBackup        0
DeviceProtection    0
TechSupport         0
StreamingTV         0
StreamingMovies     0
dtype: int64 



In [18]:
print("Valores nulos en 'phone':")
print(phone.isnull().sum(), "\n")

Valores nulos en 'phone':
customerID       0
MultipleLines    0
dtype: int64 



### **Lista de preguntas aclaratorias**

1. **Sobre los clientes sin datos en ciertas tablas:**
   - En las tablas `internet` y `phone`, hay menos filas que en las tablas `contract` y `personal`. ¿Es seguro asumir que algunos clientes no utilizan estos servicios?
   - ¿Qué deberíamos hacer con los clientes que no tienen datos en `internet` o `phone`? ¿Deberían eliminarse ?

2. **Sobre los valores categóricos:**
   - Las columnas como `PaymentMethod`, `InternetService` y `MultipleLines` tienen valores categóricos. ¿Deberíamos codificarlos como variables dummies antes del entrenamiento del modelo?
   - ¿Existen valores desconocidos o inconsistentes en estas columnas que deban ser verificados manualmente?

3. **Sobre las métricas del cliente:**
   - ¿Cómo debemos manejar los clientes que tienen contratos de corta duración pero cargos elevados? ¿Son anomalías o datos válidos?
   - ¿Hay clientes con múltiples contratos (`customerID` duplicados)? Si es así, ¿cómo deberíamos manejarlos?


### **Plan aproximado para resolver la tarea**

1. **Análisis exploratorio de datos (EDA):**  
   - Revisar las distribuciones de las variables numéricas como `MonthlyCharges` y `TotalCharges` para identificar valores atípicos.  
   - Verificar los valores únicos en las columnas categóricas como `PaymentMethod`, `InternetService`, y `MultipleLines` para garantizar la consistencia.  
   - Analizar las relaciones entre las variables y la característica objetivo (`EndDate`) para identificar patrones útiles.

2. **Preparación de datos:**  
   - Codificar las columnas categóricas en formato numérico (dummies o label encoding) para facilitar el entrenamiento del modelo.  
   - Crear nuevas características, como una columna binaria que indique si un cliente tiene servicio de internet o teléfono.  
   - Manejar valores atípicos eliminándolos o imputándolos, según corresponda.  
   - Imputar los valores nulos de `TotalCharges` basándonos en patrones en los datos, como el promedio de los cargos mensuales por cliente.

3. **División y preprocesamiento de los datos:**  
   - Combinar las tablas `contract`, `personal`, `internet`, y `phone` utilizando la columna `customerID`.  
   - Dividir los datos en conjuntos de entrenamiento y prueba, manteniendo la proporción original de clientes activos y cancelados.  
   - Escalar las variables numéricas para mejorar el rendimiento del modelo.

4. **Entrenamiento del modelo:**  
   - Entrenar varios modelos de clasificación (e.g., árbol de decisión, bosque aleatorio, regresión logística) para predecir la tasa de cancelación (`EndDate`).  
   - Evaluar el rendimiento de los modelos utilizando AUC-ROC como métrica principal y exactitud como métrica adicional.  
   - Ajustar los hiperparámetros del modelo seleccionado para maximizar su desempeño.

5. **Evaluación final y conclusiones:**  
   - Analizar el rendimiento del modelo final en el conjunto de prueba y reportar las métricas clave.  
   - Identificar los factores principales que contribuyen a la cancelación de contratos mediante la importancia de características.  
   - Proporcionar recomendaciones a la empresa para abordar la retención de clientes con base en los resultados obtenidos.

Este plan nos permitirá abordar de manera estructurada el objetivo del proyecto y cumplir con los criterios de evaluación establecidos.
