# Proyecto Final DS_Telecom

## Introducción

Se nos ha asignado el cliente Interconnect. El objetivo principal de este proyecto es desarrollar un modelo capaz de predecir la tasa de cancelación de sus clientes. No obstante, para alcanzar este objetivo, es necesario llevar a cabo una serie de tareas clave.


Como primer instancia y para conocer la estructura y características generales del conjunto de datos, se realizará un análisis exploratorio preliminar mediante funciones como .info(), .head() y .describe()

Con base en esta observación inicial, se plantean algunas preguntas clave que deberán resolverse durante el desarrollo, así como un plan de trabajo que servirá como guía para alcanzar el objetivo del proyecto.

## Exploración de datos

In [4]:
#Cargamos las bases de datos proporcionadas para el proyecto.
df_contract = pd.read_csv('/datasets/final_provider/contract.csv')
df_personal = pd.read_csv('/datasets/final_provider/personal.csv')
df_internet = pd.read_csv('/datasets/final_provider/internet.csv')
df_phone = pd.read_csv('/datasets/final_provider/phone.csv')

In [11]:
import pandas as pd

def first_analysis(df, name="DataFrame"):
    print(f"\n Análisis inicial del {name}")
    print("-" * 40)
    
    print("\n Visualización general de la información del dataset .info():")
    print("-" * 20)
    df.info()
    
    print("\n.describe():")
    print("-" * 20)
    print(df.describe(include='all', datetime_is_numeric=True))
    
    print("\n .head():")
    print("-" * 20)
    print(df.head())

In [12]:
first_analysis(df_contract, "Dataset Contratos")


 Análisis inicial del Dataset Contratos
----------------------------------------

 Visualización general de la información del dataset .info():
--------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   BeginDate         7043 non-null   object 
 2   EndDate           7043 non-null   object 
 3   Type              7043 non-null   object 
 4   PaperlessBilling  7043 non-null   object 
 5   PaymentMethod     7043 non-null   object 
 6   MonthlyCharges    7043 non-null   float64
 7   TotalCharges      7043 non-null   object 
dtypes: float64(1), object(7)
memory usage: 440.3+ KB

.describe():
--------------------
        customerID   BeginDate EndDate            Type PaperlessBilling  \
count         7043        7043    7043            7043             7043   
unique        7043 

In [14]:
first_analysis(df_personal, "Dataset de Información Personal de los clientes")


 Análisis inicial del Dataset de Información Personal de los clientes
----------------------------------------

 Visualización general de la información del dataset .info():
--------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   customerID     7043 non-null   object
 1   gender         7043 non-null   object
 2   SeniorCitizen  7043 non-null   int64 
 3   Partner        7043 non-null   object
 4   Dependents     7043 non-null   object
dtypes: int64(1), object(4)
memory usage: 275.2+ KB

.describe():
--------------------
        customerID gender  SeniorCitizen Partner Dependents
count         7043   7043    7043.000000    7043       7043
unique        7043      2            NaN       2          2
top     8734-DKSTZ   Male            NaN      No         No
freq             1   3555            NaN    3641       4933
mean      

In [15]:
first_analysis(df_internet, "Dataset de planes de internet")


 Análisis inicial del Dataset de planes de internet
----------------------------------------

 Visualización general de la información del dataset .info():
--------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5517 entries, 0 to 5516
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   customerID        5517 non-null   object
 1   InternetService   5517 non-null   object
 2   OnlineSecurity    5517 non-null   object
 3   OnlineBackup      5517 non-null   object
 4   DeviceProtection  5517 non-null   object
 5   TechSupport       5517 non-null   object
 6   StreamingTV       5517 non-null   object
 7   StreamingMovies   5517 non-null   object
dtypes: object(8)
memory usage: 344.9+ KB

.describe():
--------------------
        customerID InternetService OnlineSecurity OnlineBackup  \
count         5517            5517           5517         5517   
unique        5517               2             

In [16]:
first_analysis(df_phone, "Dataset de planes de telefono")


 Análisis inicial del Dataset de planes de telefono
----------------------------------------

 Visualización general de la información del dataset .info():
--------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6361 entries, 0 to 6360
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   customerID     6361 non-null   object
 1   MultipleLines  6361 non-null   object
dtypes: object(2)
memory usage: 99.5+ KB

.describe():
--------------------
        customerID MultipleLines
count         6361          6361
unique        6361             2
top     8734-DKSTZ            No
freq             1          3390

 .head():
--------------------
   customerID MultipleLines
0  5575-GNVDE            No
1  3668-QPYBK            No
2  9237-HQITU            No
3  9305-CDSKC           Yes
4  1452-KIOVK           Yes


## Preguntas aclaratorias

De acuerdo con las observaciones iniciales y considerando el objetivo del proyecto, se plantean las siguientes preguntas clave para orientar el desarrollo:

¿Contamos con libertad para imputar los valores nulos o faltantes, o existe alguna política establecida al respecto?

¿Se requiere aplicar algún tratamiento específico a las características (por ejemplo, codificación, escalado, transformación)?

¿Es necesario realizar un análisis del equilibrio de clases antes de entrenar los modelos?

¿Se espera que se analicen más de tres modelos, o existe un límite/recomendación sobre la cantidad a evaluar?

Aunque se ha establecido AUC-ROC como métrica prioritaria, ¿existe un umbral de desempeño mínimo considerado aceptable para el modelo?

## Plan de trabajo

A continuación, se presenta un plan general para abordar la tarea de modelado de cancelación de clientes para el cliente *Interconnect*. Este incluye las etapas clave del desarrollo, junto con una breve descripción de cada una:

1. **Introducción**  
   Se describirá brevemente el objetivo del proyecto, el tipo de problema (clasificación binaria) y la tarea de negocio: predecir si un cliente cancelará su servicio, a partir de variables contractuales, de servicio y de facturación.

2. **Análisis exploratorio de datos (EDA)**  
   Se realizará la carga de los cuatro conjuntos de datos proporcionados y se examinarán sus estructuras para entender sus características generales.  
   Posteriormente, se identificarán valores nulos o inconsistencias y se analizará la distribución de la variable objetivo (`EndDate`) para confirmar el desbalance de clases.  
   En esta etapa también se limpiarán y corregirán los datos según los hallazgos y se generará un *data master* integrando los distintos conjuntos.

3. **Preprocesamiento de datos**  
   Se transformarán las variables categóricas usando codificación (como One-Hot Encoding) y se escalarán las variables numéricas según sea necesario.  
   Además, se verificará y documentará el equilibrio entre clases. Finalmente, se dividirá el conjunto de datos en entrenamiento, validación y prueba.

4. **Entrenamiento y evaluación de modelos**  
   Se entrenarán diferentes modelos de clasificación.
   Se realizará ajuste de hiperparámetros en los modelos seleccionados. Todos los modelos se evaluarán utilizando las métricas AUC-ROC (prioritaria), F1-score y exactitud, tanto en validación como en prueba.

5. **Selección del mejor modelo y conclusiones**  
   Se seleccionará el modelo con mayor rendimiento en AUC-ROC. Se verificará que este resultado sea consistente con otras métricas clave. Finalmente, se redactará una conclusión basada en los hallazgos del análisis y el comportamiento de los modelos entrenados.
