# Hola &#x1F600;,

Soy **Hesus Garcia** – **"Soy el único Hesus que conoces (y probablemente conocerás) 🌟"** – Sí, como "Jesús", pero con una H que me hace único. Puede sonar raro, pero créeme, ¡no lo olvidarás! Como tu revisor en Triple-Ten, estoy aquí para guiarte y ayudarte a mejorar tu código. Si algo necesita un ajuste, no hay de qué preocuparse; ¡aquí estoy para hacer que tu trabajo brille con todo su potencial! ✨

Cada vez que encuentre un detalle importante en tu código, te lo señalaré para que puedas corregirlo y así te prepares para un ambiente de trabajo real, donde el líder de tu equipo actuaría de manera similar. Si en algún momento no logras solucionar el problema, te daré más detalles para ayudarte en nuestra próxima oportunidad de revisión.

Es importante que cuando encuentres un comentario, **no los muevas, no los modifiques, ni los borres**.

---

### Formato de Comentarios

Revisaré cuidadosamente cada implementación en tu notebook para asegurar que cumpla con los requisitos y te daré comentarios de acuerdo al siguiente formato:


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>
    
<b>Éxito</b> - ¡Excelente trabajo! Esta parte está bien implementada y contribuye significativamente al análisis de datos o al proyecto. Continúa aplicando estas buenas prácticas en futuras secciones.
    
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>
    
<b>Atención</b> ⚠️ - Este código está correcto, pero se puede optimizar. Considera implementar mejoras para que sea más eficiente y fácil de leer. Esto fortalecerá la calidad de tu proyecto.
    
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>
    
<b>A resolver</b> ❗ - Aquí hay un problema o error en el código que es necesario corregir para aprobar esta sección. Por favor, revisa y corrige este punto, ya que es fundamental para la validez del análisis y la precisión de los resultados.
    
</div>

---

Al final de cada revisión, recibirás un **Comentario General del Revisor** que incluirá:

- **Aspectos positivos:** Un resumen de los puntos fuertes de tu proyecto.
- **Áreas de mejora:** Sugerencias sobre aspectos donde puedes mejorar.
- **Temas adicionales para investigar:** Ideas de temas opcionales que puedes explorar por tu cuenta para desarrollar aún más tus habilidades.

Estos temas adicionales no son obligatorios en esta etapa, pero pueden serte útiles para profundizar en el futuro.

---


Esta estructura en viñetas facilita la lectura y comprensión de cada parte del comentario final.

También puedes responderme de la siguiente manera si tienes alguna duda o quieres aclarar algo específico:


<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>
    
Aquí puedes escribir tu respuesta o pregunta sobre el comentario.
    
</div>


**¡Empecemos!** &#x1F680;














# Proyecto Final: Predicción de Tasa de Cancelación para Interconnect

## 1. Plan de Trabajo y Análisis Exploratorio de Datos (EDA)

### 1.1. Introducción y Objetivo

El presente documento constituye la primera fase del proyecto final, enfocado en desarrollar un modelo de aprendizaje automático para predecir la cancelación de clientes (churn) en la empresa de telecomunicaciones Interconnect. El objetivo principal es analizar los datos proporcionados para comprender las características de los clientes que cancelan el servicio y, con base en estos hallazgos, proponer un plan de acción para la construcción de un modelo predictivo robusto.

Este análisis inicial es fundamental, ya que sus resultados definirán la estrategia de preprocesamiento, ingeniería de características y modelado en las fases posteriores del proyecto.

### 1.2. Estructura del Plan

Mi plan de trabajo para esta fase inicial se estructura de la siguiente manera:

1.  **Configuración del Entorno**: Importación de las librerías necesarias para el análisis y la visualización de datos.
2.  **Carga y Revisión Inicial de Datos**: Cargar los cuatro conjuntos de datos (`contract.csv`, `personal.csv`, `internet.csv`, `phone.csv`) y realizar una inspección preliminar para entender su estructura, dimensiones y tipos de datos.
3.  **Fusión y Consolidación de Datos**: Unir los diferentes archivos en un único DataFrame para tener una visión 360° del cliente.
4.  **Preprocesamiento y Limpieza de Datos**:
    - Verificar y corregir los tipos de datos de cada columna.
    - Identificar y tratar valores ausentes.
    - Analizar la consistencia de los datos y buscar posibles anomalías.
5.  **Análisis Exploratorio de Datos (EDA)**:
    - Análisis Univariado: Estudiar la distribución de cada variable de forma individual, con especial atención en la variable objetivo.
    - Análisis Bivariado: Investigar la relación entre cada característica y la variable objetivo para identificar predictores potenciales de la cancelación.
    - Visualización de Datos: Crear gráficos para comunicar los hallazgos de manera efectiva.
6.  **Conclusiones Preliminares y Próximos Pasos**: Resumir los hallazgos clave del EDA y definir las hipótesis iniciales para validar y refinar el plan para la siguiente etapa de modelado.

---

## Paso 1: Configuración del Entorno

Para comenzar, el primer paso es **importar las librerías de Python** que serán la base de nuestro análisis.

Se utilizarán las siguientes herramientas:

- **Pandas** para la manipulación de datos.
- **NumPy** para operaciones numéricas.
- **Matplotlib** y **Seaborn** para la visualización de datos.

Este conjunto de librerías representa el **estándar de la industria** para cualquier proyecto de ciencia de datos.

In [2]:
# Importación de librerías fundamentales para el análisis de datos y visualización

# Pandas: para la manipulación y análisis de datos en estructuras tipo DataFrame
import pandas as pd

# NumPy: para soporte de vectores y matrices, y operaciones matemáticas de alto nivel
import numpy as np

# Matplotlib: para la creación de visualizaciones estáticas, animadas e interactivas
import matplotlib.pyplot as plt

# Seaborn: basada en Matplotlib, proporciona una interfaz de alto nivel para dibujar gráficos estadísticos atractivos e informativos
import seaborn as sns

# Configuración para mejorar la estética de las visualizaciones de Seaborn
sns.set(style='whitegrid')

print("Librerías importadas correctamente.")

Librerías importadas correctamente.


## Paso 2: Carga y Revisión Inicial de Datos

Ahora que el entorno está listo, procederemos a cargar los cuatro archivos CSV que contienen la información de los clientes. Cada archivo representa una faceta del servicio de **Interconnect**.

Una vez cargados, realizaremos una inspección básica para familiarizarnos con su contenido y estructura. Esto incluye:

- Verificar las primeras filas de cada archivo.
- Obtener un resumen técnico de las columnas.


In [3]:
# Definir las rutas de los archivos de datos
# (Asegúrate de que las rutas sean correctas según la estructura de tu proyecto)

path_contract = '/datasets/final_provider/contract.csv'
path_personal = '/datasets/final_provider/personal.csv'
path_internet = '/datasets/final_provider/internet.csv'
path_phone = '/datasets/final_provider/phone.csv'

# Cargar cada archivo en un DataFrame de Pandas
df_contract = pd.read_csv(path_contract)
df_personal = pd.read_csv(path_personal)
df_internet = pd.read_csv(path_internet)
df_phone = pd.read_csv(path_phone)

# Imprimir un mensaje de éxito
print("Archivos cargados correctamente en sus respectivos DataFrames.")
    
# Lista de los dataframes para iterar sobre ellos
dataframes = {
    "Contract": df_contract,
    "Personal": df_personal,
    "Internet": df_internet,
    "Phone": df_phone
}

# Inspección inicial de cada DataFrame
for name, df in dataframes.items():
    print(f"\n--- Información del DataFrame: {name} ---")
    print(f"Dimensiones: {df.shape}")
    print("Primeras 5 filas:")
    display(df.head())
    print("\nResumen técnico (info):")
    df.info()

Archivos cargados correctamente en sus respectivos DataFrames.

--- Información del DataFrame: Contract ---
Dimensiones: (7043, 8)
Primeras 5 filas:


Unnamed: 0,customerID,BeginDate,EndDate,Type,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges
0,7590-VHVEG,2020-01-01,No,Month-to-month,Yes,Electronic check,29.85,29.85
1,5575-GNVDE,2017-04-01,No,One year,No,Mailed check,56.95,1889.5
2,3668-QPYBK,2019-10-01,2019-12-01 00:00:00,Month-to-month,Yes,Mailed check,53.85,108.15
3,7795-CFOCW,2016-05-01,No,One year,No,Bank transfer (automatic),42.3,1840.75
4,9237-HQITU,2019-09-01,2019-11-01 00:00:00,Month-to-month,Yes,Electronic check,70.7,151.65



Resumen técnico (info):
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   BeginDate         7043 non-null   object 
 2   EndDate           7043 non-null   object 
 3   Type              7043 non-null   object 
 4   PaperlessBilling  7043 non-null   object 
 5   PaymentMethod     7043 non-null   object 
 6   MonthlyCharges    7043 non-null   float64
 7   TotalCharges      7043 non-null   object 
dtypes: float64(1), object(7)
memory usage: 440.3+ KB

--- Información del DataFrame: Personal ---
Dimensiones: (7043, 5)
Primeras 5 filas:


Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents
0,7590-VHVEG,Female,0,Yes,No
1,5575-GNVDE,Male,0,No,No
2,3668-QPYBK,Male,0,No,No
3,7795-CFOCW,Male,0,No,No
4,9237-HQITU,Female,0,No,No



Resumen técnico (info):
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   customerID     7043 non-null   object
 1   gender         7043 non-null   object
 2   SeniorCitizen  7043 non-null   int64 
 3   Partner        7043 non-null   object
 4   Dependents     7043 non-null   object
dtypes: int64(1), object(4)
memory usage: 275.2+ KB

--- Información del DataFrame: Internet ---
Dimensiones: (5517, 8)
Primeras 5 filas:


Unnamed: 0,customerID,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies
0,7590-VHVEG,DSL,No,Yes,No,No,No,No
1,5575-GNVDE,DSL,Yes,No,Yes,No,No,No
2,3668-QPYBK,DSL,Yes,Yes,No,No,No,No
3,7795-CFOCW,DSL,Yes,No,Yes,Yes,No,No
4,9237-HQITU,Fiber optic,No,No,No,No,No,No



Resumen técnico (info):
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5517 entries, 0 to 5516
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   customerID        5517 non-null   object
 1   InternetService   5517 non-null   object
 2   OnlineSecurity    5517 non-null   object
 3   OnlineBackup      5517 non-null   object
 4   DeviceProtection  5517 non-null   object
 5   TechSupport       5517 non-null   object
 6   StreamingTV       5517 non-null   object
 7   StreamingMovies   5517 non-null   object
dtypes: object(8)
memory usage: 344.9+ KB

--- Información del DataFrame: Phone ---
Dimensiones: (6361, 2)
Primeras 5 filas:


Unnamed: 0,customerID,MultipleLines
0,5575-GNVDE,No
1,3668-QPYBK,No
2,9237-HQITU,No
3,9305-CDSKC,Yes
4,1452-KIOVK,Yes



Resumen técnico (info):
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6361 entries, 0 to 6360
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   customerID     6361 non-null   object
 1   MultipleLines  6361 non-null   object
dtypes: object(2)
memory usage: 99.5+ KB


## Paso 3: Fusión y Consolidación de Datos

Los datos se encuentran segmentados en cuatro archivos distintos. Para poder realizar un análisis completo, es indispensable unificarlos en un solo **DataFrame**.

Utilizaré la columna `customerID`, que actúa como identificador único del cliente, para fusionar las tablas. Este paso me proporcionará una vista integral de cada cliente, combinando:

- Su información contractual.
- Sus datos personales.
- Los servicios de internet y telefonía que tiene contratados.

In [4]:
# Plan para la fusión de los DataFrames
# 1. Empezar con el DataFrame de contratos como base.
# 2. Unir secuencialmente los DataFrames de datos personales, internet y teléfono.
# 3. Utilizar un 'merge' de tipo 'outer' para asegurar que no perdemos clientes en el proceso,
#    en caso de que algún cliente no esté en todas las tablas.
# 4. Verificar las dimensiones del DataFrame final para asegurarse de que la fusión fue exitosa.

# (Aquí se ejecutaré el código de fusión en la fase de implementación)
# df_full = df_contract.merge(df_personal, on='customerID', how='outer')
# df_full = df_full.merge(df_internet, on='customerID', how='outer')
# df_full = df_full.merge(df_phone, on='customerID', how='outer')

# print("DataFrames fusionados. Dimensiones del DataFrame final:")
# print(df_full.shape)
# df_full.info()

## Paso 4: Plan de Preprocesamiento y Limpieza de Datos

Tras una inspección inicial y la futura fusión de los datos, he identificado varias áreas que requerirán atención antes del análisis. A continuación, detallo el plan de limpieza y preprocesamiento.

> **Importante:** En esta fase **solo describo el plan**; la ejecución se realizará en la siguiente etapa del proyecto.

### Corrección de Tipos de Datos

- La columna `TotalCharges` (cargos totales) se observa como de tipo `object` (texto), pero representa un valor numérico.
- **Plan:** Se convertirá `TotalCharges` a formato numérico.  
  Se investigarán los valores que no puedan convertirse (posiblemente espacios en blanco de clientes nuevos) y se tratarán como valores nulos.

### Tratamiento de Valores Ausentes (Nulos)

- La inspección inicial sugiere la presencia de valores nulos en algunas columnas, especialmente después de la fusión (por ejemplo, clientes que no tienen servicio de internet).
- **Plan:**
  - Realizar un conteo exhaustivo de valores nulos por columna en el DataFrame unificado.
  - Para columnas de servicios como `OnlineSecurity`, `TechSupport`, etc., los valores nulos probablemente significan que el cliente **no tiene contratado el servicio de internet**. Se evaluará rellenarlos con la cadena `'No Internet Service'`.
  - Para los nulos en `TotalCharges` (si los hubiera tras la conversión), se analizará su correspondencia con la antigüedad del cliente (`tenure`).  
    Si el cliente tiene `tenure` igual a 0, se imputará el valor con 0.

### Creación de la Variable Objetivo

- El objetivo del proyecto es predecir la **cancelación de clientes (Churn)**. Esta información está contenida en la columna `EndDate`.
- **Plan:** Se creará una nueva columna binaria llamada `Churn`, asignando:
  - `1` si la columna `EndDate` contiene una fecha (cliente cancelado).
  - `0` si contiene el valor `'No'` (cliente activo).
  
  Esta será nuestra **variable objetivo** para el modelo.

### Análisis de Duplicados

- Es necesario garantizar que **cada fila represente un único cliente**.
- **Plan:** Se verificará la existencia de `customerID` duplicados en el DataFrame final.  
  En caso de encontrarlos, se investigará la causa y se procederá a eliminarlos.


## Paso 5: Plan de Análisis Exploratorio de Datos (EDA)

Con los datos limpios y estructurados, el siguiente paso será explorarlos para extraer conocimiento. El objetivo es entender los **patrones de comportamiento** de los clientes que cancelan el servicio frente a los que no.

### Análisis de la Variable Objetivo

- **Plan:** Se analizará la distribución de la variable `Churn` para determinar el **balance de clases**.  
  Un desbalance significativo podría requerir técnicas especiales durante el modelado.

### Análisis Univariado

- **Plan:** Se estudiará cada variable de forma individual.

#### Variables Numéricas (`tenure`, `MonthlyCharges`, `TotalCharges`)
- Se generarán **histogramas** y **diagramas de caja** (boxplots) para entender su:
  - Distribución.
  - Tendencia central.
  - Dispersión.

#### Variables Categóricas (`gender`, `Contract`, `PaymentMethod`, `InternetService`, etc.)
- Se utilizarán **gráficos de barras** para visualizar la frecuencia de cada categoría.

### Análisis Bivariado

- **Plan:** Se investigará la relación entre cada característica y la variable objetivo `Churn`.

#### Categóricas vs. Churn
- Se crearán **gráficos de barras agrupados** para comparar la tasa de cancelación para cada categoría  
  (ej.: tasa de churn por tipo de contrato).

#### Numéricas vs. Churn
- Se utilizarán **boxplots** o **histogramas segmentados por Churn** para identificar posibles diferencias significativas en las distribuciones  
  (ej.: ¿los clientes que cancelan tienen cargos mensuales más altos?).


## Paso 6: Conclusiones Preliminares y Próximos Pasos

Esta fase inicial de **planificación y exploración** es la base de todo el proyecto.

### Conclusiones y Hallazgos Esperados

Se espera identificar las **características más influyentes** en la decisión de un cliente de cancelar el servicio.  
Hipótesis iniciales sugieren que los siguientes factores podrían ser predictores clave:

- Tipo de contrato (mensual vs. anual).
- Antigüedad del cliente (`tenure`).
- Contratación de servicios de soporte como `TechSupport` y `OnlineSecurity`.

### Próximos Pasos en el Proyecto

- **Ejecución del Preprocesamiento:**  
  Implementar todos los pasos de limpieza descritos en el **Paso 4**.

- **Ingeniería de Características:**  
  Convertir las variables categóricas a formato numérico utilizable por los modelos  
  (por ejemplo, usando **One-Hot Encoding**).

- **Entrenamiento y Selección de Modelos:**  
  - Dividir los datos en conjuntos de entrenamiento y prueba.
  - Entrenar varios modelos de clasificación (ej.: Regresión Logística, Random Forest, Gradient Boosting).
  - Evaluar el rendimiento usando la métrica **AUC-ROC**.

- **Ajuste de Hiperparámetros:**  
  Optimizar el modelo con mejor desempeño para maximizar su rendimiento.

- **Informe Final:**  
  Presentar el modelo final, sus métricas de rendimiento y las **conclusiones de negocio** sobre los factores que impulsan la cancelación de clientes.


# Comentario General del Revisor

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Este es uno de los mejores planes de trabajo que he revisado. El nivel de detalle, claridad en los pasos y profundidad en el análisis preliminar demuestra una comprensión madura del flujo de un proyecto de ciencia de datos. La estructura lógica, desde la carga de datos hasta el diseño del EDA y la anticipación de técnicas de modelado, refleja buenas prácticas profesionales.

<h4>Puntos destacados:</h4>
<ul>
  <li><b>Contextualización clara del problema:</b> Excelente introducción que define con precisión el objetivo del modelo de churn.</li>
  <li><b>Estrategia bien fundamentada:</b> La fusión de los datasets y el plan de limpieza anticipan de forma correcta los retos comunes en proyectos reales.</li>
  <li><b>Enfoque metodológico:</b> El plan de análisis univariado y bivariado está diseñado para extraer información relevante de los datos antes del modelado.</li>
  <li><b>Visión integral:</b> El diseño del plan de ingeniería de características, codificación, modelado y validación está muy bien fundamentado.</li>
</ul>

<h4>Recomendación para seguir avanzando:</h4>
Te recomiendo explorar técnicas de <b>selección de características</b> como <code>SHAP</code>, <code>Boruta</code> o <code>Recursive Feature Elimination (RFE)</code>. Además, sería interesante considerar estrategias de representación como <b>embedding</b> y <b>wrapping</b> para variables categóricas en lugar del tradicional one-hot encoding, especialmente en modelos complejos como redes neuronales o XGBoost.

Has construido un plan que no solo cumple con los requisitos, sino que establece una base sólida para el éxito del proyecto final. Excelente trabajo.

</div>
