# Hola &#x1F600;,

Soy **Hesus Garcia** – **"Soy el único Hesus que conoces (y probablemente conocerás) 🌟"** – Sí, como "Jesús", pero con una H que me hace único. Puede sonar raro, pero créeme, ¡no lo olvidarás! Como tu revisor en Triple-Ten, estoy aquí para guiarte y ayudarte a mejorar tu código. Si algo necesita un ajuste, no hay de qué preocuparse; ¡aquí estoy para hacer que tu trabajo brille con todo su potencial! ✨

Cada vez que encuentre un detalle importante en tu código, te lo señalaré para que puedas corregirlo y así te prepares para un ambiente de trabajo real, donde el líder de tu equipo actuaría de manera similar. Si en algún momento no logras solucionar el problema, te daré más detalles para ayudarte en nuestra próxima oportunidad de revisión.

Es importante que cuando encuentres un comentario, **no los muevas, no los modifiques, ni los borres**.

---

### Formato de Comentarios

Revisaré cuidadosamente cada implementación en tu notebook para asegurar que cumpla con los requisitos y te daré comentarios de acuerdo al siguiente formato:


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>
    
<b>Éxito</b> - ¡Excelente trabajo! Esta parte está bien implementada y contribuye significativamente al análisis de datos o al proyecto. Continúa aplicando estas buenas prácticas en futuras secciones.
    
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>
    
<b>Atención</b> ⚠️ - Este código está correcto, pero se puede optimizar. Considera implementar mejoras para que sea más eficiente y fácil de leer. Esto fortalecerá la calidad de tu proyecto.
    
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>
    
<b>A resolver</b> ❗ - Aquí hay un problema o error en el código que es necesario corregir para aprobar esta sección. Por favor, revisa y corrige este punto, ya que es fundamental para la validez del análisis y la precisión de los resultados.
    
</div>

---

Al final de cada revisión, recibirás un **Comentario General del Revisor** que incluirá:

- **Aspectos positivos:** Un resumen de los puntos fuertes de tu proyecto.
- **Áreas de mejora:** Sugerencias sobre aspectos donde puedes mejorar.
- **Temas adicionales para investigar:** Ideas de temas opcionales que puedes explorar por tu cuenta para desarrollar aún más tus habilidades.

Estos temas adicionales no son obligatorios en esta etapa, pero pueden serte útiles para profundizar en el futuro.

---


Esta estructura en viñetas facilita la lectura y comprensión de cada parte del comentario final.

También puedes responderme de la siguiente manera si tienes alguna duda o quieres aclarar algo específico:


<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>
    
Aquí puedes escribir tu respuesta o pregunta sobre el comentario.
    
</div>


**¡Empecemos!** &#x1F680;














# Telecom (Analisis de Churn)

## Descripcion del problema

Al operador de telecomunicaciones Interconnect le gustaría poder pronosticar su tasa de cancelación de clientes. 
Si se descubre que un usuario o usuaria planea irse, se le ofrecerán códigos promocionales y opciones de planes especiales. El equipo de marketing de Interconnect ha recopilado algunos de los datos personales de sus clientes, incluyendo información sobre sus planes y contratos.

### Servicios de Interconnect

Interconnect proporciona principalmente dos tipos de servicios:

1. Comunicación por teléfono fijo. El teléfono se puede conectar a varias líneas de manera simultánea.
2. Internet. La red se puede configurar a través de una línea telefónica (DSL, *línea de abonado digital*) o a través de un cable de fibra óptica.

Algunos otros servicios que ofrece la empresa incluyen:

- Seguridad en Internet: software antivirus (*ProtecciónDeDispositivo*) y un bloqueador de sitios web maliciosos (*SeguridadEnLínea*).
- Una línea de soporte técnico (*SoporteTécnico*).
- Almacenamiento de archivos en la nube y backup de datos (*BackupOnline*).
- Streaming de TV (*StreamingTV*) y directorio de películas (*StreamingPelículas*)

La clientela puede elegir entre un pago mensual o firmar un contrato de 1 o 2 años. Puede utilizar varios métodos de pago y recibir una factura electrónica después de una transacción.

### Descripción de los datos

Los datos consisten en archivos obtenidos de diferentes fuentes:

- `contract.csv` — información del contrato;
- `personal.csv` — datos personales del cliente;
- `internet.csv` — información sobre los servicios de Internet;
- `phone.csv` — información sobre los servicios telefónicos.

En cada archivo, la columna `customerID` (ID de cliente) contiene un código único asignado a cada cliente. La información del contrato es válida a partir del 1 de febrero de 2020.

## Inicializacion

In [2]:
import pandas as pd

## Funciones

In [1]:
"""
 Analiza si el customerID se encuentra mas de una vez en el data set lo que implicaría que es una relacion 1:n
"""
def analizaDatosLlave(df):
    customer_counts = df['customerID'].value_counts()
    duplicate_ids = customer_counts[customer_counts > 1].index.tolist()
    
    print("customerIDs que aparecen más de una vez:", duplicate_ids)
    print("-" * 30)

## Carga de datos

In [3]:
df_contract = pd.read_csv("/datasets/final_provider/contract.csv")
df_personal = pd.read_csv("/datasets/final_provider/personal.csv")
df_internet = pd.read_csv("/datasets/final_provider/internet.csv")
df_phone = pd.read_csv("/datasets/final_provider/phone.csv")

## Analisis Exploratorio de Datos (EDA)

### Contracts (dataset)

In [11]:
df_contract.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   BeginDate         7043 non-null   object 
 2   EndDate           7043 non-null   object 
 3   Type              7043 non-null   object 
 4   PaperlessBilling  7043 non-null   object 
 5   PaymentMethod     7043 non-null   object 
 6   MonthlyCharges    7043 non-null   float64
 7   TotalCharges      7043 non-null   object 
dtypes: float64(1), object(7)
memory usage: 440.3+ KB


In [12]:
df_contract.sample(15)

Unnamed: 0,customerID,BeginDate,EndDate,Type,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges
1569,0799-DDIHE,2018-11-01,No,Month-to-month,No,Electronic check,46.3,639.45
5678,4797-AXPXK,2019-12-01,2020-01-01 00:00:00,Month-to-month,Yes,Electronic check,60.0,60.0
2359,2616-UUTFK,2017-05-01,No,Month-to-month,Yes,Bank transfer (automatic),72.75,2447.45
2309,5414-OFQCB,2015-05-01,No,Two year,Yes,Credit card (automatic),90.45,5229.8
949,6169-PPETC,2017-03-01,No,Two year,No,Bank transfer (automatic),20.5,759.35
1171,6270-OMFIW,2014-12-01,2019-12-01 00:00:00,One year,Yes,Electronic check,94.4,5610.25
883,3199-NPKCN,2014-07-01,No,One year,Yes,Electronic check,111.25,7511.65
910,1907-UBQFC,2018-12-01,2019-10-01 00:00:00,Month-to-month,Yes,Electronic check,72.85,688.65
1741,0106-GHRQR,2018-10-01,No,Month-to-month,Yes,Bank transfer (automatic),71.4,1212.1
3897,8015-IHCGW,2014-02-01,No,Two year,Yes,Electronic check,115.5,8425.15


In [17]:
df_contract.drop_duplicates().info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 7043 entries, 0 to 7042
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   BeginDate         7043 non-null   object 
 2   EndDate           7043 non-null   object 
 3   Type              7043 non-null   object 
 4   PaperlessBilling  7043 non-null   object 
 5   PaymentMethod     7043 non-null   object 
 6   MonthlyCharges    7043 non-null   float64
 7   TotalCharges      7043 non-null   object 
dtypes: float64(1), object(7)
memory usage: 495.2+ KB


In [16]:
df_contract.describe()

Unnamed: 0,MonthlyCharges
count,7043.0
mean,64.761692
std,30.090047
min,18.25
25%,35.5
50%,70.35
75%,89.85
max,118.75


### Personal (dataset)

In [18]:
df_personal.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   customerID     7043 non-null   object
 1   gender         7043 non-null   object
 2   SeniorCitizen  7043 non-null   int64 
 3   Partner        7043 non-null   object
 4   Dependents     7043 non-null   object
dtypes: int64(1), object(4)
memory usage: 275.2+ KB


In [19]:
df_personal.sample(10)

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents
1957,5619-PTMIK,Female,0,Yes,No
1203,9087-EYCPR,Female,0,No,No
5082,8779-YIQQA,Male,0,Yes,Yes
1423,0680-DFNNY,Male,0,Yes,No
5810,9102-IAYHT,Female,0,Yes,Yes
1226,7115-IRDHS,Female,0,Yes,No
3479,8229-TNIQA,Female,0,No,No
6169,4847-QNOKA,Female,0,No,No
943,6115-ZTBFQ,Female,0,Yes,No
2884,5248-RPYWW,Female,1,Yes,Yes


In [20]:
df_personal.drop_duplicates().info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 7043 entries, 0 to 7042
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   customerID     7043 non-null   object
 1   gender         7043 non-null   object
 2   SeniorCitizen  7043 non-null   int64 
 3   Partner        7043 non-null   object
 4   Dependents     7043 non-null   object
dtypes: int64(1), object(4)
memory usage: 330.1+ KB


In [4]:
analizaDatosLlave(df_personal)

customerIDs que aparecen más de una vez: []
------------------------------


### Internet (dataset)

In [48]:
df_internet.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5517 entries, 0 to 5516
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   customerID        5517 non-null   object
 1   InternetService   5517 non-null   object
 2   OnlineSecurity    5517 non-null   object
 3   OnlineBackup      5517 non-null   object
 4   DeviceProtection  5517 non-null   object
 5   TechSupport       5517 non-null   object
 6   StreamingTV       5517 non-null   object
 7   StreamingMovies   5517 non-null   object
dtypes: object(8)
memory usage: 344.9+ KB


In [49]:
df_internet.sample(10)

Unnamed: 0,customerID,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies
612,5175-WLYXL,Fiber optic,No,Yes,No,No,No,No
3870,3217-FZDMN,Fiber optic,No,No,Yes,No,Yes,Yes
890,6900-RBKER,Fiber optic,No,No,Yes,No,No,Yes
2020,8216-AZUUZ,Fiber optic,No,No,Yes,Yes,Yes,Yes
926,0135-NMXAP,Fiber optic,No,Yes,No,No,Yes,No
4697,0020-JDNXP,DSL,Yes,No,Yes,Yes,Yes,Yes
3301,6480-YAGIY,Fiber optic,Yes,Yes,Yes,Yes,Yes,Yes
2076,8250-ZNGGW,DSL,Yes,Yes,No,Yes,No,No
3070,7716-YTYHG,Fiber optic,No,No,No,No,No,Yes
809,3863-IUBJR,DSL,No,No,No,No,No,Yes


In [5]:
analizaDatosLlave(df_internet)

customerIDs que aparecen más de una vez: []
------------------------------


### Phone (dataset)

In [7]:
df_phone.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6361 entries, 0 to 6360
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   customerID     6361 non-null   object
 1   MultipleLines  6361 non-null   object
dtypes: object(2)
memory usage: 99.5+ KB


In [8]:
df_phone.sample(10)

Unnamed: 0,customerID,MultipleLines
4914,3563-SVYLG,No
5377,8035-PWSEV,No
5018,8174-LNWMW,No
6155,1116-DXXDF,No
3747,3724-UCSHY,No
3687,1629-DQQVB,No
4206,0929-PECLO,Yes
1690,3669-OYSJI,No
2191,8231-BSWXX,Yes
4016,8652-YHIYU,Yes


In [6]:
analizaDatosLlave(df_phone)

customerIDs que aparecen más de una vez: []
------------------------------


## Entendiendo los datos y el problema

En cuanto al problema, se entiende que a partir de los datos muestra se busca anticiparse a que un cliente cancele. Algunos asumptions a aclarar con el equipo:
- Se manejará como variable objetivo la variable enddate del dataset contract
- En caso de que esta tenga un valor indica que el cliente ya ha cancelado.
- El objetivo seria poder estimar la cancelacion de los clientes para poder cambiar su situacion y poder retenerlo.

Algunos comentarios a partir del EDA ya que es necesario realizar un preprocesamiento de datos:
- Se deberá incluir el manejo de variables categoricas y la normalización de datos
- Se debe determinar si se descartan datos pues habrá datos nulos al relacionar la información.


De lo anterior se sugieren las siguientes fases con los datos como plan de trabajo:

## Preprocesamiento y Tratamiento de datos

### Estandarizacion y normalizcion

## Segmentacion de datos

## Selección y Evaluación de Modelos

## Conclusiones


# Comentario General del Revisor

<div class="alert alert-block alert-success">

<b>Comentario del revisor</b> <a class="tocSkip"></a>

¡Buen trabajo explorando el problema de cancelación de clientes en el contexto de telecomunicaciones! Se aprecia el esfuerzo por estructurar el análisis y comenzar a organizar el flujo del proyecto.

#### Puntos Positivos:

* **Exploración de datos (EDA):** Buen uso de `info()`, `describe()` y muestras aleatorias para conocer la estructura y contenido de los datasets.
* **Validación de duplicados por ID:** Correcta aplicación de funciones para revisar unicidad en la llave `customerID`.
* **Comprensión del problema:** Se nota una interpretación adecuada del reto de predicción y la lógica detrás de utilizar la columna `EndDate` como indicador de cancelación.

#### Áreas para Seguir Investigando:

* **Selección de características:** Al ser un proyecto final, sería excelente ver propuestas concretas para realizar selección de variables, utilizando enfoques como *filtering* (correlación, chi²), *wrapping* (RFE), y *embedding* (Lasso, Árboles, SHAP, Boruta). Estas técnicas ayudarán a reducir dimensionalidad y mejorar la interpretabilidad y rendimiento del modelo.
* **Mayor especificidad en el plan:** Los planes en ciencia de datos son más efectivos cuando son detallados. En vez de decir “haré selección de modelos”, conviene indicar “compararé RandomForest, XGBoost y Regresión Logística, usando ROC-AUC como métrica, aplicados a las variables X, Y, Z que ya fueron seleccionadas por SHAP”.


</div>
