# Verificación de los datasets

## Objetivo: Queremos determinar si existen diferencias importantes entre:

- El dataset ya trabajado en la 1ra etapa (TelecomX_Data_Cleaned.csv)
- El dataset limpio de referencia proporcionado por Alura (telecom_x_churn_tratado.csv)

La comparación puede abordar:

Columnas presentes en uno y no en el otro, Tipos de datos, Nulos, Distribución de variables principales, Valores únicos de categorías, Tamaño y balance de target (Churn)

In [54]:
import pandas as pd

url_my_ds = 'https://raw.githubusercontent.com/LenninTemoche/Challenge-TelecomX-Alura-One-DS/refs/heads/main/TelecomX_Data_Cleaned.csv'
url_ds_tratado = 'https://raw.githubusercontent.com/LenninTemoche/Challenge-TelecomX-2-Alura-One-DS/refs/heads/main/datos_tratados.csv'

df_my_ds = pd.read_csv(url_my_ds)
df_ds_tratado = pd.read_csv(url_ds_tratado)

print('Dataset generado:', df_my_ds.shape)
print('Dataset tratado:', df_ds_tratado.shape)

Dataset generado: (7043, 23)
Dataset tratado: (7043, 22)


In [55]:
df_my_ds.info()

df_ds_tratado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 23 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   Churn             7043 non-null   object 
 2   gender            7043 non-null   object 
 3   SeniorCitizen     7043 non-null   object 
 4   Partner           7043 non-null   object 
 5   Dependents        7043 non-null   object 
 6   tenure            7043 non-null   int64  
 7   PhoneService      7043 non-null   object 
 8   MultipleLines     7043 non-null   object 
 9   InternetService   7043 non-null   object 
 10  OnlineSecurity    7043 non-null   object 
 11  OnlineBackup      7043 non-null   object 
 12  DeviceProtection  7043 non-null   object 
 13  TechSupport       7043 non-null   object 
 14  StreamingTV       7043 non-null   object 
 15  StreamingMovies   7043 non-null   object 
 16  Contract          7043 non-null   object 


### Resultados


| Dataset generado   | Dataset referencia | Diferencia             |
| ------------- | ------------------ | ---------------------- |
| customerID    | CustomerID         | Capitalización         |
| gender        | Gender             | Capitalización         |
| tenure        | Tenure             | Capitalización         |
| Monthly       | ChargesMonthly     | Nombre más descriptivo |
| Total         | ChargesTotal       | Nombre más descriptivo |
| daily_account | ChargesDaily       | Estilo de nomenclatura |
| num_services  | —                  | Variable adicional     |


In [56]:
print("Churn rate - Mi dataset:")
print(df_my_ds['Churn'].value_counts(normalize=True) * 100)

print("\nChurn rate - Dataset tratado:")
print(df_ds_tratado['Churn'].value_counts(normalize=True) * 100)

Churn rate - Mi dataset:
Churn
No     73.463013
Yes    26.536987
Name: proportion, dtype: float64

Churn rate - Dataset tratado:
Churn
No     73.463013
Yes    26.536987
Name: proportion, dtype: float64


### Resultado clave

Ambos datasets tienen exactamente:

73.46% clientes que NO cancelan

26.54% clientes que SÍ cancelan

Esto nos dice algo fundamental:

- Ambos datasets provienen de la misma base limpia de 7043 registros
- No se alteró la variable objetivo
- No hubo sesgo introducido en la limpieza

In [57]:
#Comparando estadísticas númericas
df_my_ds[['Monthly','Total']].describe() 


Unnamed: 0,Monthly,Total
count,7043.0,7043.0
mean,64.761692,2279.734304
std,30.090047,2266.79447
min,18.25,0.0
25%,35.5,398.55
50%,70.35,1394.55
75%,89.85,3786.6
max,118.75,8684.8


In [58]:
df_ds_tratado[['ChargesMonthly','ChargesTotal']].describe()

Unnamed: 0,ChargesMonthly,ChargesTotal
count,7043.0,7043.0
mean,64.761692,2279.734304
std,30.090047,2266.79447
min,18.25,0.0
25%,35.5,398.55
50%,70.35,1394.55
75%,89.85,3786.6
max,118.75,8684.8


In [59]:
# Comparar clientes individualmente
comparison = df_my_ds.merge(
    df_ds_tratado,
    left_on='customerID',
    right_on='CustomerID',
    suffixes=('_my', '_ref')
)

comparison.shape

(7043, 45)

### Resultados

| Validación             | Resultado                |
| ---------------------- | ------------------------ |
| Número de filas        | Igual                    |
| Distribución de Churn  | Igual                    |
| Estadísticas numéricas | Igual                    |
| Merge por ID           | 100% match               |
| Nulos                  | 0 en ambos               |
| Feature extra          | Tú tienes `num_services` |


## Conclusión

- Ambos datasets provienen de la misma base limpia de 7043 registros. No hubo alteración numérica
- No se alteró la variable objetivo. No hubo imputaciones distintas
- No hubo sesgo introducido en la limpieza. No hubo eliminación diferente de registros
- Feature adicional (num_services)
- Ambos datasets contienen exactamente la misma información base

**Dataset a utlizar:** `datos_tratados.csv` proporcionado por Alura One. 
Recomendable crear la feature `num_services` para fines de uso en modelos predictivos.