# Carga y limpieza de datos

En este cuaderno comienzo por cargar el conjunto de datos de **churn** desde un archivo CSV y preparar su estructura para el análisis. El objetivo es asegurar que todas las variables estén en el formato adecuado y que no existan valores nulos que puedan afectar la calidad del análisis posterior.


In [5]:
import pandas as pd
# Ruta al archivo de datos (ajusta la ruta según tu estructura de carpetas)
data_path = '../data/sample_telco_churn.csv'

# Cargo el dataset
churn_df = pd.read_csv(data_path)

# Muestra las primeras filas para familiarizarme con la estructura
display(churn_df.head())


Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,0001-EQXD,Male,No,No,No,17,Yes,Yes,DSL,No,...,No,No,No,Yes,Month-to-month,No,Mailed check,46.74,789.28,Stayed
1,0002-SEXH,Female,No,No,Yes,58,No,No phone service,DSL,No,...,Yes,Yes,No,Yes,One year,Yes,Mailed check,78.65,4571.49,Stayed
2,0003-LWUD,Male,No,Yes,Yes,58,No,No phone service,Fiber optic,No,...,No,No,Yes,Yes,Month-to-month,Yes,Mailed check,97.18,5639.02,Stayed
3,0004-VBPU,Male,No,Yes,No,57,Yes,No,Fiber optic,No,...,Yes,No,No,No,Two year,Yes,Bank transfer (automatic),71.62,4088.73,Stayed
4,0005-QCYF,Male,No,No,No,7,Yes,No,DSL,No,...,Yes,No,Yes,Yes,Two year,No,Mailed check,50.13,348.48,Churned


## Limpieza de columnas

Ahora verifico si existen columnas innecesarias o valores representados como espacios en blanco. También convierto las variables numéricas que pandas leyó como objetos a tipo numérico y genero la variable objetivo en formato binario.


In [6]:
# Eliminación de columnas no deseadas si las hubiera (por ejemplo índices)
if 'Unnamed: 0' in churn_df.columns:
    churn_df.drop(columns=['Unnamed: 0'], inplace=True)

# Conversión de columnas numéricas a formato correcto
churn_df['TotalCharges'] = pd.to_numeric(churn_df['TotalCharges'], errors='coerce')

# Conversión de la columna de churn a 1 (Churn) y 0 (No churn)
churn_df['ChurnFlag'] = churn_df['Churn'].apply(lambda x: 1 if str(x).strip().lower().startswith('churn') else 0)

# Reemplazo de valores como "No phone service" o "No internet service" por "No"
service_cols = ['OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies', 'MultipleLines']
for col in service_cols:
    churn_df[col] = churn_df[col].replace({'No internet service': 'No', 'No phone service': 'No'})

# Visualizo información general y verifico valores nulos
churn_df.info()
churn_df.isnull().sum()

# Elimino filas con valores nulos
churn_df.dropna(inplace=True)

# Visualizo datos limpios
churn_df.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 22 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        5000 non-null   object 
 1   gender            5000 non-null   object 
 2   SeniorCitizen     5000 non-null   object 
 3   Partner           5000 non-null   object 
 4   Dependents        5000 non-null   object 
 5   tenure            5000 non-null   int64  
 6   PhoneService      5000 non-null   object 
 7   MultipleLines     5000 non-null   object 
 8   InternetService   5000 non-null   object 
 9   OnlineSecurity    5000 non-null   object 
 10  OnlineBackup      5000 non-null   object 
 11  DeviceProtection  5000 non-null   object 
 12  TechSupport       5000 non-null   object 
 13  StreamingTV       5000 non-null   object 
 14  StreamingMovies   5000 non-null   object 
 15  Contract          5000 non-null   object 
 16  PaperlessBilling  5000 non-null   object 


Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn,ChurnFlag
0,0001-EQXD,Male,No,No,No,17,Yes,Yes,DSL,No,...,No,No,Yes,Month-to-month,No,Mailed check,46.74,789.28,Stayed,0
1,0002-SEXH,Female,No,No,Yes,58,No,No,DSL,No,...,Yes,No,Yes,One year,Yes,Mailed check,78.65,4571.49,Stayed,0
2,0003-LWUD,Male,No,Yes,Yes,58,No,No,Fiber optic,No,...,No,Yes,Yes,Month-to-month,Yes,Mailed check,97.18,5639.02,Stayed,0
3,0004-VBPU,Male,No,Yes,No,57,Yes,No,Fiber optic,No,...,No,No,No,Two year,Yes,Bank transfer (automatic),71.62,4088.73,Stayed,0
4,0005-QCYF,Male,No,No,No,7,Yes,No,DSL,No,...,No,Yes,Yes,Two year,No,Mailed check,50.13,348.48,Churned,1


En esta etapa confirmé que las columnas contenían los tipos de datos correctos y eliminé cualquier observación con valores faltantes. Esto me permitirá continuar con un análisis exploratorio confiable.
