# Notebook 02: Limpieza y Validación de Datos - TelecomX

**Proyecto:** Análisis de Churn - TelecomX  
**Autor:** Santiago Aparicio Pérez  
**Fecha:** Enero 2025  

---

## Objetivo
Verificar la calidad de los datos extraídos, identificar y corregir problemas que puedan afectar el análisis, como valores ausentes, duplicados, errores de formato e inconsistencias.

## Contenido
1. Configuración del entorno
2. Carga de datos desde data/raw/
3. Verificación de valores ausentes
4. Detección de duplicados
5. Validación de formatos y tipos de datos
6. Identificación de inconsistencias en categorías
7. Corrección de problemas
8. Guardado de datos limpios en data/processed/

---

## Importancia de la Limpieza de Datos

La calidad de los datos es fundamental para obtener resultados confiables. Datos incorrectos o inconsistentes pueden llevar a:
- Análisis erróneos
- Conclusiones incorrectas
- Modelos predictivos poco precisos

Por eso, antes de cualquier análisis, debemos asegurarnos de que nuestros datos estén limpios y listos para usar.

## 1. Configuración del Entorno

Primero, necesitamos conectar con Google Drive y navegar a nuestro proyecto para acceder a los datos que extrajimos en el Notebook 01.

In [2]:
# Montar Google Drive
from google.colab import drive
drive.mount('/content/drive')

# Definir ruta del proyecto
PROJECT_PATH = '/content/drive/MyDrive/churn_TelecomX'
print(f"Ruta del proyecto: {PROJECT_PATH}")

Mounted at /content/drive
Ruta del proyecto: /content/drive/MyDrive/churn_TelecomX


In [3]:
# Navegar al directorio del proyecto
%cd {PROJECT_PATH}

# Verificar ubicación
!pwd

/content/drive/MyDrive/churn_TelecomX
/content/drive/MyDrive/churn_TelecomX


## 2. Importación de Librerías

Para el proceso de limpieza y validación necesitamos:

- **pandas**: Manipulación y análisis de datos
- **numpy**: Operaciones numéricas y manejo de valores especiales
- **datetime**: Para trabajar con fechas si es necesario
- **warnings**: Para controlar mensajes de advertencia

Estas herramientas nos permitirán detectar y corregir problemas en los datos de manera eficiente.

In [4]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

print("Librerías importadas correctamente")
print(f"Fecha de limpieza: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print(f"Versión de Pandas: {pd.__version__}")

Librerías importadas correctamente
Fecha de limpieza: 2026-01-05 12:13:08
Versión de Pandas: 2.2.2


## 3. Carga de Datos desde data/raw/

Vamos a cargar los datos que extrajimos y guardamos en el Notebook 01. Estos datos están en formato CSV en la carpeta `data/raw/`.

**Archivo a cargar:** `TelecomX_raw.csv`

Este archivo contiene los 7,267 registros de clientes con 21 variables que extrajimos de la API.

In [5]:
# Cargar los datos desde data/raw/
ruta_datos_raw = f"{PROJECT_PATH}/data/raw/TelecomX_raw.csv"

print("Cargando datos desde data/raw/...")
df = pd.read_csv(ruta_datos_raw)

print("Datos cargados exitosamente")
print(f"Dimensiones: {df.shape[0]:,} filas x {df.shape[1]} columnas")
print(f"Memoria utilizada: {df.memory_usage(deep=True).sum() / 1024:.2f} KB")

Cargando datos desde data/raw/...
Datos cargados exitosamente
Dimensiones: 7,267 filas x 21 columnas
Memoria utilizada: 7203.24 KB


In [6]:
df.head()

Unnamed: 0,customerID,Churn,customer_gender,customer_SeniorCitizen,customer_Partner,customer_Dependents,customer_tenure,phone_PhoneService,phone_MultipleLines,internet_InternetService,...,internet_OnlineBackup,internet_DeviceProtection,internet_TechSupport,internet_StreamingTV,internet_StreamingMovies,account_Contract,account_PaperlessBilling,account_PaymentMethod,account_Charges.Monthly,account_Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


## 4. Verificación de Valores Ausentes

Los valores ausentes pueden presentarse de diferentes formas:
- **NaN** (Not a Number) - Valores nulos estándar de pandas
- **None** - Valores nulos de Python
- **Cadenas vacías** ("") o espacios en blanco (" ")
- **Valores especiales** como "NA", "N/A", "Unknown", etc.

Vamos a buscar todos estos tipos de valores ausentes en nuestro dataset.

In [7]:
# 1. Verificar valores nulos (NaN) estándar
print("VERIFICACIÓN DE VALORES NULOS (NaN)\n")


# Contar valores nulos por columna
valores_nulos = df.isnull().sum()

# Calcular porcentaje
porcentaje_nulos = (valores_nulos / len(df)) * 100

# Crear resumen
resumen_nulos = pd.DataFrame({
    'Columna': valores_nulos.index,
    'Valores_Nulos': valores_nulos.values,
    'Porcentaje': porcentaje_nulos.values
})

# Filtrar solo columnas con valores nulos
resumen_nulos = resumen_nulos[resumen_nulos['Valores_Nulos'] > 0]

if len(resumen_nulos) > 0:
    print("Se encontraron valores nulos:\n")
    print(resumen_nulos.to_string(index=False))
else:
    print("No se encontraron valores nulos (NaN) en ninguna columna")


VERIFICACIÓN DE VALORES NULOS (NaN)

Se encontraron valores nulos:

Columna  Valores_Nulos  Porcentaje
  Churn            224    3.082427


In [8]:
# 2. Verificar cadenas vacías y espacios en blanco
print("VERIFICACIÓN DE CADENAS VACÍAS Y ESPACIOS\n")


# Seleccionar solo columnas tipo object (texto)
columnas_texto = df.select_dtypes(include=['object']).columns

problemas_encontrados = []

for columna in columnas_texto:
    # Contar cadenas vacías
    vacios = (df[columna] == '').sum()

    # Contar solo espacios en blanco
    espacios = (df[columna].str.strip() == '').sum()

    # Contar cadenas que son solo espacios
    solo_espacios = espacios - vacios

    if vacios > 0 or solo_espacios > 0:
        problemas_encontrados.append({
            'Columna': columna,
            'Cadenas_Vacias': vacios,
            'Solo_Espacios': solo_espacios,
            'Total': vacios + solo_espacios
        })

if len(problemas_encontrados) > 0:
    df_problemas = pd.DataFrame(problemas_encontrados)
    print("Se encontraron valores vacíos o espacios:\n")
    print(df_problemas.to_string(index=False))
else:
    print("No se encontraron cadenas vacías ni espacios en blanco")


VERIFICACIÓN DE CADENAS VACÍAS Y ESPACIOS

Se encontraron valores vacíos o espacios:

              Columna  Cadenas_Vacias  Solo_Espacios  Total
account_Charges.Total               0             11     11


In [9]:
# 3. Análisis especial de la columna Churn (sabemos que tiene valores vacíos)
print("ANÁLISIS DETALLADO DE LA COLUMNA 'Churn'\n")

print("\nValores únicos en Churn:")
print(df['Churn'].value_counts(dropna=False))

print("\nDistribución porcentual:")
print(df['Churn'].value_counts(normalize=True, dropna=False) * 100)

# Verificar si hay espacios
print("\nAnálisis de longitud de valores:")
print(df['Churn'].str.len().value_counts().sort_index())



ANÁLISIS DETALLADO DE LA COLUMNA 'Churn'


Valores únicos en Churn:
Churn
No     5174
Yes    1869
NaN     224
Name: count, dtype: int64

Distribución porcentual:
Churn
No     71.198569
Yes    25.719004
NaN     3.082427
Name: proportion, dtype: float64

Análisis de longitud de valores:
Churn
2.0    5174
3.0    1869
Name: count, dtype: int64


### Resumen de Problemas Encontrados

#### Problema 1: Valores Nulos en Churn
- **Columna afectada**: `Churn`
- **Cantidad**: 224 registros (3.08%)
- **Impacto**: La variable objetivo tiene valores faltantes

#### Problema 2: Espacios en Blanco en Charges.Total
- **Columna afectada**: `account_Charges.Total`
- **Cantidad**: 11 registros con solo espacios
- **Impacto**: Valores que deberían ser numéricos están como texto con espacios

Estos problemas deben ser corregidos antes de continuar con el análisis.

---

Continuemos verificando otros aspectos de calidad de datos.

## 5. Detección de Duplicados

Los registros duplicados pueden sesgar el análisis. Vamos a verificar si existen clientes duplicados en el dataset.

Verificaremos:
- Duplicados completos (todas las columnas iguales)
- Duplicados por `customerID` (lo que realmente importa)

In [10]:
# 1. Verificar duplicados completos
print("VERIFICACIÓN DE REGISTROS DUPLICADOS\n")


duplicados_completos = df.duplicated().sum()
print(f"\n1 Registros completamente duplicados: {duplicados_completos}")

if duplicados_completos > 0:
    print(f"Se encontraron {duplicados_completos} registros duplicados")
else:
    print("No hay registros completamente duplicados")

# 2. Verificar duplicados por customerID
duplicados_id = df.duplicated(subset=['customerID']).sum()
print(f"\n2 Clientes con IDs duplicados: {duplicados_id}")

if duplicados_id > 0:
    print(f"Se encontraron {duplicados_id} IDs duplicados")
    print("\nMostrando ejemplos de IDs duplicados:")
    ids_duplicados = df[df.duplicated(subset=['customerID'], keep=False)]['customerID'].unique()
    print(f"Ejemplos: {ids_duplicados[:5]}")
else:
    print("Todos los customerID son únicos")


VERIFICACIÓN DE REGISTROS DUPLICADOS


1 Registros completamente duplicados: 0
No hay registros completamente duplicados

2 Clientes con IDs duplicados: 0
Todos los customerID son únicos


## 6. Validación de Formatos y Tipos de Datos

Es importante verificar que cada columna tenga el tipo de dato correcto. Errores comunes:
- Variables numéricas guardadas como texto
- Fechas guardadas como texto
- Categorías con mayúsculas/minúsculas inconsistentes

Ya sabemos que `account_Charges.Total` debería ser numérico pero está como texto.

In [11]:
# Revisar tipos de datos actuales
print("TIPOS DE DATOS ACTUALES\n")


# Crear resumen de tipos
tipos_datos = df.dtypes.reset_index()
tipos_datos.columns = ['Columna', 'Tipo']

# Agrupar por tipo
print("\nResumen por tipo de dato:")
print(tipos_datos['Tipo'].value_counts())

print("\nDetalle de cada columna:\n")
for idx, row in tipos_datos.iterrows():
    print(f"   {row['Columna']:30s} → {row['Tipo']}")



# Identificar columnas que deberían ser numéricas pero no lo son
print("\nCOLUMNAS QUE DEBERÍAN SER NUMÉRICAS:\n")


# account_Charges.Total debería ser float
print("\nAnalizando 'account_Charges.Total':")
print(f"   Tipo actual: {df['account_Charges.Total'].dtype}")
print(f"   Debería ser: float64")
print(f"\n   Ejemplos de valores:")
print(df['account_Charges.Total'].head(10).to_string())

TIPOS DE DATOS ACTUALES


Resumen por tipo de dato:
Tipo
object     18
int64       2
float64     1
Name: count, dtype: int64

Detalle de cada columna:

   customerID                     → object
   Churn                          → object
   customer_gender                → object
   customer_SeniorCitizen         → int64
   customer_Partner               → object
   customer_Dependents            → object
   customer_tenure                → int64
   phone_PhoneService             → object
   phone_MultipleLines            → object
   internet_InternetService       → object
   internet_OnlineSecurity        → object
   internet_OnlineBackup          → object
   internet_DeviceProtection      → object
   internet_TechSupport           → object
   internet_StreamingTV           → object
   internet_StreamingMovies       → object
   account_Contract               → object
   account_PaperlessBilling       → object
   account_PaymentMethod          → object
   account_Charges.Monthly       

## 7. Identificación de Inconsistencias en Categorías

Las variables categóricas pueden tener problemas como:
- Valores inconsistentes (Yes/yes/YES)
- Categorías inesperadas
- Errores de escritura
- Espacios adicionales

Vamos a revisar cada variable categórica para identificar estos problemas.

In [12]:
# Revisar valores únicos en cada columna categórica
print("REVISIÓN DE VARIABLES CATEGÓRICAS\n")


# Excluir customerID porque es un identificador único
columnas_categoricas = df.select_dtypes(include=['object']).columns.tolist()
columnas_categoricas.remove('customerID')

for columna in columnas_categoricas:
    valores_unicos = df[columna].unique()
    cantidad_unicos = len(valores_unicos)

    print(f"\nColumna: {columna}")
    print(f"Cantidad de valores únicos: {cantidad_unicos}")

    # Mostrar valores únicos si son pocos (menos de 10)
    if cantidad_unicos <= 10:
        print(f"Valores: {valores_unicos}")

        # Verificar si hay valores con espacios extras
        if df[columna].dtype == 'object':
            valores_con_espacios = [v for v in valores_unicos if isinstance(v, str) and (v != v.strip() or '  ' in v)]
            if valores_con_espacios:
                print(f"   ALERTA: Valores con espacios extras detectados: {valores_con_espacios}")
    else:
        print(f"Primeros 5 valores: {valores_unicos[:5]}")



REVISIÓN DE VARIABLES CATEGÓRICAS


Columna: Churn
Cantidad de valores únicos: 3
Valores: ['No' 'Yes' nan]

Columna: customer_gender
Cantidad de valores únicos: 2
Valores: ['Female' 'Male']

Columna: customer_Partner
Cantidad de valores únicos: 2
Valores: ['Yes' 'No']

Columna: customer_Dependents
Cantidad de valores únicos: 2
Valores: ['Yes' 'No']

Columna: phone_PhoneService
Cantidad de valores únicos: 2
Valores: ['Yes' 'No']

Columna: phone_MultipleLines
Cantidad de valores únicos: 3
Valores: ['No' 'Yes' 'No phone service']

Columna: internet_InternetService
Cantidad de valores únicos: 3
Valores: ['DSL' 'Fiber optic' 'No']

Columna: internet_OnlineSecurity
Cantidad de valores únicos: 3
Valores: ['No' 'Yes' 'No internet service']

Columna: internet_OnlineBackup
Cantidad de valores únicos: 3
Valores: ['Yes' 'No' 'No internet service']

Columna: internet_DeviceProtection
Cantidad de valores únicos: 3
Valores: ['No' 'Yes' 'No internet service']

Columna: internet_TechSupport
Cantidad de

In [13]:
# Análisis específico de variables que deberían ser Yes/No
print("\nANÁLISIS DE VARIABLES BINARIAS (Yes/No)\n")


variables_binarias = [
    'customer_Partner',
    'customer_Dependents',
    'phone_PhoneService',
    'account_PaperlessBilling'
]

for columna in variables_binarias:
    print(f"\n{columna}:")
    print(df[columna].value_counts(dropna=False))

    # Verificar si hay valores diferentes a Yes/No
    valores = df[columna].dropna().unique()
    valores_validos = ['Yes', 'No']
    valores_invalidos = [v for v in valores if v not in valores_validos]

    if valores_invalidos:
        print(f"   ALERTA: Valores inesperados encontrados: {valores_invalidos}")




ANÁLISIS DE VARIABLES BINARIAS (Yes/No)


customer_Partner:
customer_Partner
No     3749
Yes    3518
Name: count, dtype: int64

customer_Dependents:
customer_Dependents
No     5086
Yes    2181
Name: count, dtype: int64

phone_PhoneService:
phone_PhoneService
Yes    6560
No      707
Name: count, dtype: int64

account_PaperlessBilling:
account_PaperlessBilling
Yes    4311
No     2956
Name: count, dtype: int64


In [14]:
# Variables que pueden tener "No internet service" o "No phone service"
print("\nANÁLISIS DE VARIABLES CON CATEGORÍAS ESPECIALES\n")


# Variables de servicios de internet
servicios_internet = [
    'internet_OnlineSecurity',
    'internet_OnlineBackup',
    'internet_DeviceProtection',
    'internet_TechSupport',
    'internet_StreamingTV',
    'internet_StreamingMovies'
]

print("\nSERVICIOS DE INTERNET:")
for columna in servicios_internet:
    valores = df[columna].value_counts()
    print(f"\n{columna}:")
    print(valores)

# Variable de líneas múltiples
print("\n" + "-"*60)
print("\nSERVICIO TELEFÓNICO:")
print("\nphone_MultipleLines:")
print(df['phone_MultipleLines'].value_counts())




ANÁLISIS DE VARIABLES CON CATEGORÍAS ESPECIALES


SERVICIOS DE INTERNET:

internet_OnlineSecurity:
internet_OnlineSecurity
No                     3608
Yes                    2078
No internet service    1581
Name: count, dtype: int64

internet_OnlineBackup:
internet_OnlineBackup
No                     3182
Yes                    2504
No internet service    1581
Name: count, dtype: int64

internet_DeviceProtection:
internet_DeviceProtection
No                     3195
Yes                    2491
No internet service    1581
Name: count, dtype: int64

internet_TechSupport:
internet_TechSupport
No                     3582
Yes                    2104
No internet service    1581
Name: count, dtype: int64

internet_StreamingTV:
internet_StreamingTV
No                     2896
Yes                    2790
No internet service    1581
Name: count, dtype: int64

internet_StreamingMovies:
internet_StreamingMovies
No                     2870
Yes                    2816
No internet service    1581
Na

## 8. Resumen Completo de Problemas Identificados

Después de la verificación exhaustiva, se identificaron los siguientes problemas:

### Problemas Críticos (Requieren corrección inmediata)

#### 1. Valores Nulos en Variable Objetivo
- **Columna**: `Churn`
- **Cantidad**: 224 registros (3.08%)
- **Problema**: La variable que queremos predecir tiene valores faltantes
- **Solución propuesta**: Eliminar estos registros ya que no podemos predecir sin la variable objetivo

#### 2. Tipo de Dato Incorrecto
- **Columna**: `account_Charges.Total`
- **Tipo actual**: object (texto)
- **Tipo correcto**: float64 (numérico)
- **Problema adicional**: 11 registros con solo espacios en blanco
- **Solución propuesta**: Convertir a numérico y manejar espacios como valores nulos

### Aspectos Positivos

- No hay registros duplicados
- No hay IDs de clientes duplicados
- Las categorías están consistentes (sin problemas de mayúsculas/minúsculas)
- No hay espacios extras en valores categóricos
- Las variables binarias tienen valores correctos (Yes/No)
- Las variables con categorías especiales están bien estructuradas

### Plan de Acción

A continuación procederemos a:
1. Corregir el tipo de dato de `account_Charges.Total`
2. Decidir qué hacer con los valores nulos en `Churn`
3. Guardar el dataset limpio en `data/processed/`

## 9. Corrección de Problemas Identificados

Vamos a aplicar las correcciones necesarias para preparar los datos para el análisis.

In [16]:
print("CORRECCIÓN 1: Convertir account_Charges.Total a numérico\n")

# Mostrar tipo actual
print(f"Tipo actual: {df['account_Charges.Total'].dtype}")

# Convertir a numérico, los valores inválidos se convertirán en NaN
df['account_Charges.Total'] = pd.to_numeric(df['account_Charges.Total'], errors='coerce')

print(f"Tipo después de conversión: {df['account_Charges.Total'].dtype}")

# Verificar cuántos valores se convirtieron en NaN
nulos_charges = df['account_Charges.Total'].isnull().sum()
print(f"\nValores que se convirtieron en NaN: {nulos_charges}")

if nulos_charges > 0:
    print(f"Porcentaje: {(nulos_charges/len(df))*100:.2f}%")

# Estadísticas después de la conversión
print("\nEstadísticas de account_Charges.Total después de la conversión:")
print(df['account_Charges.Total'].describe())



CORRECCIÓN 1: Convertir account_Charges.Total a numérico

Tipo actual: object
Tipo después de conversión: float64

Valores que se convirtieron en NaN: 11
Porcentaje: 0.15%

Estadísticas de account_Charges.Total después de la conversión:
count    7256.000000
mean     2280.634213
std      2268.632997
min        18.800000
25%       400.225000
50%      1391.000000
75%      3785.300000
max      8684.800000
Name: account_Charges.Total, dtype: float64


In [17]:
print("ANÁLISIS DE REGISTROS CON VALORES NULOS\n")


# Crear DataFrame con resumen de nulos después de correcciones
print("\nResumen de valores nulos en el dataset:")
nulos_totales = df.isnull().sum()
nulos_totales = nulos_totales[nulos_totales > 0].sort_values(ascending=False)

if len(nulos_totales) > 0:
    resumen = pd.DataFrame({
        'Columna': nulos_totales.index,
        'Cantidad_Nulos': nulos_totales.values,
        'Porcentaje': (nulos_totales.values / len(df)) * 100
    })
    print(resumen.to_string(index=False))
else:
    print("No hay valores nulos en el dataset")



ANÁLISIS DE REGISTROS CON VALORES NULOS


Resumen de valores nulos en el dataset:
              Columna  Cantidad_Nulos  Porcentaje
                Churn             224    3.082427
account_Charges.Total              11    0.151369


In [18]:
# Decisión de limpieza
print("LIMPIEZA FINAL\n")


print(f"\nRegistros originales: {len(df)}")

# Eliminar registros sin Churn (variable objetivo)
df_limpio = df.dropna(subset=['Churn'])
print(f"Después de eliminar nulos en Churn: {len(df_limpio)}")

# Para account_Charges.Total, podemos dejar los NaN o eliminarlos
# Vamos a eliminarlos también
df_limpio = df_limpio.dropna(subset=['account_Charges.Total'])
print(f"Después de eliminar nulos en Charges.Total: {len(df_limpio)}")

print(f"\nTotal de registros eliminados: {len(df) - len(df_limpio)}")
print(f"Registros finales: {len(df_limpio)}")

# Verificar que no queden nulos
print(f"\nValores nulos restantes: {df_limpio.isnull().sum().sum()}")



LIMPIEZA FINAL


Registros originales: 7267
Después de eliminar nulos en Churn: 7043
Después de eliminar nulos en Charges.Total: 7032

Total de registros eliminados: 235
Registros finales: 7032

Valores nulos restantes: 0


## 10. Creación de Variable Derivada: Cuentas Diarias

Vamos a crear la columna `Cuentas_Diarias` dividiendo el cargo mensual entre 30 días. Esto nos permitirá:
- Analizar el gasto diario promedio de los clientes
- Comparar clientes con diferentes planes de facturación
- Obtener una métrica más granular del valor del cliente

In [20]:
# Crear columna Cuentas_Diarias
print("CREACIÓN DE VARIABLE DERIVADA\n")


# Calcular cuentas diarias (cargo mensual / 30 días)
df_limpio['Cuentas_Diarias'] = df_limpio['account_Charges.Monthly'] / 30

print("Columna 'Cuentas_Diarias' creada exitosamente")
print(f"\nNuevas dimensiones: {df_limpio.shape[0]} filas x {df_limpio.shape[1]} columnas")

print("\nEstadísticas de Cuentas_Diarias:")
print(df_limpio['Cuentas_Diarias'].describe())

print("\nEjemplos de valores:")
print(df_limpio[['customerID', 'account_Charges.Monthly', 'Cuentas_Diarias']].head(10))



CREACIÓN DE VARIABLE DERIVADA

Columna 'Cuentas_Diarias' creada exitosamente

Nuevas dimensiones: 7032 filas x 22 columnas

Estadísticas de Cuentas_Diarias:
count    7032.000000
mean        2.159940
std         1.002866
min         0.608333
25%         1.186250
50%         2.345000
75%         2.995417
max         3.958333
Name: Cuentas_Diarias, dtype: float64

Ejemplos de valores:
   customerID  account_Charges.Monthly  Cuentas_Diarias
0  0002-ORFBO                    65.60         2.186667
1  0003-MKNFE                    59.90         1.996667
2  0004-TLHLJ                    73.90         2.463333
3  0011-IGKFF                    98.00         3.266667
4  0013-EXCHZ                    83.90         2.796667
5  0013-MHZWF                    69.40         2.313333
6  0013-SMEOE                   109.70         3.656667
7  0014-BMAQU                    84.65         2.821667
8  0015-UOCOJ                    48.20         1.606667
9  0016-QLJIS                    90.45         3.015000

## 11. Estandarización y Transformación de Datos

Vamos a hacer el dataset más consistente y fácil de entender:
1. Convertir variables Yes/No a formato binario (1/0)
2. Renombrar columnas al español
3. Estandarizar categorías

In [21]:
# Conversión de variables Yes/No a 1/0
print("CONVERSIÓN DE VARIABLES BINARIAS\n")


# Lista de columnas binarias Yes/No
columnas_binarias = [
    'customer_Partner',
    'customer_Dependents',
    'phone_PhoneService',
    'account_PaperlessBilling'
]

# Convertir Yes=1, No=0
for col in columnas_binarias:
    df_limpio[col] = df_limpio[col].map({'Yes': 1, 'No': 0})
    print(f"Convertida: {col}")

# Convertir Churn (nuestra variable objetivo)
df_limpio['Churn'] = df_limpio['Churn'].map({'Yes': 1, 'No': 0})
print(f"Convertida: Churn")

print("\nVerificación:")
print(df_limpio[columnas_binarias + ['Churn']].head())



CONVERSIÓN DE VARIABLES BINARIAS

Convertida: customer_Partner
Convertida: customer_Dependents
Convertida: phone_PhoneService
Convertida: account_PaperlessBilling
Convertida: Churn

Verificación:
   customer_Partner  customer_Dependents  phone_PhoneService  \
0                 1                    1                   1   
1                 0                    0                   1   
2                 0                    0                   1   
3                 1                    0                   1   
4                 1                    0                   1   

   account_PaperlessBilling  Churn  
0                         1      0  
1                         0      0  
2                         1      1  
3                         1      1  
4                         1      1  


In [23]:
# Renombrar columnas al español
print("RENOMBRANDO COLUMNAS AL ESPAÑOL\n")


# Diccionario de nombres nuevos
nombres_espanol = {
    'customerID': 'id_cliente',
    'Churn': 'abandono',
    'customer_gender': 'genero',
    'customer_SeniorCitizen': 'adulto_mayor',
    'customer_Partner': 'tiene_pareja',
    'customer_Dependents': 'tiene_dependientes',
    'customer_tenure': 'antiguedad_meses',
    'phone_PhoneService': 'servicio_telefono',
    'phone_MultipleLines': 'lineas_multiples',
    'internet_InternetService': 'servicio_internet',
    'internet_OnlineSecurity': 'seguridad_online',
    'internet_OnlineBackup': 'respaldo_online',
    'internet_DeviceProtection': 'proteccion_dispositivo',
    'internet_TechSupport': 'soporte_tecnico',
    'internet_StreamingTV': 'streaming_tv',
    'internet_StreamingMovies': 'streaming_peliculas',
    'account_Contract': 'tipo_contrato',
    'account_PaperlessBilling': 'factura_digital',
    'account_PaymentMethod': 'metodo_pago',
    'account_Charges.Monthly': 'cargo_mensual',
    'account_Charges.Total': 'cargo_total',
    'Cuentas_Diarias': 'cargo_diario'
}

# Renombrar
df_limpio = df_limpio.rename(columns=nombres_espanol)

print("Columnas renombradas exitosamente")
print(f"\nNuevas columnas:")
for i, col in enumerate(df_limpio.columns, 1):
    print(f"{i:2d}. {col}")



RENOMBRANDO COLUMNAS AL ESPAÑOL

Columnas renombradas exitosamente

Nuevas columnas:
 1. id_cliente
 2. abandono
 3. genero
 4. adulto_mayor
 5. tiene_pareja
 6. tiene_dependientes
 7. antiguedad_meses
 8. servicio_telefono
 9. lineas_multiples
10. servicio_internet
11. seguridad_online
12. respaldo_online
13. proteccion_dispositivo
14. soporte_tecnico
15. streaming_tv
16. streaming_peliculas
17. tipo_contrato
18. factura_digital
19. metodo_pago
20. cargo_mensual
21. cargo_total
22. cargo_diario


In [25]:
# Convertir vaiables restantes
print("CONVERSIÓN DE VARIABLES RESTANTES\n")


# Líneas múltiples
df_limpio['lineas_multiples'] = df_limpio['lineas_multiples'].map({
    'Yes': 1,
    'No': 0,
    'No phone service': 0
})
print("Convertido: lineas_multiples")

# Protección dispositivo
df_limpio['proteccion_dispositivo'] = df_limpio['proteccion_dispositivo'].map({
    'Yes': 1, 'No': 0, 'No internet service': 0
})
print("Convertido: proteccion_dispositivo")

# Soporte técnico
df_limpio['soporte_tecnico'] = df_limpio['soporte_tecnico'].map({
    'Yes': 1, 'No': 0, 'No internet service': 0
})
print("Convertido: soporte_tecnico")

# Streaming TV
df_limpio['streaming_tv'] = df_limpio['streaming_tv'].map({
    'Yes': 1, 'No': 0, 'No internet service': 0
})
print("Convertido: streaming_tv")

# Streaming películas
df_limpio['streaming_peliculas'] = df_limpio['streaming_peliculas'].map({
    'Yes': 1, 'No': 0, 'No internet service': 0
})
print("Convertido: streaming_peliculas")

print("\nVerificación:")
print(df_limpio.head())



CONVERSIÓN DE VARIABLES RESTANTES

Convertido: lineas_multiples
Convertido: proteccion_dispositivo
Convertido: soporte_tecnico
Convertido: streaming_tv
Convertido: streaming_peliculas

Verificación:
   id_cliente  abandono  genero  adulto_mayor  tiene_pareja  \
0  0002-ORFBO         0  Female             0             1   
1  0003-MKNFE         0    Male             0             0   
2  0004-TLHLJ         1    Male             0             0   
3  0011-IGKFF         1    Male             1             1   
4  0013-EXCHZ         1  Female             1             1   

   tiene_dependientes  antiguedad_meses  servicio_telefono  lineas_multiples  \
0                   1                 9                  1                 0   
1                   0                 9                  1                 1   
2                   0                 4                  1                 0   
3                   0                13                  1                 0   
4                   0 

In [26]:
# Vista previa de los datos transformados
print("VISTA PREVIA DE DATOS TRANSFORMADOS\n")


print(f"\nDimensiones finales: {df_limpio.shape[0]} filas x {df_limpio.shape[1]} columnas")

print("\nPrimeras 5 filas:")
df_limpio.head()

VISTA PREVIA DE DATOS TRANSFORMADOS


Dimensiones finales: 7032 filas x 22 columnas

Primeras 5 filas:


Unnamed: 0,id_cliente,abandono,genero,adulto_mayor,tiene_pareja,tiene_dependientes,antiguedad_meses,servicio_telefono,lineas_multiples,servicio_internet,...,proteccion_dispositivo,soporte_tecnico,streaming_tv,streaming_peliculas,tipo_contrato,factura_digital,metodo_pago,cargo_mensual,cargo_total,cargo_diario
0,0002-ORFBO,0,Female,0,1,1,9,1,0,DSL,...,0,1,1,0,One year,1,Mailed check,65.6,593.3,2.186667
1,0003-MKNFE,0,Male,0,0,0,9,1,1,DSL,...,0,0,0,1,Month-to-month,0,Mailed check,59.9,542.4,1.996667
2,0004-TLHLJ,1,Male,0,0,0,4,1,0,Fiber optic,...,1,0,0,0,Month-to-month,1,Electronic check,73.9,280.85,2.463333
3,0011-IGKFF,1,Male,1,1,0,13,1,0,Fiber optic,...,1,0,1,1,Month-to-month,1,Electronic check,98.0,1237.85,3.266667
4,0013-EXCHZ,1,Female,1,1,0,3,1,0,Fiber optic,...,0,1,1,0,Month-to-month,1,Mailed check,83.9,267.4,2.796667


In [29]:
# Guardar datos limpios y transformados
ruta_datos_limpios = f"{PROJECT_PATH}/data/processed/TelecomX_clean.csv"

df_limpio.to_csv(ruta_datos_limpios, index=False)

print("GUARDADO DE DATOS LIMPIOS Y TRANSFORMADOS\n")

print(f"Archivo guardado: data/processed/TelecomX_clean.csv")
print(f"Registros: {len(df_limpio):,}")
print(f"Columnas: {len(df_limpio.columns)}")
print(f"Tamaño: {df_limpio.memory_usage(deep=True).sum() / 1024:.2f} KB")


GUARDADO DE DATOS LIMPIOS Y TRANSFORMADOS

Archivo guardado: data/processed/TelecomX_clean.csv
Registros: 7,032
Columnas: 22
Tamaño: 3668.17 KB


In [55]:
!git config --global user.name "Santiago Aparicio"
!git config --global user.email "santiagoaparicioperez674@gmail.com"
print("Git configurado")

Git configurado


In [56]:
!ls -la notebooks/

total 159
-rw------- 1 root root 71881 Jan  4 21:15  01_extraccion_datos.ipynb
-rw------- 1 root root 82851 Jan  5 13:33  02_limpieza_datos.ipynb
-rw------- 1 root root     0 Dec 30 02:04  .gitkeep
-rw------- 1 root root  7623 Jan  5 13:31 'Notebook 00_Setup_del_Proyecto.ipynb'


In [57]:
# Ver todos los archivos .ipynb en la carpeta notebooks
!ls -la notebooks/*.ipynb

-rw------- 1 root root 71881 Jan  4 21:15  notebooks/01_extraccion_datos.ipynb
-rw------- 1 root root 82851 Jan  5 13:33  notebooks/02_limpieza_datos.ipynb
-rw------- 1 root root  7623 Jan  5 13:31 'notebooks/Notebook 00_Setup_del_Proyecto.ipynb'


In [58]:
# Agregar ambos archivos
!git add notebooks/02_limpieza_datos.ipynb
!git add notebooks/Notebook 00_Setup_del_Proyecto.ipynb
!git add data/raw/TelecomX_clean.csv

# Verificar qué se va a commitear
print("Archivos preparados para commit:\n")
!git status

fatal: pathspec 'notebooks/Notebook' did not match any files
fatal: pathspec 'data/raw/TelecomX_clean.csv' did not match any files
Archivos preparados para commit:

On branch main
Your branch is ahead of 'origin/main' by 4 commits.
  (use "git push" to publish your local commits)

Changes to be committed:
  (use "git restore --staged <file>..." to unstage)
	[32mmodified:   notebooks/02_limpieza_datos.ipynb[m

Changes not staged for commit:
  (use "git add <file>..." to update what will be committed)
  (use "git restore <file>..." to discard changes in working directory)
	[31mmodified:   notebooks/01_extraccion_datos.ipynb[m
	[31mmodified:   notebooks/Notebook 00_Setup_del_Proyecto.ipynb[m



In [59]:
# Hacer el commit
!git commit -m "Completado Notebook 01: Extracción de datos - 7,267 registros extraídos y guardados"

print("\nCommit realizado exitosamente")
print("Archivos guardados en el historial de Git")

[main 1fca07e] Completado Notebook 01: Extracción de datos - 7,267 registros extraídos y guardados
 1 file changed, 1 insertion(+), 1 deletion(-)

Commit realizado exitosamente
Archivos guardados en el historial de Git


In [60]:
# Ver el log de commits
!git log --oneline -3

[33m1fca07e[m[33m ([m[1;36mHEAD -> [m[1;32mmain[m[33m)[m Completado Notebook 01: Extracción de datos - 7,267 registros extraídos y guardados
[33m1314833[m Completado Notebook 01: Extracción de datos - 7,267 registros extraídos y guardados
[33md8bff3f[m Actualización: Notebooks 00, 01 y 02 completados


In [61]:
from getpass import getpass

print("Para hacer push a GitHub necesitamos un Personal Access Token")
print("Permisos necesarios: repo (todos)\n")

# Ingresar token de forma segura
github_token = getpass("Ingresa tu GitHub Personal Access Token: ")
github_username = "SantiAp11"

# Configurar remote con el token
!git remote set-url origin https://{github_username}:{github_token}@github.com/{github_username}/churn_TelecomX.git

# Hacer push
print("\nEnviando cambios a GitHub...")
!git push origin main

print("\nPush completado exitosamente")

# Limpiar token de la memoria
del github_token

Para hacer push a GitHub necesitamos un Personal Access Token
Permisos necesarios: repo (todos)

Ingresa tu GitHub Personal Access Token: ··········

Enviando cambios a GitHub...
Enumerating objects: 28, done.
Counting objects: 100% (28/28), done.
Delta compression using up to 2 threads
Compressing objects: 100% (24/24), done.
Writing objects: 100% (24/24), 196.25 KiB | 2.02 MiB/s, done.
Total 24 (delta 16), reused 0 (delta 0), pack-reused 0
remote: Resolving deltas: 100% (16/16), completed with 1 local object.[K
remote: [1;31merror[m: GH013: Repository rule violations found for refs/heads/main.[K
remote: 
remote: - GITHUB PUSH PROTECTION[K
remote:   —————————————————————————————————————————[K
remote:     Resolve the following violations before pushing again[K
remote: 
remote:     - Push cannot contain secrets[K
remote: 
remote:     [K
remote:      (?) Learn how to resolve a blocked push[K
remote:      https://docs.github.com/code-security/secret-scanning/working-with-secret-