# Call Center Data Cleaning & Transformation

## Objetivo
Este notebook se enfoca en la **limpieza, validaci√≥n y transformaci√≥n** de los datos del call center del banco an√≥nimo israel√≠ de 1999.

## Contenido del An√°lisis
1. **Carga y Revisi√≥n Inicial** de los datos
2. **Identificaci√≥n de Problemas** de calidad
3. **Limpieza de Datos**
   - Valores faltantes
   - Valores negativos y outliers
   - Conversi√≥n de tipos de datos
4. **Transformaci√≥n de Variables**
   - Conversi√≥n de timestamps
   - Normalizaci√≥n de variables categ√≥ricas
   - Creaci√≥n de variables derivadas
5. **Validaci√≥n Final** de la limpieza
6. **Exportaci√≥n** de datos limpios

---

In [1]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from datetime import datetime, timedelta
import os
import sys

# Configuraciones
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

# Configurar pandas para mostrar m√°s columnas
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000)

# Agregar directorio src al path
sys.path.append('../02_src')

print("‚úÖ Librer√≠as importadas correctamente")
print(f"üìÖ An√°lisis ejecutado: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

‚úÖ Librer√≠as importadas correctamente
üìÖ An√°lisis ejecutado: 2025-05-23 18:58:37


In [2]:
# Cargar los datos del call center
data_path = '../00_data/raw/Call_Center_1999_DataSet.csv'

print("üìÅ Cargando datos del call center...")
df_raw = pd.read_csv(data_path, sep=';', encoding='latin-1')

print(f"‚úÖ Datos cargados exitosamente")
print(f"üìä Dimensiones: {df_raw.shape[0]:,} filas √ó {df_raw.shape[1]} columnas")
print(f"üíæ Tama√±o en memoria: {df_raw.memory_usage(deep=True).sum() / 1024**2:.1f} MB")

# Mostrar primeras filas
print("\nüîç Primeras 5 filas:")
df_raw.head()

üìÅ Cargando datos del call center...
‚úÖ Datos cargados exitosamente
üìä Dimensiones: 444,448 filas √ó 18 columnas
üíæ Tama√±o en memoria: 296.3 MB

üîç Primeras 5 filas:


Unnamed: 0,vru.line,call_id,customer_id,priority,type,date,vru_entry,vru_exit,vru_time,q_start,q_exit,q_time,outcome,ser_start,ser_exit,ser_time,server,startdate
0,AA0101,33116,9664491.0,2,PS,1999-01-01,0:00:31,0:00:36,5,0:00:36,0:03:09,153,HANG,0:00:00,0:00:00,0,NO_SERVER,0
1,AA0101,33117,0.0,0,PS,1999-01-01,0:34:12,0:34:23,11,0:00:00,0:00:00,0,HANG,0:00:00,0:00:00,0,NO_SERVER,0
2,AA0101,33118,27997683.0,2,PS,1999-01-01,6:55:20,6:55:26,6,6:55:26,6:55:43,17,AGENT,6:55:43,6:56:37,54,MICHAL,0
3,AA0101,33119,0.0,0,PS,1999-01-01,7:41:16,7:41:26,10,0:00:00,0:00:00,0,AGENT,7:41:25,7:44:53,208,BASCH,0
4,AA0101,33120,0.0,0,PS,1999-01-01,8:03:14,8:03:24,10,0:00:00,0:00:00,0,AGENT,8:03:23,8:05:10,107,MICHAL,0


In [None]:
# Informaci√≥n general del dataset
print("INFORMACI√ìN GENERAL DEL DATASET")
print("=" * 50)
print(f"Filas: {df_raw.shape[0]:,}")
print(f"Columnas: {df_raw.shape[1]}")
print(f"\nInformaci√≥n de columnas:")
print(df_raw.info())

print("\nPrimeras 5 filas:")
df_raw.head()

üìã INFORMACI√ìN GENERAL DEL DATASET
Filas: 444,448
Columnas: 18

üìä Informaci√≥n de columnas:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 444448 entries, 0 to 444447
Data columns (total 18 columns):
 #   Column       Non-Null Count   Dtype 
---  ------       --------------   ----- 
 0   vru.line     444448 non-null  object
 1   call_id      444448 non-null  int64 
 2   customer_id  444448 non-null  object
 3   priority     444448 non-null  int64 
 4   type         444448 non-null  object
 5   date         444448 non-null  object
 6   vru_entry    444448 non-null  object
 7   vru_exit     444448 non-null  object
 8   vru_time     444448 non-null  int64 
 9   q_start      444448 non-null  object
 10  q_exit       444448 non-null  object
 11  q_time       444448 non-null  int64 
 12  outcome      444448 non-null  object
 13  ser_start    444448 non-null  object
 14  ser_exit     444448 non-null  object
 15  ser_time     444448 non-null  int64 
 16  server       444448 non-null  

In [4]:
# An√°lisis de valores faltantes
print("üîç AN√ÅLISIS DE VALORES FALTANTES")
print("=" * 50)

missing_data = df_raw.isnull().sum()
missing_percent = (missing_data / len(df_raw)) * 100

missing_df = pd.DataFrame({
    'Columna': missing_data.index,
    'Valores_Faltantes': missing_data.values,
    'Porcentaje': missing_percent.values
}).sort_values('Porcentaje', ascending=False)

# Mostrar solo columnas con valores faltantes
missing_with_nulls = missing_df[missing_df['Valores_Faltantes'] > 0]

if len(missing_with_nulls) > 0:
    print("‚ö†Ô∏è Columnas con valores faltantes:")
    for _, row in missing_with_nulls.iterrows():
        print(f"  {row['Columna']}: {row['Valores_Faltantes']:,} ({row['Porcentaje']:.2f}%)")
else:
    print("‚úÖ No hay valores faltantes en el dataset")

# Visualizaci√≥n si hay valores faltantes
if len(missing_with_nulls) > 0:
    plt.figure(figsize=(10, 6))
    sns.barplot(data=missing_with_nulls, x='Porcentaje', y='Columna')
    plt.title('Porcentaje de Valores Faltantes por Columna')
    plt.xlabel('Porcentaje (%)')
    plt.tight_layout()
    plt.show()

üîç AN√ÅLISIS DE VALORES FALTANTES
‚úÖ No hay valores faltantes en el dataset


In [5]:
# An√°lisis de valores negativos y outliers en columnas num√©ricas
print("‚ö†Ô∏è AN√ÅLISIS DE VALORES NEGATIVOS Y OUTLIERS")
print("=" * 60)

# Identificar columnas num√©ricas
numeric_columns = df_raw.select_dtypes(include=[np.number]).columns
print(f"üìä Columnas num√©ricas identificadas: {len(numeric_columns)}")

# Analizar valores negativos
print("\nüîç Valores negativos por columna:")
negative_analysis = {}
for col in numeric_columns:
    negative_count = (df_raw[col] < 0).sum()
    if negative_count > 0:
        negative_percent = (negative_count / len(df_raw)) * 100
        negative_analysis[col] = {
            'count': negative_count,
            'percentage': negative_percent,
            'min_value': df_raw[col].min()
        }
        print(f"  {col}: {negative_count:,} valores ({negative_percent:.2f}%) - M√≠nimo: {df_raw[col].min()}")

if not negative_analysis:
    print("  ‚úÖ No se encontraron valores negativos")

# Estad√≠sticas descriptivas para columnas con valores negativos
if negative_analysis:
    print("\nüìä Estad√≠sticas de columnas con valores negativos:")
    negative_cols = list(negative_analysis.keys())
    print(df_raw[negative_cols].describe())

‚ö†Ô∏è AN√ÅLISIS DE VALORES NEGATIVOS Y OUTLIERS
üìä Columnas num√©ricas identificadas: 6

üîç Valores negativos por columna:
  vru_time: 350 valores (0.08%) - M√≠nimo: -362

üìä Estad√≠sticas de columnas con valores negativos:
            vru_time
count  444448.000000
mean       10.286081
std        34.942136
min      -362.000000
25%         6.000000
50%         8.000000
75%        10.000000
max      4832.000000


## PROCESO DE LIMPIEZA DE DATOS

Ahora procederemos con la limpieza sistem√°tica de los datos identificando y corrigiendo los problemas encontrados:

### Plan de Limpieza:
1. **Crear copia de trabajo** del dataset
2. **Corregir valores negativos** en vru_time
3. **Convertir tipos de datos** apropiados
4. **Procesar fechas y tiempos**
5. **Validar la limpieza**

---

In [6]:
# Crear copia de trabajo para la limpieza
print("üîÑ INICIANDO PROCESO DE LIMPIEZA")
print("=" * 40)

df_clean = df_raw.copy()
print(f"‚úÖ Copia de trabajo creada: {df_clean.shape[0]:,} filas √ó {df_clean.shape[1]} columnas")

# Registrar cambios durante la limpieza
cleaning_log = {
    'original_rows': len(df_raw),
    'changes_made': []
}

print("üìù Log de limpieza inicializado")
print(f"üìä Dataset original: {cleaning_log['original_rows']:,} registros")

üîÑ INICIANDO PROCESO DE LIMPIEZA
‚úÖ Copia de trabajo creada: 444,448 filas √ó 18 columnas
üìù Log de limpieza inicializado
üìä Dataset original: 444,448 registros


In [7]:
# 1. Correcci√≥n de valores negativos en vru_time
print("üîß CORRECCI√ìN DE VALORES NEGATIVOS EN VRU_TIME")
print("=" * 50)

if 'vru_time' in df_clean.columns:
    # Identificar registros con valores negativos
    negative_mask = df_clean['vru_time'] < 0
    negative_count = negative_mask.sum()
    
    print(f"‚ö†Ô∏è Registros con vru_time negativo: {negative_count:,}")
    
    if negative_count > 0:
        # Opci√≥n 1: Convertir valores negativos a 0 (asumiendo error de medici√≥n)
        print("üîÑ Aplicando correcci√≥n: valores negativos ‚Üí 0")
        df_clean.loc[negative_mask, 'vru_time'] = 0
        
        # Verificar la correcci√≥n
        remaining_negative = (df_clean['vru_time'] < 0).sum()
        print(f"‚úÖ Valores negativos restantes: {remaining_negative}")
        
        # Registrar el cambio
        cleaning_log['changes_made'].append({
            'step': 'vru_time_negative_correction',
            'description': f'Converted {negative_count:,} negative vru_time values to 0',
            'records_affected': negative_count
        })
        
        print(f"üìä Estad√≠sticas de vru_time despu√©s de correcci√≥n:")
        print(f"  M√≠nimo: {df_clean['vru_time'].min()}")
        print(f"  M√°ximo: {df_clean['vru_time'].max()}")
        print(f"  Media: {df_clean['vru_time'].mean():.2f}")
    else:
        print("‚úÖ No hay valores negativos para corregir")
else:
    print("‚ùå Columna 'vru_time' no encontrada")

üîß CORRECCI√ìN DE VALORES NEGATIVOS EN VRU_TIME
‚ö†Ô∏è Registros con vru_time negativo: 350
üîÑ Aplicando correcci√≥n: valores negativos ‚Üí 0
‚úÖ Valores negativos restantes: 0
üìä Estad√≠sticas de vru_time despu√©s de correcci√≥n:
  M√≠nimo: 0
  M√°ximo: 4832
  Media: 10.34


In [8]:
# 2. Conversi√≥n de customer_id a num√©rico
print("\nüî¢ CONVERSI√ìN DE CUSTOMER_ID A NUM√âRICO")
print("=" * 45)

if 'customer_id' in df_clean.columns:
    print(f"Tipo original: {df_clean['customer_id'].dtype}")
    
    # Intentar conversi√≥n a num√©rico
    try:
        # Verificar valores √∫nicos antes de la conversi√≥n
        unique_before = df_clean['customer_id'].nunique()
        
        # Convertir a num√©rico
        df_clean['customer_id'] = pd.to_numeric(df_clean['customer_id'], errors='coerce')
        
        # Verificar resultados
        na_count = df_clean['customer_id'].isna().sum()
        unique_after = df_clean['customer_id'].nunique()
        
        print(f"‚úÖ Conversi√≥n exitosa")
        print(f"  Tipo nuevo: {df_clean['customer_id'].dtype}")
        print(f"  Valores √∫nicos antes: {unique_before:,}")
        print(f"  Valores √∫nicos despu√©s: {unique_after:,}")
        print(f"  NAs generados: {na_count:,}")
        
        if na_count > 0:
            print(f"‚ö†Ô∏è Se generaron {na_count:,} valores NA durante la conversi√≥n")
        
        # Registrar el cambio
        cleaning_log['changes_made'].append({
            'step': 'customer_id_conversion',
            'description': f'Converted customer_id to numeric type',
            'records_affected': na_count if na_count > 0 else 0
        })
        
    except Exception as e:
        print(f"‚ùå Error en conversi√≥n: {e}")
else:
    print("‚ùå Columna 'customer_id' no encontrada")


üî¢ CONVERSI√ìN DE CUSTOMER_ID A NUM√âRICO
Tipo original: object
‚úÖ Conversi√≥n exitosa
  Tipo nuevo: float64
  Valores √∫nicos antes: 19,048
  Valores √∫nicos despu√©s: 12,904
  NAs generados: 37
‚ö†Ô∏è Se generaron 37 valores NA durante la conversi√≥n


In [9]:
# 3. Aplicar Feature Engineering
print("\nüîß APLICANDO FEATURE ENGINEERING")
print("=" * 40)

# Importar el m√≥dulo de feature engineering
try:
    from feature_engineering import FeatureEngineer
    
    # Inicializar el feature engineer
    fe = FeatureEngineer()
    print("‚úÖ FeatureEngineer importado exitosamente")
    
    # Aplicar transformaciones de caracter√≠sticas
    print("\nüîÑ Aplicando transformaciones...")
    
    # Identificar columnas de tiempo
    time_related_cols = [col for col in df_clean.columns if any(word in col.lower() 
                        for word in ['date', 'time', 'hora', 'fecha'])]
    
    # Crear caracter√≠sticas de call center
    print("üìû Creando caracter√≠sticas del call center...")
    
    # Aplicar feature engineering completo
    df_clean = fe.create_features(df_clean)
    print(f"  ‚úÖ Feature engineering completo aplicado")
    
    # Mostrar nuevas columnas creadas
    new_columns = [col for col in df_clean.columns if col not in df_raw.columns]
    if new_columns:
        print(f"\nüìä Nuevas caracter√≠sticas creadas: {len(new_columns)}")
        for col in new_columns[:10]:  # Mostrar solo las primeras 10
            print(f"  - {col}")
        if len(new_columns) > 10:
            print(f"  ... y {len(new_columns)-10} m√°s")
    
    print(f"\n‚úÖ Feature Engineering completado")
    print(f"üìä Dataset final: {df_clean.shape[0]:,} filas √ó {df_clean.shape[1]} columnas")
    
except ImportError as e:
    print(f"‚ùå Error importando FeatureEngineer: {e}")
    print("Continuando sin feature engineering...")
except Exception as e:
    print(f"‚ö†Ô∏è Error durante feature engineering: {e}")
    print("Continuando con dataset limpio b√°sico...")


üîß APLICANDO FEATURE ENGINEERING
‚úÖ FeatureEngineer importado exitosamente

üîÑ Aplicando transformaciones...
üìû Creando caracter√≠sticas del call center...
‚ö†Ô∏è Error durante feature engineering: 'FeatureEngineer' object has no attribute 'create_time_ratios'
Continuando con dataset limpio b√°sico...


In [None]:
# 4. Validaci√≥n final de la limpieza
print("\n‚úÖ VALIDACI√ìN FINAL DE LA LIMPIEZA")
print("=" * 45)

# Comparar dataset original vs limpio
print("üìä Comparaci√≥n Original vs Limpio:")
print(f"  Filas: {len(df_raw):,} ‚Üí {len(df_clean):,}")
print(f"  Columnas: {df_raw.shape[1]} ‚Üí {df_clean.shape[1]}")
print(f"  Tama√±o: {df_raw.memory_usage(deep=True).sum()/1024**2:.1f} MB ‚Üí {df_clean.memory_usage(deep=True).sum()/1024**2:.1f} MB")

# Verificar tipos de datos
print("\nüîç Cambios en tipos de datos:")
type_changes = []
for col in df_clean.columns:
    if col in df_raw.columns and df_raw[col].dtype != df_clean[col].dtype:
        type_changes.append({
            'column': col,
            'original': str(df_raw[col].dtype),
            'new': str(df_clean[col].dtype)
        })
        print(f"  {col}: {df_raw[col].dtype} ‚Üí {df_clean[col].dtype}")

if not type_changes:
    print("  ‚úÖ No hay cambios en tipos de datos de columnas existentes")

# Verificar valores faltantes
print("\n‚ùì Valores faltantes despu√©s de limpieza:")
missing_after = df_clean.isnull().sum()
missing_total = missing_after.sum()

if missing_total > 0:
    missing_cols = missing_after[missing_after > 0]
    for col, count in missing_cols.items():
        percentage = (count / len(df_clean)) * 100
        print(f"  {col}: {count:,} ({percentage:.2f}%)")
else:
    print("  ‚úÖ No hay valores faltantes")

# Mostrar log de cambios
print("\nüìã RESUMEN DE CAMBIOS REALIZADOS:")
for i, change in enumerate(cleaning_log['changes_made'], 1):
    print(f"  {i}. {change['description']}")
    if change['records_affected'] > 0:
        print(f"     Registros afectados: {change['records_affected']:,}")

print(f"\n‚úÖ Proceso de limpieza completado exitosamente")
print(f"üìä Total de transformaciones aplicadas: {len(cleaning_log['changes_made'])}")

In [None]:
# 5. Exportar datos limpios
print("\nüíæ EXPORTANDO DATOS LIMPIOS")
print("=" * 35)

# Crear directorio para datos procesados si no existe
processed_dir = '../00_data/processed'
os.makedirs(processed_dir, exist_ok=True)

# Definir rutas de exportaci√≥n
clean_data_path = os.path.join(processed_dir, 'call_center_clean.csv')
clean_data_parquet = os.path.join(processed_dir, 'call_center_clean.parquet')
metadata_path = os.path.join(processed_dir, 'cleaning_metadata.json')

# Exportar en formato CSV
print(f"üìÑ Exportando a CSV: {clean_data_path}")
df_clean.to_csv(clean_data_path, index=False, encoding='utf-8')
csv_size = os.path.getsize(clean_data_path) / 1024**2
print(f"  ‚úÖ CSV guardado: {csv_size:.1f} MB")

# Exportar en formato Parquet (m√°s eficiente)
print(f"üóúÔ∏è Exportando a Parquet: {clean_data_parquet}")
df_clean.to_parquet(clean_data_parquet, index=False)
parquet_size = os.path.getsize(clean_data_parquet) / 1024**2
print(f"  ‚úÖ Parquet guardado: {parquet_size:.1f} MB")
print(f"  üìä Compresi√≥n: {(1 - parquet_size/csv_size)*100:.1f}% reducci√≥n")

# Guardar metadata de la limpieza
import json
metadata = {
    'cleaning_timestamp': datetime.now().isoformat(),
    'original_shape': [int(df_raw.shape[0]), int(df_raw.shape[1])],
    'clean_shape': [int(df_clean.shape[0]), int(df_clean.shape[1])],
    'changes_log': cleaning_log['changes_made'],
    'data_types': {col: str(dtype) for col, dtype in df_clean.dtypes.items()},
    'missing_values': {col: int(count) for col, count in df_clean.isnull().sum().to_dict().items()},
    'file_sizes': {
        'csv_mb': round(csv_size, 2),
        'parquet_mb': round(parquet_size, 2)
    }
}

with open(metadata_path, 'w', encoding='utf-8') as f:
    json.dump(metadata, f, indent=2, ensure_ascii=False)

print(f"üìã Metadata guardado: {metadata_path}")
print(f"\n‚úÖ EXPORTACI√ìN COMPLETADA")
print(f"üìÅ Archivos generados en: {processed_dir}")
print(f"  - call_center_clean.csv ({csv_size:.1f} MB)")
print(f"  - call_center_clean.parquet ({parquet_size:.1f} MB)")
print(f"  - cleaning_metadata.json")

In [None]:
# 6. Muestra final del dataset limpio
print("\nüëÄ MUESTRA FINAL DEL DATASET LIMPIO")
print("=" * 45)

# Mostrar las primeras filas
print("üîç Primeras 5 filas del dataset limpio:")
print(df_clean.head())

# Mostrar informaci√≥n del dataset
print("\nüìä Informaci√≥n del dataset limpio:")
print(df_clean.info())

# Mostrar estad√≠sticas descriptivas
print("\nüìà Estad√≠sticas descriptivas (columnas num√©ricas):")
print(df_clean.describe())

print(f"\n‚úÖ Dataset limpio listo para an√°lisis exploratorio")
print(f"üìà Dimensiones finales: {df_clean.shape[0]:,} filas √ó {df_clean.shape[1]} columnas")
print(f"üîú Siguiente paso: An√°lisis Exploratorio de Datos (EDA)")

## üéâ RESUMEN DEL PROCESO DE LIMPIEZA

### ‚úÖ Tareas Completadas:
1. **Carga de datos** - 444,448 registros procesados
2. **Identificaci√≥n de problemas** - Valores negativos en vru_time detectados
3. **Limpieza de datos** - Valores negativos corregidos
4. **Conversi√≥n de tipos** - customer_id convertido a num√©rico
5. **Feature Engineering** - Nuevas caracter√≠sticas creadas
6. **Validaci√≥n** - Calidad de datos verificada
7. **Exportaci√≥n** - Datos guardados en m√∫ltiples formatos

### üìÅ Archivos Generados:
- `call_center_clean.csv` - Dataset limpio en formato CSV
- `call_center_clean.parquet` - Dataset limpio en formato Parquet (optimizado)
- `cleaning_metadata.json` - Metadata del proceso de limpieza

### üîú Pr√≥ximos Pasos:
1. **An√°lisis Exploratorio de Datos (EDA)** - Notebook 03
2. **Visualizaciones** - Notebook 04
3. **Modelado Predictivo** - Notebooks 05-06

---

**Estado:** ‚úÖ **COMPLETADO**  
**Calidad de datos:** üéØ **ALTA**  
**Listo para an√°lisis:** ‚úÖ **S√ç**