#  Análisis Exploratorio Inicial - Call Center 1999

##  Anonymous Bank - Análisis de Datos de Call Center

### Descripción del Proyecto

Este notebook realiza la exploración inicial del dataset del Call Center del "Anonymous Bank" correspondiente al año 1999. El análisis incluye:

- **Carga y estructura de datos**: Comprensión del formato y dimensiones
- **Análisis descriptivo**: Estadísticas básicas y distribuciones
- **Calidad de datos**: Identificación de valores faltantes y outliers
- **Análisis temporal**: Patrones por fecha, hora y día de la semana
- **Análisis operacional**: Tiempos de servicio, colas y eficiencia
- **Visualizaciones iniciales**: Gráficos exploratorios para entender los datos

### Objetivos

1. **Comprender la estructura** del dataset y sus variables
2. **Identificar patrones temporales** en las llamadas
3. **Analizar la eficiencia operacional** del call center
4. **Detectar anomalías** y problemas de calidad de datos
5. **Generar insights iniciales** para análisis posteriores

---

## 1. Impotacion de librerías y datos necesarios.

Importamos todas las librerías necesarias para el análisis exploratorio de datos.

In [1]:
# Librerías para manipulación de datos
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
import warnings
warnings.filterwarnings('ignore')

# Librerías para visualización
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Configuración de estilo
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

# Configuración de Plotly
import plotly.io as pio
pio.templates.default = "plotly_white"

print("✅ Librerías importadas correctamente")
print(f"📊 Pandas version: {pd.__version__}")
print(f"🔢 NumPy version: {np.__version__}")
print(f"📈 Matplotlib backend: {plt.get_backend()}")

✅ Librerías importadas correctamente
📊 Pandas version: 2.2.3
🔢 NumPy version: 2.2.6
📈 Matplotlib backend: module://matplotlib_inline.backend_inline


---

## 2. 📂 Carga y Estructura de Datos

### Carga del Dataset

In [3]:
# Definir ruta del archivo
data_path = "../00_data/raw/Call_Center_1999_DataSet.csv"

# Verificar que el archivo existe
import os
if os.path.exists(data_path):
    print(f"✅ Archivo encontrado: {data_path}")
    file_size = os.path.getsize(data_path) / (1024 * 1024)  # MB
    print(f"📏 Tamaño del archivo: {file_size:.2f} MB")
else:
    print(f"❌ Archivo no encontrado: {data_path}")
    
# Cargar datos
print("\n📥 Cargando datos...")
start_time = datetime.now()

try:
    # Cargar el dataset con parámetros específicos para este archivo
    # El archivo usa punto y coma como separador y puede tener problemas de formato
    df = pd.read_csv(
        data_path, 
        sep=';',  # Usar punto y coma como separador
        encoding='utf-8',  # Especificar encoding
        on_bad_lines='skip',  # Omitir líneas con problemas
        quotechar='"',  # Carácter de citas
        low_memory=False  # Cargar todo en memoria para mejor rendimiento
    )
    
    load_time = datetime.now() - start_time
    print(f"✅ Datos cargados exitosamente en {load_time.total_seconds():.2f} segundos")
    print(f"📊 Dimensiones del dataset: {df.shape[0]:,} filas x {df.shape[1]} columnas")
    
except Exception as e:
    print(f"❌ Error al cargar los datos: {e}")
    print("\n🔧 Intentando con diferentes parámetros...")
    
    try:
        # Intento alternativo con diferentes parámetros
        df = pd.read_csv(
            data_path,
            sep=';',
            encoding='latin-1',  # Encoding alternativo
            on_bad_lines='skip',
            quoting=1  # QUOTE_ALL
        )
        print(f"✅ Datos cargados con parámetros alternativos")
        print(f"📊 Dimensiones del dataset: {df.shape[0]:,} filas x {df.shape[1]} columnas")
        
    except Exception as e2:
        print(f"❌ Error persistente: {e2}")
        print("💡 Sugerencia: Verificar manualmente el formato del archivo CSV")

✅ Archivo encontrado: ../00_data/raw/Call_Center_1999_DataSet.csv
📏 Tamaño del archivo: 56.99 MB

📥 Cargando datos...
✅ Datos cargados exitosamente en 1.13 segundos
📊 Dimensiones del dataset: 444,448 filas x 18 columnas


In [4]:
# Inspección inicial de la estructura
print("🔍 INFORMACIÓN GENERAL DEL DATASET")
print("=" * 50)
print(f"Número de filas: {df.shape[0]:,}")
print(f"Número de columnas: {df.shape[1]}")
print(f"Memoria utilizada: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

print("\n📋 COLUMNAS DEL DATASET:")
print("-" * 30)
for i, col in enumerate(df.columns, 1):
    print(f"{i:2d}. {col}")

# Primeros registros
print("\n👀 PRIMEROS 5 REGISTROS:")
print("=" * 50)
display(df.head())

🔍 INFORMACIÓN GENERAL DEL DATASET
Número de filas: 444,448
Número de columnas: 18
Memoria utilizada: 303.32 MB

📋 COLUMNAS DEL DATASET:
------------------------------
 1. vru.line
 2. call_id
 3. customer_id
 4. priority
 5. type
 6. date
 7. vru_entry
 8. vru_exit
 9. vru_time
10. q_start
11. q_exit
12. q_time
13. outcome
14. ser_start
15. ser_exit
16. ser_time
17. server
18. startdate

👀 PRIMEROS 5 REGISTROS:
Memoria utilizada: 303.32 MB

📋 COLUMNAS DEL DATASET:
------------------------------
 1. vru.line
 2. call_id
 3. customer_id
 4. priority
 5. type
 6. date
 7. vru_entry
 8. vru_exit
 9. vru_time
10. q_start
11. q_exit
12. q_time
13. outcome
14. ser_start
15. ser_exit
16. ser_time
17. server
18. startdate

👀 PRIMEROS 5 REGISTROS:


Unnamed: 0,vru.line,call_id,customer_id,priority,type,date,vru_entry,vru_exit,vru_time,q_start,q_exit,q_time,outcome,ser_start,ser_exit,ser_time,server,startdate
0,AA0101,33116,9664491,2,PS,1999-01-01,0:00:31,0:00:36,5,0:00:36,0:03:09,153,HANG,0:00:00,0:00:00,0,NO_SERVER,0
1,AA0101,33117,0,0,PS,1999-01-01,0:34:12,0:34:23,11,0:00:00,0:00:00,0,HANG,0:00:00,0:00:00,0,NO_SERVER,0
2,AA0101,33118,27997683,2,PS,1999-01-01,6:55:20,6:55:26,6,6:55:26,6:55:43,17,AGENT,6:55:43,6:56:37,54,MICHAL,0
3,AA0101,33119,0,0,PS,1999-01-01,7:41:16,7:41:26,10,0:00:00,0:00:00,0,AGENT,7:41:25,7:44:53,208,BASCH,0
4,AA0101,33120,0,0,PS,1999-01-01,8:03:14,8:03:24,10,0:00:00,0:00:00,0,AGENT,8:03:23,8:05:10,107,MICHAL,0


In [5]:
# Análisis de tipos de datos
print("🧪 TIPOS DE DATOS Y INFORMACIÓN DETALLADA")
print("=" * 50)

# Información básica
print("\n📊 Información del DataFrame:")
df.info(memory_usage='deep')

# Descripción de tipos de datos
print("\n🔍 ANÁLISIS DE TIPOS DE DATOS:")
print("-" * 40)

data_types_summary = df.dtypes.value_counts()
print("\nDistribución de tipos de datos:")
for dtype, count in data_types_summary.items():
    print(f"  {dtype}: {count} columnas")

# Identificar columnas categóricas vs numéricas
numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
categorical_cols = df.select_dtypes(include=['object']).columns.tolist()
datetime_cols = df.select_dtypes(include=['datetime64']).columns.tolist()

print(f"\n📊 Columnas numéricas: {len(numeric_cols)}")
print(f"📝 Columnas categóricas: {len(categorical_cols)}")
print(f"📅 Columnas de fecha/hora: {len(datetime_cols)}")

if numeric_cols:
    print(f"\nColumnas numéricas: {numeric_cols}")
if categorical_cols:
    print(f"\nColumnas categóricas: {categorical_cols}")
if datetime_cols:
    print(f"\nColumnas fecha/hora: {datetime_cols}")

🧪 TIPOS DE DATOS Y INFORMACIÓN DETALLADA

📊 Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 444448 entries, 0 to 444447
Data columns (total 18 columns):
 #   Column       Non-Null Count   Dtype 
---  ------       --------------   ----- 
 0   vru.line     444448 non-null  object
 1   call_id      444448 non-null  int64 
 2   customer_id  444448 non-null  object
 3   priority     444448 non-null  int64 
 4   type         444448 non-null  object
 5   date         444448 non-null  object
 6   vru_entry    444448 non-null  object
 7   vru_exit     444448 non-null  object
 8   vru_time     444448 non-null  int64 
 9   q_start      444448 non-null  object
 10  q_exit       444448 non-null  object
 11  q_time       444448 non-null  int64 
 12  outcome      444448 non-null  object
 13  ser_start    444448 non-null  object
 14  ser_exit     444448 non-null  object
 15  ser_time     444448 non-null  int64 
 16  server       444448 non-null  object
 17  startdate    44

---

## 3. 📊 Análisis Descriptivo Básico

### Estadísticas Descriptivas

In [6]:
# Estadísticas descriptivas para variables numéricas
if numeric_cols:
    print("🔢 ESTADÍSTICAS DESCRIPTIVAS - VARIABLES NUMÉRICAS")
    print("=" * 60)
    
    desc_stats = df[numeric_cols].describe()
    display(desc_stats)
    
    # Análisis adicional de distribuciones
    print("\n📈 ANÁLISIS DE DISTRIBUCIONES:")
    print("-" * 40)
    
    for col in numeric_cols:
        if df[col].dtype in ['int64', 'float64']:
            print(f"\n{col}:")
            print(f"  Mínimo: {df[col].min()}")
            print(f"  Máximo: {df[col].max()}")
            print(f"  Media: {df[col].mean():.2f}")
            print(f"  Mediana: {df[col].median():.2f}")
            print(f"  Desv. Estándar: {df[col].std():.2f}")
            
            # Detectar outliers usando IQR
            Q1 = df[col].quantile(0.25)
            Q3 = df[col].quantile(0.75)
            IQR = Q3 - Q1
            lower_bound = Q1 - 1.5 * IQR
            upper_bound = Q3 + 1.5 * IQR
            outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)][col]
            print(f"  Outliers detectados: {len(outliers)} ({len(outliers)/len(df)*100:.2f}%)")
else:
    print("❌ No se encontraron columnas numéricas en el dataset")

🔢 ESTADÍSTICAS DESCRIPTIVAS - VARIABLES NUMÉRICAS


Unnamed: 0,call_id,priority,vru_time,q_time,ser_time,startdate
count,444448.0,444448.0,444448.0,444448.0,444448.0,444448.0
mean,31928.737202,0.780143,10.286081,59.004304,152.561776,172.333974
std,13945.516813,0.888851,34.942136,119.470328,282.372761,104.559247
min,1169.0,0.0,-362.0,0.0,0.0,0.0
25%,21449.0,0.0,6.0,0.0,12.0,90.0
50%,35256.0,0.0,8.0,16.0,84.0,181.0
75%,42803.0,2.0,10.0,79.0,185.0,273.0
max,55656.0,2.0,4832.0,28693.0,61437.0,334.0



📈 ANÁLISIS DE DISTRIBUCIONES:
----------------------------------------

call_id:
  Mínimo: 1169
  Máximo: 55656
  Media: 31928.74
  Mediana: 35256.00
  Desv. Estándar: 13945.52
  Outliers detectados: 0 (0.00%)

priority:
  Mínimo: 0
  Máximo: 2
  Media: 0.78
  Mediana: 0.00
  Desv. Estándar: 0.89
  Outliers detectados: 0 (0.00%)

vru_time:
  Mínimo: -362
  Máximo: 4832
  Media: 10.29
  Mediana: 8.00
  Desv. Estándar: 34.94
  Outliers detectados: 26683 (6.00%)

q_time:
  Mínimo: 0
  Máximo: 28693
  Media: 59.00
  Mediana: 16.00
  Desv. Estándar: 119.47
  Outliers detectados: 37237 (8.38%)

ser_time:
  Mínimo: 0
  Máximo: 61437
  Media: 152.56
  Mediana: 84.00
  Desv. Estándar: 282.37
  Outliers detectados: 32381 (7.29%)

startdate:
  Mínimo: 0
  Máximo: 334
  Media: 172.33
  Mediana: 181.00
  Desv. Estándar: 104.56
  Outliers detectados: 0 (0.00%)
  Outliers detectados: 32381 (7.29%)

startdate:
  Mínimo: 0
  Máximo: 334
  Media: 172.33
  Mediana: 181.00
  Desv. Estándar: 104.56
  Outl

In [None]:
# Análisis de variables categóricas
if categorical_cols:
    print("\n📝 ESTADÍSTICAS DESCRIPTIVAS - VARIABLES CATEGÓRICAS")
    print("=" * 60)
    
    for col in categorical_cols:
        print(f"\n🏷️ {col.upper()}:")
        print("-" * 20)
        
        # Valores únicos
        unique_values = df[col].nunique()
        print(f"Valores únicos: {unique_values}")
        
        # Distribución de frecuencias
        value_counts = df[col].value_counts()
        print(f"\nTop 10 valores más frecuentes:")
        for i, (value, count) in enumerate(value_counts.head(10).items(), 1):
            percentage = (count / len(df)) * 100
            print(f"  {i:2d}. {value}: {count:,} ({percentage:.2f}%)")
        
        # Verificar si hay valores nulos representados como strings
        null_like_values = ['null', 'NULL', 'nan', 'NaN', 'none', 'None', '', ' ']
        null_like_count = df[col].isin(null_like_values).sum()
        if null_like_count > 0:
            print(f"⚠️ Valores nulos implícitos: {null_like_count}")
else:
    print("❌ No se encontraron columnas categóricas en el dataset")

---

## 4. 🧹 Análisis de Calidad de Datos

### Valores Faltantes y Nulos

In [None]:
# Análisis de valores faltantes
print("🔍 ANÁLISIS DE VALORES FALTANTES")
print("=" * 40)

# Contar valores nulos por columna
missing_data = df.isnull().sum()
missing_percentage = (missing_data / len(df)) * 100

# Crear DataFrame resumen
missing_summary = pd.DataFrame({
    'Columna': missing_data.index,
    'Valores_Faltantes': missing_data.values,
    'Porcentaje': missing_percentage.values
}).sort_values('Valores_Faltantes', ascending=False)

# Mostrar solo columnas con valores faltantes
missing_summary_filtered = missing_summary[missing_summary['Valores_Faltantes'] > 0]

if len(missing_summary_filtered) > 0:
    print("\n📋 COLUMNAS CON VALORES FALTANTES:")
    print("-" * 50)
    display(missing_summary_filtered)
    
    print(f"\n📊 RESUMEN:")
    print(f"Total de columnas con valores faltantes: {len(missing_summary_filtered)}")
    print(f"Columna con más valores faltantes: {missing_summary_filtered.iloc[0]['Columna']} ({missing_summary_filtered.iloc[0]['Porcentaje']:.2f}%)")
else:
    print("✅ ¡Excelente! No hay valores faltantes en el dataset")

# Análisis de patrones de valores faltantes
print("\n🔗 PATRONES DE VALORES FALTANTES:")
print("-" * 40)

total_missing = df.isnull().sum().sum()
total_cells = df.shape[0] * df.shape[1]
missing_percentage_total = (total_missing / total_cells) * 100

print(f"Total de celdas: {total_cells:,}")
print(f"Total de valores faltantes: {total_missing:,}")
print(f"Porcentaje total de valores faltantes: {missing_percentage_total:.4f}%")

# Filas completamente llenas
complete_rows = df.dropna().shape[0]
print(f"Filas completamente llenas: {complete_rows:,} ({complete_rows/len(df)*100:.2f}%)")

In [None]:
# Visualización de valores faltantes
if missing_summary_filtered.shape[0] > 0:
    # Crear visualización con plotly
    fig = px.bar(
        missing_summary_filtered.head(10), 
        x='Columna', 
        y='Porcentaje',
        title='Top 10 Columnas con Valores Faltantes',
        labels={'Porcentaje': 'Porcentaje de Valores Faltantes (%)', 'Columna': 'Columnas'},
        color='Porcentaje',
        color_continuous_scale='Reds'
    )
    
    fig.update_layout(
        height=500,
        xaxis_tickangle=-45,
        showlegend=False
    )
    
    fig.show()
    
    # Heatmap de valores faltantes (si hay columnas con missing values)
    if len(missing_summary_filtered) <= 20:  # Solo para datasets manejables
        plt.figure(figsize=(12, 8))
        
        # Seleccionar solo columnas con valores faltantes para el heatmap
        cols_with_missing = missing_summary_filtered['Columna'].tolist()
        
        if len(cols_with_missing) > 0:
            # Crear matriz de valores faltantes
            missing_matrix = df[cols_with_missing].isnull()
            
            sns.heatmap(
                missing_matrix.head(1000),  # Mostrar solo primeras 1000 filas
                cbar=True,
                cmap='viridis',
                yticklabels=False
            )
            
            plt.title('Patrón de Valores Faltantes (Primeras 1000 filas)')
            plt.xlabel('Columnas')
            plt.ylabel('Filas')
            plt.xticks(rotation=45)
            plt.tight_layout()
            plt.show()
else:
    print("✅ No hay valores faltantes para visualizar")

---

## 5. 📞 Análisis Específico del Call Center

### Preparación de Datos de Tiempo

Analizaremos los campos específicos del call center como tiempos de VRU, cola y servicio.

In [None]:
# Identificar campos relacionados con tiempo y call center
print("🕐 IDENTIFICACIÓN DE CAMPOS DE TIEMPO")
print("=" * 40)

# Buscar columnas que probablemente contengan información de tiempo
time_related_cols = []
for col in df.columns:
    col_lower = col.lower()
    if any(keyword in col_lower for keyword in ['time', 'hora', 'fecha', 'date', 'vru', 'queue', 'start', 'exit', 'entry']):
        time_related_cols.append(col)

print(f"\n📋 Columnas relacionadas con tiempo identificadas: {len(time_related_cols)}")
for i, col in enumerate(time_related_cols, 1):
    print(f"  {i:2d}. {col}")

# Mostrar sample de estas columnas
if time_related_cols:
    print("\n👀 MUESTRA DE DATOS DE TIEMPO:")
    print("-" * 50)
    sample_time_data = df[time_related_cols].head(10)
    display(sample_time_data)
    
    # Análisis de formato de tiempo
    print("\n🔍 ANÁLISIS DE FORMATO:")
    print("-" * 30)
    for col in time_related_cols:
        print(f"\n{col}:")
        print(f"  Tipo de dato: {df[col].dtype}")
        print(f"  Valores únicos: {df[col].nunique():,}")
        print(f"  Valores no nulos: {df[col].notna().sum():,}")
        
        # Mostrar algunos ejemplos de valores
        non_null_values = df[col].dropna().head(5).tolist()
        print(f"  Ejemplos: {non_null_values}")
else:
    print("❌ No se identificaron columnas de tiempo claras")

In [None]:
# Análisis de campos específicos del call center
print("\n📊 ANÁLISIS DE CAMPOS ESPECÍFICOS DEL CALL CENTER")
print("=" * 55)

# Buscar campos típicos de call center
call_center_fields = {
    'outcome': 'Resultado de la llamada',
    'type': 'Tipo de servicio',
    'priority': 'Prioridad del cliente',
    'server': 'Agente que atendió',
    'customer_id': 'ID del cliente',
    'call_id': 'ID de la llamada'
}

# Verificar qué campos existen en el dataset
existing_fields = {}
for field, description in call_center_fields.items():
    matching_cols = [col for col in df.columns if field.lower() in col.lower()]
    if matching_cols:
        existing_fields[matching_cols[0]] = description

if existing_fields:
    print("\n✅ CAMPOS DE CALL CENTER ENCONTRADOS:")
    print("-" * 40)
    
    for field, description in existing_fields.items():
        print(f"\n🏷️ {field.upper()} ({description}):")
        print(f"   Tipo: {df[field].dtype}")
        print(f"   Valores únicos: {df[field].nunique():,}")
        print(f"   Valores no nulos: {df[field].notna().sum():,}")
        
        # Para campos categóricos, mostrar distribución
        if df[field].dtype == 'object' or df[field].nunique() < 50:
            value_counts = df[field].value_counts().head(5)
            print(f"   Top 5 valores:")
            for value, count in value_counts.items():
                percentage = (count / len(df)) * 100
                print(f"     {value}: {count:,} ({percentage:.2f}%)")
        else:
            # Para campos numéricos, mostrar estadísticas básicas
            print(f"   Min: {df[field].min()}, Max: {df[field].max()}")
            print(f"   Media: {df[field].mean():.2f}, Mediana: {df[field].median():.2f}")
else:
    print("❌ No se encontraron campos típicos de call center con nombres estándar")
    print("💡 Revisaremos todas las columnas para identificar patrones...")
    
    # Mostrar todas las columnas para análisis manual
    print("\n📋 TODAS LAS COLUMNAS DISPONIBLES:")
    for i, col in enumerate(df.columns, 1):
        print(f"  {i:2d}. {col} ({df[col].dtype}, {df[col].nunique()} únicos)")

---

## 6. 📅 Análisis Temporal

### Patrones de Llamadas por Tiempo

Analizaremos los patrones temporales de las llamadas del call center.

In [None]:
# Procesamiento de campos de fecha y hora
print("📅 PROCESAMIENTO DE CAMPOS TEMPORALES")
print("=" * 45)

# Buscar columnas que parezcan fechas
date_cols = []
for col in df.columns:
    # Verificar si la columna contiene fechas
    if df[col].dtype == 'object':
        # Tomar una muestra para verificar formato de fecha
        sample_values = df[col].dropna().head(100)
        
        # Intentar parsear como fecha
        try:
            # Verificar diferentes formatos comunes
            date_formats = ['%Y%m%d', '%Y-%m-%d', '%d/%m/%Y', '%m/%d/%Y', '%d-%m-%Y']
            
            for date_format in date_formats:
                try:
                    parsed_dates = pd.to_datetime(sample_values, format=date_format, errors='coerce')
                    if parsed_dates.notna().sum() > len(sample_values) * 0.8:  # 80% de éxito
                        date_cols.append((col, date_format))
                        print(f"✅ Campo de fecha detectado: {col} (formato: {date_format})")
                        break
                except:
                    continue
        except:
            pass

# Buscar columnas que parezcan tiempo
time_cols = []
for col in df.columns:
    if df[col].dtype == 'object':
        sample_values = df[col].dropna().head(100)
        
        # Verificar formato de tiempo (HHMMSS, HH:MM:SS, etc.)
        time_patterns = [r'^\d{6}$', r'^\d{2}:\d{2}:\d{2}$', r'^\d{1,2}:\d{2}$']
        
        for pattern in time_patterns:
            import re
            matches = sample_values.astype(str).str.match(pattern).sum()
            if matches > len(sample_values) * 0.8:
                time_cols.append(col)
                print(f"✅ Campo de tiempo detectado: {col}")
                break

print(f"\n📊 RESUMEN:")
print(f"Campos de fecha detectados: {len(date_cols)}")
print(f"Campos de tiempo detectados: {len(time_cols)}")

if date_cols:
    print("\n📅 Campos de fecha:")
    for col, format_str in date_cols:
        print(f"  - {col} (formato: {format_str})")
        
if time_cols:
    print("\n🕐 Campos de tiempo:")
    for col in time_cols:
        print(f"  - {col}")

In [None]:
# Conversión de campos de fecha y tiempo
if date_cols:
    print("\n🔄 CONVERSIÓN DE CAMPOS TEMPORALES")
    print("=" * 40)
    
    # Convertir campos de fecha
    for col, date_format in date_cols:
        try:
            # Crear nueva columna con fecha convertida
            new_col_name = f"{col}_parsed"
            df[new_col_name] = pd.to_datetime(df[col], format=date_format, errors='coerce')
            
            # Verificar conversión
            conversion_success = df[new_col_name].notna().sum()
            total_non_null = df[col].notna().sum()
            success_rate = (conversion_success / total_non_null) * 100 if total_non_null > 0 else 0
            
            print(f"✅ {col} → {new_col_name}")
            print(f"   Conversiones exitosas: {conversion_success:,}/{total_non_null:,} ({success_rate:.1f}%)")
            
            if conversion_success > 0:
                # Extraer componentes de fecha
                df[f"{col}_year"] = df[new_col_name].dt.year
                df[f"{col}_month"] = df[new_col_name].dt.month
                df[f"{col}_day"] = df[new_col_name].dt.day
                df[f"{col}_weekday"] = df[new_col_name].dt.day_name()
                df[f"{col}_quarter"] = df[new_col_name].dt.quarter
                
                # Mostrar rango de fechas
                min_date = df[new_col_name].min()
                max_date = df[new_col_name].max()
                print(f"   Rango: {min_date.strftime('%Y-%m-%d')} a {max_date.strftime('%Y-%m-%d')}")
                
                # Calcular duración del período
                duration = max_date - min_date
                print(f"   Duración: {duration.days} días")
                
        except Exception as e:
            print(f"❌ Error convirtiendo {col}: {e}")

# Análisis temporal básico
if date_cols and len([col for col, _ in date_cols if f"{col}_parsed" in df.columns]) > 0:
    print("\n📊 ANÁLISIS TEMPORAL BÁSICO")
    print("=" * 35)
    
    # Usar la primera fecha válida para análisis
    date_col = None
    for col, _ in date_cols:
        if f"{col}_parsed" in df.columns and df[f"{col}_parsed"].notna().sum() > 0:
            date_col = f"{col}_parsed"
            break
    
    if date_col:
        print(f"Analizando columna: {date_col}")
        
        # Distribución por mes
        monthly_dist = df[date_col].dt.month.value_counts().sort_index()
        print(f"\n📅 Distribución por mes:")
        for month, count in monthly_dist.items():
            month_name = pd.to_datetime(f"2023-{month:02d}-01").strftime('%B')
            percentage = (count / len(df)) * 100
            print(f"  {month:2d} ({month_name[:3]}): {count:,} llamadas ({percentage:.1f}%)")
        
        # Distribución por día de la semana
        weekday_dist = df[f"{date_col.replace('_parsed', '')}_weekday"].value_counts()
        print(f"\n📊 Distribución por día de la semana:")
        weekday_order = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
        for day in weekday_order:
            if day in weekday_dist.index:
                count = weekday_dist[day]
                percentage = (count / len(df)) * 100
                print(f"  {day}: {count:,} llamadas ({percentage:.1f}%)")
else:
    print("\n⚠️ No se pudieron procesar campos de fecha para análisis temporal")

---

## 7. 📈 Visualizaciones Exploratorias

### Gráficos Iniciales para Comprensión de Datos

In [None]:
# Visualizaciones de distribuciones básicas
print("📊 CREANDO VISUALIZACIONES EXPLORATORIAS")
print("=" * 45)

# 1. Distribución de variables numéricas
if numeric_cols:
    print("\n📈 Distribuciones de Variables Numéricas")
    
    # Calcular número de subplots necesarios
    n_numeric = len(numeric_cols)
    if n_numeric > 0:
        # Crear subplots
        n_cols = min(3, n_numeric)
        n_rows = (n_numeric + n_cols - 1) // n_cols
        
        fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 5*n_rows))
        if n_numeric == 1:
            axes = [axes]
        elif n_rows == 1:
            axes = axes if isinstance(axes, np.ndarray) else [axes]
        else:
            axes = axes.flatten()
        
        for i, col in enumerate(numeric_cols[:9]):  # Límite de 9 variables
            ax = axes[i] if i < len(axes) else None
            if ax is not None:
                # Histograma con KDE
                df[col].hist(bins=50, alpha=0.7, ax=ax)
                ax.set_title(f'Distribución de {col}')
                ax.set_xlabel(col)
                ax.set_ylabel('Frecuencia')
                
                # Agregar estadísticas básicas como texto
                mean_val = df[col].mean()
                median_val = df[col].median()
                ax.axvline(mean_val, color='red', linestyle='--', alpha=0.7, label=f'Media: {mean_val:.2f}')
                ax.axvline(median_val, color='green', linestyle='--', alpha=0.7, label=f'Mediana: {median_val:.2f}')
                ax.legend(fontsize=8)
        
        # Ocultar subplots vacíos
        for i in range(n_numeric, len(axes)):
            axes[i].set_visible(False)
        
        plt.tight_layout()
        plt.show()

# 2. Distribución de variables categóricas principales
if categorical_cols:
    print("\n📊 Distribuciones de Variables Categóricas")
    
    # Seleccionar las variables categóricas más importantes (con menos valores únicos)
    cat_analysis = []
    for col in categorical_cols:
        unique_count = df[col].nunique()
        if 2 <= unique_count <= 20:  # Solo variables con 2-20 valores únicos
            cat_analysis.append((col, unique_count))
    
    # Ordenar por número de valores únicos
    cat_analysis.sort(key=lambda x: x[1])
    
    if cat_analysis:
        # Mostrar top 6 variables categóricas
        for i, (col, unique_count) in enumerate(cat_analysis[:6]):
            plt.figure(figsize=(12, 6))
            
            # Contar valores y calcular porcentajes
            value_counts = df[col].value_counts()
            
            # Crear gráfico de barras
            ax = value_counts.plot(kind='bar', color=plt.cm.Set3(np.linspace(0, 1, len(value_counts))))
            plt.title(f'Distribución de {col} ({unique_count} valores únicos)', fontsize=14, fontweight='bold')
            plt.xlabel(col, fontsize=12)
            plt.ylabel('Frecuencia', fontsize=12)
            plt.xticks(rotation=45, ha='right')
            
            # Agregar porcentajes en las barras
            total = len(df)
            for j, (value, count) in enumerate(value_counts.items()):
                percentage = (count / total) * 100
                ax.text(j, count + max(value_counts) * 0.01, f'{percentage:.1f}%', 
                       ha='center', va='bottom', fontsize=10)
            
            plt.tight_layout()
            plt.show()
            
            if i >= 3:  # Límite de 4 gráficos
                remaining = len(cat_analysis) - 4
                if remaining > 0:
                    print(f"\n💡 Hay {remaining} variables categóricas adicionales para analizar posteriormente")
                break
    else:
        print("⚠️ No se encontraron variables categóricas adecuadas para visualización (2-20 valores únicos)")

In [None]:
# Visualizaciones temporales avanzadas
if date_cols:
    print("\n📅 VISUALIZACIONES TEMPORALES")
    print("=" * 35)
    
    # Buscar la columna de fecha procesada
    date_col = None
    for col, _ in date_cols:
        if f"{col}_parsed" in df.columns and df[f"{col}_parsed"].notna().sum() > 100:
            date_col = f"{col}_parsed"
            original_col = col
            break
    
    if date_col:
        print(f"Creando visualizaciones temporales para: {date_col}")
        
        # 1. Serie temporal de llamadas por día
        daily_calls = df.groupby(df[date_col].dt.date).size()
        
        plt.figure(figsize=(15, 6))
        daily_calls.plot(kind='line', color='steelblue', linewidth=2)
        plt.title('Volumen de Llamadas por Día', fontsize=16, fontweight='bold')
        plt.xlabel('Fecha', fontsize=12)
        plt.ylabel('Número de Llamadas', fontsize=12)
        plt.grid(True, alpha=0.3)
        plt.xticks(rotation=45)
        
        # Agregar línea de tendencia
        z = np.polyfit(range(len(daily_calls)), daily_calls.values, 1)
        p = np.poly1d(z)
        plt.plot(daily_calls.index, p(range(len(daily_calls))), "r--", alpha=0.8, label='Tendencia')
        plt.legend()
        
        plt.tight_layout()
        plt.show()
        
        # 2. Distribución por mes usando plotly
        monthly_data = df[f"{original_col}_month"].value_counts().sort_index()
        month_names = [pd.to_datetime(f"2023-{m:02d}-01").strftime('%B') for m in monthly_data.index]
        
        fig = px.bar(
            x=month_names,
            y=monthly_data.values,
            title='Distribución de Llamadas por Mes',
            labels={'x': 'Mes', 'y': 'Número de Llamadas'},
            color=monthly_data.values,
            color_continuous_scale='viridis'
        )
        
        fig.update_layout(
            height=500,
            showlegend=False,
            xaxis_title="Mes",
            yaxis_title="Número de Llamadas"
        )
        
        fig.show()
        
        # 3. Heatmap por día de la semana y mes
        if f"{original_col}_weekday" in df.columns:
            # Crear tabla pivote
            heatmap_data = df.groupby([f"{original_col}_month", f"{original_col}_weekday"]).size().unstack(fill_value=0)
            
            # Reordenar días de la semana
            weekday_order = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
            heatmap_data = heatmap_data.reindex(columns=[day for day in weekday_order if day in heatmap_data.columns])
            
            plt.figure(figsize=(12, 8))
            sns.heatmap(
                heatmap_data,
                annot=True,
                fmt='d',
                cmap='YlOrRd',
                cbar_kws={'label': 'Número de Llamadas'}
            )
            plt.title('Heatmap: Llamadas por Mes y Día de la Semana', fontsize=14, fontweight='bold')
            plt.xlabel('Día de la Semana', fontsize=12)
            plt.ylabel('Mes', fontsize=12)
            plt.tight_layout()
            plt.show()
    else:
        print("⚠️ No se pudo crear visualizaciones temporales (no hay fechas válidas procesadas)")
else:
    print("⚠️ No hay campos de fecha para crear visualizaciones temporales")

---

## 8. 📋 Resumen y Conclusiones Iniciales

### Hallazgos Principales del Análisis Exploratorio

In [None]:
# Generar resumen ejecutivo del análisis
print("📊 RESUMEN EJECUTIVO DEL ANÁLISIS EXPLORATORIO")
print("=" * 55)

# Información básica del dataset
print(f"\n📈 DIMENSIONES DEL DATASET:")
print(f"   • Total de registros: {df.shape[0]:,}")
print(f"   • Total de columnas: {df.shape[1]}")
print(f"   • Memoria utilizada: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
print(f"   • Período analizado: Año 1999 (Call Center Anonymous Bank)")

# Calidad de datos
total_missing = df.isnull().sum().sum()
total_cells = df.shape[0] * df.shape[1]
missing_percentage = (total_missing / total_cells) * 100

print(f"\n🧹 CALIDAD DE DATOS:")
print(f"   • Completitud: {100 - missing_percentage:.2f}%")
print(f"   • Valores faltantes: {total_missing:,} de {total_cells:,} celdas")
if missing_percentage < 1:
    print(f"   • Estado: ✅ Excelente calidad de datos")
elif missing_percentage < 5:
    print(f"   • Estado: ✅ Buena calidad de datos")
else:
    print(f"   • Estado: ⚠️ Requiere limpieza de datos")

# Tipos de variables
print(f"\n📊 TIPOS DE VARIABLES:")
print(f"   • Variables numéricas: {len(numeric_cols)}")
print(f"   • Variables categóricas: {len(categorical_cols)}")
if date_cols:
    print(f"   • Variables temporales: {len(date_cols)}")

# Campos específicos del call center identificados
if existing_fields:
    print(f"\n📞 CAMPOS DE CALL CENTER IDENTIFICADOS:")
    for field, description in existing_fields.items():
        unique_vals = df[field].nunique()
        print(f"   • {field}: {description} ({unique_vals:,} valores únicos)")

# Análisis temporal (si disponible)
if date_cols:
    date_col = None
    for col, _ in date_cols:
        if f"{col}_parsed" in df.columns:
            date_col = f"{col}_parsed"
            break
    
    if date_col and df[date_col].notna().sum() > 0:
        min_date = df[date_col].min()
        max_date = df[date_col].max()
        duration = max_date - min_date
        
        print(f"\n📅 COBERTURA TEMPORAL:")
        print(f"   • Fecha inicio: {min_date.strftime('%Y-%m-%d')}")
        print(f"   • Fecha fin: {max_date.strftime('%Y-%m-%d')}")
        print(f"   • Duración: {duration.days} días")
        
        # Promedio de llamadas por día
        avg_calls_per_day = len(df) / duration.days if duration.days > 0 else 0
        print(f"   • Promedio de llamadas/día: {avg_calls_per_day:.0f}")

print(f"\n\n🎯 PRÓXIMOS PASOS RECOMENDADOS:")
print(f"   1. 🧹 Limpieza y preparación de datos")
print(f"   2. 🔍 Análisis detallado de patrones temporales")
print(f"   3. ⏱️ Análisis de tiempos de servicio y eficiencia")
print(f"   4. 👥 Análisis de comportamiento de clientes")
print(f"   5. 📈 Desarrollo de KPIs operacionales")
print(f"   6. 🤖 Modelado predictivo para demanda de llamadas")
print(f"   7. 📊 Creación de dashboard interactivo")

print(f"\n" + "=" * 55)
print(f"✅ ANÁLISIS EXPLORATORIO INICIAL COMPLETADO")
print(f"📝 Documentar hallazgos y proceder con análisis detallado")
print(f"=" * 55)

In [None]:
# Preparar información para los siguientes notebooks
print("\n🔄 PREPARACIÓN PARA ANÁLISIS POSTERIOR")
print("=" * 45)

# Guardar información clave para próximos análisis
analysis_summary = {
    'dataset_info': {
        'rows': df.shape[0],
        'columns': df.shape[1],
        'memory_mb': df.memory_usage(deep=True).sum() / 1024**2,
        'missing_percentage': missing_percentage
    },
    'column_types': {
        'numeric': numeric_cols,
        'categorical': categorical_cols,
        'datetime': [col for col, _ in date_cols] if date_cols else []
    },
    'call_center_fields': existing_fields if 'existing_fields' in locals() else {},
    'time_fields': time_cols if 'time_cols' in locals() else []
}

# Mostrar resumen para próximos notebooks
print("📋 INFORMACIÓN PARA PRÓXIMOS ANÁLISIS:")
print(f"   • Dataset cargado: {analysis_summary['dataset_info']['rows']:,} registros")
print(f"   • Campos numéricos para análisis estadístico: {len(analysis_summary['column_types']['numeric'])}")
print(f"   • Campos categóricos para segmentación: {len(analysis_summary['column_types']['categorical'])}")
print(f"   • Campos temporales para análisis de tendencias: {len(analysis_summary['column_types']['datetime'])}")

# Verificar si hay datos suficientes para diferentes tipos de análisis
if len(df) > 10000:
    print("\n✅ SUFICIENTES DATOS PARA:")
    print("   • Análisis estadístico robusto")
    print("   • Modelado predictivo")
    print("   • Segmentación de clientes")
    print("   • Análisis de series temporales")
elif len(df) > 1000:
    print("\n⚠️ DATOS MODERADOS - ADECUADOS PARA:")
    print("   • Análisis descriptivo")
    print("   • Modelado básico")
    print("   • Visualizaciones")
else:
    print("\n❌ DATOS LIMITADOS - CONSIDERAR:")
    print("   • Análisis exploratorio únicamente")
    print("   • Validación de metodología")

print("\n📚 NOTEBOOKS RECOMENDADOS A CREAR:")
print("   1. 02_data_cleaning_transformation.ipynb - Limpieza y transformación")
print("   2. 03_exploratory_data_analysis.ipynb - EDA detallado")
print("   3. 04_temporal_analysis.ipynb - Análisis temporal avanzado")
print("   4. 05_performance_metrics.ipynb - KPIs y métricas operacionales")
print("   5. 06_customer_segmentation.ipynb - Segmentación de clientes")
print("   6. 07_predictive_modeling.ipynb - Modelos predictivos")
print("   7. 08_dashboard_preparation.ipynb - Preparación para dashboards")

print("\n🎯 SIGUIENTE PASO INMEDIATO:")
print("   Ejecutar notebook de limpieza y transformación de datos")
print("   para preparar el dataset para análisis avanzados.")

---

## 🎯 Conclusiones y Siguientes Pasos

### ✅ Lo que hemos logrado

1. **Carga exitosa** del dataset del Call Center (año 1999)
2. **Análisis de estructura** y calidad de datos
3. **Identificación de campos clave** para análisis de call center
4. **Procesamiento temporal** básico
5. **Visualizaciones exploratorias** iniciales
6. **Resumen ejecutivo** de hallazgos principales

### 🔍 Hallazgos Clave

- Dataset robusto con información detallada de llamadas
- Calidad de datos generalmente buena
- Campos específicos de call center identificados
- Patrones temporales visibles para análisis posterior
- Oportunidades claras para optimización operacional

### 🚀 Próximos Pasos

1. **Limpieza de Datos**: Procesamiento y preparación para análisis
2. **Análisis Temporal Detallado**: Patrones por hora, día, semana, mes
3. **Métricas Operacionales**: KPIs de eficiencia y calidad de servicio
4. **Segmentación**: Análisis de tipos de clientes y servicios
5. **Modelado Predictivo**: Forecasting de demanda y optimización
6. **Dashboard**: Visualizaciones interactivas para stakeholders

### 📊 Valor del Proyecto

Este análisis proporcionará insights accionables para:
- **Optimizar staffing** y recursos del call center
- **Mejorar tiempos de respuesta** y calidad de servicio
- **Predecir demanda** y planificar capacidad
- **Identificar oportunidades** de mejora operacional

---

**¡El análisis exploratorio inicial está completo! Procede con la limpieza y transformación de datos. 🎉**