In [8]:
# === IMPORTACI√ìN DE LIBRER√çAS ===
import os                   
import requests             
import pandas as pd         
import json                 
from dotenv import load_dotenv  

In [9]:
load_dotenv()
URL = "https://cramer.buk.cl/api/v1/chile/employees"

In [10]:
# === AUTENTICACI√ìN Y HEADERS ===
# Obtiene el token de autenticaci√≥n desde variable de entorno (m√°s seguro)
TOKEN = os.getenv("BUK_AUTH_TOKEN")
if not TOKEN:
    # Si no encuentra el token, termina el programa con mensaje de error
    raise SystemExit("ERROR: Define la variable de entorno BUK_AUTH_TOKEN con tu token")

print("‚úÖ Token encontrado exitosamente")

# Configura los headers que se enviar√°n en cada petici√≥n HTTP
HEADERS = {
    "auth_token": TOKEN,           # Token de autenticaci√≥n para la API
    "Accept": "application/json",  # Le dice al servidor que esperamos respuesta en JSON
    "Content-Type": "application/json"  # Especifica el tipo de contenido que enviamos
}

‚úÖ Token encontrado exitosamente


In [11]:
# === FUNCI√ìN PARA OBTENER TODOS LOS EMPLEADOS  ===
def fetch_all_employees():
    """
    Obtiene todos los empleados manejando paginaci√≥n autom√°ticamente.
    Retorna una lista con todos los registros de todas las p√°ginas.
    """
    url = URL            
    all_records = []            # acumular todos los resultados
    page_count = 0              # Contador de p√°ginas procesadas
    
    print("üîÑ Iniciando descarga de empleados...")
    # Bucle que contin√∫a mientras exista una URL para la siguiente p√°gina
    while url:
        try:
            print(f"üìÑ Procesando p√°gina {page_count + 1}...")
            
            # Realiza petici√≥n GET con timeout de 15 segundos
            response = requests.get(url, headers=HEADERS, timeout=15)
            
            # Lanza excepci√≥n si el status code no es exitoso (200-299)
            response.raise_for_status()
            
            # Convierte la respuesta JSON a diccionario de Python
            json_data = response.json()
            
            # Extrae los datos de empleados (estructura t√≠pica: {"data": [...], "pagination": {...}})
            employees_data = json_data.get("data", [])
            
            # A√±ade los empleados de esta p√°gina a la lista total
            all_records.extend(employees_data)
            
            print(f"   ‚úÖ {len(employees_data)} empleados obtenidos de esta p√°gina")
            
            # Busca informaci√≥n de paginaci√≥n para obtener la siguiente p√°gina
            pagination_info = json_data.get("pagination", {})
            url = pagination_info.get("next")  # URL de la siguiente p√°gina (None si no hay m√°s)
            
            page_count += 1
            
        except requests.HTTPError as e:
            # Maneja errores HTTP espec√≠ficos (400, 401, 404, 500, etc.)
            print(f"‚ùå Error HTTP: {e}")
            print(f"   Status Code: {getattr(e.response, 'status_code', 'N/A')}")
            print(f"   Respuesta del servidor: {getattr(e.response, 'text', 'Sin contenido')}")
            break
            
        except requests.RequestException as e:
            # Maneja otros errores de conexi√≥n (timeout, DNS, etc.)
            print(f"‚ùå Error de conexi√≥n: {e}")
            break
            
        except ValueError as e:
            # Maneja errores de JSON inv√°lido
            print(f"‚ùå Error al procesar JSON: {e}")
            print(f"   Respuesta recibida: {response.text[:200]}...")
            break
    
    print(f"üéâ Descarga completada: {len(all_records)} empleados en {page_count} p√°ginas")
    return all_records

In [None]:
# === FUNCI√ìN PARA LIMPIAR Y GUARDAR DATOS ===
def normalize_and_save_data(records, output_file="empleados_buk.csv"):
    """
    Normaliza los datos JSON y los guarda en un archivo CSV.
    Aplica limpieza b√°sica de datos y conversiones de tipos.
    """
    # Verifica si hay datos para procesar
    if not records:
        print("‚ö†Ô∏è  No hay registros para procesar")
        return None
    
    print(f"üîß Procesando {len(records)} registros...")
    
    # Convierte JSON anidado a DataFrame plano
    # sep="_" hace que campos anidados se conviertan en columnas con gui√≥n bajo
    # Ejemplo: {"address": {"street": "Main"}} ‚Üí "address_street": "Main"
    df = pd.json_normalize(records, sep="_")
    
    print(f"üìä DataFrame creado con {len(df)} filas y {len(df.columns)} columnas")
    
    # === LIMPIEZA DE DATOS ESPEC√çFICA ===
    
    # Convierte campos num√©ricos (salarios, etc.)
    numeric_fields = ["base_wage", "salary", "wage", "amount"]
    for field in numeric_fields:
        if field in df.columns:
            # to_numeric convierte a n√∫mero, errors='coerce' pone NaN si no puede convertir
            df[field] = pd.to_numeric(df[field], errors="coerce")
            print(f"   ‚úÖ Campo '{field}' convertido a num√©rico")
    
    # Convierte campos de fecha autom√°ticamente
    date_keywords = ["date", "fecha", "created_at", "updated_at", "active_since", "start_date", "end_date"]
    for column in df.columns:
        # Busca si el nombre de la columna contiene palabras clave de fecha
        if any(keyword in column.lower() for keyword in date_keywords):
            # Convierte a datetime, errors='coerce' pone NaT si no puede convertir
            df[column] = pd.to_datetime(df[column], errors="coerce")
            print(f"   ‚úÖ Campo '{column}' convertido a fecha")
    
    # Guarda el DataFrame en archivo CSV
    df.to_csv(output_file, index=False, encoding='utf-8')
    print(f"üíæ Datos guardados en '{output_file}'")
    
    # Muestra estad√≠sticas b√°sicas del dataset
    print(f"\nüìà RESUMEN DEL DATASET:")
    print(f"   ‚Ä¢ Filas: {len(df)}")
    print(f"   ‚Ä¢ Columnas: {len(df.columns)}")
    print(f"   ‚Ä¢ Primeras 5 columnas: {list(df.columns[:5])}")
    
    return df

# === FUNCI√ìN PARA MOSTRAR MUESTRA DE DATOS ===
def show_sample_data(records, sample_size=2):
    """
    Muestra una muestra de los datos en formato JSON legible.
    √ötil para inspeccionar la estructura de los datos.
    """
    if not records:
        print("‚ö†Ô∏è  No hay datos para mostrar")
        return
    
    print(f"\nüîç MUESTRA DE DATOS (primeros {sample_size} registros):")
    print("=" * 50)
    
    # Toma solo los primeros registros para no saturar la pantalla
    sample = records[:sample_size]
    
    # json.dumps formatea el JSON de manera legible
    # indent=2: indentaci√≥n de 2 espacios
    # ensure_ascii=False: permite caracteres especiales (tildes, √±, etc.)
    formatted_json = json.dumps(sample, indent=2, ensure_ascii=False)
    print(formatted_json)
    
 

In [None]:
# === FUNCI√ìN PRINCIPAL QUE EJECUTA TODO EL PROCESO ===
def main():
    """
    Funci√≥n principal que orquesta todo el proceso:
    1. Obtiene todos los empleados
    2. Muestra muestra de datos
    3. Procesa y guarda en CSV
    """
    print("üöÄ INICIANDO PROCESO DE EXTRACCI√ìN DE EMPLEADOS BUK")
    print("=" * 60)
    
    # Paso 1: Obtener todos los empleados con paginaci√≥n
    empleados = fetch_all_employees()
    
    if not empleados:
        print("‚ùå No se pudieron obtener empleados. Revisa tu token y conexi√≥n.")
        return
    
    # Paso 2: Mostrar muestra de datos para inspecci√≥n
    show_sample_data(empleados, sample_size=1)
    
    # Paso 3: Procesar y guardar datos
    df = normalize_and_save_data(empleados)
    
    if df is not None:
        print(f"\nüéâ PROCESO COMPLETADO EXITOSAMENTE")
        print(f"   ‚Ä¢ {len(empleados)} empleados descargados")
        print(f"   ‚Ä¢ Datos guardados en 'empleados_buk.csv'")
        print(f"   ‚Ä¢ DataFrame disponible para an√°lisis adicional")
    
    return df

# === EJECUCI√ìN DEL PROGRAMA ===
if __name__ == "__main__":
    # Solo ejecuta main() si el archivo se ejecuta directamente
    # (no si se importa como m√≥dulo)
    resultado = main()

üöÄ INICIANDO PROCESO DE EXTRACCI√ìN DE EMPLEADOS BUK
üîÑ Iniciando descarga de empleados...
üìÑ Procesando p√°gina 1...
   ‚úÖ 25 empleados obtenidos de esta p√°gina
üìÑ Procesando p√°gina 2...
   ‚úÖ 25 empleados obtenidos de esta p√°gina
üìÑ Procesando p√°gina 3...
   ‚úÖ 25 empleados obtenidos de esta p√°gina
üìÑ Procesando p√°gina 4...
   ‚úÖ 25 empleados obtenidos de esta p√°gina
üìÑ Procesando p√°gina 5...
   ‚úÖ 25 empleados obtenidos de esta p√°gina
üìÑ Procesando p√°gina 6...
   ‚úÖ 25 empleados obtenidos de esta p√°gina
üìÑ Procesando p√°gina 7...
   ‚úÖ 25 empleados obtenidos de esta p√°gina
üìÑ Procesando p√°gina 8...
   ‚úÖ 25 empleados obtenidos de esta p√°gina
üìÑ Procesando p√°gina 9...
   ‚úÖ 25 empleados obtenidos de esta p√°gina
üìÑ Procesando p√°gina 10...
   ‚úÖ 25 empleados obtenidos de esta p√°gina
üìÑ Procesando p√°gina 11...
   ‚úÖ 25 empleados obtenidos de esta p√°gina
üìÑ Procesando p√°gina 12...
   ‚úÖ 25 empleados obtenidos de esta p√°gina
ü

  df[column] = pd.to_datetime(df[column], errors="coerce")


üíæ Datos guardados en 'empleados_buk.csv'

üìà RESUMEN DEL DATASET:
   ‚Ä¢ Filas: 1094
   ‚Ä¢ Columnas: 139
   ‚Ä¢ Primeras 5 columnas: ['person_id', 'id', 'picture_url', 'first_name', 'surname']

üéâ PROCESO COMPLETADO EXITOSAMENTE
   ‚Ä¢ 1094 empleados descargados
   ‚Ä¢ Datos guardados en 'empleados_buk.csv'
   ‚Ä¢ DataFrame disponible para an√°lisis adicional
