## Procesamiento Landing
### Objetivos: 
- Leer los archivos de la zona de landing, verificar que se pueden acceder. 
- Crear archivos en la zona raw para continuar con el análisis y enriquecimiento.

In [10]:
%pip install numpy==1.26.4 pandas==2.2.2

Note: you may need to restart the kernel to use updated packages.


In [11]:
from pathlib import Path

import pandas as pd

In [12]:
# Funciones para leer archivos CSV y PKL
def leer_csv(ruta):
    try:
        df = pd.read_csv(ruta)
        return df
    except Exception as e:
        print(f"Error al leer el archivo CSV '{ruta}': {e}")
        return None


def leer_pkl(ruta):
    try:
        df = pd.read_pickle(ruta)
        return df
    except Exception as e:
        print(f"Error al leer el archivo PKL '{ruta}': {e}")
        return None


# Directorios de las zonas landing y raw
directorio_landing = Path('datos/landing')
directorio_raw = Path('datos/raw')

# Asegurarse de que el directorio de raw existe
directorio_raw.mkdir(parents=True, exist_ok=True)

# Verificar cada archivo en la zona de landing
for ruta_archivo_landing in directorio_landing.iterdir():
    nombre_archivo = ruta_archivo_landing.name

    if ruta_archivo_landing.suffix == '.csv':
        df = leer_csv(ruta_archivo_landing)
    elif ruta_archivo_landing.suffix == '.pkl':
        df = leer_pkl(ruta_archivo_landing)
    else:
        print(f"Archivo '{nombre_archivo}' ignorado. Formato no soportado.")
        continue

    if df is not None:
        # Guardar el archivo en la zona raw
        ruta_archivo_raw = directorio_raw / nombre_archivo

        if ruta_archivo_landing.suffix == '.csv':
            df.to_csv(ruta_archivo_raw, index=False)
        elif ruta_archivo_landing.suffix == '.pkl':
            df.to_pickle(ruta_archivo_raw)
            # Guardar también como CSV, cambiando el sufijo manualmente
            ruta_archivo_csv = ruta_archivo_raw.with_name(ruta_archivo_raw.stem + '_from_pkl.csv')
            df.to_csv(ruta_archivo_csv, index=False)

        print(f"Archivo '{nombre_archivo}' guardado en la zona raw.")
    else:
        print(f"El archivo '{nombre_archivo}' no pudo ser leído.")


Archivo 'olympic_medals.csv' guardado en la zona raw.
Archivo 'olympic_results.pkl' guardado en la zona raw.
Archivo 'olympic_hosts.csv' guardado en la zona raw.
Archivo 'olympic_athletes.csv' guardado en la zona raw.
Archivo 'olympic_results.csv' guardado en la zona raw.
