## Procesamiento Landing
### Objetivos: 
- Leer los archivos de la zona de landing, verificar que se pueden acceder. 
- Crear archivos en la zona raw para continuar con el análisis y enriquecimiento.

In [1]:
%pip install numpy==1.26.4 pandas==2.2.2

Note: you may need to restart the kernel to use updated packages.


In [2]:
import pandas as pd
import os

In [3]:
# Funciones para leer archivos CSV y PKL
def leer_csv(ruta):
    try:
        df = pd.read_csv(ruta)
        return df
    except Exception as e:
        print(f"Error al leer el archivo CSV '{ruta}': {e}")
        return None

def leer_pkl(ruta):
    try:
        df = pd.read_pickle(ruta)
        return df
    except Exception as e:
        print(f"Error al leer el archivo PKL '{ruta}': {e}")
        return None

# Directorio de la zona de landing y raw
directorio_landing = 'datos/landing'
directorio_raw = 'datos/raw'

# Asegurarse de que el directorio de raw existe
os.makedirs(directorio_raw, exist_ok=True)

# Verificar cada archivo en la zona de landing
for nombre_archivo in os.listdir(directorio_landing):
    ruta_archivo_landing = os.path.join(directorio_landing, nombre_archivo)
    
    if nombre_archivo.endswith('.csv'):
        df = leer_csv(ruta_archivo_landing)
    elif nombre_archivo.endswith('.pkl'):
        df = leer_pkl(ruta_archivo_landing)
    else:
        print(f"Archivo '{nombre_archivo}' ignorado. Formato no soportado.")
        continue
    
    if df is not None:
        # Guardar el archivo en la zona raw
        ruta_archivo_raw = os.path.join(directorio_raw, nombre_archivo)
        
        if nombre_archivo.endswith('.csv'):
            df.to_csv(ruta_archivo_raw, index=False)
        elif nombre_archivo.endswith('.pkl'):
            df.to_pickle(ruta_archivo_raw)
            df.to_csv(ruta_archivo_raw.replace('.pkl', '_from_pkl.csv'), index=False)
        
        print(f"Archivo '{nombre_archivo}' guardado en la zona raw.")
    else:
        print(f"El archivo '{nombre_archivo}' no pudo ser leído.")


Archivo 'olympic_medals.csv' guardado en la zona raw.
Archivo '.DS_Store' ignorado. Formato no soportado.
Archivo 'olympic_results.pkl' guardado en la zona raw.
Archivo 'olympic_hosts.csv' guardado en la zona raw.
Archivo 'olympic_athletes.csv' guardado en la zona raw.
Archivo 'olympic_results.csv' guardado en la zona raw.
