In [1]:
import os
import pandas as pd
import time


In [None]:
# --- Configuración de rutas ---
ROOT_DIR = '/content/drive/MyDrive/Datasets/datalake'
INPUT_DIR = os.path.join(ROOT_DIR, 'datalake_inputs')
OUTPUT_DIR = os.path.join(ROOT_DIR, 'datalake_outputs')
EXCEL_FILE = os.path.join(INPUT_DIR, 'netflix_titles.xlsx')

In [None]:
# Crear directorios si no existen
os.makedirs(INPUT_DIR, exist_ok=True)
os.makedirs(OUTPUT_DIR, exist_ok=True)

In [None]:
def validar_existencia_archivo(path):
    """Valida si el archivo existe."""
    if not os.path.exists(path):
        print(f"El archivo no existe: {path}")
        return False

    return True

In [None]:
def limpiar_directorio(path):
    """Elimina todos los archivos y carpetas dentro de un directorio."""
    for item in os.listdir(path):
        ruta = os.path.join(path, item)
        if os.path.isfile(ruta):
            os.remove(ruta)
        elif os.path.isdir(ruta):
            import shutil
            shutil.rmtree(ruta)
    print(f"Directorio limpiado: {path}")

In [None]:
def extraer_hojas_excel_a_csv(excel_path, output_dir):
    """Lee cada hoja de un Excel y la guarda como archivo CSV."""
    excel = pd.ExcelFile(excel_path)
    print(f"Hojas encontradas: {excel.sheet_names}")

    for sheet_name in excel.sheet_names:
        df = pd.read_excel(excel, sheet_name=sheet_name)
        output_path = os.path.join(output_dir, f"{sheet_name}.csv")
        df.to_csv(output_path, index=False)
        print(f"Guardado: {output_path}")

In [None]:
def main():
    print(f"Input: {INPUT_DIR}")
    print(f"Output: {OUTPUT_DIR}")
    print(f"Archivo Excel: {EXCEL_FILE}")

    if not validar_existencia_archivo(EXCEL_FILE):
      return

    # Limpieza previa (opcional)
    limpiar_directorio(OUTPUT_DIR)

    # Tiempo de espera, para comprobar limpieza de directorio
    time.sleep(5)

    # Proceso de transformación
    extraer_hojas_excel_a_csv(EXCEL_FILE, OUTPUT_DIR) # GITHUB_PATH

    print("Proceso finalizado con éxito.")

In [None]:
# Sólo se ejecuta si el archivo se ejecuta directamente (buena práctica)
if __name__ == "__main__":
    main()

Input: /content/drive/MyDrive/Datasets/datalake/datalake_inputs
Output: /content/drive/MyDrive/Datasets/datalake/datalake_outputs
Archivo Excel: /content/drive/MyDrive/Datasets/datalake/datalake_inputs/netflix_titles.xlsx
Directorio limpiado: /content/drive/MyDrive/Datasets/datalake/datalake_outputs
Hojas encontradas: ['netflix_titles', 'netflix_titles_directors', 'netflix_titles_countries', 'netflix_titles_cast', 'netflix_titles_category']
Guardado: /content/drive/MyDrive/Datasets/datalake/datalake_outputs/netflix_titles.csv
Guardado: /content/drive/MyDrive/Datasets/datalake/datalake_outputs/netflix_titles_directors.csv
Guardado: /content/drive/MyDrive/Datasets/datalake/datalake_outputs/netflix_titles_countries.csv
Guardado: /content/drive/MyDrive/Datasets/datalake/datalake_outputs/netflix_titles_cast.csv
Guardado: /content/drive/MyDrive/Datasets/datalake/datalake_outputs/netflix_titles_category.csv
Proceso finalizado con éxito.
