In [None]:
import os
import pandas as pd
import time


In [None]:
# --- Configuración de rutas ---
ROOT_DIR = '/content/drive/MyDrive/Datasets/datalake'
INPUT_DIR = os.path.join(ROOT_DIR, 'datalake_inputs')
OUTPUT_DIR = os.path.join(ROOT_DIR, 'datalake_outputs')
INPUT_FILE_PATH = os.path.join(INPUT_DIR, 'netflix_titles.csv')
OUTPUT_FILE_PATH = os.path.join(OUTPUT_DIR, 'netflix_titles.csv')

In [None]:
# Crear directorios si no existen
os.makedirs(INPUT_DIR, exist_ok=True)
os.makedirs(OUTPUT_DIR, exist_ok=True)

In [None]:
def validar_existencia_archivo(path):
    """Valida si el archivo existe."""
    if not os.path.exists(path):
        print(f"El archivo no existe: {path}")
        return False

    return True

In [None]:
def limpiar_directorio(path):
    """Elimina todos los archivos y carpetas dentro de un directorio."""
    for item in os.listdir(path):
        ruta = os.path.join(path, item)
        if os.path.isfile(ruta):
            os.remove(ruta)
        elif os.path.isdir(ruta):
            import shutil
            shutil.rmtree(ruta)
    print(f"Directorio limpiado: {path}")

In [None]:
def leer_y_guardar_csv(file_path, output_path):
    """Mueve el archivo CSV de una ruta a otra."""
    df_csv = pd.read_csv(file_path)
    df_csv.to_csv(output_path, index=False)
    print(f"Guardado: {output_path}")

In [None]:
def main():
    print(f"Directorio Input: {INPUT_DIR}")
    print(f"Directorio Output: {OUTPUT_DIR}")
    print(f"Archivo Input: {INPUT_FILE_PATH}")
    print(f"Archivo Output: {OUTPUT_FILE_PATH}")

    if not validar_existencia_archivo(INPUT_FILE_PATH):
      return

    # Limpieza previa (opcional)
    limpiar_directorio(OUTPUT_DIR)

    # Tiempo de espera, para comprobar limpieza de directorio
    time.sleep(5)

    # Proceso de transformación
    leer_y_guardar_csv(INPUT_FILE_PATH, OUTPUT_FILE_PATH) # GITHUB_PATH

    print("Proceso finalizado con éxito.")

In [None]:
# Sólo se ejecuta si el archivo se ejecuta directamente
if __name__ == "__main__":
    main()

Directorio Input: /content/drive/MyDrive/Datasets/datalake/datalake_inputs
Directorio Output: /content/drive/MyDrive/Datasets/datalake/datalake_outputs
Archivo Input: /content/drive/MyDrive/Datasets/datalake/datalake_inputs/netflix_titles.csv
Archivo Output: /content/drive/MyDrive/Datasets/datalake/datalake_outputs/netflix_titles.csv
Directorio limpiado: /content/drive/MyDrive/Datasets/datalake/datalake_outputs
Guardado: /content/drive/MyDrive/Datasets/datalake/datalake_outputs/netflix_titles.csv
Proceso finalizado con éxito.
