# UD3 – Actividad 3.2: Control de calidad de ficheros CSV con firma

**Nombre y apellidos del alumno:**  
*(Completa este apartado antes de comenzar la actividad)*

## Introducción

La empresa **RetailCorp** opera en varios países europeos y gestiona su inventario de productos de forma distribuida.

Cada día, los distintos almacenes envían un *snapshot* del estado de su inventario en formato CSV a un sistema centralizado de analítica y planificación.

Durante un incidente reciente, se detectó que algunos ficheros contenían inconsistencias en su contenido y errores de integridad de archivo (hash incorrecto).

El área de **Data Engineering** ha decidido implementar un **control de calidad de entrada en el pipeline**, de forma que solo los ficheros correctos puedan avanzar hacia las etapas posteriores.

El objetivo de esta práctica es **diseñar e implementar un control de calidad de ficheros CSV con verificación de firma (SHA256/MD5)** de forma reproducible y automatizable.

## Dataset de trabajo

Se proporciona un fichero comprimido `RetailCorp-dataset-sample.tar.gz` que contiene una muestra de ficheros CSV de inventario junto con sus firmas.

### Contenido
- CSV: snapshots de inventario con campos `product_id`, `warehouse_id`, `snapshot_date`, `stock_units`, `reserved_units`.
- Firma: archivos `.sha256` o `.md5` correspondientes a cada CSV.

El alumno deberá extraer los ficheros y procesarlos siguiendo los pasos de la actividad.

# **Tareas a realizar**

### Tarea 1 – Preparación del entorno

Crear los directorios de trabajo (`incoming_raw`, `input`, `rejected`, `archive`) y extraer los ficheros del dataset proporcionado.
Se proporciona una función de preparación del entorno, no hay que modificar nada  

Aquí solo hay que analizar el código para familiarizarse con la estructura de directorios


In [2]:
import os
import subprocess

def prepare_environment(base_dir="data_pipeline",
                        dataset="RetailCorp-dataset-sample.tar.gz"):
    """
    Prepara la estructura de directorios y extrae el dataset inicial.
    """

    os.makedirs(f"{base_dir}/incoming_raw", exist_ok=True)
    os.makedirs(f"{base_dir}/input", exist_ok=True)
    os.makedirs(f"{base_dir}/rejected", exist_ok=True)
    os.makedirs(f"{base_dir}/archive", exist_ok=True)
    os.makedirs(f"{base_dir}/logs", exist_ok=True)

    subprocess.run(
        ["tar", "-xzf", dataset, "-C", f"{base_dir}/incoming_raw"],
        check=True
    )


def reset_data_pipeline(base_dir="data_pipeline"):
    """
    Elimina completamente el directorio de trabajo del pipeline
    para permitir una ejecución limpia del proceso.
    """
    if os.path.exists(base_dir):
        subprocess.run(
            ["rm", "-rf", base_dir],
            check=True
        )

reset_data_pipeline()
prepare_environment()

### Tarea 2 – Implementar la funcionalidad de gestión de la integridad en los ficheros de entrada

Se recomienda ir implementándolo en varias funciones que permitan dividir y estructurar el proceso.  
Puede realizarse en varias celdas.  

Registrar en un fichero de log la información de cada fichero procesado, indicando:
- Nombre de fichero
- Estado (`OK`, `REJECTED`, `ERROR`)
- Mensaje asociado

Mover los ficheros correctos al directorio `input`, los rechazados a `rejected` y archivar las firmas en `archive`.

### Tarea 3 – Conteo de ficheros correctos e incorrectos

Mostrar el número total de ficheros procesados correctamente y los rechazados, para validar la actividad.  

Puede usarse cat y grep sobre el fichero de log generado por el proceso para obtener esta parte

## Declaración de autoría y uso de Inteligencia Artificial Generativa (IA)

Durante la realización de esta actividad, declaro que (sustituye el cuadro por una X donde proceda):

☐ **No he utilizado herramientas de IA** durante la realización de esta actividad.  

☐ **He utilizado herramientas de IA como apoyo al aprendizaje**, para la consulta puntual de conceptos, aclaración de dudas o comprensión de la documentación, elaborando de forma autónoma el contenido entregado.  

☐ **Parte del contenido de la actividad ha sido generado con herramientas de IA**, siendo dicho contenido revisado, comprendido y adaptado críticamente antes de su entrega final.  

☐ **La mayor parte del contenido de la actividad ha sido generado con herramientas de IA**, existiendo una aportación propia limitada.  

La selección de esta opción implica asumir la responsabilidad sobre la autoría, comprensión y calidad del trabajo presentado.