# üõ°Ô∏è Data Anonymization Pipeline (ETL)

**Nota para el lector:**
Este notebook contiene el c√≥digo utilizado para procesar los archivos originales (`raw data`) proporcionados por la instituci√≥n educativa.

El objetivo de este script es:
1. Ingestar los datos desde m√∫ltiples hojas de c√°lculo.
2. Eliminar columnas sensibles (PII - Informaci√≥n de Identificaci√≥n Personal).
3. Generar identificadores sint√©ticos (`STD_XXX`) para proteger la identidad de los estudiantes.
4. Exportar el archivo `dataset_anonimizado_final.csv`.

‚ö†Ô∏è **Advertencia de Reproducibilidad:**
Dado que los archivos de entrada contienen datos reales de estudiantes, **no se encuentran incluidos en este repositorio p√∫blico**. Por lo tanto, este notebook sirve √∫nicamente como **evidencia del proceso de gobernanza de datos** y no podr√° ser ejecutado sin los archivos fuente protegidos.

Para replicar el an√°lisis, por favor dir√≠jase al notebook `02_analysis_visualization.ipynb` que utiliza el dataset ya procesado y seguro.

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# ==========================================
# 1. CONFIGURACI√ìN
# ==========================================
NOMBRE_ARCHIVO = "Matematica5toACE.xlsx"
# ==========================================
# 2. PROCESAMIENTO INTELIGENTE (ETL)
# ==========================================

def procesar_hoja(archivo_excel, nombre_hoja, nombre_seccion_destino):

    try:
        df = pd.read_excel(archivo_excel, sheet_name=nombre_hoja, header=None)
    except ValueError:
        print(f"‚ö†Ô∏è Alerta: No se encontr√≥ la pesta√±a '{nombre_hoja}'. Verifica el nombre en el Excel.")
        return pd.DataFrame() # Retorna vac√≠o si falla

    # ---------------------------------------------------------
    # SELECCI√ìN DE COLUMNAS (IGNORANDO PII)
    # ---------------------------------------------------------

    if df.shape[1] < 17:
        return pd.DataFrame()

    df_clean = df.iloc[8:, [2, 10, 16]].copy()
    df_clean.columns = ['Nombre_Original', 'Nota_Individual', 'Nota_Parejas']

    # Limpieza num√©rica
    df_clean['Nota_Individual'] = pd.to_numeric(df_clean['Nota_Individual'], errors='coerce')
    df_clean['Nota_Parejas'] = pd.to_numeric(df_clean['Nota_Parejas'], errors='coerce')

    # Eliminar filas vac√≠as (donde no hay notas)
    df_clean = df_clean.dropna()

    df_clean['Seccion'] = nombre_seccion_destino
    return df_clean

# ---------------------------------------------------------
# CARGA DE DATOS
# ---------------------------------------------------------

df_A = procesar_hoja(NOMBRE_ARCHIVO, "5to. A", "A")
df_C = procesar_hoja(NOMBRE_ARCHIVO, "5to. C", "C")
df_E = procesar_hoja(NOMBRE_ARCHIVO, "5to. E", "E")

# Unificar todo
lista_dfs = [df for df in [df_A, df_C, df_E] if not df.empty]
if not lista_dfs:
    print("‚ùå Error: No se pudieron cargar datos. Revisa el nombre del archivo y las pesta√±as.")
else:
    df_total = pd.concat(lista_dfs, ignore_index=True)

    # ==========================================
    # 3. ANONIMIZACI√ìN (PROTECCI√ìN DE IDENTIDAD)
    # ==========================================
    # Creamos IDs como "STD_001", "STD_002"...
    df_total['Student_ID'] = ['STD_' + str(i+1).zfill(3) for i in range(len(df_total))]

    # C√°lculos
    df_total['Mejora'] = df_total['Nota_Parejas'] - df_total['Nota_Individual']
    df_total['Categoria'] = np.where(df_total['Nota_Individual'] < 10, 'Bajo Rendimiento', 'Alto Rendimiento')

    # Seleccionamos SOLO las columnas seguras (Sin nombre, sin c√©dula)
    df_export = df_total[['Student_ID', 'Seccion', 'Nota_Individual', 'Nota_Parejas', 'Mejora', 'Categoria']].copy()

    print(f"‚úÖ ¬°√âxito! Dataset generado con {len(df_export)} estudiantes.")
    display(df_export.head())

    # Exportar
    df_export.to_csv('dataset_anonimizado_final.csv', index=False)
    print("üìÇ Archivo 'dataset_anonimizado_final.csv' listo para descargar.")

‚úÖ ¬°√âxito! Dataset generado con 72 estudiantes.


Unnamed: 0,Student_ID,Seccion,Nota_Individual,Nota_Parejas,Mejora,Categoria
0,STD_001,A,6,19,13,Bajo Rendimiento
1,STD_002,A,17,20,3,Alto Rendimiento
2,STD_003,A,20,20,0,Alto Rendimiento
3,STD_004,A,5,17,12,Bajo Rendimiento
4,STD_005,A,19,20,1,Alto Rendimiento


üìÇ Archivo 'dataset_anonimizado_final.csv' listo para descargar.
