In [18]:
# Importamos pandas para manejo de dataframes y os para operaciones con el sistema de archivos
import pandas as pd
import os

# Diccionario que asocia cada CSV de entrada con su nombre de archivo y separador correspondiente
# Esto es útil porque algunos archivos usan ';' y otros ','
csv_files = {
    "Indicadores_Finales": ("Indicadores_Finales.csv", ";"),  # separador punto y coma
    "Lineas": ("Lineas.csv", ","),                             # separador coma
    "Objetivos": ("Objetivos.csv", ","),                       # separador coma
    "Procesos": ("Procesos.csv", ",")                          # separador coma
}

# Diccionario que define la ruta de salida de cada archivo en formato Parquet
# Se mapea cada CSV de entrada a su destino final en la Capa Plata
parquet_dest = {
    "Indicadores_Finales": "Capa_Plata/indicadores/hechos/indicadores/Año=2025/indicadores_finales.parquet",
    "Lineas": "Capa_Plata/indicadores/dimensiones/Dimension_Linea.parquet",
    "Objetivos": "Capa_Plata/indicadores/dimensiones/Dimension_Objetivo.parquet",
    "Procesos": "Capa_Plata/indicadores/dimensiones/Dimension_Proceso.parquet"
}

# Crear los directorios de destino si no existen
# os.path.dirname(path) obtiene la carpeta del archivo, y exist_ok=True evita errores si ya existe
for path in parquet_dest.values():
    os.makedirs(os.path.dirname(path), exist_ok=True)

# Bucle para convertir cada CSV a Parquet
for key, (csv_path, sep) in csv_files.items():
    try:
        # Leer el CSV usando pandas, con el separador adecuado
        # encoding='utf-8' asegura compatibilidad con caracteres especiales
        # on_bad_lines='skip' ignora líneas problemáticas en el CSV
        df = pd.read_csv(csv_path, sep=sep, encoding='utf-8', on_bad_lines='skip')

        # Convertir el DataFrame a Parquet
        # engine='fastparquet' utiliza fastparquet como motor de escritura
        # compression='snappy' aplica compresión columnar
        # index=False evita que se escriba el índice del DataFrame como columna
        df.to_parquet(
            parquet_dest[key],
            engine='fastparquet',
            compression='snappy',
            index=False
        )

        # Mensaje informativo de éxito
        print(f"{key} convertido a Parquet: {parquet_dest[key]}")

    # Captura cualquier error durante la lectura o escritura y lo imprime
    except Exception as e:
        print(f"Error al procesar {key}: {e}")


Indicadores_Finales convertido a Parquet: Capa_Plata/indicadores/hechos/indicadores/Año=2025/indicadores_finales.parquet
Lineas convertido a Parquet: Capa_Plata/indicadores/dimensiones/Dimension_Linea.parquet
Objetivos convertido a Parquet: Capa_Plata/indicadores/dimensiones/Dimension_Objetivo.parquet
Procesos convertido a Parquet: Capa_Plata/indicadores/dimensiones/Dimension_Proceso.parquet


In [19]:
# Importamos pandas para poder trabajar con dataframes
import pandas as pd

# Leer archivo Parquet usando pandas
# 'engine="fastparquet"' especifica el motor para leer archivos Parquet
df = pd.read_parquet(
    "Capa_Plata/indicadores/hechos/indicadores/Año=2025/indicadores_finales.parquet",
    engine='fastparquet'
)

# Mostrar las primeras filas del DataFrame para inspeccionar los datos
print(df.head())

# Mostrar información general del DataFrame:
# - Número de filas y columnas
# - Nombres de columnas
# - Tipos de datos de cada columna
# - Cantidad de valores no nulos por columna
print(df.info())

# Contar el número total de filas en el DataFrame
# Esto sirve para verificar que la cantidad de registros coincide con lo esperado
print(f"Número de filas: {len(df)}")


     Curso Identificador                                          Indicador  \
0  2021/22    IPC01.01    Satisfacció del professorat amb la gestió d’ho...   
1  2021/22    PAA-1A1     % preinscripció / vacants, per cicle          ...   
2  2022/23    IPC01.01    Satisfacció del professorat amb la gestió d’ho...   
3  2022/23    PAA-1A1     % preinscripció / vacants, per cicle          ...   
4  2016/17    IPC01.01    Satisfacció del professorat amb la gestió d’ho...   

  Periodicidad  Escala Objetivo Valor-A Valor-T1 Valor-T2 Valor-T3  \
0   Anual         10.0    7,5     8,87      None     None     None   
1   Anual        100.0    80      91        None     None     None   
2   Anual         10.0    7,5     8,91      None     None     None   
3   Anual        100.0    80      87        None     None     None   
4   Anual         10.0    7,5     8,79      None     None     None   

       Cod_SQ  Cod_PAA  
0  IPC01.01       None  
1        None  PAA-1A1  
2  IPC01.01       None  
3   