# Rutina de análisis inicial y de resultados de datos etiquetados durante QC a EMA

> Elaborado por Paola Álvarez, profesional contratista IDEAM, contrato 196 de 2024. Comentarios o inquietudes, remitir a *palvarez@ideam.gov.co* 

El análisis de resultados se incluye dentro del documento de diagnóstico de series temporales.
___
**Librerías:**

In [3]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
import matplotlib.colors as mcolors
import matplotlib.image as mpimg
import glob
import os
import statistics
from matplotlib.ticker import FuncFormatter
from scipy import stats

_____

### Longitud y continuidad series de datos de EMA - Gráficas

In [8]:
# Path to the directory containing the CSV files
data_directory = r"C:\Users\user\Downloads\PruebasDHIME"

# List to hold dataframes
dataframes = []

# Load each CSV file into a dataframe and add it to the list
for filename in os.listdir(data_directory):
    if filename.endswith(".csv"):
        try:
            df = pd.read_csv(os.path.join(data_directory, filename), parse_dates=['Fecha'], encoding='latin-1')
            df.set_index('Fecha', inplace=True)
            df['Presence'] = 1  # Add a column to indicate data presence
            dataframes.append(df)
        except Exception as e:
            print(f"Error loading {filename}: {e}")

# Se muestran los headers y fechas por archivo para ver estructura - Para caso de ejemplo
#dataframes_info = [(df.head(), df.index.min(), df.index.max()) for df in dataframes]
#dataframes_info

In [33]:
# Esta si
# Ordenar lista de dataframes
dataframes = sorted(dataframes, key=lambda x: x['Station'].iloc[0])

# Se crea el date range con las fechas inicial y final conocidas, para presión atmosférica 01/01/2001 a 03/04/2024, horaria
date_range = pd.date_range(start="2001-01-01 00:00", end="2024-04-03 23:00", freq='H')

# Número de estaciones por gráfico
estaciones_por_grafico = 50

# Total de gráficos a generar
total_graficos = len(dataframes) // estaciones_por_grafico + (len(dataframes) % estaciones_por_grafico > 0)

# Configuración de la fuente para todo el gráfico
font = {'family': 'Franklin Gothic Book',
        'weight': 'normal',
        'size': 10}

plt.rc('font', **font)

for j in range(total_graficos):
    fig, ax = plt.subplots(figsize=(15, 10))
    inicio = j * estaciones_por_grafico
    fin = min(inicio + estaciones_por_grafico, len(dataframes))  # Asegurarse de no pasarse del rango

    # Define a helper function to plot data for clarity
    def plot_station_data(ax, data, index, station_label):
        # Find where data is present
        presence_mask = data['Presence'] == 1
        # Plot only where data is present
        ax.fill_between(data.index, index - 0.45, index + 0.45, where=~presence_mask, color='#f0f0f0', step='mid', label='Sin dato' if i == 1 else "")
        ax.fill_between(data.index, index - 0.45, index + 0.45, where=presence_mask, color='orange', step='mid', label='Con dato' if i == 1 else "")

    for i, df in enumerate(dataframes[inicio:fin], start=1):
        # Reindex the dataframe to the full date range, filling missing data with 0 (indicating absence)
        df_complete = df.reindex(date_range, fill_value=0)
        plot_station_data(ax, df_complete, i, f"Station {df['Station'].iloc[0]}")

    #ax.legend(loc='upper left')  # Agrega la leyenda en la esquina superior izquierda
    ax.legend(loc='upper center', bbox_to_anchor=(0.5, -0.15), fancybox=True, shadow=True, ncol=2)
    # Setting the labels and ticks for better readability
    ax.set_yticks(range(1, fin - inicio + 1))
    ax.set_yticklabels([f"{df['Station'].iloc[0]}" for df in dataframes[inicio:fin]], fontsize=8)
    ax.set_ylim(0.5, fin - inicio + 0.5)
    ax.set_xlim(date_range[0], date_range[-1])
    ax.xaxis.set_major_locator(mdates.YearLocator())
    ax.xaxis.set_minor_locator(mdates.MonthLocator())
    ax.xaxis.set_major_formatter(mdates.DateFormatter('%Y-%m'))
    plt.xticks(rotation=90)
    plt.ylabel('Código de estación CNE')
    plt.title(f'Completitud de datos por estación - Grupo de estaciones {j+1} de {total_graficos}')
    plt.grid(True, which='both', linestyle='-', linewidth=0.25)

    # Show and save the plot
    plt.tight_layout()
    plt.savefig(f'completitud_datos_grafico_{j+1}.png')  # Guarda el gráfico como un archivo PNG
    plt.close(fig)  # Cierra la figura para liberar memoria

In [18]:
from matplotlib import font_manager
fonts = [f.name for f in font_manager.fontManager.ttflist]
print(set(fonts))

{'Franklin Gothic Demi', 'Cambria', 'Lucida Sans Unicode', 'Stencil', 'Niagara Engraved', 'Harlow Solid Italic', 'Calibri', 'ESRI AMFM Water', 'Haettenschweiler', 'Microsoft PhagsPa', 'ESRI Meteorological 01', 'Curlz MT', 'Oswald', 'Century', 'DejaVu Sans Display', 'cmex10', 'Microsoft Tai Le', 'Chiller', 'Gigi', 'Maiandra GD', 'ESRI Pipeline US 1', 'Bradley Hand ITC', 'Edwardian Script ITC', 'SimSun-ExtB', 'HoloLens MDL2 Assets', 'ESRI IGL Font16', 'High Tower Text', 'ESRI SDS 1.95 1', 'Pristina', 'Myanmar Text', 'MingLiU-ExtB', 'ESRI Telecom', 'Lucida Handwriting', 'Harrington', 'Rockwell Extra Bold', 'Palace Script MT', 'Vivaldi', 'ESRI MilSym 03', 'Trebuchet MS', 'ESRI AMFM Electric', 'MT Extra', 'ESRI Weather', 'Playbill', 'ESRI IGL Font23', 'ESRI US MUTCD 3', 'Imprint MT Shadow', 'Segoe UI Emoji', 'DejaVu Serif Display', 'Perpetua', 'ESRI Commodities', 'Rockwell', 'ESRI Surveyor', 'Franklin Gothic Heavy', 'Dosis', 'Franklin Gothic Demi Cond', 'STIXSizeFiveSym', 'Tw Cen MT Condens

### Cantidad total de datos

In [3]:
## Se indaga sobre cuál es la cantidad de datos de todas las series descargadas en el período 2001-01-01 al 2024-03-31
# Se crea la función cantidad_datos
def cantidad_datos(archivos):
    total_filas = 0

    for archivo in archivos:
        # Se utiliza el método 'chunksize' de pandas para leer los archivos por partes (chunks)
        # y procesarlos de forma incremental sin cargar todos los datos en memoria al mismo tiempo
        chunks = pd.read_csv(archivo, encoding='latin-1', chunksize=100000)  # Se establece este valor de chunk para poder hacer otras actividades

        for chunk in chunks:
            total_filas += len(chunk)

    return total_filas

# Ruta de la carpeta con los archivos CSV
carpeta_proces = 'RawUnmodified_Patm/'

# Obtener la lista de archivos en la carpeta
archivos = [carpeta_proces + archivo for archivo in os.listdir(carpeta_proces) if archivo.endswith('.csv')]

# Llamar a la función para contar las filas
total_filas = cantidad_datos(archivos)

# Imprimir el resultado
print("El número total de datos es:", total_filas)

El número total de datos es: 22112997


### Contar datos por fecha

In [23]:
def contar_datos_por_fechas(archivos):
    resultados = []

    for archivo in archivos:
        chunks = pd.read_csv(archivo, encoding='latin-1', chunksize=100000)
        
        for chunk in chunks:
            chunk['Fecha'] = pd.to_datetime(chunk['Fecha'], format='%Y-%m-%d %H:%M:%S.%f')
            estacion = chunk['Station'].iloc[0]
            
            # Conteo por año, mes y día
            conteo_dia = chunk['Fecha'].dt.to_period('D').value_counts().rename_axis('Año-mes-dia').reset_index(name='Cantidad_año-mes-dia')
            conteo_dia['Año-mes'] = conteo_dia['Año-mes-dia'].dt.to_timestamp().dt.to_period('M')
            conteo_dia['Año'] = conteo_dia['Año-mes'].dt.year

            # Conteo por año y mes
            conteo_mes = chunk['Fecha'].dt.to_period('M').value_counts().rename_axis('Año-mes').reset_index(name='Cantidad_año-mes')
            conteo_mes['Año'] = conteo_mes['Año-mes'].dt.year

            # Conteo por año
            conteo_anual = chunk['Fecha'].dt.year.value_counts().rename_axis('Año').reset_index(name='Cantidad_año')
            
            # Combinar con la información de la estación
            conteo_anual['Station'] = estacion
            conteo_mes['Station'] = estacion
            conteo_dia['Station'] = estacion
            
            # Merge considerando Station, Año y Año-mes
            merged_data = pd.merge(pd.merge(conteo_anual, conteo_mes, on=['Station', 'Año']), conteo_dia, on=['Station', 'Año', 'Año-mes'])
            resultados.append(merged_data)
    
    df_resultados = pd.concat(resultados, ignore_index=True)
    # Reordenar columnas
    df_resultados = df_resultados[['Station', 'Año', 'Cantidad_año', 'Año-mes', 'Cantidad_año-mes','Año-mes-dia','Cantidad_año-mes-dia']]
    df_resultados.sort_values(by=['Station', 'Año', 'Año-mes', 'Año-mes-dia'], inplace=True)
    
    # Rellenar la columna 'Cantidad_año' sólo una vez por cada año y estación
    df_resultados['Cantidad_año'] = df_resultados.groupby(['Station', 'Año'])['Cantidad_año'].transform(lambda x: x.iloc[0] if not x.isna().all() else pd.NA)
    
    df_resultados.to_csv('conteo_datos_detalles_completo.csv', index=False, encoding='latin-1')
    return df_resultados

# Uso de la función
carpeta_proces = 'RawUnmodified_Patm/'
archivos = [carpeta_proces + archivo for archivo in os.listdir(carpeta_proces) if archivo.endswith('.csv')]
resultados = contar_datos_por_fechas(archivos)
print(resultados.head())

       Station   Año  Cantidad_año  Año-mes  Cantidad_año-mes Año-mes-dia  \
1240  11030010  2018          5726  2018-05               659  2018-05-04   
1213  11030010  2018          5726  2018-05               659  2018-05-05   
1233  11030010  2018          5726  2018-05               659  2018-05-06   
1232  11030010  2018          5726  2018-05               659  2018-05-07   
1231  11030010  2018          5726  2018-05               659  2018-05-08   

      Cantidad_año-mes-dia  
1240                    11  
1213                    24  
1233                    24  
1232                    24  
1231                    24  


In [28]:
### Lectura de frecuencias para revisión inicial
dffreq = pd.read_csv('conteo_datos_detalles_completo.csv', encoding='latin-1')
dffreq

Unnamed: 0,Station,Año,Cantidad_año,Año-mes,Cantidad_año-mes,Año-mes-dia,Cantidad_año-mes-dia
0,11030010,2018,5726,2018-05,659,2018-05-04,11
1,11030010,2018,5726,2018-05,659,2018-05-05,24
2,11030010,2018,5726,2018-05,659,2018-05-06,24
3,11030010,2018,5726,2018-05,659,2018-05-07,24
4,11030010,2018,5726,2018-05,659,2018-05-08,24
...,...,...,...,...,...,...,...
796775,5311500149,2024,8244,2024-03,622,2024-03-01,138
796776,5311500149,2024,8244,2024-03,622,2024-03-02,144
796777,5311500149,2024,8244,2024-03,622,2024-03-03,144
796778,5311500149,2024,8244,2024-03,622,2024-03-04,144


In [30]:
grupito = dffreq.groupby(dffreq['Station'])

In [42]:
grp_mx = grupito['Cantidad_año-mes-dia'].max()
grp_mx.to_csv('grp_mx.csv', encoding='latin-1', index=True, sep=';')

### Obtener fechas iniciales y finales de estaciones

In [12]:
def obtener_fechas(archivo):
    try:
        # Se lee el archivo
        datos = pd.read_csv(archivo, encoding='latin-1')#, names=['Fecha', 'Valor'])
        try:
            datos['Fecha'] = pd.to_datetime(datos['Fecha'], format='%Y-%m-%d %H:%M:%S.%f')
        except ValueError:
            datos['Fecha'] = pd.to_datetime(datos['Fecha'], format='%Y-%m-%d %H:%M:%S')
        
        # Se obtiene el código de la estación
        station = #datos['Station'].values[0]
        
        # Se obtiene primera y última fecha 
        fecha_inicial = datos['Fecha'].iloc[0]
        fecha_final = datos['Fecha'].iloc[-1]
        
        return station, fecha_inicial, fecha_final
    
    except Exception as e:
        print(f"Error con el archivo {archivo}: {e}")
        return None, None, None

def main():
    # Cambia la ruta según la ubicación de tu carpeta
    ruta_carpeta = r'C:\Users\user\Downloads\PruebasDHIME'

    # Listamos todos los archivos en la carpeta que terminen con .csv
    archivos = [f for f in os.listdir(ruta_carpeta) if f.endswith('.csv')]
    
    # Creamos una lista para almacenar los resultados
    resultados = []

    # Iteramos sobre cada archivo y obtenemos las fechas
    for archivo in archivos:
        ruta_archivo = os.path.join(ruta_carpeta, archivo)
        station, fecha_inicial, fecha_final = obtener_fechas(ruta_archivo)
        
        if station and fecha_inicial and fecha_final:
            resultados.append([station, fecha_inicial, fecha_final])
    
    # Convertimos los resultados a un DataFrame
    resultados_df = pd.DataFrame(resultados, columns=['CodEstacion', 'fecha_inicial', 'fecha_final'])
    
    # Guardamos el DataFrame como un archivo CSV
    resultados_df.to_csv('FechaInicialFinal_DHIME.csv', index=False)

if __name__ == "__main__":
    main()

### Obtener estadísticos descriptivos

In [10]:
def obtener_EstadDescript(archivo):
    try:
        # Se lee el archivo
        datos = pd.read_csv(archivo, encoding='latin-1')#, names=['Fecha', 'Valor'])
        try:
            datos['Fecha'] = pd.to_datetime(datos['Fecha'], format='%Y-%m-%d %H:%M:%S.%f')
        except ValueError:
            datos['Fecha'] = pd.to_datetime(datos['Fecha'], format='%Y-%m-%d %H:%M:%S')
        
        # Se obtiene el código de la estación
        station = datos['Station'].values[0]
        
        # Se obtienen los estadísticos descriptivos
        minimo = datos['Valor'].min()
        maximo = datos['Valor'].max()
        media = datos['Valor'].mean()
        mediana = datos['Valor'].median()
        desvest = datos['Valor'].std()
        varianza = datos['Valor'].var()
        #first_q = datos['Valor'].quantile(0.25)
        #third_q = datos['Valor'].quantile(0.75)
        
        return station, minimo, maximo, media, mediana, desvest, varianza, #first_q, third_q, mediana --no fue posible calcular estos estad.
    
    except Exception as e:
        print(f"Error con el archivo {archivo}: {e}")
        print(e.__class__)
        return None, None, None, None, None, None, None#, None, None --no fue posible calcular estos estad.

def main():
    # Cambia la ruta según la ubicación de tu carpeta
    ruta_carpeta = 'RawUnmodified_Patm'

    # Listamos todos los archivos en la carpeta que terminen con .csv
    archivos = [f for f in os.listdir(ruta_carpeta) if f.endswith('.csv')]
    
    # Se crea una lista para almacenar los resultados
    resultados = []

    # Se itera sobre cada archivo y se obtienen fechas las fechas
    for archivo in archivos:
        ruta_archivo = os.path.join(ruta_carpeta, archivo)
        station, minimo, maximo, media, mediana, desvest, varianza= obtener_EstadDescript(ruta_archivo)
        print(station, minimo, maximo, media, mediana, desvest, varianza)
        resultados.append([station, minimo, maximo, media, mediana, desvest, varianza])
        #if station and minimo: #and maximo and media and mediana and desvest and varianza:
            #resultados.append([station, minimo, maximo, media, mediana, desvest, varianza])
        #else:
            #print(f'Sin suficientes resultado para {archivo}. No se generaron sus estadísticos')
    
    # Se convierten los resultados a un DataFrame
    resultados_df = pd.DataFrame(resultados, columns=['Station', 'minimo', 'maximo', 'media', 'mediana','desvest', 'varianza'])
    
    print(resultados_df)
    
    # Se guarda el DataFrame como un archivo CSV
    resultados_df.to_csv('EstadDescript_Patm_Raw.csv', index=False)

if __name__ == "__main__":
    main()

11030010 977.9 1037.9 1006.1994866774903 1006.3 2.4399384018078085 5.953299404616442
11035030 155.0 41115.0 1007.2317907025225 999.6 516.1658334782674 266427.16765031446
11045010 996.9 1010.8 1004.702345555908 1004.8 2.042558786488141 4.172046396259907
11050020 1000.6 1014.5 1007.7899064617735 1007.9 2.0775243080055734 4.316107250354037
11080010 1002.0 1015.9 1009.5999130863054 1009.7 2.1032925073048063 4.423839371284538
11105020 -2055.2 3277.8 811.2659169814616 1008.6 400.36488324744056 160292.0397377367
11115020 865.9 878.2 872.9511947294241 873.0 1.6119911404855216 2.5985154370038126
11120040 1004.3 1017.7 1010.7843980009087 1010.9 1.917507942141253 3.676836708174783
11135030 0.0 1022.0 930.0304603865223 1009.5 206.86568196344837 42793.41037420256
11155030 1002.3 1011.0 1006.685471698113 1006.75 1.575873414958372 2.4833770199725613
11159010 286.8 3277.9 1011.952974089529 1008.5 23.478241699398453 551.2278332953723
11175000 998.9 1013.4 1006.9383106733125 1007.0 2.129206877305681 4.5

In [11]:
resultados_df = pd.read_csv('EstadDescript_Patm_Raw.csv')

In [12]:
altipatm = pd.read_table('EMA_Patm_TMaxMin.txt', sep=';')

In [13]:
altipatm.head(2)

Unnamed: 0,OBJECTID,Station,lat,long_,nombre,sede,id_rule,codigo,Instituc,FreqInf,Altitud,TmaxNorm,TminNorm
0,1,11030010.0,5.375,-76.613,Valle,09 - Cali,9,9,IDEAM,H,58,27.853392,19.794912
1,2,11035030.0,5.285,-76.628,Valle,09 - Cali,9,9,IDEAM,H,104,27.376471,19.418962


In [14]:
estadalt = pd.merge(resultados_df, altipatm[['Station','Altitud']], on='Station')

In [16]:
# Se sobreescriben los estadísticos para incluir altitud
estadalt.to_csv('EstadDescript_Patm_Raw.csv', index=False)

In [2]:
# De datos con QC
def obtener_EstadDescript(archivo):
    try:
        # Se lee el archivo
        datos = pd.read_csv(archivo, encoding='latin-1')#, names=['Fecha', 'Valor'])
        try:
            datos['Fecha'] = pd.to_datetime(datos['Fecha'], format='%Y-%m-%d %H:%M:%S.%f')
        except ValueError:
            datos['Fecha'] = pd.to_datetime(datos['Fecha'], format='%Y-%m-%d %H:%M:%S')
        
        # Se hace el filtro para que solo queden los valores que superaron las pruebas
        dfC = datos[~datos['Estado'].apply(lambda x: any([str(x).startswith(prefix) for prefix in ['0PSO','0PAT','0PER']]))]
        
        # Se obtiene el código de la estación
        station = dfC['Station'].values[0]
        
        # Se obtienen los estadísticos descriptivos
        minimo = dfC['Valor'].min()
        maximo = dfC['Valor'].max()
        media = dfC['Valor'].mean()
        #mediana = datos['Valor'].median()
        desvest = dfC['Valor'].std()
        varianza = dfC['Valor'].var()
        #first_q = datos['Valor'].quantile(0.25)
        #third_q = datos['Valor'].quantile(0.75)
        
        return station, minimo, maximo, media, desvest, varianza, #first_q, third_q, mediana --no fue posible calcular estos estad.
    
    except Exception as e:
        print(f"Error con el archivo {archivo}: {e}")
        print(e.__class__)
        return None, None, None, None, None, None#, None, None, None --no fue posible calcular estos estad.

def main():
    # Cambia la ruta según la ubicación de tu carpeta
    #ruta_carpeta = '../OE_3_QC_Variables/1_PresionAtmosferica/QCResult_Patm/V2'
    ruta_carpeta = '../OE_3_QC_Variables/1_PresionAtmosferica/QCResult_Patm/V3'

    # Listamos todos los archivos en la carpeta que terminen con .csv
    archivos = [f for f in os.listdir(ruta_carpeta) if f.endswith('.csv')]
    
    # Creamos una lista para almacenar los resultados
    resultados = []

    # Iteramos sobre cada archivo y obtenemos las fechas
    for archivo in archivos:
        ruta_archivo = os.path.join(ruta_carpeta, archivo)
        station, minimo, maximo, media, desvest, varianza= obtener_EstadDescript(ruta_archivo)
        
        if station and minimo and maximo and media and desvest and varianza:
            resultados.append([station, minimo, maximo, media, desvest, varianza])
    
    # Convertimos los resultados a un DataFrame
    resultados_df = pd.DataFrame(resultados, columns=['Station', 'minimo', 'maximo', 'media', 'desvest', 'varianza'])
    
    # Guardamos el DataFrame como un archivo CSV
    resultados_df.to_csv('EstadDescript_QC_V3.csv', index=False)

if __name__ == "__main__":
    main()

Error con el archivo ../OE_3_QC_Variables/1_PresionAtmosferica/QCResult_Patm/V3\Estacion_0021085030_qc.csv: index 0 is out of bounds for axis 0 with size 0
<class 'IndexError'>
Error con el archivo ../OE_3_QC_Variables/1_PresionAtmosferica/QCResult_Patm/V3\Estacion_0021185090_qc.csv: index 0 is out of bounds for axis 0 with size 0
<class 'IndexError'>
Error con el archivo ../OE_3_QC_Variables/1_PresionAtmosferica/QCResult_Patm/V3\Estacion_0021197430_qc.csv: index 0 is out of bounds for axis 0 with size 0
<class 'IndexError'>
Error con el archivo ../OE_3_QC_Variables/1_PresionAtmosferica/QCResult_Patm/V3\Estacion_0021205506_qc.csv: index 0 is out of bounds for axis 0 with size 0
<class 'IndexError'>
Error con el archivo ../OE_3_QC_Variables/1_PresionAtmosferica/QCResult_Patm/V3\Estacion_0021205509_qc.csv: index 0 is out of bounds for axis 0 with size 0
<class 'IndexError'>
Error con el archivo ../OE_3_QC_Variables/1_PresionAtmosferica/QCResult_Patm/V3\Estacion_0021205513_qc.csv: index 0

  datos = pd.read_csv(archivo, encoding='latin-1')#, names=['Fecha', 'Valor'])


Error con el archivo ../OE_3_QC_Variables/1_PresionAtmosferica/QCResult_Patm/V3\Estacion_0025025002_qc.csv: index 0 is out of bounds for axis 0 with size 0
<class 'IndexError'>
Error con el archivo ../OE_3_QC_Variables/1_PresionAtmosferica/QCResult_Patm/V3\Estacion_0026155270_qc.csv: index 0 is out of bounds for axis 0 with size 0
<class 'IndexError'>
Error con el archivo ../OE_3_QC_Variables/1_PresionAtmosferica/QCResult_Patm/V3\Estacion_0026185020_qc.csv: index 0 is out of bounds for axis 0 with size 0
<class 'IndexError'>
Error con el archivo ../OE_3_QC_Variables/1_PresionAtmosferica/QCResult_Patm/V3\Estacion_0026200120_qc.csv: index 0 is out of bounds for axis 0 with size 0
<class 'IndexError'>
Error con el archivo ../OE_3_QC_Variables/1_PresionAtmosferica/QCResult_Patm/V3\Estacion_0027015300_qc.csv: index 0 is out of bounds for axis 0 with size 0
<class 'IndexError'>
Error con el archivo ../OE_3_QC_Variables/1_PresionAtmosferica/QCResult_Patm/V3\Estacion_0028015110_qc.csv: index 0

In [16]:
## Analizar presencia de '0PSO0'
# Se lee la carpeta del ejemplo
# Directorio de ejemplo
directorio = r'../OE_3_QC_Variables/2_HumedadRelativa/RawUnmodified_HR/p_transm'

# Lista para almacenar los nombres de los archivos y conteos de '0PSO0'
archivos_con_0PSO0 = []

# Iterar sobre cada archivo en el directorio
for archivo in os.listdir(directorio):
    if archivo.endswith('.csv'):
        # Construir la ruta completa al archivo
        ruta_archivo = os.path.join(directorio, archivo)
        
        # Leer el archivo CSV en un DataFrame de pandas
        tipos_de_dato = {'Estado': str, 'Estado_Anterior': str}
        df = pd.read_csv(ruta_archivo, dtype=tipos_de_dato, encoding='latin-1')
        
        # Contar las ocurrencias de '0PLP0' en la columna 'Estado'
        if 'Estado' not in df.columns:
            continue
        
        # Si el conteo es mayor que cero, agregar el archivo y el conteo a la lista
        if conteo_0PSO0 > 0:
            archivos_con_0PSO0.append((archivo, conteo_0PSO0))
            #print(archivos_con_0PSO0)
            #qtty_ptransm = pd.DataFrame(archivos_con_0PSO0)
            #print(qtty_ptransm)
#qtty_ptransm.to_csv('ptransm_qtty.csv')
# Imprimir los nombres de los archivos y los conteos de '0PSO0' en la columna 'Estado'
print('Archivos que contienen "0PSO0" en la columna "Estado" y su conteo:')
for archivo, conteo in archivos_con_0PSO0:
    print(f'{archivo}: {conteo} veces')

Archivos que contienen "0PSO0" en la columna "Estado" y su conteo:
Estacion_0011025501_paresultado.csv: 1847 veces
Estacion_0011030010_paresultado.csv: 1847 veces
Estacion_0011035030_paresultado.csv: 1847 veces
Estacion_0011045010_paresultado.csv: 1847 veces
Estacion_0011050020_paresultado.csv: 1847 veces
Estacion_0011080010_paresultado.csv: 1847 veces
Estacion_0011105020_paresultado.csv: 1847 veces
Estacion_0011115020_paresultado.csv: 1847 veces
Estacion_0011115501_paresultado.csv: 1847 veces
Estacion_0011120040_paresultado.csv: 1847 veces
Estacion_0011135030_paresultado.csv: 1847 veces
Estacion_0011159010_paresultado.csv: 1847 veces
Estacion_0011175000_paresultado.csv: 1847 veces
Estacion_0012015060_paresultado.csv: 1847 veces
Estacion_0012015100_paresultado.csv: 1847 veces
Estacion_0012015110_paresultado.csv: 1847 veces
Estacion_0012025040_paresultado.csv: 1847 veces
Estacion_0012045020_paresultado.csv: 1847 veces
Estacion_0013035501_paresultado.csv: 1847 veces
Estacion_0013055040_p

_____

## Cantidad de datos abanderados al aplicar QC automatizados

In [8]:
## Cantidad y porcentaje de datos abanderados por estación
def generar_dataframe_compilado(archivos):
    datos = []

    for archivo in archivos:
        # Leer el archivo CSV en modo iterador y especificar los tipos de datos
        reader = pd.read_csv(archivo, iterator=True, dtype={'Station': str, 'Estado': str}, chunksize=70000, 
                             encoding='latin-1')

        # Inicializar contador de filas y contador de '0PAT0'
        total_filas = 0
        cantidad_0PSO = 0
        cantidad_0PER = 0
        cantidad_0PAT = 0
        #cantidad_0PC = 0

        # Obtener los chunks de datos del archivo
        for chunk in reader:
            total_filas += len(chunk)
            cantidad_0PSO +=  chunk[chunk['Estado'].str.startswith('0PSO', na=False)].shape[0]
            cantidad_0PER +=  chunk[chunk['Estado'].str.startswith('0PER', na=False)].shape[0]
            cantidad_0PAT +=  chunk[chunk['Estado'].str.startswith('0PAT', na=False)].shape[0]
            #cantidad_0PC += chunk[chunk['Estado'].str.startswith('0PC', na=False)].shape[0]

        cantidad_0P = cantidad_0PSO + cantidad_0PER + cantidad_0PAT
        
        # Obtener el 'Station' respectivo
        station = chunk['Station'].iloc[0]
        
        # Obtener porcentajes
        perc_0PSO = round((cantidad_0PSO/total_filas*100),2)
        perc_0PER = round((cantidad_0PER/total_filas*100),2)
        perc_0PAT = round((cantidad_0PAT/total_filas*100),2)
        perc_0P = round((cantidad_0P/total_filas*100),2)
        #perc_0PC = round((cantidad_0PC/total_filas*100),2)

        # Agregar los datos a la lista
        datos.append({'Station': station, 'TotalDatos': total_filas, 'Estado_0PSO': cantidad_0PSO, 
                      'Estado_0PAT': cantidad_0PAT, 'Estado_0PER': cantidad_0PER, 'Estado_0P': cantidad_0P,
                      'Per_0PSO': perc_0PSO, 'Per_0PAT': perc_0PAT, #'Estado_0PC': cantidad_0PC,
                      'Per_0PER': perc_0PER, 'Per_0P': perc_0P}) #, 'Per_0PC': perc_0PC})
        #print(datos)

    # Crear el nuevo DataFrame compilado
    df_compilado = pd.DataFrame(datos)

    return df_compilado

# Ruta de la carpeta con los archivos CSV
carpeta = '../OE_3_QC_Variables/1_PresionAtmosferica/QCResult_Patm/V3/'

# Obtener la lista de archivos en la carpeta
archivos = [carpeta + archivo for archivo in os.listdir(carpeta) if archivo.endswith('.csv')]

# Llamar a la función para generar el nuevo DataFrame compilado
df_compilado = generar_dataframe_compilado(archivos)

# Imprimir el nuevo DataFrame
print(df_compilado)

# Exportar el df compilado
df_compilado.to_csv('Patm_0P.csv', index=False)

  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk

  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:


        Station  TotalDatos  Estado_0PSO  Estado_0PAT  Estado_0PER  Estado_0P  \
0      11030010       42068          214         1636          159       2009   
1      11035030       19392           29          123           35        187   
2      11045010       44126           94          288            0        382   
3      11050020       20954           33          120           45        198   
4      11080010       34517          140          183         1196       1519   
..          ...         ...          ...          ...          ...        ...   
419  5205500123       31304          404          258            0        662   
420  5311500056       33876          125          345            3        473   
421  5311500121       51566           11          247            0        258   
422  5311500147      155686       134670          234         9671     144575   
423  5311500149      136197       119249          248         8806     128303   

     Per_0PSO  Per_0PAT  Pe

In [10]:
## Cantidad y porcentaje de datos abanderados por entidad
def generar_dataframe_compilado(archivos):
    datos = []

    for archivo in archivos:
        # Leer el archivo CSV en modo iterador y especificar los tipos de datos
        reader = pd.read_csv(archivo, iterator=True, dtype={'Station': str, 'Estado': str}, chunksize=70000,
                            encoding='latin-1')

        # Inicializar contador de filas y contador de '0PAT0'
        total_filas = 0
        cantidad_0PSO = 0
        cantidad_0PER = 0
        cantidad_0PAT = 0
        cantidad_0PC = 0

        # Obtener los chunks de datos del archivo
        for chunk in reader:
            total_filas += len(chunk)
            cantidad_0PSO +=  chunk[chunk['Estado'].str.startswith('0PSO', na=False)].shape[0]
            cantidad_0PER +=  chunk[chunk['Estado'].str.startswith('0PER', na=False)].shape[0]
            cantidad_0PAT +=  chunk[chunk['Estado'].str.startswith('0PAT', na=False)].shape[0]
            cantidad_0PC += chunk[chunk['Estado'].str.startswith('0PC', na=False)].shape[0]

        cantidad_0P = cantidad_0PSO + cantidad_0PER + cantidad_0PAT
        
        # Obtener el 'Station' respectivo
        station = chunk['Station'].iloc[0]
        
        # Obtener porcentajes
        perc_0PSO = round((cantidad_0PSO/total_filas*100),2)
        perc_0PER = round((cantidad_0PER/total_filas*100),2)
        perc_0PAT = round((cantidad_0PAT/total_filas*100),2)
        perc_0P = round((cantidad_0P/total_filas*100),2)
        perc_0PC = round((cantidad_0PC/total_filas*100),2)

        # Agregar los datos a la lista
        datos.append({'Station': station, 'TotalDatos': total_filas, 'Estado_0PSO': cantidad_0PSO, 
                      'Estado_0PAT': cantidad_0PAT, 'Estado_0PER': cantidad_0PER, 'Estado_0P': cantidad_0P,
                      'Estado_0PC': cantidad_0PC, 'Per_0PSO': perc_0PSO, 'Per_0PAT': perc_0PAT, 
                      'Per_0PER': perc_0PER, 'Per_0P': perc_0P, 'Per_0PC': perc_0PC})

    # Crear el nuevo DataFrame compilado
    df_compilado = pd.DataFrame(datos)
    # Convertir la columna 'Station' a tipo 'int64'
    df_compilado['Station'] = df_compilado['Station'].astype('int64')

    # Cargar el archivo 'EMA_AllInfo.txt'
    ema_all = pd.read_csv('EMAPatm_allinfo.txt', delimiter=';', encoding='latin-1')
    
    # Convertir la columna 'Station' a tipo 'str'
    ema_all['Station'] = ema_all['Station'].astype('int64')
    
    # Unir los dataframes para agregar la columna 'project'
    df_compilado = pd.merge(df_compilado, ema_all[['Station', 'project']], on='Station', how='left')

    # Agrupar por proyecto y obtener los resultados deseados
    resultado = df_compilado.groupby('project').agg({
        'TotalDatos': 'sum',
        'Estado_0PSO': 'sum',
        'Estado_0PAT': 'sum',
        'Estado_0PER': 'sum',
        'Estado_0P': 'sum',
        'Estado_0PC': 'sum',
        'Per_0PSO': 'mean',
        'Per_0PAT': 'mean',
        'Per_0PER': 'mean',
        'Per_0P': 'mean',
        'Per_0PC': 'mean',
    }).reset_index()

    return resultado

# Ruta de la carpeta con los archivos CSV
carpeta = '../OE_3_QC_Variables/1_PresionAtmosferica/QCResult_Patm/V3/'

# Obtener la lista de archivos en la carpeta
archivos = [carpeta + archivo for archivo in os.listdir(carpeta) if archivo.endswith('.csv')]

# Llamar a la función para generar el nuevo DataFrame compilado
df_compilado = generar_dataframe_compilado(archivos)

# Imprimir el nuevo DataFrame
print(df_compilado)

# Exportar el df compilado
df_compilado.to_csv('Patm_0P_entidad.csv', index=False)

  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk

  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:
  for chunk in reader:


FileNotFoundError: [Errno 2] No such file or directory: 'EMAPatm_allinfo.txt'