In [1]:
import pandas as pd
import os
from datetime import datetime
from google.colab import drive
drive.mount('/content/drive')


def leer_archivo_contaminante(ruta_archivo, nombre_contaminante):
    # Leer el archivo CSV
    df = pd.read_csv(ruta_archivo, sep=';', decimal=',')
    
    df = df.rename(columns={'FECHA (YYMMDD)': 'FECHA'})

    # Convertir la columna combinada FECHA_HORA al formato correcto
    df['FECHA'] = pd.to_datetime(df['FECHA'], format='%y%m%d')

    # Establecer FECHA_HORA como índice
    df.set_index('FECHA', inplace=True)

    # Renombrar la columna de registros validados con el nombre del contaminante
    df.rename(columns={'Registros validados': nombre_contaminante}, inplace=True)

    # Seleccionar solo la columna del contaminante
    return df[[nombre_contaminante]]

# Directorio donde se encuentran los archivos de datos
directorio_datos = '' # ¡¡¡¡ MODIFICAR !!!!

# Lista de contaminantes y sus archivos correspondientes
contaminantes = {
    'PM25': 'PM25.csv',
    'PM10': 'PM10.csv',
    'O3': 'O3.csv',
    'CO': 'CO.csv'
}

# Leer y unir todos los archivos
dfs = []
for contaminante, archivo in contaminantes.items():
    ruta_completa = directorio_datos+ archivo
    if ruta_completa:
        df = leer_archivo_contaminante(ruta_completa, contaminante)
        dfs.append(df)
    else:
        print(f"Archivo no encontrado: {archivo}, ruta: {ruta_completa} ")

# Unir todos los DataFrames
df_unido = pd.concat(dfs, axis=1)

# Rellenar valores NaN con 0 o puedes elegir otro método
df_unido.fillna(0, inplace=True)

# Mostrar las primeras filas del DataFrame unido
print(df_unido.head())

# Guardar el DataFrame unido en un nuevo archivo CSV
df_unido.to_csv(f'./contaminante_coyhaique.csv', sep=',', decimal='.')

print("Datos unidos y guardados en 'datos_calidad_aire_unidos.csv'")

# Información adicional sobre el DataFrame
print("\nInformación del DataFrame unido:")
print(df_unido.info())

print("\nEstadísticas descriptivas:")
print(df_unido.describe())

                PM25      PM10   O3        CO
FECHA                                        
2013-09-01  105.2920  107.4580  0.0  0.762502
2013-09-02   98.6666  108.6250  0.0  0.829169
2013-09-03   80.5416   88.0833  0.0  0.329168
2013-09-04  112.6250  114.2080  0.0  0.625002
2013-09-05  103.9580  108.7920  0.0  0.504169
Datos unidos y guardados en 'datos_calidad_aire_unidos.csv'

Información del DataFrame unido:
<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 4061 entries, 2013-09-01 to 2024-10-13
Freq: D
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   PM25    4061 non-null   float64
 1   PM10    4061 non-null   float64
 2   O3      4061 non-null   float64
 3   CO      4061 non-null   float64
dtypes: float64(4)
memory usage: 158.6 KB
None

Estadísticas descriptivas:
              PM25         PM10           O3           CO
count  4061.000000  4061.000000  4061.000000  4061.000000
mean     45.921561    54.965584    10.4