# üîé An√°lisis exploratorio del dataset Air Quality in Madrid (2001-2018)

Este proyecto utiliza el dataset ‚ÄúAir Quality in Madrid (2001-2018)‚Äù de Kaggle, que contiene registros diarios y horarios de diversos contaminantes recogidos por estaciones de monitoreo en Madrid. El objetivo principal es comparar la calidad del aire entre los a√±os 2001 y 2018, analizando c√≥mo han cambiado los niveles de contaminantes y las tendencias temporales a lo largo de la d√©cada.

El dataset ofrece suficiente cantidad de registros para realizar consultas significativas, incluyendo an√°lisis por contaminante, estaci√≥n y per√≠odo temporal, sin requerir infraestructura de procesamiento especial. Esto permite explorar tendencias hist√≥ricas, estacionales y anuales, facilitando una evaluaci√≥n clara de los cambios en la calidad del aire durante una d√©cada clave en Madrid.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import glob
import os

# Ruta de los archivos CSV por a√±o
csvs_folder = r"data\csvs_per_year\csvs_per_year"
csv_files = sorted(glob.glob(os.path.join(csvs_folder, "madrid_*.csv")))

# Cargar todos los datasets en un diccionario por a√±o
dfs = {}
for csv_path in csv_files:
    # Extraer el a√±o del nombre del archivo
    year = int(os.path.basename(csv_path).split('_')[1].split('.')[0])
    df = pd.read_csv(csv_path)
    # Renombrar columna 'station' a 'id' si existe
    if 'station' in df.columns:
        df = df.rename(columns={'station': 'id'})
    # Renombrar 'NO' a 'NOx' solo si existe y es 2015 o posterior
    if 'NO' in df.columns and year >= 2015:
        df = df.rename(columns={'NO': 'NOx'})
    dfs[year] = df

# Cargar el archivo de estaciones
stations_csv = r"data\stations.csv"
stations = pd.read_csv(stations_csv)

# Unificar columnas comunes entre todos los a√±os
common_cols = set(dfs[min(dfs.keys())].columns)
for df in dfs.values():
    common_cols = common_cols.intersection(set(df.columns))
common_cols = list(common_cols)

# Crear un DataFrame por a√±o con columnas comunes y nombre de estaci√≥n
dfs_common = {}
for year, df in dfs.items():
    df_common = df[common_cols].merge(stations[['id','name']], on='id', how='left')
    dfs_common[year] = df_common

# Mostrar ejemplo de todos los a√±os
for year in sorted(dfs_common.keys()):
    print(f"=== Dataset {year} (columnas comunes con nombre de estaci√≥n) ===")
    display(dfs_common[year].head())

=== Dataset 2001 (columnas comunes con nombre de estaci√≥n) ===


Unnamed: 0,TCH,BEN,NMHC,PM10,O_3,EBE,SO_2,TOL,id,CO,NO_2,date,name
0,,,,105.0,34.529999,,6.34,,28079001,0.37,58.400002,2001-08-01 01:00:00,
1,1.24,1.5,0.07,100.599998,42.16,1.49,8.11,10.82,28079035,0.34,56.25,2001-08-01 01:00:00,Pza. del Carmen
2,,,,100.099998,46.310001,,7.85,,28079003,0.28,50.66,2001-08-01 01:00:00,
3,,,,69.779999,40.650002,,6.46,,28079004,0.47,69.790001,2001-08-01 01:00:00,Pza. de Espa√±a
4,,,,75.18,66.309998,,8.8,,28079039,0.39,22.83,2001-08-01 01:00:00,Barrio del Pilar


=== Dataset 2018 (columnas comunes con nombre de estaci√≥n) ===


Unnamed: 0,TCH,BEN,NMHC,PM10,O_3,EBE,SO_2,TOL,id,CO,NO_2,date,name
0,,,,,,,2.0,,28079004,0.3,29.0,2018-03-01 01:00:00,Pza. de Espa√±a
1,1.41,0.5,0.02,5.0,52.0,0.2,3.0,0.8,28079008,0.3,40.0,2018-03-01 01:00:00,Escuelas Aguirre
2,,0.4,,,,0.2,,1.1,28079011,,41.0,2018-03-01 01:00:00,Avda. Ram√≥n y Cajal
3,,,,,54.0,,,,28079016,0.3,35.0,2018-03-01 01:00:00,Arturo Soria
4,,,,,49.0,,3.0,,28079017,,27.0,2018-03-01 01:00:00,Villaverde


## üìä Robert (an√°lisis general y descriptivo)

- Promedio anual: ¬øCu√°l es la concentraci√≥n media de cada contaminante? (tabla resumen).


- Mes con peor calidad del aire: ¬øQu√© mes tuvo la media m√°s alta de NO‚ÇÇ? (gr√°fico de barras mensual).

- Distribuci√≥n de O‚ÇÉ: ¬øCu√°l es el rango de concentraciones de O‚ÇÉ m√°s frecuente? (histograma).

- Picos diarios: ¬øQu√© d√≠a present√≥ la concentraci√≥n m√°s alta de PM10 en ese a√±o?

## üåç David (comparaciones y correlaciones)

- Estacionalidad en un a√±o: ¬øQu√© contaminante presenta mayores diferencias entre invierno y verano?

- Correlaci√≥n: ¬øExiste correlaci√≥n entre los niveles diarios de NO‚ÇÇ y CO en ese a√±o?

- Laborables vs fines de semana: ¬øHay diferencias en los niveles de NO‚ÇÇ promedio entre d√≠as laborables y fines de semana?

- Variaci√≥n horaria: ¬øA qu√© horas del d√≠a se concentran los picos de NO‚ÇÇ en promedio durante el a√±o? (curva horaria).

## üå± Alba (limpieza, estaciones y comparaci√≥n)

- Valores nulos: ¬øQu√© porcentaje de valores faltan en cada contaminante y c√≥mo tratarlos?

- Estaciones de medici√≥n: ¬øQu√© estaci√≥n registr√≥ la mayor concentraci√≥n media de NO‚ÇÇ? (gr√°fico de barras por estaci√≥n).

- Comparaci√≥n mensual: ¬øC√≥mo evolucion√≥ la concentraci√≥n de PM10 a lo largo de los meses? (l√≠nea mensual).

- Contaminante predominante: ¬øCu√°l fue el contaminante con mayor concentraci√≥n media?