# 🔎 Análisis exploratorio del dataset Air Quality in Madrid (2005-2015)

Este proyecto utiliza el dataset “Air Quality in Madrid (2001-2018)” de Kaggle, que contiene registros diarios y horarios de diversos contaminantes recogidos por estaciones de monitoreo en Madrid. El objetivo principal es comparar la calidad del aire entre los años 2005 y 2015, analizando cómo han cambiado los niveles de contaminantes y las tendencias temporales a lo largo de la década.

El dataset ofrece suficiente cantidad de registros para realizar consultas significativas, incluyendo análisis por contaminante, estación y período temporal, sin requerir infraestructura de procesamiento especial. Esto permite explorar tendencias históricas, estacionales y anuales, facilitando una evaluación clara de los cambios en la calidad del aire durante una década clave en Madrid.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Rutas de los archivos CSV
csv_2005 = r"data\csvs_per_year\csvs_per_year\madrid_2005.csv"
csv_2015 = r"data\csvs_per_year\csvs_per_year\madrid_2015.csv"
stations_csv = r"data\stations.csv"

# Cargar los datasets
df_2005 = pd.read_csv(csv_2005)
df_2015 = pd.read_csv(csv_2015)
stations = pd.read_csv(stations_csv)

# Renombrar columnas para alinear datasets si es necesario
df_2015 = df_2015.rename(columns={'NO': 'NOx', 'station': 'id'})
df_2005 = df_2005.rename(columns={'station': 'id'})

# Unificar columnas comunes
common_cols = list(set(df_2005.columns).intersection(set(df_2015.columns)))
df_2005_common = df_2005[common_cols]
df_2015_common = df_2015[common_cols]

# Hacer merge con las estaciones para mostrar el nombre
df_2005_common = df_2005_common.merge(stations[['id','name']], on='id', how='left')
df_2015_common = df_2015_common.merge(stations[['id','name']], on='id', how='left')

# Mostrar tablas con pandas
print("=== Dataset 2005 (columnas comunes con nombre de estación) ===")
display(df_2005_common.head())

print("=== Dataset 2015 (columnas comunes con nombre de estación) ===")
display(df_2015_common.head())

=== Dataset 2005 (columnas comunes) ===


Unnamed: 0,TCH,BEN,NMHC,PM10,O_3,EBE,PM25,station,NOx,SO_2,TOL,CO,NO_2,date
0,,,,14.91,14.72,,10.65,28079001,128.699997,4.62,,0.77,57.130001,2005-11-01 01:00:00
1,1.35,1.52,0.25,30.93,11.68,1.49,,28079035,181.699997,7.8,7.98,0.65,86.559998,2005-11-01 01:00:00
2,,,,14.6,30.469999,,,28079003,53.0,5.76,,0.4,46.119999,2005-11-01 01:00:00
3,,,,15.16,21.379999,,,28079004,52.009998,6.6,,0.42,37.220001,2005-11-01 01:00:00
4,,,,5.0,33.41,,,28079039,36.68,3.0,,0.57,32.16,2005-11-01 01:00:00


=== Dataset 2015 (columnas comunes) ===


Unnamed: 0,TCH,BEN,NMHC,PM10,O_3,EBE,PM25,station,NOx,SO_2,TOL,CO,NO_2,date
0,,,,,,,,28079004,90.0,10.0,,0.8,82.0,2015-10-01 01:00:00
1,1.83,2.0,0.33,37.0,4.0,1.6,24.0,28079008,40.0,12.0,8.3,0.8,95.0,2015-10-01 01:00:00
2,,3.1,,,,1.8,,28079011,29.0,,7.1,,97.0,2015-10-01 01:00:00
3,,,,,2.0,,,28079016,30.0,,,0.6,103.0,2015-10-01 01:00:00
4,,,,,2.0,,,28079017,95.0,9.0,,,96.0,2015-10-01 01:00:00


## 📊 Robert (análisis general y descriptivo)

- Promedio anual: ¿Cuál es la concentración media de cada contaminante en el año elegido? (tabla resumen).


- Mes con peor calidad del aire: ¿Qué mes tuvo la media más alta de NO₂? (gráfico de barras mensual).

- Distribución de O₃: ¿Cuál es el rango de concentraciones de O₃ más frecuente? (histograma).

- Picos diarios: ¿Qué día presentó la concentración más alta de PM10 en ese año?

## 🌍 David (comparaciones y correlaciones)

- Estacionalidad en un año: ¿Qué contaminante presenta mayores diferencias entre invierno y verano en el año seleccionado?

- Correlación: ¿Existe correlación entre los niveles diarios de NO₂ y CO en ese año?

- Laborables vs fines de semana: ¿Hay diferencias en los niveles de NO₂ promedio entre días laborables y fines de semana?

- Variación horaria: ¿A qué horas del día se concentran los picos de NO₂ en promedio durante el año? (curva horaria).

## 🌱 Alba (limpieza, estaciones y comparación)

- Valores nulos: ¿Qué porcentaje de valores faltan en cada contaminante ese año y cómo tratarlos?

- Estaciones de medición: ¿Qué estación registró la mayor concentración media de NO₂? (gráfico de barras por estación).

- Comparación mensual: ¿Cómo evolucionó la concentración de PM10 a lo largo de los meses? (línea mensual).

- Contaminante predominante: ¿Cuál fue el contaminante con mayor concentración media en ese año?