# 🔎 Análisis Exploratorio: La Calidad del Aire en Madrid (2001-2022)

Este proyecto utiliza el dataset “MadridPolution2001-2022.csv”, que contiene registros horarios de contaminantes atmosféricos medidos en la estación Escuelas Aguirre (Madrid) desde enero de 2001 hasta marzo de 2022. El objetivo es analizar la calidad del aire en el centro de Madrid a lo largo de dos décadas y descubrir cómo ha cambiado la contaminación en la ciudad, identificando tendencias a largo plazo, patrones estacionales y episodios de polución extrema. Para ello, se estudiarán los registros horarios de 14 contaminantes clave, tomados desde enero de 2001 hasta marzo de 2022.

A continuación, se detalla qué es cada uno de estos contaminantes y por qué es importante medirlos.

---

## ¿Qué contaminantes se miden y qué significan?

Los datos recogidos incluyen diferentes tipos de partículas y gases que afectan tanto a nuestra salud como al medio ambiente. Se pueden agrupar en las siguientes categorías:

### 💨 Partículas en suspensión: El polvo que no se ve

Son pequeñas partículas sólidas y líquidas que flotan en el aire. Su peligrosidad depende de su tamaño: cuanto más pequeñas, más profundamente pueden penetrar en nuestros pulmones.

* **PM10**: Partículas con un diámetro inferior a 10 micrómetros. Incluyen polvo, polen, cenizas y hollín. Pueden irritar los ojos, la nariz y la garganta.
* **PM2.5**: Partículas con un diámetro inferior a 2.5 micrómetros, también conocidas como "partículas finas". Son mucho más peligrosas, ya que pueden llegar a los alvéolos pulmonares e incluso pasar al torrente sanguíneo. Se originan principalmente en la quema de combustibles de vehículos e industria.

### 🚗 Gases relacionados con el tráfico y la combustión

La mayoría de estos gases se producen al quemar combustibles como la gasolina, el diésel o el gas natural. Son los principales responsables de la "boina" de contaminación de las grandes ciudades.

* **CO (Monóxido de carbono)**: Un gas tóxico que se genera cuando la combustión es incompleta. Su principal fuente en las ciudades son los tubos de escape de los coches.
* **NO (Monóxido de nitrógeno)** y **NO2 (Dióxido de nitrógeno)**: Comúnmente agrupados como **NOx (Óxidos de nitrógeno)**, son gases que se forman a altas temperaturas en los motores de los vehículos y en las centrales eléctricas. El NO2 es el gas de color marrón-rojizo que se ve en las nubes de contaminación y está directamente relacionado con enfermedades respiratorias.
* **SO2 (Dióxido de azufre)**: Proviene principalmente de la quema de combustibles fósiles con contenido de azufre, como el carbón y el petróleo, en la industria y la calefacción. Es uno de los causantes de la lluvia ácida.

### ☀️ Ozono "malo": Un contaminante de verano

* **O3 (Ozono)**: A diferencia del ozono bueno de la estratosfera que nos protege del sol, el ozono a nivel del suelo es un contaminante. No se emite directamente, sino que se forma cuando los óxidos de nitrógeno (NOx) y otros compuestos reaccionan con la luz solar. Por eso, sus niveles suelen ser más altos en días soleados y calurosos, provocando irritación en las vías respiratorias.

### ⛽ Compuestos Orgánicos Volátiles (COVs)

Son un grupo amplio de sustancias químicas que se evaporan fácilmente a temperatura ambiente. Proceden de los combustibles, disolventes, pinturas y también de los tubos de escape.

* **BEN (Benceno)**, **TOL (Tolueno)** y **EBE (Etilbenceno)**: Son compuestos aromáticos derivados del petróleo, muy presentes en la gasolina. Son tóxicos y el benceno, en particular, es un conocido cancerígeno.
* **CH4 (Metano)**, **NMHC (Hidrocarburos no metánicos)** y **TCH (Hidrocarburos totales)**: Estos términos agrupan a todos los compuestos de hidrocarburos en el aire. El metano (CH4) es un potente gas de efecto invernadero, mientras que los NMHC son importantes porque contribuyen a la formación de ozono. El TCH es simplemente la suma de ambos.

El análisis de estas variables nos permitirá obtener una radiografía completa de la evolución del aire que respiramos en Madrid y entender mejor el impacto de nuestras actividades diarias en el entorno urbano.

## 🌱 Alba (limpieza y calidad de datos)

Para asegurar la fiabilidad de nuestro análisis, el primer paso es realizar una limpieza exhaustiva y una evaluación de la calidad de los datos. Un dataset limpio y bien estructurado es fundamental para obtener conclusiones válidas.

En esta fase, nos centraremos en:
1. Validar y transformar el formato de las fechas, que es la base de nuestro análisis temporal.
2. Cuantificar y analizar los valores ausentes (nulos) para entender qué variables tienen datos más completos.
3. Verificar la existencia de filas duplicadas que puedan distorsionar los resultados.
4. Asegurar que los tipos de datos son correctos para cada variable.
5. Detectar posibles valores anómalos, como mediciones negativas, que no tendrían sentido físico.

Comenzamos por convertir la columna `Time` a un formato `datetime`. Esto es crucial para que Python la reconozca como una fecha y no como simple texto, permitiéndonos realizar operaciones temporales. Además, creamos columnas adicionales (year, month, day, hour) para facilitar la agrupación y el análisis de patrones en diferentes escalas de tiempo.

In [None]:
import pandas as pd
import calendar
import matplotlib.pyplot as plt
import matplotlib.ticker as mticker

# Cargar el dataset
csv_path = r"data/MadridPolution2001-2022.csv"

# Leer sin parsear fechas inicialmente para detectar el nombre de columna correcto
df = pd.read_csv(csv_path)

# --- LIMPIEZA DE FECHA ---
# La columna "time" la convertimos directamente a datetime
df["Time"] = pd.to_datetime(df["Time"], errors="coerce") # Con errors="coerce"

# Verificamos si se han generado nulos al convertir la columna "Time" a formato datetime
print("Nulos en la columna Time después de la conversión: ", df["Time"].isna().sum())

# Creamos columnas auxiliares para explorar temporalmente el dataset, pero de momento no haremos una limpieza estricta
df["year"] = df["Time"].dt.year
df["month"] = df["Time"].dt.month
df["day"] = df["Time"].dt.day
df["hour"] = df["Time"].dt.hour


# Mostramos los resultados
print("Columnas detectadas en el CSV:", df.columns.tolist())
print("Dimensiones del dataset:", df.shape)
print(df.head(10))

#### **Analizamos la presencia de valores nulos**
Uno de los problemas más comunes en los datasets del mundo real es la ausencia de datos. Medir la cantidad de valores nulos en cada columna nos permite evaluar la fiabilidad de cada variable. A continuación, calculamos cuántos datos faltan en cada columna y qué porcentaje representan sobre el total de registros.

Para visualizar mejor la magnitud del problema, un gráfico de barras es ideal. Nos permite comparar de un vistazo qué contaminantes tienen la mayor proporción de datos ausentes. Esto será clave para decidir si debemos descartar alguna variable o si necesitamos aplicar técnicas de imputación de datos en análisis futuros.

In [None]:
conteo_de_nulos['Porcentaje'].plot(kind="bar", color='red', legend=False)
plt.title("Porcentaje de valores nulos en cada columna")
plt.xlabel("Columnas del DataSet")
plt.ylabel("Valores nulos (%)")

plt.grid(True, axis='y', linestyle='--', alpha=0.7)

plt.ylim(0, 100)
ejes = plt.gca()
ejes.yaxis.set_major_formatter(mticker.FuncFormatter(lambda y, _: f'{int(y)}%'))
plt.show()

#### **Interpretación de los resultados:**

El análisis de valores nulos revela información muy importante:

PM2.5 es la variable más afectada, con casi un 40% de datos ausentes. Esto sugiere que las mediciones de partículas finas pueden haber sido inconsistentes o que el equipo de medición no estuvo operativo durante largos periodos, por lo que cualquier análisis sobre PM2.5 debe hacerse con cautela.

Los hidrocarburos NMHC, TCH y CH4 también presentan una cantidad considerable de nulos, aunque por debajo del 20%.

Por otro lado, contaminantes clave como NO, NO2, O3, SO2 y CO tienen un porcentaje de nulos muy bajo (< 5%), lo que los convierte en candidatos muy fiables para nuestro análisis de tendencias.

Es una excelente noticia que las columnas temporales (Time, year, month, day, hour) no tengan ningún valor nulo (0%). Esto nos garantiza que tenemos un registro horario completo a lo largo de los 21 años del dataset, lo cual es fundamental para el análisis de series temporales.

---

#### **Verificación de Duplicados**
Otro paso importante es comprobar si existen filas completamente duplicadas. En un dataset de series temporales, cada registro horario debería ser único. La presencia de duplicados podría indicar errores en la recolección o procesamiento de los datos, y su eliminación es necesaria para no sesgar los cálculos estadísticos.

In [None]:
duplicados = df.duplicated().sum()
print(f"Numero de filas duplicadas: {duplicados}")

# En caso de que detectase algún duplicado, con el método drop_duplicates eliminaría la columna entera
if duplicados > 0:
    df.drop_duplicates()
    print("Duplicados eliminados. Nuevo tamaño del dataset: ", df.shape)

**Resultado:** El análisis confirma que no existen filas duplicadas en el dataset. Cada registro corresponde a una medición horaria única, lo que refuerza la integridad de nuestros datos.

---

#### **Revisión de Tipos de Datos**
Ahora, nos aseguramos de que cada columna tenga el tipo de dato adecuado. Las variables de contaminantes deben ser numéricas (enteros o decimales) para poder realizar cálculos matemáticos, y las de fecha deben tener el formato datetime. Si una columna numérica se hubiera cargado como texto, cualquier operación matemática fallaría.

In [None]:
print("\nTipos de datos detectados en el dataset:")
print(df.dtypes)

# Comprobamos si hay columnas numéricas cargadas como texto
numeric_cols = df.select_dtypes(include=["object"]).columns
print("\nColumnas tipo 'object' (texto):", numeric_cols.tolist())

**Resultado:** La revisión muestra que todas las columnas tienen el formato correcto. Las variables de los contaminantes son de tipo `float64` (decimal), las columnas de tiempo auxiliares son `int64` (entero), y la columna principal `Time` es `datetime64[ns]`. No hay columnas numéricas interpretadas erróneamente como texto.

---

#### **Detección de Valores Anómalos**
Finalmente, investigamos la existencia de valores que no tienen sentido desde una perspectiva lógica o física. En la medición de contaminantes, no es posible tener concentraciones negativas. También revisamos los rangos (mínimos y máximos) de cada variable para detectar posibles valores extremos que pudieran ser errores de medición.

In [None]:
# Buscar valores negativos en las columnas numéricas
negativos = (df.select_dtypes(include=["float64", "int64"]) < 0).sum()
print("\nValores negativos por columna:")
print(negativos[negativos > 0])

# Ver rango de cada variable (mínimo y máximo)
rangos = df.describe().T[["min", "max"]]
print("\nRangos de valores por columna:")
print(rangos)

**Resultado:** El análisis confirma que no hay valores negativos en ninguna de las columnas de contaminantes, lo cual es coherente.

Al observar los rangos, vemos que los valores mínimos son cero o cercanos a cero, como es de esperar. Aunque algunos máximos puedan parecer elevados, es plausible que correspondan a episodios de alta contaminación, por lo que no los eliminaremos en esta fase.

---

### **Conclusión de la Limpieza de Datos 🧐**

Tras completar el proceso de limpieza y validación, podemos concluir que el dataset tiene una **calidad general buena y es robusto** para el análisis exploratorio.

Los puntos clave son:

* **El eje temporal es completo y coherente**, sin duplicados ni errores de formato, lo que proporciona una base sólida para el análisis.

* Los datos de los principales contaminantes relacionados con el tráfico y la salud pública **(NOx, CO, O3, SO2)** son fiables y presentan muy pocos valores ausentes.

* La principal debilidad del dataset es la ** alta proporción de valores nulos en la columna PM2.5 (~40%), así como en los hidrocarburos (CH4, NMHC, TCH) **. Esto deberá tenerse en cuenta en las siguientes fases del análisis, ya que las conclusiones sobre estas variables serán menos representativas.

El dataset está ahora preparado para la siguiente etapa: el análisis general y descriptivo.

---

## 📊 Robert (análisis general y descriptivo)

- Promedio anual: ¿Cuál es la concentración media de cada contaminante por año? (tabla resumen por año y contaminante).
- Mejora: Visualizar la evolución anual de los principales contaminantes con gráficos de líneas.


In [None]:
# Renombrar la columna de fecha a 'date' para homogeneidad
if date_col != "date":
    df = df.rename(columns={date_col: "date"})

# Asegurar que la columna 'date' esté en formato datetime
if not pd.api.types.is_datetime64_any_dtype(df["date"]):
    df["date"] = pd.to_datetime(df["date"], dayfirst=True, errors="coerce")

# Añadir columnas de año, mes, día y hora para análisis temporales
df["year"] = df["date"].dt.year
df["month"] = df["date"].dt.month
df["day"] = df["date"].dt.day
df["hour"] = df["date"].dt.hour

# Agrupamos todos los datos en años, pasando de 2001-01-01 00:00:00+00:00 a los años correspondientes
df["año"] = df["date"].dt.year

# Creamos una lista con todos los contaminantes que se recogen
contaminantes = ["BEN","CH4","CO","EBE","NMHC","NO","NO2","NOx","O3","PM10","PM25","SO2","TCH","TOL"]

# Agrupamos todos los datos de todos los contaminantes en años y entre todos los datos sacamos su media correspondiente
resumen = df.groupby("año")[contaminantes].mean().round(2)

# Mostramos los datos
display(resumen)

# Para la mejora de este apartado, creamos una lista con la selección de los principales contaminantes
principales = ["NO2", "O3", "PM10", "PM25"]

# Filtrar el resumen solo a esos contaminantes
resumen_principales = resumen[principales]

# Creamos el gráfico y lo mostramos
plt.figure(figsize=(10,6))
for col in resumen_principales.columns:
    plt.plot(resumen_principales.index, resumen_principales[col], marker="o", label=col)

plt.title("Evolución anual de contaminantes en Madrid (2001–2022)")
plt.xlabel("Año")
plt.ylabel("Concentración media")
plt.legend(title="Contaminantes principales")
# Mostramos el gráfico con delimitadores para mayor visibilidad
plt.grid(True, linestyle="--", alpha=0.6)
plt.tight_layout()
plt.show()

- Mes con peor calidad del aire: ¿Qué mes tuvo la media más alta de NO₂ cada año? (gráfico de barras mensual por año).
- Mejora: Mostrar el mes más crítico para cada año y visualizar la tendencia mensual agregada.

In [None]:
# ---------- LIMPIEZA DE DATOS ----------
# Convertimos NO2 de Float a Int
df["NO2"] = pd.to_numeric(df["NO2"], errors="coerce")

# Eliminamos filas donde NO2 o date sean NaN
df = df.dropna(subset=["date", "NO2"])

# Agrupamos los datos de date por mes
df["mes"] = df["date"].dt.month

# Obtenemos la media mensual de dióxido de nitrógeno NO2
mensual_no2 = df.groupby(["año", "mes"])["NO2"].mean().reset_index()

# Obtenemos el mes con peor promedio de cada año
peor_mes_anual = mensual_no2.loc[mensual_no2.groupby("año")["NO2"].idxmax()].copy()

# Agregar el nombre del mes
peor_mes_anual["mes_nombre"] = peor_mes_anual["mes"].apply(lambda x: calendar.month_abbr[x])

# Gráfico
plt.figure(figsize=(14,6))
ax = sns.barplot(data=peor_mes_anual, x="año", y="NO2", dodge=False, color="skyblue")

# Añadir el nombre del mes encima de cada barra
for p, mes in zip(ax.patches, peor_mes_anual["mes_nombre"]):
    height = p.get_height()
    ax.text(
        p.get_x() + p.get_width()/2.,  # posición horizontal: centro de la barra
        height + 1,                    # posición vertical: un poco arriba de la barra
        mes,                           # texto a mostrar
        ha="center",                   # centrar el texto horizontalmente
        va="bottom",                   # alinear el texto al fondo
        fontsize=10,
        fontweight="bold"
    )

plt.title("Mes con peor calidad del aire (NO₂) por año")
plt.xlabel("Año")
plt.ylabel("Concentración media de NO₂ (µg/m³)")
plt.grid(axis="y", linestyle="--", alpha=0.6)
plt.tight_layout()
plt.show()

- Distribución de O₃: ¿Cuál es el rango de concentraciones de O₃ más frecuente? (histograma global y por año).
- Mejora: Analizar la variabilidad anual y estacional de O₃.

In [None]:
# Histograma global de O3
plt.figure(figsize=(10,5))
sns.histplot(df["O3"].dropna(), bins=50, color="skyblue")
plt.xlabel("Concentración de O₃ (µg/m³)")
plt.ylabel("Frecuencia")
plt.title("Distribución global de concentraciones de O₃ (2001–2022)")
plt.grid(axis="y", linestyle="--", alpha=0.6)
plt.tight_layout()
plt.show()

# Histograma por año
years = sorted(df["year"].unique())
n_years = len(years)

fig, axes = plt.subplots(n_years//4 + 1, 4, figsize=(18, 3*(n_years//4 + 1)), sharex=True, sharey=True)
axes = axes.flatten()

for i, y in enumerate(years):
    sns.histplot(df.loc[df["year"] == y, "O3"].dropna(), bins=40, color="orange", ax=axes[i])
    axes[i].set_title(f"Año {y}")
    axes[i].set_xlabel("O₃ (µg/m³)")
    axes[i].set_ylabel("Frecuencia")

# Eliminar subplots vacíos
for j in range(i+1, len(axes)):
    fig.delaxes(axes[j])

plt.suptitle("Distribución anual de O₃ por año", fontsize=16, y=1.02)
plt.tight_layout()
plt.show()

# A partir de la media, obtenemos la evolución anual de O3
o3_anual = df.groupby("year")["O3"].mean()

plt.figure(figsize=(10,5))
plt.plot(o3_anual.index, o3_anual.values, marker="o", color="green")
plt.xlabel("Año")
plt.ylabel("Concentración media de O₃ (µg/m³)")
plt.title("Evolución anual de O₃ en Madrid (2001–2022)")
plt.grid(True, linestyle="--", alpha=0.6)
plt.tight_layout()
plt.show()

# Variabilidad estacional (promedio mensual de todos los años)
o3_mensual = df.groupby("month")["O3"].mean()

plt.figure(figsize=(10,5))
plt.plot(o3_mensual.index, o3_mensual.values, marker="o", color="darkred")
plt.xticks(range(1,13), ["Ene","Feb","Mar","Abr","May","Jun","Jul","Ago","Sep","Oct","Nov","Dic"])
plt.xlabel("Mes")
plt.ylabel("Concentración media de O₃ (µg/m³)")
plt.title("Variabilidad estacional de O₃ en Madrid (promedio mensual 2001–2022)")
plt.grid(True, linestyle="--", alpha=0.6)
plt.tight_layout()
plt.show()


- Picos diarios: ¿Qué día presentó la concentración más alta de PM10 en cada año?
- Mejora: Visualizar los días de picos extremos y analizar si hay patrones estacionales o de eventos puntuales.

In [None]:
# Primero calculamos la media diaria de PM10
pm10_diario = df.groupby(df["date"].dt.date)["PM10"].mean().reset_index()
pm10_diario["date"] = pd.to_datetime(pm10_diario["date"])
pm10_diario["year"] = pm10_diario["date"].dt.year
pm10_diario["month"] = pm10_diario["date"].dt.month

# Obtenemos el día con mayor PM10 en cada año
pico_anual_pm10 = pm10_diario.loc[pm10_diario.groupby("year")["PM10"].idxmax()].copy()

# Mostramos una tabla de resultados
display(pico_anual_pm10[["year", "date", "PM10"]])

# Visualización de picos anuales
plt.figure(figsize=(12,6))
sns.barplot(data=pico_anual_pm10, x="year", y="PM10", color="coral")

# Anotar la fecha exacta sobre cada barra
for p, fecha in zip(plt.gca().patches, pico_anual_pm10["date"].dt.strftime("%d-%b")):
    height = p.get_height()
    plt.text(p.get_x() + p.get_width()/2., height + 1, fecha,
             ha="center", va="bottom", fontsize=9, rotation=90)

plt.title("Día con mayor concentración de PM10 por año (2001–2022)")
plt.xlabel("Año")
plt.ylabel("Concentración media diaria de PM10 (µg/m³)")
plt.grid(axis="y", linestyle="--", alpha=0.6)
plt.tight_layout()
plt.show()

# ---------- DISTRIBUCIÓN ESTACIONAL DE PICOS ----------

# Extraemos solo el mes de los picos
pico_anual_pm10["mes_nombre"] = pico_anual_pm10["month"].apply(lambda x: calendar.month_abbr[x])

plt.figure(figsize=(10,5))
sns.countplot(data=pico_anual_pm10, x="mes_nombre", order=["Jan","Feb","Mar","Apr","May","Jun","Jul","Aug","Sep","Oct","Nov","Dec"], color="steelblue")
plt.title("Distribución estacional de los picos anuales de PM10")
plt.xlabel("Mes")
plt.ylabel("Número de picos")
plt.tight_layout()
plt.show()

# Creamos una línea temporal con todos los máximos diarios
plt.figure(figsize=(14,6))
plt.plot(pm10_diario["date"], pm10_diario["PM10"], alpha=0.4, color="gray", label="PM10 diario")
plt.scatter(pico_anual_pm10["date"], pico_anual_pm10["PM10"], color="red", s=60, label="Picos anuales")
plt.title("Evolución de PM10 diario con picos anuales destacados")
plt.xlabel("Fecha")
plt.ylabel("PM10 (µg/m³)")
plt.legend()
plt.grid(True, linestyle="--", alpha=0.6)
plt.tight_layout()
plt.show()


## 🌍 David (comparaciones y correlaciones)

- Estacionalidad en un año: ¿Qué contaminante presenta mayores diferencias entre invierno y verano?
- Mejora: Analizar la estacionalidad de todos los contaminantes y visualizar la diferencia entre estaciones.

- Correlación: ¿Existe correlación entre los niveles diarios de NO₂ y CO en el periodo analizado?
- Mejora: Analizar correlaciones entre más contaminantes y visualizar la matriz de correlación.

- Laborables vs fines de semana: ¿Hay diferencias en los niveles de NO₂ promedio entre días laborables y fines de semana?
- Mejora: Analizar diferencias para más contaminantes y visualizar la variación semanal.

- Variación horaria: ¿A qué horas del día se concentran los picos de NO₂ en promedio durante el año? (curva horaria).
- Mejora: Analizar la variación horaria de más contaminantes y comparar entre años.