# üîé An√°lisis Exploratorio: La Calidad del Aire en Madrid (2001-2022)

Este proyecto utiliza el dataset ‚ÄúMadridPolution2001-2022.csv‚Äù, que contiene registros horarios de contaminantes atmosf√©ricos medidos en la estaci√≥n Escuelas Aguirre (Madrid) desde enero de 2001 hasta marzo de 2022. El objetivo es analizar la calidad del aire en el centro de Madrid a lo largo de dos d√©cadas y descubrir c√≥mo ha cambiado la contaminaci√≥n en la ciudad, identificando tendencias a largo plazo, patrones estacionales y episodios de poluci√≥n extrema. Para ello, se estudiar√°n los registros horarios de 14 contaminantes clave, tomados desde enero de 2001 hasta marzo de 2022.

A continuaci√≥n, se detalla qu√© es cada uno de estos contaminantes y por qu√© es importante medirlos.

---

## ¬øQu√© contaminantes se miden y qu√© significan?

Los datos recogidos incluyen diferentes tipos de part√≠culas y gases que afectan tanto a nuestra salud como al medio ambiente. Se pueden agrupar en las siguientes categor√≠as:

### üí® Part√≠culas en suspensi√≥n: El polvo que no se ve

Son peque√±as part√≠culas s√≥lidas y l√≠quidas que flotan en el aire. Su peligrosidad depende de su tama√±o: cuanto m√°s peque√±as, m√°s profundamente pueden penetrar en nuestros pulmones.

* **PM10**: Part√≠culas con un di√°metro inferior a 10 micr√≥metros. Incluyen polvo, polen, cenizas y holl√≠n. Pueden irritar los ojos, la nariz y la garganta.
* **PM2.5**: Part√≠culas con un di√°metro inferior a 2.5 micr√≥metros, tambi√©n conocidas como "part√≠culas finas". Son mucho m√°s peligrosas, ya que pueden llegar a los alv√©olos pulmonares e incluso pasar al torrente sangu√≠neo. Se originan principalmente en la quema de combustibles de veh√≠culos e industria.

### üöó Gases relacionados con el tr√°fico y la combusti√≥n

La mayor√≠a de estos gases se producen al quemar combustibles como la gasolina, el di√©sel o el gas natural. Son los principales responsables de la "boina" de contaminaci√≥n de las grandes ciudades.

* **CO (Mon√≥xido de carbono)**: Un gas t√≥xico que se genera cuando la combusti√≥n es incompleta. Su principal fuente en las ciudades son los tubos de escape de los coches.
* **NO (Mon√≥xido de nitr√≥geno)** y **NO2 (Di√≥xido de nitr√≥geno)**: Com√∫nmente agrupados como **NOx (√ìxidos de nitr√≥geno)**, son gases que se forman a altas temperaturas en los motores de los veh√≠culos y en las centrales el√©ctricas. El NO2 es el gas de color marr√≥n-rojizo que se ve en las nubes de contaminaci√≥n y est√° directamente relacionado con enfermedades respiratorias.
* **SO2 (Di√≥xido de azufre)**: Proviene principalmente de la quema de combustibles f√≥siles con contenido de azufre, como el carb√≥n y el petr√≥leo, en la industria y la calefacci√≥n. Es uno de los causantes de la lluvia √°cida.

### ‚òÄÔ∏è Ozono "malo": Un contaminante de verano

* **O3 (Ozono)**: A diferencia del ozono bueno de la estratosfera que nos protege del sol, el ozono a nivel del suelo es un contaminante. No se emite directamente, sino que se forma cuando los √≥xidos de nitr√≥geno (NOx) y otros compuestos reaccionan con la luz solar. Por eso, sus niveles suelen ser m√°s altos en d√≠as soleados y calurosos, provocando irritaci√≥n en las v√≠as respiratorias.

### ‚õΩ Compuestos Org√°nicos Vol√°tiles (COVs)

Son un grupo amplio de sustancias qu√≠micas que se evaporan f√°cilmente a temperatura ambiente. Proceden de los combustibles, disolventes, pinturas y tambi√©n de los tubos de escape.

* **BEN (Benceno)**, **TOL (Tolueno)** y **EBE (Etilbenceno)**: Son compuestos arom√°ticos derivados del petr√≥leo, muy presentes en la gasolina. Son t√≥xicos y el benceno, en particular, es un conocido cancer√≠geno.
* **CH4 (Metano)**, **NMHC (Hidrocarburos no met√°nicos)** y **TCH (Hidrocarburos totales)**: Estos t√©rminos agrupan a todos los compuestos de hidrocarburos en el aire. El metano (CH4) es un potente gas de efecto invernadero, mientras que los NMHC son importantes porque contribuyen a la formaci√≥n de ozono. El TCH es simplemente la suma de ambos.

El an√°lisis de estas variables nos permitir√° obtener una radiograf√≠a completa de la evoluci√≥n del aire que respiramos en Madrid y entender mejor el impacto de nuestras actividades diarias en el entorno urbano.

## üå± Alba (limpieza y calidad de datos)

Convertimos la columna Time, originalmente en formato string, a tipo datetime para asegurar consistencia temporal y permitir an√°lisis por fecha y hora. Tambi√©n creamos nuevas columnas (year, month, day, hour) a partir de la columna de fecha para facilitar el an√°lisis exploratorio por periodos de tiempo.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.ticker as mticker

# Cargar el dataset
csv_path = r"data/MadridPolution2001-2022.csv"

# Leer sin parsear fechas inicialmente para detectar el nombre de columna correcto
df = pd.read_csv(csv_path)

# --- LIMPIEZA DE FECHA ---
# La columna "time" la convertimos directamente a datetime
df["Time"] = pd.to_datetime(df["Time"], errors="coerce") # Con errors="coerce"

# Verificamos si se han generado nulos al convertir la columna "Time" a formato datetime
print("Nulos en la columna Time despu√©s de la conversi√≥n: ", df["Time"].isna().sum())

# Creamos columnas auxiliares para explorar temporalmente el dataset, pero de momento no haremos una limpieza estricta
df["year"] = df["Time"].dt.year
df["month"] = df["Time"].dt.month
df["day"] = df["Time"].dt.day
df["hour"] = df["Time"].dt.hour


# Mostramos los resultados
print("Columnas detectadas en el CSV:", df.columns.tolist())
print("Dimensiones del dataset:", df.shape)
print(df.head(10))

Analizamos la presencia de valores nulos en todas las columnas y calculamos su porcentaje respecto al total de filas, identificando aquellas variables con mayor p√©rdida de informaci√≥n

In [None]:
# Contamos la cantidad de nulos que hay en cada columna
total_filas = len(df)

nulos_por_columna = df.isnull().sum()

conteo_de_nulos = nulos_por_columna.to_frame("Nulos").assign(Porcentaje=lambda x: (x["Nulos"] / total_filas * 100).round(2)).sort_values("Nulos", ascending=False)

print("--- Cantidad total de nulos en cada columna y porcentaje---")
print(conteo_de_nulos)

A√±adimos un gr√°fico de barras para poder representar de forma m√°s visual cuales son las columnas que tienen una mayor cantidad de nulos en sus filas. De esta manera podemos determinar qu√© variables presentan problemas de calidad de datos debido a la alta proporci√≥n de valores ausentes, lo que afecta la representatividad de las mediciones y debe considerarse en futuros an√°lisis.

In [None]:
conteo_de_nulos['Porcentaje'].plot(kind="bar", color='red', legend=False)
plt.title("Porcentaje de valores nulos en cada columna")
plt.xlabel("Columnas del DataSet")
plt.ylabel("Valores nulos (%)")

plt.grid(True, axis='y', linestyle='--', alpha=0.7)

plt.ylim(0, 100)
ejes = plt.gca()
ejes.yaxis.set_major_formatter(mticker.FuncFormatter(lambda y, _: f'{int(y)}%'))
plt.show()

En base a los resultados, podemos comprobar que la columna que tiene un mayor valor de nulos es la de `PM25`, con casi un 40% de valores nulos. Despu√©s, tenemos otras tres columnas con un porcentaje de valores nulos por debajo del 20% que ser√≠an `NMHC`, `TCH` y `CH4`. Despu√©s, el resto de columnas tienen porcentajes de nulos muy bajos y en caso de las columnas que representan la fecha (`Time`, `year`, `month`, `day`, `hour`) tienen un porcentaje del 0%, por lo que a pesar de que haya contaminantes con un porcentaje de nulos m√°s o menos alto, podremos realizar un an√°lasis temporal completo, ya que tenemos todos los valores con fecha y hora.

Comprobamos la existencia de filas duplicadas en el dataset y evaluamos su impacto, elimin√°ndolas en caso de ser necesario para evitar sesgos en el an√°lisis.

In [None]:
duplicados = df.duplicated().sum()
print(f"Numero de filas duplicadas: {duplicados}")

# En caso de que detectase alg√∫n duplicado, con el m√©todo drop_duplicates eliminar√≠a la columna entera
if duplicados > 0:
    df.drop_duplicates()
    print("Duplicados eliminados. Nuevo tama√±o del dataset: ", df.shape)

Revisamos los tipos de datos de cada columna para asegurar que las variables num√©ricas se encuentren en formato correcto (float/int) y no en formato texto, evitando errores en el procesamiento posterior.

In [10]:
print("\nTipos de datos detectados en el dataset:")
print(df.dtypes)

# Comprobamos si hay columnas num√©ricas cargadas como texto
numeric_cols = df.select_dtypes(include=["object"]).columns
print("\nColumnas tipo 'object' (texto):", numeric_cols.tolist())


Tipos de datos detectados en el dataset:
Time     datetime64[ns, UTC]
BEN                  float64
CH4                  float64
CO                   float64
EBE                  float64
NMHC                 float64
NO                   float64
NO2                  float64
NOx                  float64
O3                   float64
PM10                 float64
PM25                 float64
SO2                  float64
TCH                  float64
TOL                  float64
year                   int32
month                  int32
day                    int32
hour                   int32
dtype: object

Columnas tipo 'object' (texto): []


Analizamos si existen valores an√≥malos o fuera de rango en las variables (ej. concentraciones negativas o valores extremadamente altos) para garantizar la coherencia de las mediciones.

In [11]:
# Buscar valores negativos en las columnas num√©ricas
negativos = (df.select_dtypes(include=["float64", "int64"]) < 0).sum()
print("\nValores negativos por columna:")
print(negativos[negativos > 0])

# Ver rango de cada variable (m√≠nimo y m√°ximo)
rangos = df.describe().T[["min", "max"]]
print("\nRangos de valores por columna:")
print(rangos)


Valores negativos por columna:
Series([], dtype: int64)

Rangos de valores por columna:
          min     max
BEN       0.0    43.0
CH4       0.0     4.0
CO        0.0    10.0
EBE       0.0    81.0
NMHC      0.0     9.0
NO        1.0  1041.0
NO2       4.0   402.0
NOx       5.0  1910.0
O3        0.0   199.0
PM10      1.0   367.0
PM25      0.0   215.0
SO2       1.0   158.0
TCH       0.0    10.0
TOL       0.0   174.0
year   2001.0  2022.0
month     1.0    12.0
day       1.0    31.0
hour      0.0    23.0


## üìä Robert (an√°lisis general y descriptivo)

- Promedio anual: ¬øCu√°l es la concentraci√≥n media de cada contaminante por a√±o? (tabla resumen por a√±o y contaminante).
- Mejora: Visualizar la evoluci√≥n anual de los principales contaminantes con gr√°ficos de l√≠neas.


- Mes con peor calidad del aire: ¬øQu√© mes tuvo la media m√°s alta de NO‚ÇÇ cada a√±o? (gr√°fico de barras mensual por a√±o).
- Mejora: Mostrar el mes m√°s cr√≠tico para cada a√±o y visualizar la tendencia mensual agregada.

- Distribuci√≥n de O‚ÇÉ: ¬øCu√°l es el rango de concentraciones de O‚ÇÉ m√°s frecuente? (histograma global y por a√±o).
- Mejora: Analizar la variabilidad anual y estacional de O‚ÇÉ.

- Picos diarios: ¬øQu√© d√≠a present√≥ la concentraci√≥n m√°s alta de PM10 en cada a√±o?
- Mejora: Visualizar los d√≠as de picos extremos y analizar si hay patrones estacionales o de eventos puntuales.

## üåç David (comparaciones y correlaciones)

- Estacionalidad en un a√±o: ¬øQu√© contaminante presenta mayores diferencias entre invierno y verano?
- Mejora: Analizar la estacionalidad de todos los contaminantes y visualizar la diferencia entre estaciones.

- Correlaci√≥n: ¬øExiste correlaci√≥n entre los niveles diarios de NO‚ÇÇ y CO en el periodo analizado?
- Mejora: Analizar correlaciones entre m√°s contaminantes y visualizar la matriz de correlaci√≥n.

- Laborables vs fines de semana: ¬øHay diferencias en los niveles de NO‚ÇÇ promedio entre d√≠as laborables y fines de semana?
- Mejora: Analizar diferencias para m√°s contaminantes y visualizar la variaci√≥n semanal.

- Variaci√≥n horaria: ¬øA qu√© horas del d√≠a se concentran los picos de NO‚ÇÇ en promedio durante el a√±o? (curva horaria).
- Mejora: Analizar la variaci√≥n horaria de m√°s contaminantes y comparar entre a√±os.