# üîé An√°lisis exploratorio del dataset Madrid Polution (2001- 2022)

Este proyecto utiliza el dataset ‚ÄúMadridPolution2001-2022.csv‚Äù, que contiene registros horarios de contaminantes atmosf√©ricos medidos en la estaci√≥n Escuelas Aguirre (Madrid) desde enero de 2001 hasta marzo de 2022. El objetivo principal es analizar la evoluci√≥n de la calidad del aire en Madrid, identificando tendencias, picos y patrones estacionales en los principales contaminantes.

El dataset incluye las siguientes variables:
- **BEN**: Benceno (¬µg/m¬≥)
- **CH4**: Metano (mg/m¬≥)
- **CO**: Mon√≥xido de carbono (mg/m¬≥)
- **EBE**: Etilbenceno (¬µg/m¬≥)
- **NMHC**: Hidrocarburos no met√°nicos (mg/m¬≥)
- **NO**: Mon√≥xido de nitr√≥geno (¬µg/m¬≥)
- **NO2**: Di√≥xido de nitr√≥geno (¬µg/m¬≥)
- **NOx**: √ìxidos de nitr√≥geno (¬µg/m¬≥)
- **O3**: Ozono (¬µg/m¬≥)
- **PM10**: Part√≠culas < 10 ¬µm (¬µg/m¬≥)
- **PM25**: Part√≠culas < 2.5 ¬µm (¬µg/m¬≥)
- **SO2**: Di√≥xido de azufre (¬µg/m¬≥)
- **TCH**: Hidrocarburos totales (mg/m¬≥)
- **TOL**: Tolueno (¬µg/m¬≥)

El an√°lisis se centra en la evoluci√≥n temporal, la comparaci√≥n entre contaminantes y la identificaci√≥n de patrones estacionales y extremos. Se proponen mejoras en los ejercicios para aprovechar la riqueza temporal y de variables del nuevo dataset.

In [11]:
import pandas as pd
import matplotlib.pyplot as plt

# Cargar el nuevo dataset
csv_path = r"data/MadridPolution2001-2022.csv"

# Leer sin parsear fechas inicialmente para detectar el nombre de columna correcto
df = pd.read_csv(csv_path)

print("Columnas detectadas en el CSV:", df.columns.tolist())

# Buscar columna de fecha independientemente de may√∫sculas/min√∫sculas
date_col = next((c for c in df.columns if c.lower() in ("date", "fecha", "datetime", "timestamp", "time", "date_time")), None)
if date_col is None:
    # intentar encontrar una columna que contenga 'date' en su nombre
    date_col = next((c for c in df.columns if "date" in c.lower()), None)

if date_col is None:
    raise ValueError(f"No se encontr√≥ una columna de fecha en {csv_path}. Columnas: {df.columns.tolist()}")

# Convertir a datetime (usar errors='coerce' para evitar excepci√≥n por formatos inesperados)
df[date_col] = pd.to_datetime(df[date_col], dayfirst=True, errors="coerce")

# Renombrar la columna de fecha a 'date' para homogeneidad
if date_col != "date":
    df = df.rename(columns={date_col: "date"})

# Mostrar informaci√≥n general
print("Dimensiones del dataset:", df.shape)
print("Columnas:", df.columns.tolist())
display(df.head())

# Asegurar que la columna 'date' est√© en formato datetime
if not pd.api.types.is_datetime64_any_dtype(df["date"]):
    df["date"] = pd.to_datetime(df["date"], dayfirst=True, errors="coerce")

# A√±adir columnas de a√±o, mes, d√≠a y hora para an√°lisis temporales
df["year"] = df["date"].dt.year
df["month"] = df["date"].dt.month
df["day"] = df["date"].dt.day
df["hour"] = df["date"].dt.hour

Columnas detectadas en el CSV: ['Time', 'BEN', 'CH4', 'CO', 'EBE', 'NMHC', 'NO', 'NO2', 'NOx', 'O3', 'PM10', 'PM25', 'SO2', 'TCH', 'TOL']
Dimensiones del dataset: (172622, 15)
Columnas: ['date', 'BEN', 'CH4', 'CO', 'EBE', 'NMHC', 'NO', 'NO2', 'NOx', 'O3', 'PM10', 'PM25', 'SO2', 'TCH', 'TOL']
Dimensiones del dataset: (172622, 15)
Columnas: ['date', 'BEN', 'CH4', 'CO', 'EBE', 'NMHC', 'NO', 'NO2', 'NOx', 'O3', 'PM10', 'PM25', 'SO2', 'TCH', 'TOL']


Unnamed: 0,date,BEN,CH4,CO,EBE,NMHC,NO,NO2,NOx,O3,PM10,PM25,SO2,TCH,TOL
0,2001-01-01 00:00:00+00:00,4.0,,0.0,2.0,,66.0,67.0,168.0,7.0,32.0,,26.0,,11.0
1,2001-01-01 01:00:00+00:00,9.0,,0.0,5.0,,146.0,71.0,294.0,7.0,41.0,,21.0,,21.0
2,2001-01-01 02:00:00+00:00,9.0,,0.0,5.0,,190.0,73.0,364.0,7.0,50.0,,22.0,,24.0
3,2001-01-01 03:00:00+00:00,10.0,,0.0,5.0,,170.0,75.0,335.0,7.0,55.0,,19.0,,25.0
4,2001-01-01 04:00:00+00:00,8.0,,0.0,4.0,,102.0,67.0,224.0,8.0,42.0,,14.0,,21.0


## üìä Robert (an√°lisis general y descriptivo)

- Promedio anual: ¬øCu√°l es la concentraci√≥n media de cada contaminante por a√±o? (tabla resumen por a√±o y contaminante).
- Mejora: Visualizar la evoluci√≥n anual de los principales contaminantes con gr√°ficos de l√≠neas.


- Mes con peor calidad del aire: ¬øQu√© mes tuvo la media m√°s alta de NO‚ÇÇ cada a√±o? (gr√°fico de barras mensual por a√±o).
- Mejora: Mostrar el mes m√°s cr√≠tico para cada a√±o y visualizar la tendencia mensual agregada.

- Distribuci√≥n de O‚ÇÉ: ¬øCu√°l es el rango de concentraciones de O‚ÇÉ m√°s frecuente? (histograma global y por a√±o).
- Mejora: Analizar la variabilidad anual y estacional de O‚ÇÉ.

- Picos diarios: ¬øQu√© d√≠a present√≥ la concentraci√≥n m√°s alta de PM10 en cada a√±o?
- Mejora: Visualizar los d√≠as de picos extremos y analizar si hay patrones estacionales o de eventos puntuales.

## üåç David (comparaciones y correlaciones)

- Estacionalidad en un a√±o: ¬øQu√© contaminante presenta mayores diferencias entre invierno y verano?
- Mejora: Analizar la estacionalidad de todos los contaminantes y visualizar la diferencia entre estaciones.

- Correlaci√≥n: ¬øExiste correlaci√≥n entre los niveles diarios de NO‚ÇÇ y CO en el periodo analizado?
- Mejora: Analizar correlaciones entre m√°s contaminantes y visualizar la matriz de correlaci√≥n.

- Laborables vs fines de semana: ¬øHay diferencias en los niveles de NO‚ÇÇ promedio entre d√≠as laborables y fines de semana?
- Mejora: Analizar diferencias para m√°s contaminantes y visualizar la variaci√≥n semanal.

- Variaci√≥n horaria: ¬øA qu√© horas del d√≠a se concentran los picos de NO‚ÇÇ en promedio durante el a√±o? (curva horaria).
- Mejora: Analizar la variaci√≥n horaria de m√°s contaminantes y comparar entre a√±os.

## üå± Alba (limpieza y calidad de datos)

- Valores nulos: ¬øQu√© porcentaje de valores faltan en cada contaminante y c√≥mo tratarlos?
- Mejora: Visualizar la evoluci√≥n de los valores nulos a lo largo del tiempo y proponer estrategias de imputaci√≥n.

- Estaci√≥n de medici√≥n: Este dataset solo contiene datos de la estaci√≥n Escuelas Aguirre, por lo que el an√°lisis se centra en la evoluci√≥n temporal y no espacial.
- Mejora: Proponer la comparaci√≥n con otros datasets de estaciones si estuvieran disponibles.

- Comparaci√≥n mensual: ¬øC√≥mo evolucion√≥ la concentraci√≥n de PM10 a lo largo de los meses? (l√≠nea mensual agregada por a√±o).
- Mejora: Visualizar la tendencia mensual agregada y comparar entre a√±os.

- Contaminante predominante: ¬øCu√°l fue el contaminante con mayor concentraci√≥n media anual?
- Mejora: Visualizar el contaminante predominante por a√±o y analizar cambios en el tiempo.