
# Actividad Pr√°ctica 2 - Data Science 1 (Coderhouse)

**Alumno:** Tobias Villarruel  
**Curso:** Data Science 1 - Coderhouse  

---

## üéØ Objetivo

Realizar **visualizaciones en Python** utilizando el dataset *Air Quality (UCI)*.  
Se elaboran **3 gr√°ficos con Matplotlib** y **3 con Seaborn**, incorporando par√°metros adicionales que mejoren la legibilidad e interpretaci√≥n de los datos.


In [None]:

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

plt.style.use("seaborn-v0_8-whitegrid")
sns.set_theme(style="whitegrid")

RAW_DIR = Path("data/raw")
df = pd.read_csv(RAW_DIR / "air_quality.csv", sep=";")

df.head()


In [None]:

df = df.dropna(axis=1, how="all")

if "Date" in df.columns and "Time" in df.columns:
    df["Datetime"] = pd.to_datetime(df["Date"] + " " + df["Time"], errors="coerce")
    df = df.dropna(subset=["Datetime"])

df.info()


## üìä Visualizaciones con Matplotlib

In [None]:

plt.figure(figsize=(10,4))
plt.plot(df["Datetime"], df["CO(GT)"], color="darkred", linewidth=1.2)
plt.title("Evoluci√≥n del CO (GT) a lo largo del tiempo")
plt.xlabel("Tiempo")
plt.ylabel("Concentraci√≥n de CO (mg/m¬≥)")
plt.grid(True, linestyle="--", alpha=0.6)
plt.tight_layout()
plt.show()



**Interpretaci√≥n:**  
El gr√°fico muestra la evoluci√≥n temporal del mon√≥xido de carbono (CO). Se observan fluctuaciones marcadas durante el d√≠a, posiblemente relacionadas con variaciones en el tr√°nsito vehicular y condiciones clim√°ticas.


In [None]:

plt.figure(figsize=(6,5))
plt.scatter(df["T"], df["RH"], color="royalblue", alpha=0.5, edgecolor="k")
plt.title("Relaci√≥n entre Temperatura y Humedad Relativa")
plt.xlabel("Temperatura (¬∞C)")
plt.ylabel("Humedad Relativa (%)")
plt.grid(True, linestyle="--", alpha=0.6)
plt.tight_layout()
plt.show()



**Interpretaci√≥n:**  
Se observa una tendencia negativa: a mayor temperatura, la humedad relativa tiende a disminuir. Esta relaci√≥n es coherente con el comportamiento atmosf√©rico general.


In [None]:

plt.figure(figsize=(7,4))
plt.hist(df["C6H6(GT)"].dropna(), bins=30, color="mediumseagreen", edgecolor="black", alpha=0.7)
plt.title("Distribuci√≥n de concentraciones de Benceno (C6H6)")
plt.xlabel("C6H6(GT) (¬µg/m¬≥)")
plt.ylabel("Frecuencia")
plt.grid(True, linestyle="--", alpha=0.6)
plt.tight_layout()
plt.show()



**Interpretaci√≥n:**  
La mayor√≠a de los valores de concentraci√≥n de benceno (C6H6) se concentran en niveles bajos, con algunas observaciones m√°s elevadas que podr√≠an indicar eventos de contaminaci√≥n espec√≠ficos.


## üé® Visualizaciones con Seaborn

In [None]:

plt.figure(figsize=(10,6))
corr = df.select_dtypes(include=["float64", "int64"]).corr()
sns.heatmap(corr, cmap="coolwarm", annot=True, fmt=".2f", linewidths=0.5)
plt.title("Matriz de Correlaci√≥n entre Variables Num√©ricas")
plt.tight_layout()
plt.show()



**Interpretaci√≥n:**  
El mapa de calor muestra las correlaciones entre las variables principales. Se observa una correlaci√≥n positiva entre la temperatura y la humedad absoluta (AH), y relaciones negativas entre contaminantes y condiciones atmosf√©ricas.


In [None]:

plt.figure(figsize=(6,5))
sns.boxplot(data=df[["NOx(GT)", "NO2(GT)"]], palette="Set2")
plt.title("Comparaci√≥n de Distribuciones: NOx(GT) vs NO2(GT)")
plt.ylabel("Concentraci√≥n (¬µg/m¬≥)")
plt.tight_layout()
plt.show()



**Interpretaci√≥n:**  
Los niveles de NOx presentan una mayor dispersi√≥n que los de NO‚ÇÇ. Esto sugiere mayor variabilidad en los niveles de √≥xidos de nitr√≥geno, posiblemente vinculada a las condiciones de emisi√≥n vehicular y meteorol√≥gicas.


In [None]:

sns.relplot(
    data=df, x="T", y="RH", hue="CO(GT)", palette="coolwarm",
    alpha=0.7, height=5, aspect=1.2
)
plt.title("Relaci√≥n entre Temperatura, Humedad y CO(GT)")
plt.xlabel("Temperatura (¬∞C)")
plt.ylabel("Humedad Relativa (%)")
plt.tight_layout()
plt.show()



**Interpretaci√≥n:**  
Al incorporar el color por nivel de CO(GT), se observa que las concentraciones m√°s altas de CO tienden a darse en temperaturas moderadas y humedades intermedias, lo que podr√≠a estar vinculado a condiciones atmosf√©ricas de menor dispersi√≥n de contaminantes.



---
## üìà Conclusiones

- Se aplicaron seis visualizaciones (3 Matplotlib y 3 Seaborn) sobre el dataset *Air Quality (UCI)*.  
- Los gr√°ficos permitieron identificar patrones entre temperatura, humedad y niveles de gases contaminantes.  
- Las representaciones visuales facilitaron la detecci√≥n de relaciones inversas y directas entre variables ambientales.  
- Se cumplen los requisitos de la consigna, incluyendo el uso de par√°metros adicionales para mejorar la legibilidad.
