
# Actividad Práctica 2 - Data Science 1 (Coderhouse)

**Alumno:** Tobias Villarruel  
**Curso:** Data Science 1 - Coderhouse  

---

## 🎯 Objetivo

Realizar **visualizaciones en Python** utilizando el dataset *Air Quality (UCI)*.  
Se elaboran **3 gráficos con Matplotlib** y **3 con Seaborn**, incorporando parámetros adicionales que mejoren la legibilidad e interpretación de los datos.


In [None]:

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

plt.style.use("seaborn-v0_8-whitegrid")
sns.set_theme(style="whitegrid")

RAW_DIR = Path("data/raw")
df = pd.read_csv(RAW_DIR / "air_quality.csv", sep=";")

df.head()


In [None]:

df = df.dropna(axis=1, how="all")

if "Date" in df.columns and "Time" in df.columns:
    df["Datetime"] = pd.to_datetime(df["Date"] + " " + df["Time"], errors="coerce")
    df = df.dropna(subset=["Datetime"])

df.info()


## 📊 Visualizaciones con Matplotlib

In [None]:

plt.figure(figsize=(10,4))
plt.plot(df["Datetime"], df["CO(GT)"], color="darkred", linewidth=1.2)
plt.title("Evolución del CO (GT) a lo largo del tiempo")
plt.xlabel("Tiempo")
plt.ylabel("Concentración de CO (mg/m³)")
plt.grid(True, linestyle="--", alpha=0.6)
plt.tight_layout()
plt.show()



**Interpretación:**  
El gráfico muestra la evolución temporal del monóxido de carbono (CO). Se observan fluctuaciones marcadas durante el día, posiblemente relacionadas con variaciones en el tránsito vehicular y condiciones climáticas.


In [None]:

plt.figure(figsize=(6,5))
plt.scatter(df["T"], df["RH"], color="royalblue", alpha=0.5, edgecolor="k")
plt.title("Relación entre Temperatura y Humedad Relativa")
plt.xlabel("Temperatura (°C)")
plt.ylabel("Humedad Relativa (%)")
plt.grid(True, linestyle="--", alpha=0.6)
plt.tight_layout()
plt.show()



**Interpretación:**  
Se observa una tendencia negativa: a mayor temperatura, la humedad relativa tiende a disminuir. Esta relación es coherente con el comportamiento atmosférico general.


In [None]:

plt.figure(figsize=(7,4))
plt.hist(df["C6H6(GT)"].dropna(), bins=30, color="mediumseagreen", edgecolor="black", alpha=0.7)
plt.title("Distribución de concentraciones de Benceno (C6H6)")
plt.xlabel("C6H6(GT) (µg/m³)")
plt.ylabel("Frecuencia")
plt.grid(True, linestyle="--", alpha=0.6)
plt.tight_layout()
plt.show()



**Interpretación:**  
La mayoría de los valores de concentración de benceno (C6H6) se concentran en niveles bajos, con algunas observaciones más elevadas que podrían indicar eventos de contaminación específicos.


## 🎨 Visualizaciones con Seaborn

In [None]:

plt.figure(figsize=(10,6))
corr = df.select_dtypes(include=["float64", "int64"]).corr()
sns.heatmap(corr, cmap="coolwarm", annot=True, fmt=".2f", linewidths=0.5)
plt.title("Matriz de Correlación entre Variables Numéricas")
plt.tight_layout()
plt.show()



**Interpretación:**  
El mapa de calor muestra las correlaciones entre las variables principales. Se observa una correlación positiva entre la temperatura y la humedad absoluta (AH), y relaciones negativas entre contaminantes y condiciones atmosféricas.


In [None]:

plt.figure(figsize=(6,5))
sns.boxplot(data=df[["NOx(GT)", "NO2(GT)"]], palette="Set2")
plt.title("Comparación de Distribuciones: NOx(GT) vs NO2(GT)")
plt.ylabel("Concentración (µg/m³)")
plt.tight_layout()
plt.show()



**Interpretación:**  
Los niveles de NOx presentan una mayor dispersión que los de NO₂. Esto sugiere mayor variabilidad en los niveles de óxidos de nitrógeno, posiblemente vinculada a las condiciones de emisión vehicular y meteorológicas.


In [None]:

sns.relplot(
    data=df, x="T", y="RH", hue="CO(GT)", palette="coolwarm",
    alpha=0.7, height=5, aspect=1.2
)
plt.title("Relación entre Temperatura, Humedad y CO(GT)")
plt.xlabel("Temperatura (°C)")
plt.ylabel("Humedad Relativa (%)")
plt.tight_layout()
plt.show()



**Interpretación:**  
Al incorporar el color por nivel de CO(GT), se observa que las concentraciones más altas de CO tienden a darse en temperaturas moderadas y humedades intermedias, lo que podría estar vinculado a condiciones atmosféricas de menor dispersión de contaminantes.



---
## 📈 Conclusiones

- Se aplicaron seis visualizaciones (3 Matplotlib y 3 Seaborn) sobre el dataset *Air Quality (UCI)*.  
- Los gráficos permitieron identificar patrones entre temperatura, humedad y niveles de gases contaminantes.  
- Las representaciones visuales facilitaron la detección de relaciones inversas y directas entre variables ambientales.  
- Se cumplen los requisitos de la consigna, incluyendo el uso de parámetros adicionales para mejorar la legibilidad.
