# 🧬 Notebook 5: Caso práctico con datos científicos reales

En este notebook aplicaremos lo aprendido para analizar un conjunto de datos simulados representando mediciones ambientales.

### 🎯 Objetivos de Aprendizaje
- Aplicar limpieza, transformación, análisis y visualización sobre un dataset científico
- Interpretar los resultados de un análisis exploratorio
- Generar visualizaciones útiles para comunicar hallazgos


### 📦 Producto Final
- Un análisis exploratorio completo de un dataset de calidad ambiental
- Conjunto de figuras y estadísticas que podrían usarse en un informe científico


## 1️⃣ Simulación de datos ambientales

In [None]:
import pandas as pd
import numpy as np

# Simulación de datos
np.random.seed(10)
df = pd.DataFrame({
    "fecha": pd.date_range(start="2023-01-01", periods=180, freq="D"),
    "estacion": np.random.choice(["A", "B", "C"], size=180),
    "pH": np.random.normal(7, 0.3, size=180),
    "temperatura": np.random.normal(23, 2, size=180),
    "oxigeno_disuelto": np.random.normal(8, 1, size=180)
})

# Introducimos algunos valores nulos
df.loc[5:10, "pH"] = np.nan
df.loc[15:17, "oxigeno_disuelto"] = np.nan

# Mostrar las primeras filas
df.head()


## 2️⃣ Limpieza de datos

In [None]:
# Verificamos valores nulos
print("Valores nulos por columna:")
print(df.isnull().sum())

# Rellenamos pH y oxígeno disuelto con la media
df["pH"].fillna(df["pH"].mean(), inplace=True)
df["oxigeno_disuelto"].fillna(df["oxigeno_disuelto"].mean(), inplace=True)

# Confirmamos que no haya nulos
df.isnull().sum()


## 3️⃣ Análisis descriptivo por estación

In [None]:
# Agrupamos por estación
resumen = df.groupby("estacion").agg({
    "pH": ["mean", "std"],
    "temperatura": ["mean", "std"],
    "oxigeno_disuelto": ["mean", "std"]
})

# Mostramos el resumen
resumen


## 4️⃣ Visualización de resultados

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

sns.set(style="whitegrid")

# Boxplot de pH por estación
plt.figure(figsize=(8,5))
sns.boxplot(data=df, x="estacion", y="pH")
plt.title("Distribución de pH por estación")
plt.ylabel("pH")
plt.xlabel("Estación")
plt.tight_layout()
plt.show()

# Gráfico de líneas de temperatura en el tiempo
plt.figure(figsize=(10,5))
sns.lineplot(data=df, x="fecha", y="temperatura", hue="estacion")
plt.title("Evolución temporal de la temperatura")
plt.ylabel("Temperatura (°C)")
plt.xlabel("Fecha")
plt.tight_layout()
plt.show()


## 5️⃣ Interpretación de resultados

A partir del análisis, podemos observar diferencias entre estaciones y variaciones temporales. Este tipo de análisis es útil para:

- Detectar estaciones con parámetros fuera de los rangos normales
- Evaluar variaciones estacionales o tendencias a lo largo del tiempo
- Comunicar hallazgos mediante gráficos claros


---
✅ **Notebook completo.** Has aplicado tus conocimientos en un flujo de análisis realista. Ya puedes preparar análisis exploratorios para informes y publicaciones científicas.