# üß¨ Notebook 5: Caso pr√°ctico con datos cient√≠ficos reales

En este notebook aplicaremos lo aprendido para analizar un conjunto de datos simulados representando mediciones ambientales.

### üéØ Objetivos de Aprendizaje
- Aplicar limpieza, transformaci√≥n, an√°lisis y visualizaci√≥n sobre un dataset cient√≠fico
- Interpretar los resultados de un an√°lisis exploratorio
- Generar visualizaciones √∫tiles para comunicar hallazgos


### üì¶ Producto Final
- Un an√°lisis exploratorio completo de un dataset de calidad ambiental
- Conjunto de figuras y estad√≠sticas que podr√≠an usarse en un informe cient√≠fico


## 1Ô∏è‚É£ Simulaci√≥n de datos ambientales

In [None]:
import pandas as pd
import numpy as np

# Simulaci√≥n de datos
np.random.seed(10)
df = pd.DataFrame({
    "fecha": pd.date_range(start="2023-01-01", periods=180, freq="D"),
    "estacion": np.random.choice(["A", "B", "C"], size=180),
    "pH": np.random.normal(7, 0.3, size=180),
    "temperatura": np.random.normal(23, 2, size=180),
    "oxigeno_disuelto": np.random.normal(8, 1, size=180)
})

# Introducimos algunos valores nulos
df.loc[5:10, "pH"] = np.nan
df.loc[15:17, "oxigeno_disuelto"] = np.nan

# Mostrar las primeras filas
df.head()


## 2Ô∏è‚É£ Limpieza de datos

In [None]:
# Verificamos valores nulos
print("Valores nulos por columna:")
print(df.isnull().sum())

# Rellenamos pH y ox√≠geno disuelto con la media
df["pH"].fillna(df["pH"].mean(), inplace=True)
df["oxigeno_disuelto"].fillna(df["oxigeno_disuelto"].mean(), inplace=True)

# Confirmamos que no haya nulos
df.isnull().sum()


## 3Ô∏è‚É£ An√°lisis descriptivo por estaci√≥n

In [None]:
# Agrupamos por estaci√≥n
resumen = df.groupby("estacion").agg({
    "pH": ["mean", "std"],
    "temperatura": ["mean", "std"],
    "oxigeno_disuelto": ["mean", "std"]
})

# Mostramos el resumen
resumen


## 4Ô∏è‚É£ Visualizaci√≥n de resultados

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

sns.set(style="whitegrid")

# Boxplot de pH por estaci√≥n
plt.figure(figsize=(8,5))
sns.boxplot(data=df, x="estacion", y="pH")
plt.title("Distribuci√≥n de pH por estaci√≥n")
plt.ylabel("pH")
plt.xlabel("Estaci√≥n")
plt.tight_layout()
plt.show()

# Gr√°fico de l√≠neas de temperatura en el tiempo
plt.figure(figsize=(10,5))
sns.lineplot(data=df, x="fecha", y="temperatura", hue="estacion")
plt.title("Evoluci√≥n temporal de la temperatura")
plt.ylabel("Temperatura (¬∞C)")
plt.xlabel("Fecha")
plt.tight_layout()
plt.show()


## 5Ô∏è‚É£ Interpretaci√≥n de resultados

A partir del an√°lisis, podemos observar diferencias entre estaciones y variaciones temporales. Este tipo de an√°lisis es √∫til para:

- Detectar estaciones con par√°metros fuera de los rangos normales
- Evaluar variaciones estacionales o tendencias a lo largo del tiempo
- Comunicar hallazgos mediante gr√°ficos claros


---
‚úÖ **Notebook completo.** Has aplicado tus conocimientos en un flujo de an√°lisis realista. Ya puedes preparar an√°lisis exploratorios para informes y publicaciones cient√≠ficas.