# 🧹 Notebook 3: Limpieza y transformación de datos científicos

En este notebook aprenderás técnicas esenciales para preparar datos científicos antes de analizarlos o visualizarlos.

### 🎯 Objetivos de Aprendizaje
- Identificar y tratar valores faltantes y duplicados
- Convertir tipos de datos, especialmente fechas y horas
- Crear nuevas columnas derivadas
- Aplicar normalización y transformación de variables


### 📦 Producto Final
- Dataset limpio y estructurado, listo para análisis exploratorio o modelado


## 1️⃣ Simulación de un dataset con problemas comunes

In [None]:
import pandas as pd
import numpy as np

# Creamos un DataFrame simulado
np.random.seed(42)
data = {
    "fecha": ["2023-01-01", "2023-01-02", "2023-01-03", "2023-01-03", None],
    "estacion": ["A", "B", "C", "C", "A"],
    "temperatura": [22.5, np.nan, 21.0, 21.0, 23.5],
    "humedad": [85, 80, 82, 82, None]
}
df = pd.DataFrame(data)

# Mostramos el DataFrame original
print("Datos originales:")
print(df)


## 2️⃣ Identificación y tratamiento de valores faltantes

In [None]:
# Verificamos cuántos valores faltantes hay por columna
print("Valores faltantes por columna:")
print(df.isnull().sum())

# Rellenamos la columna de temperatura con la media
df["temperatura"].fillna(df["temperatura"].mean(), inplace=True)

# Eliminamos filas donde 'fecha' o 'humedad' están vacíos
df.dropna(subset=["fecha", "humedad"], inplace=True)

# Mostramos el resultado
print("Después del tratamiento:")
print(df)


## 3️⃣ Detección y eliminación de duplicados

In [None]:
# Verificamos si hay filas duplicadas
duplicados = df.duplicated()
print("Filas duplicadas:")
print(duplicados)

# Eliminamos duplicados
df = df.drop_duplicates()

# Mostramos el resultado
print("Después de eliminar duplicados:")
print(df)


## 4️⃣ Conversión de tipos de datos

In [None]:
# Convertimos la columna 'fecha' a tipo datetime
df["fecha"] = pd.to_datetime(df["fecha"])

# Verificamos el tipo de datos
print("Tipos de datos:")
print(df.dtypes)


## 5️⃣ Creación de nuevas columnas

In [None]:
# Creamos una columna con el mes
df["mes"] = df["fecha"].dt.month

# Columna de sensación térmica estimada (fórmula simplificada)
df["sensacion_termica"] = df["temperatura"] + 0.1 * df["humedad"]

# Mostramos el DataFrame con las nuevas columnas
print(df)


## 6️⃣ Normalización y estandarización

In [None]:
# Normalizamos la temperatura entre 0 y 1
df["temperatura_norm"] = (df["temperatura"] - df["temperatura"].min()) / (df["temperatura"].max() - df["temperatura"].min())

# Mostramos la nueva columna
print("Temperatura normalizada:")
print(df[["temperatura", "temperatura_norm"]])


---
✅ **Notebook completo.** Has aprendido cómo transformar y limpiar datos científicos. En el siguiente notebook aprenderás a crear visualizaciones impactantes para tus publicaciones.