# üßπ Notebook 3: Limpieza y transformaci√≥n de datos cient√≠ficos

En este notebook aprender√°s t√©cnicas esenciales para preparar datos cient√≠ficos antes de analizarlos o visualizarlos.

### üéØ Objetivos de Aprendizaje
- Identificar y tratar valores faltantes y duplicados
- Convertir tipos de datos, especialmente fechas y horas
- Crear nuevas columnas derivadas
- Aplicar normalizaci√≥n y transformaci√≥n de variables


### üì¶ Producto Final
- Dataset limpio y estructurado, listo para an√°lisis exploratorio o modelado


## 1Ô∏è‚É£ Simulaci√≥n de un dataset con problemas comunes

In [None]:
import pandas as pd
import numpy as np

# Creamos un DataFrame simulado
np.random.seed(42)
data = {
    "fecha": ["2023-01-01", "2023-01-02", "2023-01-03", "2023-01-03", None],
    "estacion": ["A", "B", "C", "C", "A"],
    "temperatura": [22.5, np.nan, 21.0, 21.0, 23.5],
    "humedad": [85, 80, 82, 82, None]
}
df = pd.DataFrame(data)

# Mostramos el DataFrame original
print("Datos originales:")
print(df)


## 2Ô∏è‚É£ Identificaci√≥n y tratamiento de valores faltantes

In [None]:
# Verificamos cu√°ntos valores faltantes hay por columna
print("Valores faltantes por columna:")
print(df.isnull().sum())

# Rellenamos la columna de temperatura con la media
df["temperatura"].fillna(df["temperatura"].mean(), inplace=True)

# Eliminamos filas donde 'fecha' o 'humedad' est√°n vac√≠os
df.dropna(subset=["fecha", "humedad"], inplace=True)

# Mostramos el resultado
print("Despu√©s del tratamiento:")
print(df)


## 3Ô∏è‚É£ Detecci√≥n y eliminaci√≥n de duplicados

In [None]:
# Verificamos si hay filas duplicadas
duplicados = df.duplicated()
print("Filas duplicadas:")
print(duplicados)

# Eliminamos duplicados
df = df.drop_duplicates()

# Mostramos el resultado
print("Despu√©s de eliminar duplicados:")
print(df)


## 4Ô∏è‚É£ Conversi√≥n de tipos de datos

In [None]:
# Convertimos la columna 'fecha' a tipo datetime
df["fecha"] = pd.to_datetime(df["fecha"])

# Verificamos el tipo de datos
print("Tipos de datos:")
print(df.dtypes)


## 5Ô∏è‚É£ Creaci√≥n de nuevas columnas

In [None]:
# Creamos una columna con el mes
df["mes"] = df["fecha"].dt.month

# Columna de sensaci√≥n t√©rmica estimada (f√≥rmula simplificada)
df["sensacion_termica"] = df["temperatura"] + 0.1 * df["humedad"]

# Mostramos el DataFrame con las nuevas columnas
print(df)


## 6Ô∏è‚É£ Normalizaci√≥n y estandarizaci√≥n

In [None]:
# Normalizamos la temperatura entre 0 y 1
df["temperatura_norm"] = (df["temperatura"] - df["temperatura"].min()) / (df["temperatura"].max() - df["temperatura"].min())

# Mostramos la nueva columna
print("Temperatura normalizada:")
print(df[["temperatura", "temperatura_norm"]])


---
‚úÖ **Notebook completo.** Has aprendido c√≥mo transformar y limpiar datos cient√≠ficos. En el siguiente notebook aprender√°s a crear visualizaciones impactantes para tus publicaciones.