# ðŸš€ Proyecto ELT con SpaceX API  
## Notebook 02 â€“ TransformaciÃ³n de datos

En este notebook se aplican tareas de **procesamiento y transformaciÃ³n de datos con Pandas**, segÃºn la consigna:  

- EliminaciÃ³n de duplicados.  
- Manejo de valores nulos.  
- Renombrado de columnas.  
- ConversiÃ³n de tipos.  
- CreaciÃ³n de nuevas columnas.  
- UniÃ³n (JOIN) entre DataFrames.  


In [1]:
import sys

# Ajusto para que la reconozca la ruta del proyecto
sys.path.append("..") 

# --- IMPORTS ---
from src.transform import load_from_parquet, drop_duplicates, handle_nulls, rename_columns, create_new_column, normalize_columns,  expand_payload_weights
from src.load import save_to_parquet 
from src.utils import setup_logger

logger = setup_logger()

# --- LOGGER ---
logger = setup_logger()
logger.info("Inicio de transformaciones de datos")


ImportError: cannot import name 'create_new_column' from 'src.transform' (c:\Users\MONSO\OneDrive\Escritorio\Final-DataEngineering\notebooks\..\src\transform.py)

## ðŸ“¥ Lectura de datos

Se extraen los datasets desde Delta Lake.  
Trabajaremos principalmente con:  
- **PrÃ³ximos lanzamientos** (`upcoming_launches`)  
- **Cohetes** (`rockets`)  


In [None]:
# --- ExtracciÃ³n de datos para transformar --- Cargar datos desde Bronze
logger.info("Cargando Rockets desde Bronze...")
rockets_df = load_from_parquet("rockets", layer="bronze")
display(rockets_df.head())

logger.info("âœ… Datos cargados desde Parquet. Inicio de transformaciones de datos.")

## ðŸ›  Transformaciones aplicadas
1. **Eliminar duplicados**.  
2. **Rellenar valores nulos** en la columna `details`.  
3. **Renombrar columnas** para mayor claridad (`date_utc â†’ fecha_lanzamiento`).  
4. **ConversiÃ³n de tipos** de fecha.  
5. **Nueva columna**: indicador booleano si el lanzamiento es en 2025.  
6. **Join** entre lanzamientos y cohetes.  


In [None]:
# Normalizo para evitar problemas de incompatibilidad con arrays
rockets_df_normalized = normalize_columns(rockets_df)

# Aplicar transformaciones
logger.info("Aplicando transformaciones...")
rockets_df_normalized = drop_duplicates(rockets_df_normalized)
rockets_df_normalized = handle_nulls(rockets_df_normalized, ["description"], fill_value="Sin descripciÃ³n")
rockets_df_normalized = rename_columns(rockets_df_normalized, {"name": "rocket_name"})
rockets_df_normalized = expand_payload_weights(rockets_df_normalized)
display(rockets_df_normalized.head())

logger.info("âœ… Transformaciones aplicadas correctamente.")

## ðŸ’¾ Guardado de datos normalizados y transformados en Silver

In [None]:
# Guardar en Silver
logger.info("Guardando transformaciones en Silver...")
save_to_parquet(rockets_df, "rockets", layer="silver", incremental=False, mode="overwrite")

print(f"âœ… Transformaciones guardadas en Silver: {len(rockets_df)} filas")

## ðŸ‘€ Vista de resultados

Mostramos algunas columnas seleccionadas del DataFrame final:  
