# üöÄ Proyecto ELT con SpaceX API  
## Notebook 01 ‚Äì Extracci√≥n y Carga

En este notebook se realiza la **extracci√≥n de datos desde la API p√∫blica de SpaceX** y el **almacenamiento en Delta Lake**.  

Se siguen los pasos de la consigna:  
1. Extracci√≥n de **2 o m√°s endpoints**.  
2. Uso de al menos un **endpoint din√°mico (actualizable)** y otro **est√°tico**.  
3. Guardado en **formato Delta Lake**.  
4. Aplicaci√≥n de **extracci√≥n incremental y full** seg√∫n corresponda.  


In [1]:
# =========================
# CELDA DE CONFIGURACI√ìN INICIAL
# =========================

import sys
from pathlib import Path

# --- RUTA DEL PROYECTO ---
# Detecta autom√°ticamente la ra√≠z del proyecto buscando la carpeta "src"
def find_project_root(marker="src"):
    path = Path().cwd()
    for _ in range(5):  # sube hasta 5 niveles si es necesario
        if (path / marker).exists():
            return path
        path = path.parent
    raise FileNotFoundError(f"No se encontr√≥ la carpeta '{marker}' en los niveles superiores.")

project_root = find_project_root()
if str(project_root) not in sys.path:
    sys.path.append(str(project_root))

print(f"Project root detectado en: {project_root}")

# --- IMPORTS DEL PROYECTO ---
from src.extract import fetch_data
from src.load import save_to_parquet
from src.config import setup_logger
logger = setup_logger()

Project root detectado en: c:\Users\MONSO\OneDrive\Escritorio\Final-DataEngineering


## üîó Endpoints seleccionados

- **Din√°micos:**  
  - `launches/upcoming` ‚Üí Pr√≥ximos lanzamientos.  

- **Est√°ticos:**  
  - `rockets` ‚Üí Informaci√≥n de cohetes.  
  - `dragons` ‚Üí Informaci√≥n de c√°psulas Dragon.  

In [2]:
# Extracci√≥n FULL de endpoints est√°ticos
logger.info("Extrayendo Rockets (FULL)...")
rockets_df = fetch_data("rockets")
print(f"‚úÖ Extracci√≥n completa: {len(rockets_df)} rockets extra√≠dos.")

logger.info("Extrayendo Dragons (FULL)...")
dragons_df = fetch_data("dragons")
print(f"‚úÖ Extracci√≥n completa: {len(dragons_df)} dragons extra√≠dos.")

2025-09-06 21:30:08,815 - INFO - Extrayendo Rockets (FULL)...
2025-09-06 21:30:12,208 - INFO - Extrayendo Dragons (FULL)...


‚úÖ Extracci√≥n completa: 4 rockets extra√≠dos.
‚úÖ Extracci√≥n completa: 2 dragons extra√≠dos.


In [3]:
# Extracci√≥n INCREMENTAL de upcoming launches
logger.info("Extrayendo Upcoming Launches (INCREMENTAL)...")

# Extracci√≥n de datos nuevos
launches_new = fetch_data("upcoming_launches")

print(f"‚úÖ Extracci√≥n completa: {len(launches_new)} nuevos lanzamientos extra√≠dos.")

2025-09-06 21:30:13,616 - INFO - Extrayendo Upcoming Launches (INCREMENTAL)...


‚úÖ Extracci√≥n completa: 18 nuevos lanzamientos extra√≠dos.


## üíæ Guardado

Se guarda cada DataFrame en formato **Delta Lake**:  
- Los **endpoints din√°micos** (`upcoming_launches`) se almacenan con **particiones por fecha (extracci√≥n incremental)**.  
- Los **endpoints est√°ticos** (`rockets`, `dragons`) se guardan en una √∫nica ruta (extracci√≥n full).  

In [None]:
# Guardado de datos en Parquet

# Carga de datos con un "modo full" en formato Parquet
save_to_parquet(rockets_df, "rockets", layer="bronze")
save_to_parquet(dragons_df, "dragons", layer="bronze")

# INCREMENTAL save de Launches
if not launches_new.empty:
    print(f"‚úÖ Extracci√≥n completa: {len(launches_new)} launches nuevos extra√≠dos.")
    # Guardar solo los datos incrementales
    save_to_parquet(launches_new, "upcoming_launches", layer="bronze", incremental=True)
else:
    logger.info("No hay datos nuevos para upcoming_launches")

logger.info("Todos los datasets fueron guardados correctamente en Parquet.")

TypeError: get_partition_path() takes 2 positional arguments but 3 were given