In [1]:
import warnings
import os, sys, platform
import glob
from astropy.units import UnitsWarning
from pathlib import Path

# Ignorar warnings comunes de librerías externas
warnings.filterwarnings("ignore", category=UserWarning)
warnings.filterwarnings("ignore", category=FutureWarning)
warnings.filterwarnings("ignore", category=UnitsWarning)
print("🔇 Warnings silenciados: UserWarning, FutureWarning")
# Desactivar Rich para evitar problemas de compatibilidad
os.environ["RICH_NO_RICH"] = "1"

# Asegurar que el directorio 'src' esté en el path de Python
src_path = Path("src").resolve()
if src_path not in sys.path:
    sys.path.append(str(src_path))
from src.script_1_eb import main as run_script_1

# Detectar entorno local/AWS y ejecutar el script
try:
    import sagemaker
    is_sagemaker = True
except ImportError:
    is_sagemaker = False

#existing = len(glob.glob("/home/ec2-user/backup/data/raw/kepler/*.csv")) + len(glob.glob("/home/ec2-user/backup/data/raw/tess/*.csv"))
existing = len(glob.glob("/home/ec2-user/backup/data/raw/tess/*.csv"))
print(f"🗃️ Curvas ya existentes en disco: {existing}", flush=True)

# Ejecutar con la opción adecuada
if is_sagemaker:
    print("🔁 Ejecutando en SageMaker → catálogo completo")
    # Solo TESS, solo pendientes
    run_script_1(mission="TESS", only_pending=True, max_workers=12)
else:
    print("💻 Ejecutando en entorno local → catálogo de prueba")
    run_script_1(use_sample=True)


📁 Usando RAW_DIR: /home/ec2-user/backup/data/raw


sagemaker.config INFO - Not applying SDK defaults from location: /etc/xdg/sagemaker/config.yaml
sagemaker.config INFO - Not applying SDK defaults from location: /home/ec2-user/.config/sagemaker/config.yaml
🗃️ Curvas ya existentes en disco: 0
🔁 Ejecutando en SageMaker → catálogo completo
[⬇] Descargando catálogos completos de Kepler y TESS...
[⬇] Descargando catálogo Kepler EB...
[📂] Cargando catálogo Kepler EB desde copia local...
[⬇] Descargando catálogo TESS EB...
[⬇] Generando CSV de entrada para descarga de curvas...
📝 CSV generado con 0 estrellas → data/lists/eb_ids.csv
[⬇] Descargando curvas de luz...

🚀 Procesando misión: TESS (only_pending=True)
📝 CSV generado con 0 estrellas → data/lists/eb_ids_tess_pendientes.csv
[⬇] Descargando 0 curvas en paralelo con 12 hilos...


🚀 Descargando curvas: 0it [00:00, ?it/s]


	📦 0 objetos procesados hasta ahora...
[✓] Descarga finalizada: 0 objetos procesados.
[⭢] Leyendo y fusionando curvas descargadas...





[📁] Usando 16 lotes ya existentes en /home/ec2-user/temp_batches
[⏳] Uniendo todos los lotes en /home/ec2-user/backup/processed/dataset_eb_tess.parquet...


📚 Uniendo lotes: 100%|██████████| 16/16 [03:14<00:00, 12.13s/it]


[✅] Dataset parquet construido → /home/ec2-user/backup/processed/dataset_eb_tess.parquet
🧹 Carpeta temporal eliminada: /home/ec2-user/temp_batches
[⏱] Tiempo total: 196.25 segundos


### BACKUPS ANTES DE APAGAR INSTANCIA

In [None]:
import shutil, os
from pathlib import Path

# Crear carpeta de backup dentro de SageMaker
backup_dir = Path.home() / "SageMaker" / "backup"
backup_dir.mkdir(exist_ok=True)
print(f"📁 Carpeta de backup creada en: {backup_dir}")

# 🔁 NUEVO: Copiar curvas desde la nueva ubicación temporal
#raw_dir_kepler = Path("/home/ec2-user/backup/raw/kepler")
raw_dir_tess = Path("/home/ec2-user/backup/raw/tess")
if raw_dir.exists():
    #shutil.make_archive(backup_dir / "curvas_raw_kepler", "zip", raw_dir_kepler)
    #print("✅ Copiado: curvas en backup/raw/kepler → curvas_raw_kepler.zip")
    shutil.make_archive(backup_dir / "curvas_raw_tess", "zip", raw_dir_tess)
    print("✅ Copiado: curvas en backup/raw/tess → curvas_raw_tess.zip")
else:
    print("⚠️ No se encontró backup/raw")

# Copiar dataset procesado
processed_dir = Path("SageMaker/astro_transformer/data/processed")
if processed_dir.exists():
    for file in processed_dir.glob("*.parquet"):
        shutil.copy(file, backup_dir)
        print(f"✅ Copiado: {file.name}")
else:
    print("⚠️ No se encontró data/processed")

# Copiar log de errores si existe
error_log = Path("SageMaker/astro_transformer/logs/fallos_descarga.csv")
if error_log.exists():
    shutil.copy(error_log, backup_dir)
    print("✅ Copiado: logs/fallos_descarga.csv")

# Copiar caché de lightkurve si existe
lk_cache = Path.home() / ".lightkurve" / "cache"
if lk_cache.exists():
    shutil.make_archive(backup_dir / "lightkurve_cache", "zip", lk_cache)
    print("✅ Copiado: ~/.lightkurve/cache → lightkurve_cache.zip")

print("🎉 Backup completado.")

In [None]:
# Borrar cache de lightcurve
!rm -rf ~/.lightkurve/cache/*

In [1]:
%run src/script_5a_normalize_ids.py --mision vsx_tess


🔧 Procesando VSX_TESS → dataset_vsx_tess_labeled.parquet
📝 Procesando batch #1...
✅ Batch #1 guardado en dataset_vsx_tess_labeled_batch_0000.parquet (131072 filas)
📝 Procesando batch #2...
✅ Batch #2 guardado en dataset_vsx_tess_labeled_batch_0001.parquet (131072 filas)
📝 Procesando batch #3...
✅ Batch #3 guardado en dataset_vsx_tess_labeled_batch_0002.parquet (131072 filas)
📝 Procesando batch #4...
✅ Batch #4 guardado en dataset_vsx_tess_labeled_batch_0003.parquet (131072 filas)
📝 Procesando batch #5...
✅ Batch #5 guardado en dataset_vsx_tess_labeled_batch_0004.parquet (131072 filas)
📝 Procesando batch #6...
✅ Batch #6 guardado en dataset_vsx_tess_labeled_batch_0005.parquet (131072 filas)
📝 Procesando batch #7...
✅ Batch #7 guardado en dataset_vsx_tess_labeled_batch_0006.parquet (131072 filas)
📝 Procesando batch #8...
✅ Batch #8 guardado en dataset_vsx_tess_labeled_batch_0007.parquet (131072 filas)
📝 Procesando batch #9...
✅ Batch #9 guardado en dataset_vsx_tess_labeled_batch_0008.pa

In [1]:
import pandas as pd
df = pd.read_parquet("data/processed/dataset_vsx_tic_labeled_north.parquet")
print(df.shape)
print(df["clase_variable"].value_counts())


(27999, 9)
clase_variable
ROT                14332
EW                  2018
RS                  2012
DSCT|GDOR|SXPHE     1813
E                   1658
                   ...  
IN:                    1
NL+E                   1
Microlens              1
CWA                    1
EA/GS                  1
Name: count, Length: 115, dtype: int64


In [1]:
from src.utils.inspect_and_export_summary import inspect_and_export_summary

OUTPUT_PARQUET_SOUTH = "data/processed/dataset_vsx_tess_labeled_south.parquet"
OUTPUT_PARQUET_NORTH = "data/processed/dataset_vsx_tess_labeled_north.parquet"

inspect_and_export_summary(OUTPUT_PARQUET_SOUTH, output_format="csv")
inspect_and_export_summary(OUTPUT_PARQUET_NORTH, output_format="csv")



📁 Inspeccionando: data/processed/dataset_vsx_tess_labeled_south.parquet


🧮 Procesando por lotes: 24it [00:38,  1.60s/it]


✅ Resumen exportado a: data/processed/summary\dataset_vsx_tess_labeled_south_summary.csv

📁 Inspeccionando: data/processed/dataset_vsx_tess_labeled_north.parquet


🧮 Procesando por lotes: 434it [14:01,  1.94s/it]

✅ Resumen exportado a: data/processed/summary\dataset_vsx_tess_labeled_north_summary.csv



