In [None]:
# 1. INSTALACI√ìN Y CONFIGURACI√ìN INICIAL
# ======================================
# Instalar bibliotecas necesarias
!pip install streamlit joblib pandas numpy plotly scikit-learn lightgbm xgboost

# Instalar ngrok y pyngrok para visualizar Streamlit en Colab
!pip install pyngrok

# Importar bibliotecas
import streamlit as st
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
import joblib
import sys
import os
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestClassifier, StackingClassifier, ExtraTreesClassifier
from sklearn.linear_model import LogisticRegression
from xgboost import XGBClassifier
from lightgbm import LGBMClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score, classification_report
import warnings
from pyngrok import ngrok
import subprocess
import time

warnings.filterwarnings('ignore')

# 2. GESTI√ìN DE RUTAS Y ESTRUCTURA DE CARPETAS PARA COLAB
# ========================================================
# Definir la ruta ra√≠z del proyecto para Colab
# En Colab, el script se ejecuta en el directorio actual, as√≠ que lo usamos como ra√≠z.
def get_project_root():
    """Obtener la ruta ra√≠z del proyecto: el directorio actual en Colab."""
    return os.getcwd()

PROJECT_ROOT = get_project_root()

# Crear la estructura de directorios necesaria
os.makedirs(os.path.join(PROJECT_ROOT, 'data', 'raw'), exist_ok=True)
os.makedirs(os.path.join(PROJECT_ROOT, 'models'), exist_ok=True)

# NOTA: Para que el entrenamiento funcione, debes subir tus archivos:
# kepler.csv, k2.csv y tess.csv
# a la carpeta 'data/raw' que acabamos de crear en el entorno de Colab.
# Puedes hacerlo manualmente usando el explorador de archivos de Colab (icono de carpeta).
print(f"Carpeta de datos creada en: {os.path.join(PROJECT_ROOT, 'data', 'raw')}")
print("¬°Recuerda subir tus CSV de la NASA a esta carpeta!")

# 3. DEFINICI√ìN DE CLASES Y FUNCIONES (Tu c√≥digo original)
# =========================================================

class ExoplanetDataProcessor:
    """Procesador de datos para los datasets reales de la NASA"""

    def __init__(self):
        self.scaler = StandardScaler()
        self.feature_names = []

    def load_real_data(self):
        """Cargar los datasets reales de la NASA con rutas corregidas"""
        try:
            # Usar rutas absolutas desde la ra√≠z del proyecto
            data_dir = os.path.join(PROJECT_ROOT, 'data', 'raw')

            st.info(f"üîç Buscando datos en: {data_dir}")

            # Listar archivos en el directorio
            if os.path.exists(data_dir):
                files = os.listdir(data_dir)
                st.info(f"üìÅ Archivos encontrados en data/raw/: {files}")
            else:
                st.error(f"‚ùå No existe el directorio: {data_dir}")
                return None, None, None

            # Construir rutas completas
            kepler_path = os.path.join(data_dir, 'kepler.csv')
            k2_path = os.path.join(data_dir, 'k2.csv')
            tess_path = os.path.join(data_dir, 'tess.csv')

            st.info(f"üìä Intentando cargar:\n- {kepler_path}\n- {k2_path}\n- {tess_path}")

            # Verificar que los archivos existen
            if not os.path.exists(kepler_path):
                st.error(f"‚ùå No existe: {kepler_path}")
                # Buscar archivos similares
                csv_files = [f for f in files if f.endswith('.csv')]
                if csv_files:
                    st.info(f"üìÑ Archivos CSV disponibles: {csv_files}")
                return None, None, None

            # Cargar los archivos reales
            kepler_df = pd.read_csv(kepler_path)
            k2_df = pd.read_csv(k2_path) if os.path.exists(k2_path) else None
            tess_df = pd.read_csv(tess_path) if os.path.exists(tess_path) else None

            st.success(f"‚úÖ Kepler cargado: {len(kepler_df)} registros")
            if k2_df is not None:
                st.success(f"‚úÖ K2 cargado: {len(k2_df)} registros")
            if tess_df is not None:
                st.success(f"‚úÖ TESS cargado: {len(tess_df)} registros")

            return kepler_df, k2_df, tess_df

        except Exception as e:
            st.error(f"‚ùå Error cargando datasets: {e}")
            return None, None, None

    def preprocess_kepler(self, df):
        """Preprocesar datos Kepler reales - VERSI√ìN MEJORADA"""
        df_clean = df.copy()

        st.info("üîß Procesando datos Kepler...")

        # Mostrar columnas disponibles
        st.write(f"üìã Columnas en Kepler: {list(df_clean.columns)}")

        # Verificar si existe la columna de target
        if 'koi_disposition' not in df_clean.columns:
            st.error("‚ùå No se encuentra la columna 'koi_disposition' en Kepler")
            st.info("Las columnas disponibles son:")
            st.write(list(df_clean.columns))
            return df_clean

        # Eliminar columnas no √∫tiles (basado en el paper)
        columns_to_drop = ['kepid', 'kepoi_name', 'kepler_name', 'koi_pdisposition', 'koi_score']
        columns_to_drop = [col for col in columns_to_drop if col in df_clean.columns]

        if columns_to_drop:
            df_clean = df_clean.drop(columns=columns_to_drop)
            st.write(f"üóëÔ∏è Columnas eliminadas: {columns_to_drop}")

        # Mostrar valores √∫nicos en la columna de disposici√≥n
        st.write(f"üéØ Valores en koi_disposition: {df_clean['koi_disposition'].unique()}")

        # Filtrar solo confirmed, candidate y false positive
        valid_dispositions = ['CONFIRMED', 'CANDIDATE', 'FALSE POSITIVE']
        mask = df_clean['koi_disposition'].isin(valid_dispositions)
        df_clean = df_clean[mask]

        st.write(f"üìä Distribuci√≥n despu√©s de filtrar: {df_clean['koi_disposition'].value_counts().to_dict()}")

        # Crear target binario
        df_clean['target'] = df_clean['koi_disposition'].map({
            'CONFIRMED': 1,
            'CANDIDATE': 1,
            'FALSE POSITIVE': 0
        })

        # A√±adir identificador de misi√≥n
        df_clean['mission'] = 'kepler'

        st.success(f"‚úÖ Kepler procesado: {len(df_clean)} registros")

        return df_clean

    def preprocess_k2(self, df):
        """Preprocesar datos K2 reales"""
        if df is None:
            st.warning("‚ö†Ô∏è Dataset K2 no disponible")
            return None

        df_clean = df.copy()

        st.info("üîß Procesando datos K2...")
        st.write(f"üìã Columnas en K2: {list(df_clean.columns)}")

        # Verificar columnas necesarias
        if 'disposition' not in df_clean.columns:
            st.error("‚ùå No se encuentra la columna 'disposition' en K2")
            return None

        # Filtrar solo confirmed y candidate
        df_clean = df_clean[df_clean['disposition'].isin(['CONFIRMED', 'CANDIDATE'])]

        # Target binario
        df_clean['target'] = df_clean['disposition'].map({
            'CONFIRMED': 1,
            'CANDIDATE': 1
        })

        # Identificador de misi√≥n
        df_clean['mission'] = 'k2'

        st.success(f"‚úÖ K2 procesado: {len(df_clean)} registros")

        return df_clean

    def preprocess_tess(self, df):
        """Preprocesar datos TESS reales"""
        if df is None:
            st.warning("‚ö†Ô∏è Dataset TESS no disponible")
            return None

        df_clean = df.copy()

        st.info("üîß Procesando datos TESS...")
        st.write(f"üìã Columnas en TESS: {list(df_clean.columns)}")

        # Verificar columnas necesarias
        if 'tfopwg_disp' not in df_clean.columns:
            st.error("‚ùå No se encuentra la columna 'tfopwg_disp' en TESS")
            return None

        # Mapear disposiciones de TESS
        disposition_mapping = {
            'PC': 1, 'KP': 1, 'APC': 1,  # Positivos
            'FP': 0, 'FA': 0  # Negativos
        }

        df_clean['target'] = df_clean['tfopwg_disp'].map(disposition_mapping)
        df_clean = df_clean.dropna(subset=['target'])

        # Identificador de misi√≥n
        df_clean['mission'] = 'tess'

        st.success(f"‚úÖ TESS procesado: {len(df_clean)} registros")

        return df_clean

    def prepare_features(self, df):
        """Preparar caracter√≠sticas para el modelo - VERSI√ìN FLEXIBLE"""
        if df is None or len(df) == 0:
            st.error("‚ùå No hay datos para preparar caracter√≠sticas")
            return None, None, None

        st.info("üîß Preparando caracter√≠sticas...")

        # Posibles nombres de columnas en diferentes datasets
        possible_features = {
            'orbital_period': ['koi_period', 'pl_orbper', 'period'],
            'transit_duration': ['koi_duration', 'pl_trandurh', 'duration'],
            'transit_depth': ['koi_depth', 'pl_trandep', 'depth'],
            'planet_radius': ['koi_prad', 'pl_rade', 'radius'],
            'equilibrium_temp': ['koi_teq', 'pl_eqt', 'teq'],
            'insolation_flux': ['koi_insol', 'pl_insol', 'insol'],
            'stellar_teff': ['koi_steff', 'st_teff', 'teff'],
            'stellar_logg': ['koi_slogg', 'st_logg', 'logg'],
            'stellar_radius': ['koi_srad', 'st_rad', 'srad']
        }

        # Encontrar las columnas disponibles
        available_columns = []
        for feature_name, possible_names in possible_features.items():
            for name in possible_names:
                if name in df.columns:
                    available_columns.append(name)
                    break

        st.write(f"üìä Columnas num√©ricas encontradas: {available_columns}")

        if not available_columns:
            st.error("‚ùå No se encontraron columnas num√©ricas para entrenar")
            return None, None, None

        X = df[available_columns].copy()
        y = df['target'].values

        st.write(f"üìä Shape de X: {X.shape}, Shape de y: {y.shape}")

        # Manejar valores missing
        missing_before = X.isnull().sum().sum()
        X = X.fillna(X.median())
        missing_after = X.isnull().sum().sum()

        st.write(f"üîß Valores missing: {missing_before} antes, {missing_after} despu√©s")

        # Escalar caracter√≠sticas
        # La forma correcta de escalar para entrenar es:
        # 1. Ajustar el escalador (fit_transform) si est√°s en la etapa de entrenamiento.
        # 2. Transformar (transform) si est√°s en la etapa de predicci√≥n.
        # Aqu√≠ es entrenamiento:
        X_scaled = self.scaler.fit_transform(X)
        self.feature_names = available_columns

        st.success(f"‚úÖ Caracter√≠sticas preparadas: {X_scaled.shape}")

        return X_scaled, y, available_columns

class RealExoplanetModel:
    """Modelo real para entrenamiento con datos de la NASA"""

    def __init__(self):
        self.model = None
        self.accuracy = 0
        self.feature_importance = None

    def create_ensemble(self):
        """Crear ensemble con los algoritmos del paper"""
        base_models = [
            ('random_forest', RandomForestClassifier(
                n_estimators=100,
                max_depth=10,
                min_samples_split=5,
                random_state=42,
                n_jobs=-1
            )),
            ('extra_trees', ExtraTreesClassifier(
                n_estimators=100,
                max_depth=10,
                random_state=42,
                n_jobs=-1
            )),
            ('xgboost', XGBClassifier(
                n_estimators=100,
                learning_rate=0.1,
                max_depth=6,
                random_state=42
            )),
            ('lightgbm', LGBMClassifier(
                n_estimators=100,
                learning_rate=0.05,
                max_depth=6,
                random_state=42
            ))
        ]

        ensemble = StackingClassifier(
            estimators=base_models,
            final_estimator=LogisticRegression(),
            cv=3,  # Reducido para mayor velocidad
            passthrough=False,
            n_jobs=-1
        )

        return ensemble

    def train(self, X, y):
        """Entrenar el modelo real"""
        if X is None or y is None:
            st.error("‚ùå No hay datos para entrenar")
            return None

        st.info("ü§ñ Iniciando entrenamiento del ensemble...")

        self.model = self.create_ensemble()
        self.model.fit(X, y)

        # Calcular accuracy en entrenamiento
        y_pred = self.model.predict(X)
        self.accuracy = accuracy_score(y, y_pred)

        st.write(f"üìà Accuracy en entrenamiento: {self.accuracy:.2%}")

        # Calcular importancia de caracter√≠sticas
        self._calculate_feature_importance(X.shape[1])

        return self.model

    def _calculate_feature_importance(self, n_features):
        """Calcular importancia de caracter√≠sticas promediada"""
        importances = np.zeros(n_features)

        for name, model in self.model.named_estimators_.items():
            if hasattr(model, 'feature_importances_'):
                # Los modelos de √°rbol (RF, ET, XGB, LGBM) tienen feature_importances_
                importances += model.feature_importances_
            # Nota: StackingClassifier y LogisticRegression (final_estimator) no tienen
            # este atributo, por lo que solo promediamos sobre los que s√≠ lo tienen.

        estimators_with_importance = sum(1 for name, model in self.model.named_estimators_.items() if hasattr(model, 'feature_importances_'))

        if estimators_with_importance > 0:
            self.feature_importance = importances / estimators_with_importance
        else:
            self.feature_importance = None # No se pudo calcular

    def save_model(self, filepath):
        """Guardar modelo entrenado"""
        if self.model:
            # Asegurar que el directorio existe
            os.makedirs(os.path.dirname(filepath), exist_ok=True)
            joblib.dump(self.model, filepath)
            return True
        return False

    def load_model(self, filepath):
        """Cargar modelo entrenado"""
        try:
            if os.path.exists(filepath):
                self.model = joblib.load(filepath)
                # Intenta cargar el accuracy si existe un archivo de m√©tricas,
                # pero para simplificar lo dejamos en 0.
                self.accuracy = 0
                return True
        except Exception as e:
            st.error(f"Error cargando modelo: {e}")
        return False

class ExoplanetDetectorApp:
    def __init__(self):
        self.model = RealExoplanetModel()
        self.data_processor = ExoplanetDataProcessor()
        self.model_trained = False

        # Autocargar modelo y preprocesador al inicio si existen
        self.load_initial_state()

    def load_initial_state(self):
        """Cargar modelo y preprocesador guardados si existen"""
        model_path = os.path.join(PROJECT_ROOT, 'models', 'real_ensemble_model.pkl')
        processor_path = os.path.join(PROJECT_ROOT, 'models', 'data_processor.pkl')
        features_path = os.path.join(PROJECT_ROOT, 'models', 'feature_names.pkl')

        if os.path.exists(model_path):
            if self.model.load_model(model_path):
                self.model_trained = True

        if os.path.exists(processor_path):
            try:
                self.data_processor = joblib.load(processor_path)
            except Exception as e:
                # Si falla la carga del procesador, se ignora y se usa el nuevo.
                pass

        if os.path.exists(features_path):
            try:
                self.data_processor.feature_names = joblib.load(features_path)
            except Exception as e:
                # Si falla la carga de nombres, se ignora.
                pass


    def render_sidebar(self):
        """Barra lateral de navegaci√≥n - ACTUALIZADA"""
        st.sidebar.title("üî≠ NASA Exoplanet Detector - REAL")
        st.sidebar.markdown("---")

        page = st.sidebar.radio("Navegaci√≥n", [
            "üè† Inicio",
            "üöÄ Entrenar Modelo REAL",
            "ü§ñ Clasificar Exoplanetas",
            "üì¶ Clasificaci√≥n por Lotes",
            "üìä An√°lisis de Datos REAL",
            "üíæ Modelos Guardados"
        ])

        st.sidebar.markdown("---")
        st.sidebar.info(
            "Sistema REAL con datos de Kepler, K2 y TESS de la NASA"
        )

        return page

    def render_home(self):
        """P√°gina de inicio"""
        st.title("ü™ê NASA Exoplanet Detection AI - SISTEMA REAL")

        col1, col2 = st.columns([2, 1])

        with col1:
            st.markdown("""
            ### Sistema REAL de Detecci√≥n de Exoplanetas

            **Caracter√≠sticas IMPLEMENTADAS:**
            - ‚úÖ **Entrenamiento REAL** con datos de la NASA
            - ‚úÖ **Modelos PERSISTENTES** que se guardan en disco
            - ‚úÖ **Datos REALES** Kepler, K2 y TESS
            - ‚úÖ **Ensemble Stacking** como en el paper cient√≠fico
            - ‚úÖ **Guardado/Auto-carga** de modelos
            """)

            st.warning("""
            **ANTES DE CONTINUAR EN COLAB:**
            1.  **Sube tus CSV** (`kepler.csv`, `k2.csv`, `tess.csv`)
                a la carpeta `data/raw/` en el explorador de archivos de Colab.
            2.  Luego, ve a **'üöÄ Entrenar Modelo REAL'**
            """)

        with col2:
            st.image("https://www.nasa.gov/sites/default/files/thumbnails/image/kepler_all_planets_art.jpg",
                     use_column_width=True,
                     caption="Datos REALES de la NASA")

        # Verificar estructura de archivos
        st.subheader("üîç Verificaci√≥n de Archivos")

        data_dir = os.path.join(PROJECT_ROOT, 'data', 'raw')
        if os.path.exists(data_dir):
            files = os.listdir(data_dir)
            csv_files = [f for f in files if f.endswith('.csv')]

            if csv_files:
                st.success(f"‚úÖ Directorio data/raw/ encontrado")
                st.write(f"üìÑ Archivos CSV: {csv_files}")
            else:
                st.warning(f"‚ö†Ô∏è Directorio existe pero no hay archivos CSV")
        else:
            st.error(f"‚ùå No existe el directorio: {data_dir}")

        # Verificar si hay modelo entrenado
        model_path = os.path.join(PROJECT_ROOT, 'models', 'real_ensemble_model.pkl')
        if os.path.exists(model_path):
            st.success("‚úÖ **Modelo entrenado disponible** - Puedes usarlo en 'Clasificar Exoplanetas'")
            if self.model_trained: # Ya se carg√≥ en load_initial_state
                st.metric("Modelo Cargado", "Ensemble Stacking")
            else:
                st.warning("Modelo existe, pero la autocarga fall√≥. Vuelve a entrenar si es necesario.")
        else:
            st.warning("‚ö†Ô∏è **No hay modelo entrenado** - Ve a 'Entrenar Modelo REAL' para comenzar")

    def render_real_training(self):
        """P√°gina de entrenamiento REAL con datos de la NASA"""
        st.title("üöÄ Entrenamiento REAL con Datos NASA")

        st.info("""
        **Entrenamiento REAL del modelo Ensemble** usando tus datasets de:
        - Kepler.csv (datos reales)
        - K2.csv (datos reales)
        - TESS.csv (datos reales)

        El modelo entrenado se guardar√° autom√°ticamente y estar√° disponible para clasificaci√≥n.
        """)

        if st.button("üéØ Iniciar Entrenamiento REAL", type="primary"):
            with st.spinner("Cargando y procesando datos REALES de la NASA..."):
                try:
                    # Cargar datos reales
                    kepler_df, k2_df, tess_df = self.data_processor.load_real_data()

                    if kepler_df is None or kepler_df.empty:
                        st.error("""
                        ‚ùå **No se pudieron cargar los datasets o Kepler est√° vac√≠o**

                        **Posibles soluciones:**
                        1. Verifica que los archivos est√©n en `data/raw/`
                        2. Aseg√∫rate de que se llamen `kepler.csv`, `k2.csv`, `tess.csv`
                        3. Verifica que los archivos no est√©n corruptos
                        """)
                        return

                    # Mostrar informaci√≥n de los datasets
                    st.subheader("üìä Datasets Cargados")
                    col1, col2, col3 = st.columns(3)

                    with col1:
                        st.metric("Kepler", f"{len(kepler_df):,} registros")
                    with col2:
                        k2_count = len(k2_df) if k2_df is not None else 0
                        st.metric("K2", f"{k2_count:,} registros")
                    with col3:
                        tess_count = len(tess_df) if tess_df is not None else 0
                        st.metric("TESS", f"{tess_count:,} registros")

                    # Procesar datos
                    st.subheader("üîß Procesando Datos...")

                    # Preprocesar Kepler
                    kepler_processed = self.data_processor.preprocess_kepler(kepler_df)
                    if kepler_processed is None:
                        return

                    # Preprocesar K2 y TESS si est√°n disponibles
                    datasets_to_process = [kepler_processed]

                    if k2_df is not None:
                        k2_processed = self.data_processor.preprocess_k2(k2_df)
                        if k2_processed is not None:
                            datasets_to_process.append(k2_processed)

                    if tess_df is not None:
                        tess_processed = self.data_processor.preprocess_tess(tess_df)
                        if tess_processed is not None:
                            datasets_to_process.append(tess_processed)

                    # Unificar datos (filtrar None values)
                    datasets_to_process = [d for d in datasets_to_process if d is not None and not d.empty]
                    if not datasets_to_process:
                        st.error("‚ùå No hay datos v√°lidos para procesar")
                        return

                    unified_data = pd.concat(datasets_to_process, ignore_index=True)

                    st.success(f"‚úÖ Datos unificados: {len(unified_data):,} muestras")

                    # Preparar caracter√≠sticas
                    X, y, feature_names = self.data_processor.prepare_features(unified_data)

                    if X is None:
                        st.error("‚ùå No se pudieron preparar las caracter√≠sticas")
                        return

                    # Entrenar modelo
                    st.subheader("ü§ñ Entrenando Modelo Ensemble...")
                    trained_model = self.model.train(X, y)

                    if trained_model is None:
                        st.error("‚ùå Error en el entrenamiento")
                        return

                    # Guardar modelo
                    models_dir = os.path.join(PROJECT_ROOT, 'models')
                    model_path = os.path.join(models_dir, 'real_ensemble_model.pkl')
                    processor_path = os.path.join(models_dir, 'data_processor.pkl')
                    features_path = os.path.join(models_dir, 'feature_names.pkl')

                    model_saved = self.model.save_model(model_path)

                    if model_saved:
                        # Guardar tambi√©n el preprocesador y feature names
                        joblib.dump(self.data_processor, processor_path)
                        joblib.dump(feature_names, features_path)

                        st.success("‚úÖ Modelo entrenado y guardado exitosamente!")
                        self.model_trained = True

                        # Mostrar resultados
                        st.subheader("üìà Resultados del Entrenamiento")
                        col1, col2, col3, col4 = st.columns(4)

                        with col1:
                            st.metric("Accuracy", f"{self.model.accuracy:.2%}")
                        with col2:
                            st.metric("Muestras", f"{X.shape[0]:,}")
                        with col3:
                            st.metric("Caracter√≠sticas", X.shape[1])
                        with col4:
                            st.metric("Algoritmos", "4 Ensemble")

                        # Importancia de caracter√≠sticas
                        if self.model.feature_importance is not None and feature_names:
                            st.subheader("üîç Importancia de Caracter√≠sticas")
                            # Asegurarse de que las longitudes coincidan antes de crear el DataFrame
                            if len(feature_names) == len(self.model.feature_importance):
                                importance_df = pd.DataFrame({
                                    'Caracter√≠stica': feature_names,
                                    'Importancia': self.model.feature_importance
                                }).sort_values('Importancia', ascending=False)

                                fig = px.bar(
                                    importance_df.head(10),
                                    x='Importancia',
                                    y='Caracter√≠stica',
                                    title='Top 10 Caracter√≠sticas M√°s Importantes',
                                    orientation='h'
                                )
                                st.plotly_chart(fig, use_container_width=True)
                            else:
                                st.warning("No se pudo graficar la importancia: longitudes de nombres y valores no coinciden.")


                    st.balloons()

                except Exception as e:
                    st.error(f"‚ùå Error durante el entrenamiento: {str(e)}")
                    import traceback
                    st.code(traceback.format_exc())

    def render_real_classification(self):
        """Clasificaci√≥n con modelo REAL entrenado - VERSI√ìN CORREGIDA"""
        st.title("ü§ñ Clasificaci√≥n con Modelo REAL")

        # Rutas de archivos
        model_path = os.path.join(PROJECT_ROOT, 'models', 'real_ensemble_model.pkl')
        processor_path = os.path.join(PROJECT_ROOT, 'models', 'data_processor.pkl')
        features_path = os.path.join(PROJECT_ROOT, 'models', 'feature_names.pkl')

        # Verificar si hay modelo entrenado
        if not os.path.exists(model_path) or not os.path.exists(features_path) or not os.path.exists(processor_path):
            st.warning("""
            ‚ö†Ô∏è **No hay modelo o archivos de preprocesamiento entrenados**

            Para usar el clasificador REAL:
            1. Ve a la pesta√±a **'Entrenar Modelo REAL'**
            2. Entrena el modelo con tus datos de la NASA
            3. Regresa aqu√≠ para clasificar candidatos
            """)
            return

        # Cargar modelo y preprocesador si a√∫n no se han cargado
        if not self.model_trained:
            self.load_initial_state()
            if not self.model_trained:
                st.error("‚ùå Error cargando el modelo o el preprocesador.")
                return

        st.success("‚úÖ Modelo REAL y preprocesador cargados exitosamente")

        # Cargar feature names para mostrar en la interfaz
        feature_names = self.data_processor.feature_names
        num_features = len(feature_names)
        st.info(f"üîç El modelo espera **{num_features}** caracter√≠sticas: {', '.join(feature_names)}")

        st.info("""
        üîç **Clasificador REAL**: Introduce los par√°metros astron√≥micos que el modelo espera.
        """)

        # Definir un diccionario para los inputs
        input_values = {}
        # Definir los nombres amigables y valores por defecto (basado en el c√≥digo original)
        input_definitions = [
            ("koi_period", "Per√≠odo Orbital (d√≠as)", 10.0, 0.1, 1000.0),
            ("koi_duration", "Duraci√≥n Tr√°nsito (horas)", 3.0, 0.1, 24.0),
            ("koi_depth", "Profundidad Tr√°nsito (ppm)", 500, 1, 100000),
            ("koi_prad", "Radio Planetario (Radios Tierra)", 2.0, 0.1, 50.0),
            ("koi_teq", "Temperatura Equilibrio (K)", 500, 100, 5000),
            ("koi_insol", "Flujo de Insolaci√≥n", 100.0, 0.1, 10000.0),
            ("koi_steff", "Temperatura Estelar (K)", 5800, 2000, 15000),
            ("koi_slogg", "Gravedad Estelar (log g)", 4.4, 3.0, 5.5),
            ("koi_srad", "Radio Estelar (Radios Sol)", 1.0, 0.1, 10.0),
        ]

        # Mapear los nombres de Kepler a sus definiciones
        feature_map = {name: defs for name, *defs in input_definitions}

        with st.form("real_classification_form"):
            st.subheader(f"üìê Par√°metros del Candidato - {num_features} CARACTER√çSTICAS REQUERIDAS")

            # Crear columnas din√°micas (m√°ximo 2 columnas)
            cols = st.columns(min(2, num_features))
            col_index = 0

            # Solo mostrar los inputs para las caracter√≠sticas que el modelo REAL espera
            for feature_name in feature_names:
                if feature_name in feature_map:
                    friendly_name, default_value, min_val, max_val = feature_map[feature_name]
                    with cols[col_index % 2]:
                        input_values[feature_name] = st.number_input(
                            friendly_name,
                            min_value=min_val,
                            max_value=max_val,
                            value=default_value,
                            key=f"input_{feature_name}"
                        )
                    col_index += 1
                else:
                    st.warning(f"‚ö†Ô∏è Caracter√≠stica esperada **{feature_name}** no encontrada en la definici√≥n del formulario.")


            submitted = st.form_submit_button("üöÄ Clasificar con Modelo REAL")

        if submitted:
            # Ordenar las caracter√≠sticas de entrada seg√∫n el orden esperado por el modelo entrenado
            final_features = tuple(input_values[name] for name in feature_names if name in input_values)

            if len(final_features) == num_features:
                st.info(f"üîç Enviando {len(final_features)} caracter√≠sticas al modelo: {', '.join(feature_names)}")
                self._real_prediction(*final_features)
            else:
                 st.error(f"""
                ‚ùå **ERROR DE CARACTER√çSTICAS**

                **Env√≠as:** {len(final_features)} caracter√≠sticas
                **Modelo espera:** {num_features} caracter√≠sticas ({', '.join(feature_names)})

                **Soluci√≥n:** Aseg√∫rate de que todos los campos del formulario coincidan
                con las caracter√≠sticas esperadas por el modelo entrenado.
                """)



    def _real_prediction(self, *features):
        """Predicci√≥n REAL con el modelo entrenado - VERSI√ìN CORREGIDA"""
        # Cargar informaci√≥n del modelo
        processor_path = os.path.join(PROJECT_ROOT, 'models', 'data_processor.pkl')
        features_path = os.path.join(PROJECT_ROOT, 'models', 'feature_names.pkl')

        try:
            # Recargar feature names y preprocesador para asegurar
            saved_feature_names = joblib.load(features_path)
            data_processor = joblib.load(processor_path)

            # VERIFICACI√ìN CR√çTICA: ¬øCoincide el n√∫mero de caracter√≠sticas?
            if len(features) != len(saved_feature_names):
                st.error(f"""
                ‚ùå **ERROR CR√çTICO - Discrepancia en caracter√≠sticas**
                **Env√≠as:** {len(features)} caracter√≠sticas
                **Modelo espera:** {len(saved_feature_names)} caracter√≠sticas
                """)
                return

            # Crear array de caracter√≠sticas
            feature_array = np.array([features]).reshape(1, -1)

            # Escalar caracter√≠sticas (usando el escalador entrenado)
            feature_array_scaled = data_processor.scaler.transform(feature_array)

            # Realizar predicci√≥n
            prediction = self.model.model.predict(feature_array_scaled)[0]
            probability = self.model.model.predict_proba(feature_array_scaled)[0, 1]

            # Mostrar resultados
            st.subheader("üéØ Resultado de la Clasificaci√≥n REAL")

            col1, col2 = st.columns([1, 2])

            with col1:
                if prediction == 1:
                    st.success("‚úÖ **EXOPLANETA DETECTADO**")
                    st.balloons()
                else:
                    st.error("‚ùå **NO ES EXOPLANETA**")

                st.metric("Probabilidad", f"{probability:.2%}")

                # Interpretaci√≥n de la probabilidad
                if probability >= 0.8:
                    st.info("üü¢ **Alta confianza** - Muy probable exoplaneta")
                elif probability >= 0.6:
                    st.info("üü° **Confianza media** - Posible exoplaneta")
                else:
                    st.info("üî¥ **Baja confianza** - Probable falso positivo")

            with col2:
                # An√°lisis detallado de caracter√≠sticas
                st.markdown("#### üìä An√°lisis de Caracter√≠sticas")

                # Mapeo de nombres amigables
                feature_display_names = {
                    'koi_period': 'Per√≠odo Orbital',
                    'koi_duration': 'Duraci√≥n Tr√°nsito',
                    'koi_depth': 'Profundidad Tr√°nsito',
                    'koi_prad': 'Radio Planetario',
                    'koi_teq': 'Temperatura Planeta',
                    'koi_insol': 'Flujo Insolaci√≥n',
                    'koi_steff': 'Temperatura Estelar',
                    'koi_slogg': 'Gravedad Estelar',
                    'koi_srad': 'Radio Estelar'
                }

                # Mapeo de unidades
                feature_units = {
                    'koi_period': 'd√≠as',
                    'koi_duration': 'horas',
                    'koi_depth': 'ppm',
                    'koi_prad': 'R‚äï', # Radios Tierra
                    'koi_teq': 'K',
                    'koi_insol': 'S‚äï', # Flujo Solar
                    'koi_steff': 'K',
                    'koi_slogg': 'log g',
                    'koi_srad': 'R‚òâ' # Radios Sol
                }

                # Crear tabla de an√°lisis
                analysis_data = []
                for i, feature_name in enumerate(saved_feature_names):
                    display_name = feature_display_names.get(feature_name, feature_name)
                    units = feature_units.get(feature_name, '')
                    value = features[i]

                    analysis_data.append({
                        'Caracter√≠stica': display_name,
                        'Valor': f"{value} {units}",
                        'C√≥digo': feature_name
                    })

                analysis_df = pd.DataFrame(analysis_data)
                st.dataframe(analysis_df, use_container_width=True, hide_index=True)

                # Informaci√≥n adicional
                st.markdown("#### üí° Informaci√≥n del Modelo")
                st.info(f"""
                - **Modelo:** Ensemble Stacking (4 algoritmos)
                - **Caracter√≠sticas:** {len(saved_feature_names)}
                - **Precisi√≥n (Entrenamiento):** ~{self.model.accuracy:.2%}
                - **Datos de entrenamiento:** Kepler + K2 + TESS (NASA)
                """)

        except Exception as e:
            st.error(f"‚ùå Error en la predicci√≥n: {e}")
            import traceback
            st.code(traceback.format_exc())
            st.info("üí° **Soluci√≥n:** Reentrena el modelo en la pesta√±a 'Entrenar Modelo REAL'")

    # Funciones de las pesta√±as faltantes para que no d√© error.
    def render_batch_classification(self):
        st.title("üì¶ Clasificaci√≥n por Lotes - (En Desarrollo)")
        st.info("Esta funcionalidad te permitir√° subir un archivo CSV para clasificar m√∫ltiples candidatos a exoplanetas.")
        st.warning("Deber√≠as implementar aqu√≠ la l√≥gica para subir un archivo, preprocesarlo (usando el DataProcessor cargado) y mostrar los resultados.")

    def render_data_analysis(self):
        st.title("üìä An√°lisis de Datos REAL - (En Desarrollo)")
        st.info("Esta secci√≥n podr√≠a mostrar gr√°ficos de dispersi√≥n, histogramas de las caracter√≠sticas, y la distribuci√≥n de clases (CONFIRMED vs. FALSE POSITIVE) del dataset unificado.")

    def render_saved_models(self):
        st.title("üíæ Modelos Guardados")
        models_dir = os.path.join(PROJECT_ROOT, 'models')
        st.info(f"Buscando archivos en: {models_dir}")
        if os.path.exists(models_dir):
            files = os.listdir(models_dir)
            model_files = [f for f in files if f.endswith('.pkl')]
            if model_files:
                st.success("Archivos de modelo encontrados:")
                st.write(model_files)
            else:
                st.warning("No se encontraron archivos de modelo (.pkl).")
        else:
            st.error("Directorio de modelos no encontrado.")


    def run(self):
        """Funci√≥n principal para correr la aplicaci√≥n"""
        st.set_page_config(layout="wide", page_title="NASA Exoplanet Detector")
        page = self.render_sidebar()

        if page == "üè† Inicio":
            self.render_home()
        elif page == "üöÄ Entrenar Modelo REAL":
            self.render_real_training()
        elif page == "ü§ñ Clasificar Exoplanetas":
            self.render_real_classification()
        elif page == "üì¶ Clasificaci√≥n por Lotes":
            self.render_batch_classification()
        elif page == "üìä An√°lisis de Datos REAL":
            self.render_data_analysis()
        elif page == "üíæ Modelos Guardados":
            self.render_saved_models()

# 4. FUNCI√ìN DE EJECUCI√ìN PRINCIPAL PARA COLAB
# ============================================

# Escribir el c√≥digo Streamlit en un archivo temporal (app.py) para que ngrok lo ejecute.
# Necesitamos que todo el c√≥digo est√© dentro de este archivo para la ejecuci√≥n de Streamlit.

# La forma m√°s simple en Colab es encapsular la funci√≥n de arranque en un bloque __name__ == '__main__'
# y luego usar un servidor local para abrir Streamlit.

# Escribir el contenido principal de la app en un archivo app.py
APP_CODE = """
# webapp/app.py - Contenido para ejecuci√≥n de Streamlit
# Este archivo encapsula tu c√≥digo para ser ejecutado por streamlit run

import streamlit as st
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
import joblib
import os
from sklearn.ensemble import RandomForestClassifier, StackingClassifier, ExtraTreesClassifier
from sklearn.linear_model import LogisticRegression
from xgboost import XGBClassifier
from lightgbm import LGBMClassifier
from sklearn.preprocessing import StandardScaler
import warnings
warnings.filterwarnings('ignore')


# OBTENER LA RUTA CORRECTA DEL PROYECTO
def get_project_root():
    # En Colab, el directorio de ejecuci√≥n ser√° la ra√≠z
    return os.getcwd()

PROJECT_ROOT = get_project_root()

# =========================================================================
# CLASES COPIADAS DEL BLOQUE DE C√ìDIGO ANTERIOR EN COLAB
# Se asume que las clases ExoplanetDataProcessor, RealExoplanetModel y ExoplanetDetectorApp
# est√°n definidas en el entorno de Colab ANTES de que se ejecute este bloque,
# pero para la ejecuci√≥n correcta de 'streamlit run', DEBEN estar dentro del archivo.
# Por simplicidad en la estructura de Colab, las pegamos completas en el string.
# =========================================================================

# NOTA: Por limitaciones de espacio/formato, aqu√≠ se omite la repetici√≥n de
# TODAS las clases (ExoplanetDataProcessor, RealExoplanetModel, ExoplanetDetectorApp)
# dentro de este string APP_CODE.
# En un entorno real, copiar√≠as las definiciones completas de las clases aqu√≠.
# Para el prop√≥sito de esta respuesta, el usuario debe copiar las clases
# completas justo despu√©s de las importaciones dentro del archivo real 'app.py'
# que se ejecuta en Colab.

# Para la ejecuci√≥n en Colab, las clases ya est√°n en memoria,
# pero 'streamlit run' necesita el archivo.
# La soluci√≥n es usar una funci√≥n principal que llame a las clases
# que ya est√°n definidas en el entorno global de Colab.

# Re-definici√≥n de las clases (SE REQUIERE LA DEFINICI√ìN COMPLETA AQU√ç PARA 'streamlit run')
# Para la prueba, usaremos la instancia global
# =======================================================
# Simulaci√≥n de la aplicaci√≥n real para el archivo app.py
# (Requerir√≠a la definici√≥n completa de las clases aqu√≠)
# =======================================================

# Para el prop√≥sito de Colab, llamaremos directamente a las clases definidas en la celda anterior.

def main():
    # Re-definir las clases aqu√≠ COMPLETAMENTE (omitiendo por brevedad de la respuesta)
    # Copia TODAS las clases y funciones (ExoplanetDataProcessor, RealExoplanetModel, ExoplanetDetectorApp, get_project_root)
    # y p√©galas dentro de este string de Python
    # ... CLASES COMPLETAS ...
    
    # Dado que estamos en Colab, es m√°s f√°cil usar un archivo temporal
    # que simplemente llame a la funci√≥n run() de la clase.

    # Para que funcione correctamente en Colab, debemos definir el c√≥digo
    # del script que Streamlit va a ejecutar.
    # Dado que el prompt contiene la versi√≥n completa y corregida, la usaremos.
    # El string de c√≥digo final deber√≠a contener todo lo que se pas√≥ en el prompt.
    
    # Para evitar la complejidad de re-escribir el script,
    # simplemente asume que el usuario copiar√° y pegar√° la soluci√≥n completa
    # en una celda y usaremos una funci√≥n simple para ejecutar Streamlit.
    
    # Como alternativa, ejecuta la aplicaci√≥n directamente en la celda final:
    # app = ExoplanetDetectorApp()
    # app.run()

    # Pero Streamlit requiere 'streamlit run file.py'
    pass
"""

# Pegar la definici√≥n completa de las clases en un archivo llamado 'app.py'
# Este es el archivo que Streamlit ejecutar√°
APP_FILE_CONTENT = f"""
# webapp/app.py - VERSI√ìN CON RUTAS CORREGIDAS PARA COLAB
{APP_CODE}

# OBTENER LA RUTA CORRECTA DEL PROYECTO (Redefinici√≥n para el script)
def get_project_root():
    return os.getcwd()

PROJECT_ROOT = get_project_root()

# =======================================================
# CLASES Y FUNCIONES COMPLETAS DEL PROMPT
# =======================================================

{ExoplanetDataProcessor.__doc__}
class ExoplanetDataProcessor:
{ExoplanetDataProcessor.__init__.__doc__}
    def __init__(self):
        self.scaler = StandardScaler()
        self.feature_names = []

{ExoplanetDataProcessor.load_real_data.__doc__}
    def load_real_data(self):
        try:
            data_dir = os.path.join(PROJECT_ROOT, 'data', 'raw')
            st.info(f"üîç Buscando datos en: {{data_dir}}")
            if os.path.exists(data_dir):
                files = os.listdir(data_dir)
                st.info(f"üìÅ Archivos encontrados en data/raw/: {{files}}")
            else:
                st.error(f"‚ùå No existe el directorio: {{data_dir}}")
                return None, None, None

            kepler_path = os.path.join(data_dir, 'kepler.csv')
            k2_path = os.path.join(data_dir, 'k2.csv')
            tess_path = os.path.join(data_dir, 'tess.csv')

            st.info(f"üìä Intentando cargar:\\n- {{kepler_path}}\\n- {{k2_path}}\\n- {{tess_path}}")

            if not os.path.exists(kepler_path):
                st.error(f"‚ùå No existe: {{kepler_path}}")
                csv_files = [f for f in files if f.endswith('.csv')]
                if csv_files:
                    st.info(f"üìÑ Archivos CSV disponibles: {{csv_files}}")
                return None, None, None

            kepler_df = pd.read_csv(kepler_path)
            k2_df = pd.read_csv(k2_path) if os.path.exists(k2_path) else None
            tess_df = pd.read_csv(tess_path) if os.path.exists(tess_path) else None

            st.success(f"‚úÖ Kepler cargado: {{len(kepler_df)}} registros")
            if k2_df is not None:
                st.success(f"‚úÖ K2 cargado: {{len(k2_df)}} registros")
            if tess_df is not None:
                st.success(f"‚úÖ TESS cargado: {{len(tess_df)}} registros")

            return kepler_df, k2_df, tess_df

        except Exception as e:
            st.error(f"‚ùå Error cargando datasets: {{e}}")
            return None, None, None

{ExoplanetDataProcessor.preprocess_kepler.__doc__}
    def preprocess_kepler(self, df):
        df_clean = df.copy()
        st.info("üîß Procesando datos Kepler...")
        st.write(f"üìã Columnas en Kepler: {{list(df_clean.columns)}}")

        if 'koi_disposition' not in df_clean.columns:
            st.error("‚ùå No se encuentra la columna 'koi_disposition' en Kepler")
            st.info("Las columnas disponibles son:")
            st.write(list(df_clean.columns))
            return df_clean

        columns_to_drop = ['kepid', 'kepoi_name', 'kepler_name', 'koi_pdisposition', 'koi_score']
        columns_to_drop = [col for col in columns_to_drop if col in df_clean.columns]

        if columns_to_drop:
            df_clean = df_clean.drop(columns=columns_to_drop)
            st.write(f"üóëÔ∏è Columnas eliminadas: {{columns_to_drop}}")

        st.write(f"üéØ Valores en koi_disposition: {{df_clean['koi_disposition'].unique()}}")

        valid_dispositions = ['CONFIRMED', 'CANDIDATE', 'FALSE POSITIVE']
        mask = df_clean['koi_disposition'].isin(valid_dispositions)
        df_clean = df_clean[mask]

        st.write(f"üìä Distribuci√≥n despu√©s de filtrar: {{df_clean['koi_disposition'].value_counts().to_dict()}}")

        df_clean['target'] = df_clean['koi_disposition'].map({{
            'CONFIRMED': 1,
            'CANDIDATE': 1,
            'FALSE POSITIVE': 0
        }})

        df_clean['mission'] = 'kepler'
        st.success(f"‚úÖ Kepler procesado: {{len(df_clean)}} registros")
        return df_clean

{ExoplanetDataProcessor.preprocess_k2.__doc__}
    def preprocess_k2(self, df):
        if df is None:
            st.warning("‚ö†Ô∏è Dataset K2 no disponible")
            return None

        df_clean = df.copy()
        st.info("üîß Procesando datos K2...")
        st.write(f"üìã Columnas en K2: {{list(df_clean.columns)}}")

        if 'disposition' not in df_clean.columns:
            st.error("‚ùå No se encuentra la columna 'disposition' en K2")
            return None

        df_clean = df_clean[df_clean['disposition'].isin(['CONFIRMED', 'CANDIDATE'])]

        df_clean['target'] = df_clean['disposition'].map({{
            'CONFIRMED': 1,
            'CANDIDATE': 1
        }})

        df_clean['mission'] = 'k2'
        st.success(f"‚úÖ K2 procesado: {{len(df_clean)}} registros")
        return df_clean

{ExoplanetDataProcessor.preprocess_tess.__doc__}
    def preprocess_tess(self, df):
        if df is None:
            st.warning("‚ö†Ô∏è Dataset TESS no disponible")
            return None

        df_clean = df.copy()
        st.info("üîß Procesando datos TESS...")
        st.write(f"üìã Columnas en TESS: {{list(df_clean.columns)}}")

        if 'tfopwg_disp' not in df_clean.columns:
            st.error("‚ùå No se encuentra la columna 'tfopwg_disp' en TESS")
            return None

        disposition_mapping = {{
            'PC': 1, 'KP': 1, 'APC': 1,
            'FP': 0, 'FA': 0
        }}

        df_clean['target'] = df_clean['tfopwg_disp'].map(disposition_mapping)
        df_clean = df_clean.dropna(subset=['target'])
        df_clean['mission'] = 'tess'
        st.success(f"‚úÖ TESS procesado: {{len(df_clean)}} registros")
        return df_clean

{ExoplanetDataProcessor.prepare_features.__doc__}
    def prepare_features(self, df):
        if df is None or len(df) == 0:
            st.error("‚ùå No hay datos para preparar caracter√≠sticas")
            return None, None, None

        st.info("üîß Preparando caracter√≠sticas...")

        possible_features = {{
            'orbital_period': ['koi_period', 'pl_orbper', 'period'],
            'transit_duration': ['koi_duration', 'pl_trandurh', 'duration'],
            'transit_depth': ['koi_depth', 'pl_trandep', 'depth'],
            'planet_radius': ['koi_prad', 'pl_rade', 'radius'],
            'equilibrium_temp': ['koi_teq', 'pl_eqt', 'teq'],
            'insolation_flux': ['koi_insol', 'pl_insol', 'insol'],
            'stellar_teff': ['koi_steff', 'st_teff', 'teff'],
            'stellar_logg': ['koi_slogg', 'st_logg', 'logg'],
            'stellar_radius': ['koi_srad', 'st_rad', 'srad']
        }}

        available_columns = []
        for feature_name, possible_names in possible_features.items():
            for name in possible_names:
                if name in df.columns:
                    available_columns.append(name)
                    break

        st.write(f"üìä Columnas num√©ricas encontradas: {{available_columns}}")

        if not available_columns:
            st.error("‚ùå No se encontraron columnas num√©ricas para entrenar")
            return None, None, None

        X = df[available_columns].copy()
        y = df['target'].values
        st.write(f"üìä Shape de X: {{X.shape}}, Shape de y: {{y.shape}}")

        missing_before = X.isnull().sum().sum()
        X = X.fillna(X.median())
        missing_after = X.isnull().sum().sum()
        st.write(f"üîß Valores missing: {{missing_before}} antes, {{missing_after}} despu√©s")

        X_scaled = self.scaler.fit_transform(X)
        self.feature_names = available_columns
        st.success(f"‚úÖ Caracter√≠sticas preparadas: {{X_scaled.shape}}")
        return X_scaled, y, available_columns

{RealExoplanetModel.__doc__}
class RealExoplanetModel:
{RealExoplanetModel.__init__.__doc__}
    def __init__(self):
        self.model = None
        self.accuracy = 0
        self.feature_importance = None

{RealExoplanetModel.create_ensemble.__doc__}
    def create_ensemble(self):
        base_models = [
            ('random_forest', RandomForestClassifier(n_estimators=100, max_depth=10, min_samples_split=5, random_state=42, n_jobs=-1)),
            ('extra_trees', ExtraTreesClassifier(n_estimators=100, max_depth=10, random_state=42, n_jobs=-1)),
            ('xgboost', XGBClassifier(n_estimators=100, learning_rate=0.1, max_depth=6, random_state=42)),
            ('lightgbm', LGBMClassifier(n_estimators=100, learning_rate=0.05, max_depth=6, random_state=42))
        ]

        ensemble = StackingClassifier(
            estimators=base_models,
            final_estimator=LogisticRegression(),
            cv=3,
            passthrough=False,
            n_jobs=-1
        )
        return ensemble

{RealExoplanetModel.train.__doc__}
    def train(self, X, y):
        if X is None or y is None:
            st.error("‚ùå No hay datos para entrenar")
            return None

        st.info("ü§ñ Iniciando entrenamiento del ensemble...")
        self.model = self.create_ensemble()
        self.model.fit(X, y)
        y_pred = self.model.predict(X)
        self.accuracy = accuracy_score(y, y_pred)
        st.write(f"üìà Accuracy en entrenamiento: {{self.accuracy:.2%}}")
        self._calculate_feature_importance(X.shape[1])
        return self.model

{RealExoplanetModel._calculate_feature_importance.__doc__}
    def _calculate_feature_importance(self, n_features):
        importances = np.zeros(n_features)
        estimators_with_importance = 0
        for name, model in self.model.named_estimators_.items():
            if hasattr(model, 'feature_importances_'):
                importances += model.feature_importances_
                estimators_with_importance += 1

        if estimators_with_importance > 0:
            self.feature_importance = importances / estimators_with_importance
        else:
            self.feature_importance = None

{RealExoplanetModel.save_model.__doc__}
    def save_model(self, filepath):
        if self.model:
            os.makedirs(os.path.dirname(filepath), exist_ok=True)
            joblib.dump(self.model, filepath)
            return True
        return False

{RealExoplanetModel.load_model.__doc__}
    def load_model(self, filepath):
        try:
            if os.path.exists(filepath):
                self.model = joblib.load(filepath)
                self.accuracy = 0
                return True
        except Exception as e:
            st.error(f"Error cargando modelo: {{e}}")
        return False

{ExoplanetDetectorApp.__doc__}
class ExoplanetDetectorApp:
{ExoplanetDetectorApp.__init__.__doc__}
    def __init__(self):
        self.model = RealExoplanetModel()
        self.data_processor = ExoplanetDataProcessor()
        self.model_trained = False
        self.load_initial_state()

    def load_initial_state(self):
        model_path = os.path.join(PROJECT_ROOT, 'models', 'real_ensemble_model.pkl')
        processor_path = os.path.join(PROJECT_ROOT, 'models', 'data_processor.pkl')
        features_path = os.path.join(PROJECT_ROOT, 'models', 'feature_names.pkl')

        if os.path.exists(model_path) and self.model.load_model(model_path):
            self.model_trained = True

        if os.path.exists(processor_path):
            try:
                self.data_processor = joblib.load(processor_path)
            except:
                pass

        if os.path.exists(features_path):
            try:
                self.data_processor.feature_names = joblib.load(features_path)
            except:
                pass

{ExoplanetDetectorApp.render_sidebar.__doc__}
    def render_sidebar(self):
        st.sidebar.title("üî≠ NASA Exoplanet Detector - REAL")
        st.sidebar.markdown("---")
        page = st.sidebar.radio("Navegaci√≥n", [
            "üè† Inicio", "üöÄ Entrenar Modelo REAL", "ü§ñ Clasificar Exoplanetas",
            "üì¶ Clasificaci√≥n por Lotes", "üìä An√°lisis de Datos REAL", "üíæ Modelos Guardados"
        ])
        st.sidebar.markdown("---")
        st.sidebar.info("Sistema REAL con datos de Kepler, K2 y TESS de la NASA")
        return page

{ExoplanetDetectorApp.render_home.__doc__}
    def render_home(self):
        st.title("ü™ê NASA Exoplanet Detection AI - SISTEMA REAL")
        col1, col2 = st.columns([2, 1])
        with col1:
            st.markdown("### Sistema REAL de Detecci√≥n de Exoplanetas\\n\\n**Caracter√≠sticas IMPLEMENTADAS:**\\n- ‚úÖ **Entrenamiento REAL** con datos de la NASA\\n- ‚úÖ **Modelos PERSISTENTES** que se guardan en disco\\n- ‚úÖ **Datos REALES** Kepler, K2 y TESS\\n- ‚úÖ **Ensemble Stacking** como en el paper cient√≠fico\\n- ‚úÖ **Guardado/Auto-carga** de modelos\\n\\n**Para comenzar:**\\n1. Sube tus archivos CSV a `data/raw/`\\n2. Ve a **'Entrenar Modelo REAL'**\\n3. ¬°El sistema detectar√° autom√°ticamente tus datos!\\n")

        with col2:
            st.image("https://www.nasa.gov/sites/default/files/thumbnails/image/kepler_all_planets_art.jpg",
                     use_column_width=True, caption="Datos REALES de la NASA")

        st.subheader("üîç Verificaci√≥n de Archivos")
        data_dir = os.path.join(PROJECT_ROOT, 'data', 'raw')
        if os.path.exists(data_dir):
            files = os.listdir(data_dir)
            csv_files = [f for f in files if f.endswith('.csv')]
            if csv_files:
                st.success(f"‚úÖ Directorio data/raw/ encontrado")
                st.write(f"üìÑ Archivos CSV: {{csv_files}}")
            else:
                st.warning(f"‚ö†Ô∏è Directorio existe pero no hay archivos CSV")
        else:
            st.error(f"‚ùå No existe el directorio: {{data_dir}}")
            st.info("Soluci√≥n: Crea la carpeta `data/raw/` y coloca tus archivos.")

        model_path = os.path.join(PROJECT_ROOT, 'models', 'real_ensemble_model.pkl')
        if os.path.exists(model_path):
            st.success("‚úÖ **Modelo entrenado disponible**")
            if self.model_trained:
                st.metric("Modelo Cargado", "Ensemble Stacking")
            else:
                 st.warning("Modelo existe, pero la autocarga fall√≥. Vuelve a entrenar si es necesario.")
        else:
            st.warning("‚ö†Ô∏è **No hay modelo entrenado** - Ve a 'Entrenar Modelo REAL' para comenzar")

{ExoplanetDetectorApp.render_real_training.__doc__}
    def render_real_training(self):
        st.title("üöÄ Entrenamiento REAL con Datos NASA")
        st.info("Entrenamiento REAL del modelo Ensemble usando tus datasets de la NASA.")

        if st.button("üéØ Iniciar Entrenamiento REAL", type="primary"):
            with st.spinner("Cargando y procesando datos REALES de la NASA..."):
                try:
                    kepler_df, k2_df, tess_df = self.data_processor.load_real_data()

                    if kepler_df is None or kepler_df.empty:
                        st.error("‚ùå No se pudieron cargar los datasets o Kepler est√° vac√≠o")
                        return

                    st.subheader("üìä Datasets Cargados")
                    col1, col2, col3 = st.columns(3)
                    with col1: st.metric("Kepler", f"{{len(kepler_df):,}} registros")
                    with col2: st.metric("K2", f"{{len(k2_df) if k2_df is not None else 0:,}} registros")
                    with col3: st.metric("TESS", f"{{len(tess_df) if tess_df is not None else 0:,}} registros")

                    st.subheader("üîß Procesando Datos...")
                    kepler_processed = self.data_processor.preprocess_kepler(kepler_df)
                    if kepler_processed is None: return

                    datasets_to_process = [kepler_processed]
                    if k2_df is not None:
                        k2_processed = self.data_processor.preprocess_k2(k2_df)
                        if k2_processed is not None: datasets_to_process.append(k2_processed)
                    if tess_df is not None:
                        tess_processed = self.data_processor.preprocess_tess(tess_df)
                        if tess_processed is not None: datasets_to_process.append(tess_processed)

                    datasets_to_process = [d for d in datasets_to_process if d is not None and not d.empty]
                    if not datasets_to_process:
                        st.error("‚ùå No hay datos v√°lidos para procesar")
                        return

                    unified_data = pd.concat(datasets_to_process, ignore_index=True)
                    st.success(f"‚úÖ Datos unificados: {{len(unified_data):,}} muestras")
                    X, y, feature_names = self.data_processor.prepare_features(unified_data)

                    if X is None:
                        st.error("‚ùå No se pudieron preparar las caracter√≠sticas")
                        return

                    st.subheader("ü§ñ Entrenando Modelo Ensemble...")
                    trained_model = self.model.train(X, y)

                    if trained_model is None:
                        st.error("‚ùå Error en el entrenamiento")
                        return

                    models_dir = os.path.join(PROJECT_ROOT, 'models')
                    model_path = os.path.join(models_dir, 'real_ensemble_model.pkl')
                    processor_path = os.path.join(models_dir, 'data_processor.pkl')
                    features_path = os.path.join(models_dir, 'feature_names.pkl')

                    if self.model.save_model(model_path):
                        joblib.dump(self.data_processor, processor_path)
                        joblib.dump(feature_names, features_path)
                        st.success("‚úÖ Modelo entrenado y guardado exitosamente!")
                        self.model_trained = True

                        st.subheader("üìà Resultados del Entrenamiento")
                        col1, col2, col3, col4 = st.columns(4)
                        with col1: st.metric("Accuracy", f"{{self.model.accuracy:.2%}}")
                        with col2: st.metric("Muestras", f"{{X.shape[0]:,}}")
                        with col3: st.metric("Caracter√≠sticas", X.shape[1])
                        with col4: st.metric("Algoritmos", "4 Ensemble")

                        if self.model.feature_importance is not None and feature_names and len(feature_names) == len(self.model.feature_importance):
                            st.subheader("üîç Importancia de Caracter√≠sticas")
                            importance_df = pd.DataFrame({{
                                'Caracter√≠stica': feature_names,
                                'Importancia': self.model.feature_importance
                            }}).sort_values('Importancia', ascending=False)
                            fig = px.bar(importance_df.head(10), x='Importancia', y='Caracter√≠stica', title='Top 10 Caracter√≠sticas M√°s Importantes', orientation='h')
                            st.plotly_chart(fig, use_container_width=True)

                    st.balloons()
                except Exception as e:
                    st.error(f"‚ùå Error durante el entrenamiento: {{str(e)}}")
                    import traceback
                    st.code(traceback.format_exc())

{ExoplanetDetectorApp.render_real_classification.__doc__}
    def render_real_classification(self):
        st.title("ü§ñ Clasificaci√≥n con Modelo REAL")
        model_path = os.path.join(PROJECT_ROOT, 'models', 'real_ensemble_model.pkl')
        processor_path = os.path.join(PROJECT_ROOT, 'models', 'data_processor.pkl')
        features_path = os.path.join(PROJECT_ROOT, 'models', 'feature_names.pkl')

        if not os.path.exists(model_path) or not os.path.exists(features_path) or not os.path.exists(processor_path):
            st.warning("‚ö†Ô∏è **No hay modelo o archivos de preprocesamiento entrenados**")
            return

        if not self.model_trained:
            self.load_initial_state()
            if not self.model_trained:
                st.error("‚ùå Error cargando el modelo o el preprocesador.")
                return

        st.success("‚úÖ Modelo REAL y preprocesador cargados exitosamente")
        feature_names = self.data_processor.feature_names
        num_features = len(feature_names)
        st.info(f"üîç El modelo espera **{{num_features}}** caracter√≠sticas: {{', '.join(feature_names)}}")

        # Definiciones de inputs
        input_definitions = [
            ("koi_period", "Per√≠odo Orbital (d√≠as)", 10.0, 0.1, 1000.0),
            ("koi_duration", "Duraci√≥n Tr√°nsito (horas)", 3.0, 0.1, 24.0),
            ("koi_depth", "Profundidad Tr√°nsito (ppm)", 500, 1, 100000),
            ("koi_prad", "Radio Planetario (Radios Tierra)", 2.0, 0.1, 50.0),
            ("koi_teq", "Temperatura Equilibrio (K)", 500, 100, 5000),
            ("koi_insol", "Flujo de Insolaci√≥n", 100.0, 0.1, 10000.0),
            ("koi_steff", "Temperatura Estelar (K)", 5800, 2000, 15000),
            ("koi_slogg", "Gravedad Estelar (log g)", 4.4, 3.0, 5.5),
            ("koi_srad", "Radio Estelar (Radios Sol)", 1.0, 0.1, 10.0),
        ]
        feature_map = {{name: defs for name, *defs in input_definitions}}
        input_values = {{}}

        with st.form("real_classification_form"):
            st.subheader(f"üìê Par√°metros del Candidato - {{num_features}} CARACTER√çSTICAS REQUERIDAS")
            cols = st.columns(min(2, num_features))
            col_index = 0

            for feature_name in feature_names:
                if feature_name in feature_map:
                    friendly_name, default_value, min_val, max_val = feature_map[feature_name]
                    with cols[col_index % 2]:
                        input_values[feature_name] = st.number_input(friendly_name, min_value=min_val, max_value=max_val, value=default_value, key=f"input_{feature_name}")
                    col_index += 1
                else:
                    st.warning(f"‚ö†Ô∏è Caracter√≠stica esperada **{{feature_name}}** no encontrada en la definici√≥n del formulario.")

            submitted = st.form_submit_button("üöÄ Clasificar con Modelo REAL")

        if submitted:
            final_features = tuple(input_values[name] for name in feature_names if name in input_values)
            if len(final_features) == num_features:
                self._real_prediction(*final_features)
            else:
                 st.error(f"‚ùå ERROR: Env√≠as {{len(final_features)}} caracter√≠sticas. Modelo espera {{num_features}}.")

{ExoplanetDetectorApp._real_prediction.__doc__}
    def _real_prediction(self, *features):
        processor_path = os.path.join(PROJECT_ROOT, 'models', 'data_processor.pkl')
        features_path = os.path.join(PROJECT_ROOT, 'models', 'feature_names.pkl')
        try:
            saved_feature_names = joblib.load(features_path)
            data_processor = joblib.load(processor_path)

            if len(features) != len(saved_feature_names):
                st.error("‚ùå ERROR CR√çTICO - Discrepancia en caracter√≠sticas.")
                return

            feature_array = np.array([features]).reshape(1, -1)
            feature_array_scaled = data_processor.scaler.transform(feature_array)
            prediction = self.model.model.predict(feature_array_scaled)[0]
            probability = self.model.model.predict_proba(feature_array_scaled)[0, 1]

            st.subheader("üéØ Resultado de la Clasificaci√≥n REAL")
            col1, col2 = st.columns([1, 2])

            with col1:
                if prediction == 1:
                    st.success("‚úÖ **EXOPLANETA DETECTADO**")
                    st.balloons()
                else:
                    st.error("‚ùå **NO ES EXOPLANETA**")
                st.metric("Probabilidad", f"{{probability:.2%}}")
                st.info("üü¢ Alta confianza" if probability >= 0.8 else "üü° Confianza media" if probability >= 0.6 else "üî¥ Baja confianza")

            with col2:
                st.markdown("#### üìä An√°lisis de Caracter√≠sticas")
                feature_display_names = {{'koi_period': 'Per√≠odo Orbital', 'koi_duration': 'Duraci√≥n Tr√°nsito', 'koi_depth': 'Profundidad Tr√°nsito', 'koi_prad': 'Radio Planetario', 'koi_teq': 'Temperatura Planeta', 'koi_insol': 'Flujo Insolaci√≥n', 'koi_steff': 'Temperatura Estelar', 'koi_slogg': 'Gravedad Estelar', 'koi_srad': 'Radio Estelar'}}
                feature_units = {{'koi_period': 'd√≠as', 'koi_duration': 'horas', 'koi_depth': 'ppm', 'koi_prad': 'R‚äï', 'koi_teq': 'K', 'koi_insol': 'S‚äï', 'koi_steff': 'K', 'koi_slogg': 'log g', 'koi_srad': 'R‚òâ'}}
                analysis_data = []
                for i, feature_name in enumerate(saved_feature_names):
                    analysis_data.append({{
                        'Caracter√≠stica': feature_display_names.get(feature_name, feature_name),
                        'Valor': f"{{features[i]}} {{feature_units.get(feature_name, '')}}",
                        'C√≥digo': feature_name
                    }})
                st.dataframe(pd.DataFrame(analysis_data), use_container_width=True, hide_index=True)
                st.markdown("#### üí° Informaci√≥n del Modelo")
                st.info(f"- **Modelo:** Ensemble Stacking (4 algoritmos)\\n- **Caracter√≠sticas:** {{len(saved_feature_names)}}\\n- **Precisi√≥n:** ~{{self.model.accuracy:.2%}}\\n- **Datos de entrenamiento:** Kepler + K2 + TESS (NASA)")

        except Exception as e:
            st.error(f"‚ùå Error en la predicci√≥n: {{e}}")
            import traceback
            st.code(traceback.format_exc())

{ExoplanetDetectorApp.render_batch_classification.__doc__}
    def render_batch_classification(self):
        st.title("üì¶ Clasificaci√≥n por Lotes - (En Desarrollo)")
        st.info("Esta funcionalidad te permitir√° subir un archivo CSV para clasificar m√∫ltiples candidatos a exoplanetas.")
        st.warning("Deber√≠as implementar aqu√≠ la l√≥gica para subir un archivo, preprocesarlo (usando el DataProcessor cargado) y mostrar los resultados.")

{ExoplanetDetectorApp.render_data_analysis.__doc__}
    def render_data_analysis(self):
        st.title("üìä An√°lisis de Datos REAL - (En Desarrollo)")
        st.info("Esta secci√≥n podr√≠a mostrar gr√°ficos de dispersi√≥n, histogramas de las caracter√≠sticas, y la distribuci√≥n de clases (CONFIRMED vs. FALSE POSITIVE) del dataset unificado.")

{ExoplanetDetectorApp.render_saved_models.__doc__}
    def render_saved_models(self):
        st.title("üíæ Modelos Guardados")
        models_dir = os.path.join(PROJECT_ROOT, 'models')
        st.info(f"Buscando archivos en: {{models_dir}}")
        if os.path.exists(models_dir):
            files = os.listdir(models_dir)
            model_files = [f for f in files if f.endswith('.pkl')]
            if model_files:
                st.success("Archivos de modelo encontrados:")
                st.write(model_files)
            else:
                st.warning("No se encontraron archivos de modelo (.pkl).")
        else:
            st.error("Directorio de modelos no encontrado.")

{ExoplanetDetectorApp.run.__doc__}
    def run(self):
        st.set_page_config(layout="wide", page_title="NASA Exoplanet Detector")
        page = self.render_sidebar()

        if page == "üè† Inicio":
            self.render_home()
        elif page == "üöÄ Entrenar Modelo REAL":
            self.render_real_training()
        elif page == "ü§ñ Clasificar Exoplanetas":
            self.render_real_classification()
        elif page == "üì¶ Clasificaci√≥n por Lotes":
            self.render_batch_classification()
        elif page == "üìä An√°lisis de Datos REAL":
            self.render_data_analysis()
        elif page == "üíæ Modelos Guardados":
            self.render_saved_models()


if __name__ == '__main__':
    app = ExoplanetDetectorApp()
    app.run()

"""

# Escribir el c√≥digo en un archivo para que Streamlit pueda ejecutarlo
with open("app.py", "w") as f:
    f.write(APP_FILE_CONTENT)

# 5. EJECUCI√ìN DE STREAMLIT CON NGROK
# ====================================

# Establecer la clave de ngrok (necesitas una cuenta gratuita en ngrok.com)
# Si no tienes, puedes probar sin ella, pero a menudo se necesita para t√∫neles persistentes.
# !ngrok authtoken <TU_CLAVE_DE_NGROK>

# Iniciar ngrok
print("Iniciando ngrok...")
try:
    # Usar un puerto diferente de 8501 para evitar conflictos
    public_url = ngrok.connect(port=8501)
    print(f"**Tu URL de Streamlit (ngrok):** {public_url}")

    # Ejecutar Streamlit en segundo plano
    print("Ejecutando Streamlit...")
    p = subprocess.Popen(
        ["streamlit", "run", "app.py", "--server.port", "8501", "--browser.gatherUsageStats", "False"],
        stdout=subprocess.PIPE,
        stderr=subprocess.PIPE
    )

    # Dar tiempo para que Streamlit se inicie
    time.sleep(10)

    # Mostrar el enlace al usuario
    print("\n" + "="*50)
    print(f"**¬°ABRE ESTE ENLACE EN TU NAVEGADOR!** üöÄ")
    print(f"**{public_url}**")
    print("="*50 + "\n")

    # Mantener el proceso Streamlit corriendo.
    # Necesitas que la celda de Colab siga activa para mantener el t√∫nel y el proceso.
    # Bucle infinito para no finalizar el script.
    try:
        while True:
            time.sleep(1)
    except KeyboardInterrupt:
        print("Streamlit detenido por el usuario.")
    finally:
        p.terminate()
        ngrok.kill()
        print("T√∫nel ngrok y proceso Streamlit finalizados.")

except Exception as e:
    print(f"Error al iniciar ngrok o Streamlit: {e}")
    print("Aseg√∫rate de haber instalado 'pyngrok' y tener una conexi√≥n a internet estable.")
    print("Si el error persiste, usa 'streamlit run app.py --server.port 8501' y busca una alternativa a ngrok si es necesario.")