In [5]:
import pandas as pd
import warnings
import matplotlib.pyplot as plt
import openpyxl
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, roc_auc_score

In [6]:
import pandas as pd
import warnings
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

# ===============================
# 1. Cargar datos (igual)
# ===============================
def cargar_datos(ruta):
    df = pd.read_excel(ruta)
    return df


# ===============================
# 2. Validar columnas de forma flexible
# ===============================
def obtener_columnas_validas(df):
    columnas_esperadas = [
        'inasistencias',
        'promedio',
        'participacion',
        'apoyo_familiar'
    ]

    columnas_disponibles = []

    for col in columnas_esperadas:
        if col in df.columns:
            columnas_disponibles.append(col)
        else:
            warnings.warn(f"Advertencia: No se encontr√≥ la columna '{col}'. Se omitir√°.")

    if len(columnas_disponibles) < 2:
        raise ValueError("Error cr√≠tico: Muy pocas variables para entrenar el modelo.")

    return columnas_disponibles


# ===============================
# 3. Limpieza autom√°tica de tipos y nulos
# ===============================
def limpiar_datos(df, columnas):
    for col in columnas:
        df[col] = pd.to_numeric(df[col], errors='coerce')

    nulos = df[columnas].isnull().sum().sum()
    if nulos > 0:
        warnings.warn(f"Advertencia: Se encontraron {nulos} valores nulos. Se reemplazar√°n por la media.")
        df[columnas] = df[columnas].fillna(df[columnas].mean())

    return df


# ===============================
# 4. Definir X e y de forma flexible
# ===============================
def definir_variables(df, columnas):
    if 'deserto' not in df.columns:
        raise ValueError("Error cr√≠tico: No existe la variable objetivo.")

    X = df[columnas]
    y = df['deserto']

    return X, y


# ===============================
# 5. Divisi√≥n adaptable
# ===============================
def dividir_datos(X, y):
    test_size = 0.3 if len(X) > 20 else 0.2
    warnings.warn(f"Advertencia: Tama√±o de dataset peque√±o. Usando test_size={test_size}")
    return train_test_split(X, y, test_size=test_size, random_state=42)


# ===============================
# 6. Entrenamiento siempre que sea posible
# ===============================
def entrenar_modelo(X_train, y_train):
    modelo = RandomForestClassifier()
    modelo.fit(X_train, y_train)
    return modelo


# ===============================
# 7. Flujo principal parcial
# ===============================
def main_parcial():
    try:
        print("üîπ Cargando datos...")
        df = cargar_datos("data.xlsx")

        print("üîπ Detectando columnas disponibles...")
        columnas = obtener_columnas_validas(df)

        print("üîπ Limpiando datos autom√°ticamente...")
        df = limpiar_datos(df, columnas)

        print("üîπ Definiendo variables...")
        X, y = definir_variables(df, columnas)

        print("üîπ Dividiendo datos...")
        X_train, X_test, y_train, y_test = dividir_datos(X, y)

        print("üîπ Entrenando modelo con variables disponibles...")
        modelo = entrenar_modelo(X_train, y_train)

        print("üîπ Predicci√≥n parcial completada.")
        y_prob = modelo.predict_proba(X_test)[:, 1]

        print("‚úÖ Ejecuci√≥n parcial completada con √©xito.")

    except Exception as e:
        print(f"\n‚ùå {e}")


if __name__ == "__main__":
    main_parcial()


üîπ Cargando datos...
üîπ Detectando columnas disponibles...

‚ùå Error cr√≠tico: Muy pocas variables para entrenar el modelo.


