In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns
import joblib # Para guardar y cargar el modelo

# Crear un DataFrame de ejemplo (datos ficticios)
data = {
    'cursos_previos_relacionados': [3, 1, 4, 2, 5, 1, 3, 4, 2, 5] * 10, # Multiplicamos para tener más datos
    'intereses_declarados': [4, 2, 5, 3, 5, 1, 4, 5, 2, 5] * 10,
    'participacion_actividades': [1, 0, 1, 0, 1, 0, 1, 1, 0, 1] * 10,
    'evaluacion_aptitud': [80, 60, 95, 70, 90, 50, 85, 92, 65, 98] * 10,
    'interes_agrtech': [1, 0, 1, 0, 1, 0, 1, 1, 0, 1] * 10
}
df = pd.DataFrame(data)

# Separar características (X) y variable objetivo (y)
X = df[['cursos_previos_relacionados', 'intereses_declarados', 'participacion_actividades', 'evaluacion_aptitud']]
y = df['interes_agrtech']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar un modelo de clasificacion (Random Forest)
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Guardar el modelo entrenado
joblib.dump(model, 'modelo_interes_agrtech.pkl')
print("Modelo guardado como 'modelo_interes_agrtech.pkl'")

# Cargar el modelo (simulando que lo cargas para usarlo después)
modelo_cargado = joblib.load('modelo_interes_agrtech.pkl')
print("Modelo cargado exitosamente.")

# Realizar predicciones en el conjunto de prueba con el modelo cargado
y_pred = modelo_cargado.predict(X_test)

# **Visualizaciones para la Presentación Ejecutiva**

# 1. Importancia de las Características
feature_importances = pd.Series(model.feature_importances_, index=X.columns).sort_values(ascending=False)

plt.figure(figsize=(10, 6))
sns.barplot(x=feature_importances, y=feature_importances.index)
plt.title('Importancia de las Características en la Predicción de Interés en Agrtech')
plt.xlabel('Importancia')
plt.ylabel('Características')
plt.show()

# 2. Matriz de Confusión
cm = confusion_matrix(y_test, y_pred)

plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=['No Interesado', 'Interesado'], yticklabels=['No Interesado', 'Interesado'])
plt.xlabel('Predicción')
plt.ylabel('Real')
plt.title('Matriz de Confusión')
plt.show()

# 3. Reporte de Clasificación (texto, para complementar las visualizaciones)
print("\nReporte de Clasificación:")
print(classification_report(y_test, y_pred, target_names=['No Interesado', 'Interesado']))

# **Ejemplo Interactivo Simulado**

print("\n--- Ejemplo de Predicción para un Nuevo Estudiante ---")

# Datos de entrada para un nuevo estudiante
nuevo_estudiante_data = {
    'cursos_previos_relacionados': [4],
    'intereses_declarados': [5],
    'participacion_actividades': [1],
    'evaluacion_aptitud': [90]
}
nuevo_estudiante_df = pd.DataFrame(nuevo_estudiante_data)

# Usar el modelo cargado para predecir
prediccion_nuevo = modelo_cargado.predict(nuevo_estudiante_df)

print(f"Datos del nuevo estudiante: {nuevo_estudiante_data}")

if prediccion_nuevo[0] == 1:
    print("Predicción del modelo: Es probable que este estudiante esté interesado en Agrtech.")
else:
    print("Predicción del modelo: Es probable que este estudiante no esté interesado en Agrtech.")

print("\n--- Fin del Ejemplo ---")