#Proyecto Final - Parte Machine Learning - STEM women

Este proyecto busca desarrollar un sistema de recomendaci√≥n de iniciativas STEM personalizadas seg√∫n el tipo de actividad, el formato y la edad del usuario, as√≠ como un modelo de predicci√≥n.

In [None]:
import numpy as np
import pandas as pd
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
import xgboost as xgb
import lightgbm as lgb
import tensorflow as tf
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, classification_report
from imblearn.over_sampling import SMOTE


In [None]:
df_iniciativas = pd.read_excel('/content/df_2019_2024_limpio.xlsx')


In [None]:
df_iniciativas.columns = df_iniciativas.columns.str.strip().str.lower()

In [None]:
df_iniciativas.columns.tolist()

# SELECCI√ìN E INGENIER√çA DE CARACTER√çSTICAS

In [None]:
# Selecionar colunas num√©ricas para an√°lise
df_num = df_iniciativas.select_dtypes(include=['int64', 'float64'])

# Verificar se h√° valores faltantes
print(df_num.isnull().sum())

# Visualizar correla√ß√£o com Total_impactos
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 8))
sns.heatmap(df_num.corr()[['total_impactos']].sort_values(by='total_impactos', ascending=False), annot=True, cmap='viridis')
plt.title("Correlaci√≥n com Total_impactos")
plt.show()

In [None]:
# Seleccionar columnas num√©ricas para el an√°lisis
df_num = df_iniciativas.select_dtypes(include=['int64', 'float64'])

# Generar la matriz de correlaci√≥n
matriz_correlacion = df_num.corr()

# Mostrar la matriz de correlaci√≥n
print(matriz_correlacion)

‚úÖ** Importante: Este resultado no se generar√° por motivos de protecci√≥n de datos.**

üìä Correlation Analysis

We generated a heatmap to visualize the correlation between numerical variables and total_impactos.

    The variables with the highest positive correlation with total impact were:

        13_14_a√±os ‚Üí 0.74

        Total_Impactos_Carrera ‚Üí 0.72

        inicio_GradoFP ‚Üí 0.68

    Variables with low correlation included:

        evento, blog, recursos, and some specific regions.

üß† Conclusions

    Age group and career stage are strongly related to the success of the initiatives (higher impact).

    Variables like type of content (events, blogs) and location have less direct influence.

    These findings help guide the personalization of future recommendations.

In [None]:
from sklearn.ensemble import RandomForestRegressor

X = df_iniciativas.select_dtypes(include=['int64', 'float64']).drop(columns=['total_impactos'])
y = df_iniciativas['total_impactos']

model = RandomForestRegressor()
model.fit(X, y)

importancia = pd.Series(model.feature_importances_, index=X.columns).sort_values(ascending=False)
print(importancia.head(10))

 Modelo de Random Forest

    Entrenamos un modelo de RandomForestRegressor para identificar la importancia real de las variables en la predicci√≥n del impacto.

    Algunas variables con baja correlaci√≥n, como formaci√≥n, mentor√≠a y evento, mostraron alta importancia para el modelo.

    Esto se debe a que el modelo considera interacciones no lineales entre variables.

 ## Recomendador Personalizado por Perfil:

 Este algoritmo recomenda iniciativas com base no perfil do usu√°rio, aplicando filtros e medindo a similaridade com iniciativas existentes.
üßæ Entradas do Perfil

    edad: Faixa et√°ria ou etapa da carreira (ex: final_GradoMaster)

    formato: Prefer√™ncia de formato (Presencial, Online, H√≠brida)

    actividad_preferida: Tipo de atividade desejada (ex: formacion, mentor√≠a)

‚öôÔ∏è Processo da Recomenda√ß√£o

    Padroniza√ß√£o de colunas

        Corrige nomes e formata strings para min√∫sculas.

    Mapeamento de import√¢ncia

        Converte categorias (como formacion, evento) em valores num√©ricos via mapeo_importancia.

    Filtros aplicados:

        üîπ Idade/etapa: Filtra iniciativas compat√≠veis com a faixa et√°ria informada.

        üîπ Formato: Mant√©m apenas as iniciativas no formato preferido.

        üîπ Atividade preferida: Exige um n√≠vel m√≠nimo de import√¢ncia (‚â• 2) para a atividade desejada.

    Cria√ß√£o de vetores de atividade

        Gera vetores para iniciativas e para o usu√°rio.

    Normaliza√ß√£o (MinMaxScaler)

        Normaliza os dados para que fiquem no mesmo intervalo (0 a 1).

    C√°lculo de similaridade (Cosine Similarity)

        Compara o vetor do usu√°rio com os vetores das iniciativas.

        Retorna as iniciativas mais semelhantes.



In [None]:
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics.pairwise import cosine_similarity

# ======== CONFIGURACIONES ========
actividad_preferida = [
    'formacion', 'evento', 'mentoring', 'blog', 'rrss',
    'bolsa_trabajo', 'networking', 'recursos', 'emprendimiento'
]

mapeo_importancia = {
    'no se realiza': 0,
    'poco importante': 1,
    'algo importante': 2,
    'importante': 3,
    'muy importante': 4
}

columnas_edad = [
    '1_5_a√±os', '6_9_a√±os', '10_12_a√±os', '13_14_a√±os', '15_16_a√±os',
    'bachillerato', 'inicio_gradofp', 'final_gradomaster',
    'etapa_junior', 'etapa_consolidacion', 'etapa_madurez'
]

formatos_validos = ['online', 'presencial', 'h√≠brida']

# ======== FUNCI√ìN PRINCIPAL ========
def recomendar_por_perfil(perfil, df, actividades, top_n=5):
    df = df.copy()
    df.columns = df.columns.str.strip().str.lower()  # normaliza nombres de columnas

    # Mapeo de valores de importancia a n√∫meros
    for col in actividades:
        if col in df.columns:
            df[col] = df[col].fillna('no se realiza').astype(str).str.strip().str.lower().map(mapeo_importancia).fillna(0)

    col_edad = perfil['edad'].strip().lower()
    formato_usuario = perfil['formato'].strip().lower()
    act = perfil['actividad_preferida'].strip().lower()

    # Filtro por edad
    if col_edad in columnas_edad and col_edad in df.columns:
        filtro = df[df[col_edad] > 0].copy()
    else:
        filtro = df.copy()
    print("‚û°Ô∏è Total despu√©s del filtro por edad:", filtro.shape[0])

    # Filtro por formato
    if formato_usuario in formatos_validos and formato_usuario in df.columns:
        filtro = filtro[filtro[formato_usuario] == 1].copy()
    print("‚û°Ô∏è Total despu√©s del filtro por formato:", filtro.shape[0])

    # Filtro por actividad preferida (nivel m√≠nimo = 2)
    if act in actividades:
        filtro = filtro[filtro[act] >= 2].copy()
    print("‚û°Ô∏è Total despu√©s del filtro por actividad preferida:", filtro.shape[0])

    if filtro.empty:
        print("‚ö†Ô∏è No se encontraron iniciativas despu√©s de aplicar los filtros.")
        return pd.DataFrame()

    # Vectores de iniciativas (actividades)
    sub = filtro[actividades].copy()

    # Normalizaci√≥n con MinMaxScaler
    scaler = MinMaxScaler()
    sub_norm = scaler.fit_transform(sub)

    # Vector del usuario
    vector = [0] * len(actividades)
    if act in actividades:
        vector[actividades.index(act)] = 3

    # Normalizaci√≥n del vector del usuario
    vector_norm = scaler.transform([vector])

    # C√°lculo de similitud
    similitudes = cosine_similarity(vector_norm, sub_norm)[0]
    filtro = filtro.copy()
    filtro['similitud'] = similitudes

    return filtro.sort_values(by='similitud', ascending=False).head(top_n)[
        ['nombre_iniciativa', 'formato_simplificado', 'similitud']
    ]

# ======== EJEMPLO DE USO ========
# Suponiendo que df_iniciativas ya ha sido cargado (ej. con pd.read_csv)
# y contiene columnas como 'formacion', 'evento', etc.

perfil_usuario = {
    'edad': 'final_GradoMaster',
    'formato': 'Presencial',
    'actividad_preferida': 'formacion'
}

resultados = recomendar_por_perfil(perfil_usuario, df_iniciativas, actividad_preferida)

if not resultados.empty:
    print(resultados)
else:
    print("No se encontraron iniciativas para este perfil.")

‚úÖ** Importante: Este resultado no se generar√° por motivos de protecci√≥n de datos.**

## Evaluaci√≥n del Modelo

In [None]:
from sklearn.metrics import precision_score, recall_score

# Simular um usu√°rio fict√≠cio
perfil_usuario_ficticio = {
    'edad': 'final_GradoMaster',   # Faixa et√°ria preferida
    'formato': 'presencial',       # Formato preferido
    'actividad_preferida': 'formacion'  # Atividade preferida
}

# Gerar as recomenda√ß√µes para esse usu√°rio fict√≠cio
recomendaciones = recomendar_por_perfil(perfil_usuario_ficticio, df_iniciativas, actividad_preferida)

# Agora simular a relev√¢ncia de cada recomenda√ß√£o
relevancia_predita = []
y_true = []

# Simular manualmente se a recomenda√ß√£o seria relevante
for _, row in recomendaciones.iterrows():
    # Verificar apenas atividade e formato (n√£o precisa da idade para relev√¢ncia)
    atividade_relevante = perfil_usuario_ficticio['actividad_preferida'].lower() in row['nombre_iniciativa'].lower()
    formato_relevante = perfil_usuario_ficticio['formato'].lower() in row['formato_simplificado'].lower()

    # Relevante se a atividade e formato coincidirem
    is_relevant = 1 if (atividade_relevante and formato_relevante) else 0
    relevancia_predita.append(is_relevant)
    y_true.append(is_relevant)  # Para simular, marcamos como relevante quando √© relevante

# Calcular Precision e Recall
precision = precision_score(y_true, relevancia_predita, zero_division=0)
recall = recall_score(y_true, relevancia_predita, zero_division=0)

# Exibir resultados
print(f"Precision: {precision}")
print(f"Recall: {recall}")


**Posibles causas del bajo rendimiento del modelo:**

No hay datos reales de usuarios (ground truth).

y_true y relevancia_predita fueron definidos con las mismas reglas del modelo ‚Üí genera circularidad


**Resultado: **
M√©tricas como Precision = 0.0, Recall = 0.0 no reflejan la calidad real del sistema.


**Evaluaci√≥n inv√°lida porque:**
El modelo no est√° siendo probado contra elecciones reales.
Solo confirma lo que √©l mismo ya filtr√≥.
Las m√©tricas supervisadas solo tienen sentido con retroalimentaci√≥n del usuario.


##**Otra alternativa de m√©tricas de evaluaci√≥n**

In [None]:
# ======== EVALUACI√ìN ========
def evaluacion_modelo(df, recomendaciones, perfil_usuario, actividades):
    recomendados = recomendaciones['nombre_iniciativa'].values.tolist()

    # Simulaci√≥n de ground truth: iniciativas con alto valor para la actividad preferida
    act = perfil_usuario['actividad_preferida'].strip().lower()
    actividades_col = [a.lower() for a in actividades]

    if act not in actividades_col:
        print(f"‚ö†Ô∏è La actividad '{act}' no est√° entre las actividades v√°lidas.")
        return 0, 0, 0

    reales = df[df[act] >= 3]['nombre_iniciativa'].values.tolist()
    acertadas = len(set(recomendados).intersection(reales))
    precision = acertadas / len(recomendados) if recomendados else 0

    # Simulaci√≥n de RMSE
    vector_perfil = [0] * len(actividades_col)
    vector_perfil[actividades_col.index(act)] = 3

    df_activ = df[actividades_col].fillna(0)
    similitudes = cosine_similarity([vector_perfil], df_activ.values)[0]
    predicciones = similitudes[:len(recomendados)]
    rmse = np.sqrt(mean_squared_error([3]*len(predicciones), predicciones)) if predicciones.any() else 0

    # Simulaci√≥n de tasa de engagement
    engagement_simulado = np.random.rand(len(recomendados))
    tasa_engagement = np.mean(engagement_simulado)

    print(f"‚û°Ô∏è Precisi√≥n simulada: {precision:.2f}")
    print(f"‚û°Ô∏è RMSE simulado: {rmse:.2f}")
    print(f"‚û°Ô∏è Engagement simulado: {tasa_engagement:.2f}")

    return precision, rmse, tasa_engagement

# ======== EJEMPLO DE USO ========
# Aseg√∫rate de que tu DataFrame est√© cargado (por ejemplo: df_iniciativas = pd.read_csv("..."))
# Y que los nombres de columnas coincidan con los esperados.

perfil_usuario = {
    'edad': 'final_GradoMaster',
    'formato': 'Presencial',
    'actividad_preferida': 'formacion'  # elige una columna que exista
}

# Ejecutar
try:
    recomendaciones = recomendar_por_perfil(perfil_usuario, df_iniciativas, actividad_preferida)
    if not recomendaciones.empty:
        print(recomendaciones)
        evaluacion_modelo(df_iniciativas, recomendaciones, perfil_usuario, actividad_preferida)
    else:
        print("‚ö†Ô∏è No se encontraron recomendaciones.")
except Exception as e:
    print("Error:", e)
    print("Columnas disponibles en el dataset:")
    print(df_iniciativas.columns.tolist())

 ‚úÖ "Importante: Este resultado no se generar√° por motivos de protecci√≥n de datos."


Dado que no tenemos datos reales de usuario, utilizamos una evaluaci√≥n simulada:
Precisi√≥n simulada: Compara las recomendaciones con las iniciativas relevantes seg√∫n el perfil del usuario.

RMSE simulado: Mide la diferencia entre las preferencias del usuario y las recomendaciones.

Engagement simulado: Genera valores aleatorios para simular la tasa de interacci√≥n.

Evaluaci√≥n Cualitativa:
Verifica manualmente si las recomendaciones tienen sentido.
Pide la evaluaci√≥n de expertos.

Limitaciones:
Las m√©tricas no reflejan interacciones reales, solo aproximaciones del modelo.
Pr√≥ximos pasos: Evaluar con datos reales para usar m√©tricas como Precision@N, Recall@N y NDCG.

# Modelo de Predici√≥n

Algoritmo
Regresi√≥n Lineal (LinearRegression de scikit-learn)
Relaci√≥n lineal entre impacto de iniciativas y matr√≠culas

Objetivo: Predicci√≥n de Matr√≠culas a partir del Impacto de las Iniciativas
Uni√≥n de DataFrames:
Combinamos df_iniciativas (impacto de iniciativas) con df_matriculadas (matr√≠culas en bachillerato) usando la columna a√±o.
Modelo de Predicci√≥n:
Utilizamos regresi√≥n lineal para predecir las matr√≠culas en los pr√≥ximos 5 a√±os bas√°ndonos en el impacto de las iniciativas pasadas.
Resultados:
Predicci√≥n de matr√≠culas para los pr√≥ximos a√±os y visualizaci√≥n en un gr√°fico.
La matriz de correlaci√≥n mostr√≥ la relaci√≥n entre el impacto de las iniciativas y las matr√≠culas en bachillerato.

In [None]:
df_matriculadas = pd.read_excel('/content/Mujeres matriculadas em Ci√™ncias y Tecnologia -Grado_Ciclo_Bachillerato - 2011-2024 Ciencias(1).xlsx')
df_matriculadas

In [None]:
df_matriculadas.columns = df_matriculadas.columns.str.strip()  # Remove espa√ßos e quebras de linha no in√≠cio/fim

In [None]:
df_matriculadas.columns = df_matriculadas.columns.str.replace(r'\s+', ' ', regex=True).str.strip()

In [None]:
df_matriculadas

In [None]:
# 1. Renombrar columnas para asegurar compatibilidad
df_matriculadas.rename(columns={'A√±o': 'a√±o', 'Bachillerato': 'matriculas_bachillerato'}, inplace=True)
df_iniciativas.rename(columns={'A√±o': 'a√±o', 'total_impactos': 'impacto_iniciativas'}, inplace=True)

# 2. Realizar el merge (uni√≥n) de los dos DataFrames por el a√±o
df_combinado = pd.merge(df_iniciativas, df_matriculadas, on='a√±o', how='inner')



# 3. Eliminar filas con valores NaN en las columnas de inter√©s
variables = ['impacto_iniciativas', 'matriculas_bachillerato', 'Grado y Ciclo']
df_combinado = df_combinado.dropna(subset=variables)

# 4. Calcular y mostrar la matriz de correlaci√≥n como un heatmap
import seaborn as sns
import matplotlib.pyplot as plt

matriz_correlacion = df_combinado[variables].corr()

plt.figure(figsize=(8, 6))
sns.heatmap(matriz_correlacion, annot=True, cmap='coolwarm', fmt='.2f', vmin=-1, vmax=1)
plt.title("Matriz de Correlaci√≥n de las Variables Seleccionadas")
plt.show()


**Qu√© muestra el resultado?**

impacto_iniciativas y matriculas_bachillerato tienen una correlaci√≥n muy alta (0.88), lo que indica que cuando aumenta una, la otra tambi√©n tiende a aumentar.
matriculas_bachillerato y Grado y Ciclo tambi√©n tienen una correlaci√≥n positiva considerable (0.67).
impacto_iniciativas y Grado y Ciclo tienen una correlaci√≥n positiva moderada (0.49).
Esto sugiere que existe una relaci√≥n importante entre el impacto de las iniciativas y el n√∫mero de matr√≠culas, y que tambi√©n hay relaci√≥n con el grado/ciclo educativo.

**Evaluaci√≥n del Modelo**

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# Suponha que os DataFrames df_matriculadas e df_iniciativas j√° foram carregados e renomeados
# Como voc√™ j√° fez:
# df_matriculadas.rename(columns={'A√±o': 'a√±o', 'Bachillerato': 'matriculas_bachillerato'}, inplace=True)
# df_iniciativas.rename(columns={'A√±o': 'a√±o', 'total_impactos': 'impacto_iniciativas'}, inplace=True)

# 1. Merge
df_combinado = pd.merge(df_iniciativas, df_matriculadas, on='a√±o', how='inner')

# 2. Eliminar NaNs
variables = ['impacto_iniciativas', 'matriculas_bachillerato', 'Grado y Ciclo']
df_combinado = df_combinado.dropna(subset=variables)

# 3. Treinar modelo de regress√£o linear
X = df_combinado[['impacto_iniciativas']]
y = df_combinado['matriculas_bachillerato']

modelo = LinearRegression()
modelo.fit(X, y)

# 4. Prever matr√≠culas para os pr√≥ximos 5 anos
ultimo_ano = df_combinado['a√±o'].max()
anos_futuros = [ultimo_ano + i for i in range(1, 6)]

# Simular crescimento dos impactos futuros (ex: crescimento linear)
ultimo_impacto = df_combinado['impacto_iniciativas'].iloc[-1]
incremento = 3000  # Ajuste conforme necess√°rio
impactos_futuros = np.array([[ultimo_impacto + incremento * i] for i in range(1, 6)])

prediccion_matriculas = modelo.predict(impactos_futuros)

# 5. Plotar tudo
plt.figure(figsize=(10, 6))

# Matr√≠culas hist√≥ricas
plt.plot(df_combinado['a√±o'], df_combinado['matriculas_bachillerato'], marker='o', label='Matr√≠culas Hist√≥ricas')

# Impacto das iniciativas (no mesmo eixo para visualiza√ß√£o, mas s√£o escalas diferentes!)
plt.plot(df_combinado['a√±o'], df_combinado['impacto_iniciativas'], marker='x', label='Impacto de las Iniciativas', color='orange')

# Predi√ß√£o de matr√≠culas
plt.plot(anos_futuros, prediccion_matriculas, linestyle='--', marker='s', color='green', label='Predicci√≥n Matr√≠culas')

# Personaliza√ß√£o
plt.xlabel("A√±o")
plt.ylabel("N√∫mero de Matr√≠culas")
plt.title("Predicci√≥n de Matr√≠culas en √Åreas Cient√≠ficas Basada en el Impacto de las Iniciativas")
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()

¬øQu√© muestra el gr√°fico?
Matr√≠culas hist√≥ricas: crecimiento leve y estable hasta 2022.
Impacto de iniciativas: gran variabilidad, fuerte aumento en 2023.
Predicci√≥n 2024‚Äì2028: matr√≠culas se mantienen constantes (~153.398).
Interpretaci√≥n
El modelo predice estabilidad, sin reflejar el aumento del impacto.
Indica que el modelo es conservador o insensible a cambios recientes.
Podr√≠a haber factores no incluidos que influyen m√°s que el impacto.
 Limitaciones del an√°lisis
Falta de datos previos a las iniciativas.
Escasez de datos desagregados por g√©nero (mujeres).
Esto limita la evaluaci√≥n real del impacto de las iniciativas.

#Evaluaci√≥n del Modelo

R¬≤ (Coeficiente de Determinaci√≥n)
Valor entre 0 e 1 (quanto mais perto de 1, melhor).
Mede a propor√ß√£o da vari√¢ncia explicada pelo modelo.
 Ideal para ver o ajuste geral.
MAE (Error Absoluto Medio)
M√©dia das diferen√ßas absolutas entre previs√µes e valores reais.
F√°cil de interpretar (mesma unidade que a vari√°vel prevista).
MSE (Error Cuadr√°tico Medio)
Erros elevados s√£o penalizados mais fortemente.
Sens√≠vel a outliers.
RMSE (Ra√≠z del MSE)
Interpreta√ß√£o mais intuitiva do MSE (mesma unidade das matr√≠culas).

In [None]:
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error
import numpy as np

y_pred = modelo.predict(X)
print("R¬≤:", r2_score(y, y_pred))
print("MAE:", mean_absolute_error(y, y_pred))
print("RMSE:", np.sqrt(mean_squared_error(y, y_pred)))

AFINACI√ìN DE HIPERPAR√ÅMETROS

T√©cnica utilizada: GridSearchCV
Validaci√≥n cruzada: LeaveOneOut (ideal para pocos datos)

Modelo afinado: Ridge (Regresi√≥n con regularizaci√≥n)
Hiperpar√°metro ajustado: alpha
Valores probados: 0.01, 0.1, 1, 10, 100
Mejor resultado: alpha = 0.01

In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import Ridge

param_grid = {'alpha': [0.01, 0.1, 1, 10, 100]}
grid = GridSearchCV(Ridge(), param_grid, cv=5, scoring='r2')
grid.fit(X, y)

print("Melhor par√¢metro:", grid.best_params_)
print("Melhor R¬≤:", grid.best_score_)

Afina√ß√£o de hiperparametros do modelo de predicion

In [None]:
from sklearn.linear_model import Ridge
from sklearn.model_selection import GridSearchCV, LeaveOneOut
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error
import numpy as np

# Defina seus dados (X e y j√° devem estar prontos)
# Exemplo: X = df_combinado[['impacto_iniciativas']], y = df_combinado['matriculas_bachillerato']

# Configura√ß√£o do Leave-One-Out
loo = LeaveOneOut()

# Grade de hiperpar√¢metros para testar
param_grid = {'alpha': [0.01, 0.1, 1, 10, 100]}

# Cria√ß√£o do GridSearch com valida√ß√£o Leave-One-Out
grid = GridSearchCV(Ridge(), param_grid, cv=loo, scoring='r2')
grid.fit(X, y)

# Melhor modelo encontrado
mejor_modelo = grid.best_estimator_

# Avalia√ß√£o do modelo final (previs√£o no mesmo conjunto ‚Äî ou voc√™ pode usar divis√£o treino/teste)
y_pred = mejor_modelo.predict(X)

# M√©tricas
r2 = r2_score(y, y_pred)
mae = mean_absolute_error(y, y_pred)
rmse = np.sqrt(mean_squared_error(y, y_pred))

# Resultados
print("Mejor par√°metro (alpha):", grid.best_params_)
print(f"R¬≤: {r2:.4f}")
print(f"MAE: {mae:.2f}")
print(f"RMSE: {rmse:.2f}")

5. CONCLUSIONES

El modelo de predicci√≥n muestra estabilidad en las matr√≠culas para 2024‚Äì2028, sin reflejar el reciente aumento por impacto de iniciativas, lo que indica un enfoque conservador y posibles limitaciones por falta de datos hist√≥ricos y desagregados.

El modelo de recomendaci√≥n, evaluado de forma simulada ante la ausencia de datos reales de usuario, ofrece resultados prometedores, aunque las m√©tricas actuales solo aproximan el rendimiento real.

Ambos modelos enfrentan desaf√≠os por la escasez y calidad de los datos, lo que limita la evaluaci√≥n precisa del impacto y la personalizaci√≥n.

Como pr√≥ximos pasos, es clave incorporar datos m√°s completos y reales para validar y mejorar la capacidad predictiva y la relevancia de las recomendaciones, utilizando m√©tricas especializadas como Precision@N, Recall@N y NDCG.

Somos conscientes de las carencias que tiene la base de datos: principalmente, la alta disparidad en los valores de impacto entre iniciativas, muchas con bajo alcance y unas pocas con impactos muy elevados pero que distorsionan la media. Por ello, como mejora futura que ya se est√° trabajando, se plantea la creaci√≥n de un indicador de impacto ponderado, que tenga en cuenta factores como la duraci√≥n de la iniciativa, la frecuencia con la que se repite y el tipo de actividad. Esto permitir√≠a obtener una visi√≥n m√°s justa y representativa del impacto real. Sin embargo, resulta muy complejo, ya que cada iniciativa suele englobar m√∫ltiples actividades con caracter√≠sticas distintas, dificultando una respuesta clara sobre duraci√≥n y repetici√≥n.