In [47]:
import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np


###### ArCo ARMADO DE LA BASE#######
import os
from typing import List
from datetime import datetime

# Establecer el directorio de trabajo
os.chdir("C:/Users/supegui/Documents/Metodología ArCo/Python/Excel")
# Saca la lista de archivos del directorio de trabajo
#os.listdir()
# Obtener la fecha actual
fecha_actual = datetime.now().strftime("%Y %m %d")
#print(fecha_actual)

# Construir el nombre del archivo basado en la fecha actual
#nombre_archivo = f"{fecha_actual} Informe ArCo.xlsx"

# Construir el nombre del archivo cuando la fecha no es la actual. Aquí solo se modifica la fecha. 
nombre_archivo = "2024 10 30 - Base Original.xlsx"

data_arco = pd.read_excel(nombre_archivo)

In [48]:
# 1. Primero, creamos una matriz de características binarias para cada instrumento
def crear_matriz_caracteristicas(data_arco):
    # Seleccionamos las columnas relevantes
    cols_usuarios = ['Emprendedores', 'Mipymes', 'Grandes empresas', 'Gobierno ', 'Academia', 'Entidades de soporte', 'Personas naturales']
    
    # Creamos una matriz donde cada fila es un instrumento y cada columna es un tipo de usuario
    matriz_caracteristicas = data_arco[cols_usuarios].copy()
    
    # Convertimos 'Si'/'No' a 1/0
    matriz_caracteristicas = (matriz_caracteristicas == 'Si').astype(int)
    
    return matriz_caracteristicas

In [49]:
matriz_cara = crear_matriz_caracteristicas(data_arco)

print(matriz_cara)

     Emprendedores  Mipymes  Grandes empresas  Gobierno   Academia  \
0                0        0                 0          0         0   
1                0        0                 1          0         0   
2                0        1                 1          1         1   
3                0        0                 0          1         0   
4                0        0                 0          1         1   
..             ...      ...               ...        ...       ...   
413              0        0                 0          1         0   
414              0        0                 0          0         0   
415              0        1                 0          1         1   
416              0        1                 0          1         1   
417              0        0                 0          0         0   

     Entidades de soporte  Personas naturales  
0                       1                   0  
1                       1                   0  
2              

In [50]:

"""
# 2. Calculamos la similitud entre instrumentos - Jaccard
def calcular_similitud(data_arco):
    # Obtenemos la matriz de características
    matriz = crear_matriz_caracteristicas(data_arco)
    
    # Inicializamos la matriz de similitud
    n_instrumentos = len(data_arco)
    matriz_similitud = np.zeros((n_instrumentos, n_instrumentos))
    
    # Calculamos la similitud para cada par de instrumentos
    for i in range(n_instrumentos):
        for j in range(n_instrumentos):
            # Extraemos los vectores de características para los instrumentos i y j
            instrumento_i = matriz.iloc[i].values
            instrumento_j = matriz.iloc[j].values
            
            # Calculamos similitud usando coincidencias
            coincidencias = sum(instrumento_i & instrumento_j)  # AND lógico
            total_usuarios = sum(instrumento_i | instrumento_j)  # OR lógico
            
            # Calculamos el coeficiente de Jaccard
            if total_usuarios > 0:
                similitud = coincidencias / total_usuarios
            else:
                similitud = 0
                
            matriz_similitud[i][j] = similitud
    
    return matriz_similitud
""""2024 10 25 - Base Original.xlsx"
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

def calcular_similitud(data_arco):
    # Obtenemos la matriz de características
    matriz = crear_matriz_caracteristicas(data_arco)
    
    # Calculamos la matriz de similitud de coseno
    matriz_similitud = cosine_similarity(matriz)
    
    return matriz_similitud


In [51]:
sim_jac = calcular_similitud(data_arco)
#print(sim_jac)
#sim_jac.shape


In [52]:
# 3. Convertimos la similitud a ratings
def calcular_ratings(data_arco):
    # Calculamos la matriz de similitud
    matriz_similitud = calcular_similitud(data_arco)
    
    # Creamos un DataFrame con los ratings
    ratings = []
    
    for i in range(len(matriz_similitud)):
        for j in range(len(matriz_similitud)):
            if i != j:  # No incluimos la similitud de un instrumento consigo mismo
                ratings.append({
                    'Instrumento_A': data_arco.iloc[i]['Código'],
                    'Nombre_A': data_arco.iloc[i]['Nombre del Instrumento'],
                    'Instrumento_B': data_arco.iloc[j]['Código'],
                    'Nombre_B': data_arco.iloc[j]['Nombre del Instrumento'],
                    'Rating': round(matriz_similitud[i][j] * 5, 2)  # Convertimos a escala 0-5
                })
    
    df_ratings = pd.DataFrame(ratings)
    
    # Ordenamos por rating de mayor a menor
    df_ratings = df_ratings.sort_values('Rating', ascending=False)
    
    return df_ratings

In [55]:
# 4. Función principal que integra todo el proceso
def generar_ratings_colaborativos(data_arco):
    # Calculamos los ratings
    df_ratings = calcular_ratings(data_arco)
    
    # Filtramos solo los pares con rating significativo (por ejemplo, mayor a 2)
    df_ratings_significativos = df_ratings[df_ratings['Rating'] > 2]
    
    return df_ratings_significativos

# Ejemplo de uso:
ratings_finales = generar_ratings_colaborativos(data_arco)
print(ratings_finales.head(10))

        Instrumento_A                                           Nombre_A  \
105855           2428  Línea Especial de Microcrédito Inclusión Finan...   
122208           2800                CIBERPAZ EXPRESIÓN – LEGADO DE GABO   
122180           2798                            Ciber Paz – Formaciones   
122177           2798                            Ciber Paz – Formaciones   
122175           2798                            Ciber Paz – Formaciones   
122174           2798                            Ciber Paz – Formaciones   
122173           2798                            Ciber Paz – Formaciones   
122163           2798                            Ciber Paz – Formaciones   
122143           2798                            Ciber Paz – Formaciones   
122142           2798                            Ciber Paz – Formaciones   

        Instrumento_B                                           Nombre_B  \
105855           3570  Beneficio de Capital Semilla para miembros act...   
122208     

## Sistema de recomendación


In [67]:
from surprise import Dataset, Reader, SVD, KNNBasic, NMF, accuracy, similarities
from surprise.model_selection import train_test_split, cross_validate
from collections import defaultdict

class SistemaRecomendacion:
    def __init__(self, df_ratings):
        """
        Inicializa el sistema de recomendación con el DataFrame de ratings
        
        Parameters:
        -----------
        df_ratings : pandas.DataFrame
            DataFrame que debe contener las columnas ['Instrumento_A', 'Instrumento_B', 'Rating']
        """
        # Validar que el DataFrame tiene las columnas necesarias
        required_columns = ['Instrumento_A', 'Instrumento_B', 'Rating']
        if not all(col in df_ratings.columns for col in required_columns):
            raise ValueError(f"El DataFrame debe contener las columnas: {required_columns}")
            
        self.df_ratings = df_ratings.copy()
        
        # Verificar que no hay valores nulos
        if self.df_ratings[required_columns].isna().any().any():
            raise ValueError("El DataFrame contiene valores nulos")
        
        # Aseguramos que los ratings están en el rango correcto
        self.df_ratings['Rating'] = self.df_ratings['Rating'].clip(0, 5)
        
        # Configuramos el reader con un rango válido
        self.reader = Reader(rating_scale=(0, 5))
        
        try:
            # Convertimos a formato Surprise
            self.data = Dataset.load_from_df(
                self.df_ratings[required_columns], 
                self.reader
            )
        except Exception as e:
            raise ValueError(f"Error al convertir datos al formato Surprise: {str(e)}")
        
        # Definimos los modelos base
        self.modelos = {
            'SVD': SVD(
                n_factors=50,
                n_epochs=20,
                lr_all=0.005,
                reg_all=0.02,
                random_state=42
            ),
            'NMF': NMF(
                n_factors=15,
                n_epochs=50,
                random_state=42
            )
        }
        
        # Calcular el número de ratings por instrumento de manera correcta
        ratings_a = self.df_ratings['Instrumento_A'].value_counts()
        ratings_b = self.df_ratings['Instrumento_B'].value_counts()
        
        # Combinar los conteos
        todos_instrumentos = set(ratings_a.index) | set(ratings_b.index)
        ratings_totales = pd.Series(0, index=todos_instrumentos)
        
        for instrumento in todos_instrumentos:
            total = (ratings_a.get(instrumento, 0) + 
                    ratings_b.get(instrumento, 0))
            ratings_totales[instrumento] = total
        
        min_ratings = ratings_totales.min()
        print(f"Número mínimo de ratings por instrumento: {min_ratings}")
        print(f"Número máximo de ratings por instrumento: {ratings_totales.max()}")
        print(f"Promedio de ratings por instrumento: {ratings_totales.mean():.2f}")
        
        # Agregamos KNN solo si tenemos suficientes datos y ratings
        if len(self.df_ratings) > 10 and min_ratings >= 2:
            # Calculamos k de manera más conservadora
            k = min(
                20,  # máximo valor de k
                max(2, len(self.df_ratings) // 10)  # k proporcional al tamaño del dataset
            )
            
            self.modelos['KNN'] = KNNBasic(
                k=k,
                min_k=2,
                sim_options={
                    'name': 'pearson_baseline',
                    'user_based': False,
                    'min_support': 2,
                    'shrinkage': 100
                }
            )
            print(f"KNN configurado con k={k}")
        else:
            print("No se incluirá KNN debido a insuficientes datos o ratings por instrumento")
        
        self.mejor_modelo = None
        self.metricas_modelos = {}
        
        print(f"\nTotal de instrumentos únicos: {len(todos_instrumentos)}")
        print(f"Total de ratings: {len(self.df_ratings)}")

    def evaluar_modelos(self):
        """
        Evalúa diferentes modelos usando validación cruzada
        
        Returns:
        --------
        dict
            Diccionario con las métricas de evaluación de cada modelo
        """
        if len(self.df_ratings) < 5:
            raise ValueError("Se necesitan al menos 5 ratings para evaluar los modelos")
            
        print("\nEvaluando modelos...")
        for nombre, modelo in self.modelos.items():
            try:
                # Realizar validación cruzada
                n_folds = min(5, len(self.df_ratings) // 2)
                n_folds = max(2, n_folds)
                
                resultados = cross_validate(
                    modelo, 
                    self.data, 
                    measures=['RMSE', 'MAE'], 
                    cv=n_folds, 
                    verbose=False
                )
                
                self.metricas_modelos[nombre] = {
                    'RMSE_medio': np.mean(resultados['test_rmse']),
                    'MAE_medio': np.mean(resultados['test_mae']),
                    'tiempo_fit_medio': np.mean(resultados['fit_time']),
                    'tiempo_test_medio': np.mean(resultados['test_time'])
                }
                
                print(f"✓ Modelo {nombre} evaluado exitosamente")
                print(f"  RMSE: {self.metricas_modelos[nombre]['RMSE_medio']:.4f}")
                print(f"  MAE: {self.metricas_modelos[nombre]['MAE_medio']:.4f}")
                
            except Exception as e:
                print(f"✗ Error evaluando modelo {nombre}: {str(e)}")
                print("  Este modelo será excluido de las recomendaciones")
                continue
        
        if not self.metricas_modelos:
            raise ValueError("Ningún modelo pudo ser evaluado exitosamente")
            
        # Encontrar el mejor modelo basado en RMSE
        mejor_modelo_nombre = min(
            self.metricas_modelos, 
            key=lambda x: self.metricas_modelos[x]['RMSE_medio']
        )
        self.mejor_modelo = self.modelos[mejor_modelo_nombre]
        print(f"\n→ Mejor modelo: {mejor_modelo_nombre}")
        
        return self.metricas_modelos

    def evaluar_modelos(self):
        """
        Evalúa diferentes modelos usando validación cruzada
        
        Returns:
        --------
        dict
            Diccionario con las métricas de evaluación de cada modelo
        """
        if len(self.df_ratings) < 5:
            raise ValueError("Se necesitan al menos 5 ratings para evaluar los modelos")
            
        print("\nEvaluando modelos...")
        for nombre, modelo in self.modelos.items():
            try:
                # Realizar validación cruzada
                n_folds = min(5, len(self.df_ratings) // 2)
                n_folds = max(2, n_folds)
                
                resultados = cross_validate(
                    modelo, 
                    self.data, 
                    measures=['RMSE', 'MAE'], 
                    cv=n_folds, 
                    verbose=False
                )
                
                self.metricas_modelos[nombre] = {
                    'RMSE_medio': np.mean(resultados['test_rmse']),
                    'MAE_medio': np.mean(resultados['test_mae']),
                    'tiempo_fit_medio': np.mean(resultados['fit_time']),
                    'tiempo_test_medio': np.mean(resultados['test_time'])
                }
                
                print(f"✓ Modelo {nombre} evaluado exitosamente")
                print(f"  RMSE: {self.metricas_modelos[nombre]['RMSE_medio']:.4f}")
                print(f"  MAE: {self.metricas_modelos[nombre]['MAE_medio']:.4f}")
                
            except Exception as e:
                print(f"✗ Error evaluando modelo {nombre}: {str(e)}")
                print("  Este modelo será excluido de las recomendaciones")
                continue
        
        if not self.metricas_modelos:
            raise ValueError("Ningún modelo pudo ser evaluado exitosamente")
            
        # Encontrar el mejor modelo basado en RMSE
        mejor_modelo_nombre = min(
            self.metricas_modelos, 
            key=lambda x: self.metricas_modelos[x]['RMSE_medio']
        )
        self.mejor_modelo = self.modelos[mejor_modelo_nombre]
        print(f"\n→ Mejor modelo: {mejor_modelo_nombre}")
        
        return self.metricas_modelos

    def entrenar_mejor_modelo(self):
        """
        Entrena el mejor modelo con todos los datos
        """
        if self.mejor_modelo is None:
            raise ValueError("Debe evaluar los modelos primero")
            
        trainset = self.data.build_full_trainset()
        self.mejor_modelo.fit(trainset)

    def generar_recomendaciones(self, instrumento_id, n=5):
        """
        Genera recomendaciones para un instrumento específico con manejo de errores
        """
        if self.mejor_modelo is None:
            raise ValueError("Debe entrenar el modelo primero")
            
        # Obtener todos los instrumentos únicos
        instrumentos_unicos = set(self.df_ratings['Instrumento_A'].unique()) | \
                            set(self.df_ratings['Instrumento_B'].unique())
        
        if instrumento_id not in instrumentos_unicos:
            raise ValueError(f"Instrumento {instrumento_id} no encontrado en el conjunto de datos")
        
        # Generar predicciones para todos los pares posibles
        predicciones = []
        for otro_instrumento in instrumentos_unicos:
            if otro_instrumento != instrumento_id:
                try:
                    pred = self.mejor_modelo.predict(instrumento_id, otro_instrumento)
                    predicciones.append({
                        'Instrumento_origen': instrumento_id,
                        'Instrumento_recomendado': otro_instrumento,
                        'Rating_predicho': pred.est,
                        'Detalles': pred.details
                    })
                except Exception as e:
                    print(f"Error prediciendo para {otro_instrumento}: {str(e)}")
                    continue
        
        if not predicciones:
            raise ValueError("No se pudieron generar predicciones")
            
        # Convertir a DataFrame y ordenar
        df_recomendaciones = pd.DataFrame(predicciones)
        df_recomendaciones = df_recomendaciones.sort_values(
            'Rating_predicho', 
            ascending=False
        ).head(n)
        
        return df_recomendaciones

    def mostrar_metricas(self):
        """
        Muestra las métricas de evaluación de todos los modelos
        """
        if not self.metricas_modelos:
            raise ValueError("No hay métricas disponibles. Debe evaluar los modelos primero")
            
        df_metricas = pd.DataFrame(self.metricas_modelos).round(4)
        return df_metricas.transpose()

def crear_y_evaluar_sistema(df_ratings):
    """
    Función principal para crear y evaluar el sistema de recomendación
    """
    # Verificar que tenemos suficientes datos
    if len(df_ratings) < 5:
        raise ValueError("Se necesitan al menos 5 ratings para crear el sistema")
        
    # Verificar que tenemos variabilidad en los ratings
    if df_ratings['Rating'].std() < 0.1:
        raise ValueError("No hay suficiente variabilidad en los ratings")
        
    # Crear sistema
    sistema = SistemaRecomendacion(df_ratings)
    
    # Evaluar modelos
    try:
        metricas = sistema.evaluar_modelos()
        print("\nMétricas de evaluación:")
        print(sistema.mostrar_metricas())
        
        # Entrenar mejor modelo
        sistema.entrenar_mejor_modelo()
        
    except Exception as e:
        print(f"Error en la evaluación del sistema: {str(e)}")
        raise
    
    return sistema

# Ejemplo de uso:
"""
try:
    # Crear y evaluar el sistema
    sistema = crear_y_evaluar_sistema(df_ratings)
    
    # Generar recomendaciones para un instrumento específico
    instrumento_ejemplo = df_ratings['Instrumento_A'].iloc[126]
    recomendaciones = sistema.generar_recomendaciones(instrumento_ejemplo, n=20)
    print("\nRecomendaciones para instrumento", instrumento_ejemplo)
    print(recomendaciones)
    
except Exception as e:
    print(f"Error: {str(e)}")
    
"""

'\ntry:\n    # Crear y evaluar el sistema\n    sistema = crear_y_evaluar_sistema(df_ratings)\n    \n    # Generar recomendaciones para un instrumento específico\n    instrumento_ejemplo = df_ratings[\'Instrumento_A\'].iloc[126]\n    recomendaciones = sistema.generar_recomendaciones(instrumento_ejemplo, n=20)\n    print("\nRecomendaciones para instrumento", instrumento_ejemplo)\n    print(recomendaciones)\n    \nexcept Exception as e:\n    print(f"Error: {str(e)}")\n    \n'

In [68]:
# Crear y entrenar el sistema de recomendación
sistema = SistemaRecomendacion(df_ratings)

sistema.evaluar_modelos()

Número mínimo de ratings por instrumento: 834
Número máximo de ratings por instrumento: 834
Promedio de ratings por instrumento: 834.00
KNN configurado con k=20

Total de instrumentos únicos: 418
Total de ratings: 174306

Evaluando modelos...
✓ Modelo SVD evaluado exitosamente
  RMSE: 0.1060
  MAE: 0.0644
✓ Modelo NMF evaluado exitosamente
  RMSE: 0.2502
  MAE: 0.1733
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
✓ Modelo KNN evaluado exitosamente
  RMSE: 0

{'SVD': {'RMSE_medio': 0.10600988073888921,
  'MAE_medio': 0.06436936303492209,
  'tiempo_fit_medio': 0.7374232769012451,
  'tiempo_test_medio': 0.13460288047790528},
 'NMF': {'RMSE_medio': 0.2502034455871976,
  'MAE_medio': 0.17329091713421355,
  'tiempo_fit_medio': 1.5844726085662841,
  'tiempo_test_medio': 0.1448535442352295},
 'KNN': {'RMSE_medio': 0.3794134750392395,
  'MAE_medio': 0.19411382543610706,
  'tiempo_fit_medio': 2.408037233352661,
  'tiempo_test_medio': 4.410260152816773}}

In [69]:
sistema.entrenar_mejor_modelo()

## Gradio


In [11]:
!pip install gradio

Collecting gradio
  Downloading gradio-4.44.1-py3-none-any.whl.metadata (15 kB)
Collecting aiofiles<24.0,>=22.0 (from gradio)
  Downloading aiofiles-23.2.1-py3-none-any.whl.metadata (9.7 kB)
Collecting anyio<5.0,>=3.0 (from gradio)
  Downloading anyio-4.6.2.post1-py3-none-any.whl.metadata (4.7 kB)
Collecting fastapi<1.0 (from gradio)
  Downloading fastapi-0.115.4-py3-none-any.whl.metadata (27 kB)
Collecting ffmpy (from gradio)
  Downloading ffmpy-0.4.0-py3-none-any.whl.metadata (2.9 kB)
Collecting gradio-client==1.3.0 (from gradio)
  Downloading gradio_client-1.3.0-py3-none-any.whl.metadata (7.1 kB)
Collecting httpx>=0.24.1 (from gradio)
  Downloading httpx-0.27.2-py3-none-any.whl.metadata (7.1 kB)
Collecting huggingface-hub>=0.19.3 (from gradio)
  Downloading huggingface_hub-0.26.2-py3-none-any.whl.metadata (13 kB)
Collecting markupsafe~=2.0 (from gradio)
  Downloading MarkupSafe-2.1.5-cp39-cp39-win_amd64.whl.metadata (3.1 kB)
Collecting orjson~=3.0 (from gradio)
  Downloading orjson-

In [70]:
import gradio as gr
import pandas as pd

# Supón que ya tienes el DataFrame `df_ratings` cargado
# y los diccionarios `nombre_a_codigo` y `nombre_a_descripcion` configurados.

# Crear y entrenar el sistema de recomendación
#sistema = SistemaRecomendacion(df_ratings)
#sistema.evaluar_modelos()
#sistema.entrenar_mejor_modelo()

def obtener_recomendaciones_graficas(instrumento_nombre, n=5):
    """
    Genera las recomendaciones para un instrumento específico en la interfaz gráfica
    """
    try:
        # Convertimos el nombre del instrumento al código correspondiente
        instrumento_id = nombre_a_codigo[instrumento_nombre]

        # Generamos recomendaciones
        recomendaciones = sistema.generar_recomendaciones(instrumento_id, n)

        # Construimos el resultado en formato de texto para mostrar en Gradio
        resultado = f"Recomendaciones para el instrumento: {instrumento_nombre}\n\n"
        for i, row in recomendaciones.iterrows():
            nombre_recomendado = nombre_a_descripcion.get(row['Instrumento_recomendado'], "Desconocido")
            resultado += f"Instrumento recomendado: {nombre_recomendado}\n"
            resultado += f"Rating predicho: {row['Rating_predicho']:.2f}\n\n"

        return resultado
    
    except Exception as e:
        return f"Error generando recomendaciones: {str(e)}"

# Configurar nombres de instrumentos en un dropdown para el selector
nombres_instrumentos = sorted(df_ratings['Nombre_B'].unique())

# Crear la interfaz de Gradio
demo = gr.Interface(
    fn=obtener_recomendaciones_graficas,
    inputs=gr.Dropdown(
        choices=nombres_instrumentos,
        label="Seleccione un instrumento por nombre"
    ),
    outputs=gr.Textbox(
        label="Recomendaciones",
        lines=10
    ),
    title="Sistema de Recomendación de Instrumentos",
    description="Seleccione un instrumento para ver recomendaciones de otros instrumentos similares con el mejor rating predicho.",
    theme="default"
)

# Iniciar la aplicación
if __name__ == "__main__":
    demo.launch()




Running on local URL:  http://127.0.0.1:7870

To create a public link, set `share=True` in `launch()`.
