# Modelo de Recomendação Baseado em Filtragem Colaborativa - LegacyLab

# Introdução

&emsp;&emsp;No contexto do LegacyLab, um sistema de recomendação baseado em históricos de interações desempenha um papel fundamental na amplificação das oportunidades de sinergia dentro da comunidade do programa CEO’s Legacy. Nesse contexto, este notebook é responsável por treinar e avaliar o modelo de recomendação da solução.

&emsp;&emsp;Este sistema utiliza técnicas de recomendação para sugerir projetos que possam resultar em colaborações produtivas entre os CEOs participantes, impulsionando a inovação e fortalecendo os laços de colaboração.

&emsp;&emsp;Ao sugerir colaborações potenciais com base nos interesses e histórico de interações dos usuários, o LegacyLab fortalece os vínculos entre os líderes empresariais e amplia o alcance das iniciativas de desenvolvimento executivo promovidas pela Fundação Dom Cabral.



## Considerações

- O dataset usado para treino do modelo é resultado da exploração e pré-processamento realizado neste [notebook](https://colab.research.google.com/drive/1J4U1TNepy_4qg_reuuoIQ43rXL46sGJy?usp=sharing).
- Existem dois algoritmos esplorados nesse notebook: o KNN e o SDV. Porém, somente o SVD foi considerado para o modelo final. A equipe de desenvolvedores do LegacyLab opitou pelo SVD pelas seguintes razões:
1. Redução da dimensionalidade dos dados, extraindo as características latentes mais importantes dos usuários e itens;
2. O SVD captura relações latentes entre usuários e itens que não são explicitamente visíveis, permitindo recomendações mais precisas e personalizadas;
3. O SVD é mais escalável para grandes conjuntos de dados, pois a decomposição pode ser feita de maneira eficiente e o modelo resultante é compacto.

## Entendimento dos dados

In [35]:
!gdown 1h8MQr2XDy5qG318xSAzLmIUfBYMVCPwK

Downloading...
From: https://drive.google.com/uc?id=1h8MQr2XDy5qG318xSAzLmIUfBYMVCPwK
To: /content/dataset.csv
  0% 0.00/95.0k [00:00<?, ?B/s]100% 95.0k/95.0k [00:00<00:00, 82.8MB/s]


In [36]:
# Dataset final já limpo na sprint 01.
import pandas as pd
import numpy as np
dataset = '/content/dataset.csv'

In [37]:
# Lê os dados do dataset
df_model = pd.read_csv(dataset)
df_model.head()

Unnamed: 0,id_Project,id_User,score
0,1,167,5
1,1,384,5
2,1,499,5
3,1,575,5
4,1,796,5


# KNN


## Atenção!

Vale ressaltar que o modelo KNN aqui treinado, NÃO sera utilizado no projeto final. Os desenvolvedores do LegacyLab decidiram utilizado de exemplo para ilustrar a possibilidade de contruir modelos de recomendação com base em outros algorítmos além do SVD.

## Como funciona


No contexto de modelos de recomendação, o algoritmo K-Nearest Neighbors (KNN) utiliza uma matriz de interação onde as linhas representam usuários (id_User), as colunas representam projetos (id_Project) e as células contêm as avaliações dos projetos pelos usuários. O funcionamento do KNN para recomendação pode ser descrito da seguinte forma:

1. Cálculo de Similaridade
Entre Usuários: O KNN pode calcular a similaridade entre os usuários com base em suas avaliações de projetos. O Método de cálculo de similaridade utilizado pelo Legacy foi a similaridade do cosseno. A similaridade indica quão parecidos são dois usuários em termos de suas preferências.
2. Identificação dos Vizinhos Mais Próximos
Depois de calcular as similaridades, o algoritmo identifica os k vizinhos mais próximos. Como estamos recomendando para um usuário específico, o KNN identifica os k usuários mais similares (vizinhos) a esse usuário.
3. Geração de Recomendações
Para Usuários: Uma vez identificados os k usuários mais similares, o KNN prevê a avaliação de um projeto específico para o usuário alvo baseando-se nas avaliações dadas a esse projeto pelos vizinhos.
4. Avaliação e Recomendação
Com as previsões feitas, o sistema pode recomendar ao usuário projetos que ele ainda não avaliou, mas que são altamente avaliados por seus vizinhos mais próximos ou que são similares a outros projetos que ele já gostou.

## Normalização e matriz de interação

In [38]:
# Definindo as colunas relevantes para a matriz de interação
colunas_interesse = ['id_User', 'id_Project', 'score']

# Criar a Matriz de Interação entre Avaliadores e Projetos
interaction_matrix = df_model[colunas_interesse].pivot(index='id_User', columns='id_Project', values='score').fillna(0)

interaction_matrix

id_Project,1,2,3,4,5,6,7,8,9,10,...,1415,1416,1417,1418,1419,1420,1421,1422,1423,1424
id_User,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1420,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1421,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1422,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1423,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [39]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

# Ajusta e transforma a matriz de interação usando o StandardScaler
interaction_matrix_scaled = scaler.fit_transform(interaction_matrix)

interaction_matrix_scaled

array([[-0.06507148, -0.07031005, -0.08646813, ..., -0.07031005,
        -0.05309319, -0.06507148],
       [-0.06507148, -0.07031005, -0.08646813, ..., -0.07031005,
        -0.05309319, -0.06507148],
       [-0.06507148, -0.07031005, -0.08646813, ..., -0.07031005,
        -0.05309319, -0.06507148],
       ...,
       [-0.06507148, -0.07031005, -0.08646813, ..., -0.07031005,
        -0.05309319, -0.06507148],
       [-0.06507148, -0.07031005, -0.08646813, ..., -0.07031005,
        -0.05309319, -0.06507148],
       [-0.06507148, -0.07031005, -0.08646813, ..., -0.07031005,
        -0.05309319, -0.06507148]])

## O modelo

In [40]:
from sklearn.neighbors import NearestNeighbors

In [41]:
# Definde o modelo como KNN
knn_model = NearestNeighbors(metric='cosine', algorithm='brute')

In [42]:
# Aplica KNN na matriz padronizada
knn_model.fit(interaction_matrix_scaled)

In [43]:
# Função para Recomendação de Projetos Baseada nos Avaliadores
def recommend_projects(id_User, num_recommendations=15):
    # Encontra a linha do id do avaliador na matriz, se não gera erro.
    try:
        evaluator_index = interaction_matrix.index.get_loc(id_User)
    except KeyError:
        return f"Avaliador {id_User} não encontrado."

    # Encontrar os vizinhos mais próximos do avaliador atual. Ele retorna as distâncias e os índices dos vizinhos mais próximos,
    # considerando o número especificado de recomendações mais um (para compensar o próprio avaliador).
    distances, indices = knn_model.kneighbors([interaction_matrix_scaled[evaluator_index]], n_neighbors=num_recommendations + 1)

    # Itera sobre os índices dos vizinhos mais próximos, recupera os IDs dos projetos que esses vizinhos avaliaram positivamente na matriz de interação
    # e os adiciona à lista de recomendações.
    recommendations = []
    for index in indices.flatten()[1:]:
        project_ids = interaction_matrix.columns[interaction_matrix.iloc[index] > 0].tolist()
        recommendations.extend(project_ids)

    # Remove projetos já avaliados pelo avaliador atual
    already_rated = interaction_matrix.columns[interaction_matrix.iloc[evaluator_index] > 0].tolist()
    recommendations = list(set(recommendations) - set(already_rated))

    return recommendations[:num_recommendations]

print("Função de Recomendação Definida com Sucesso!")

Função de Recomendação Definida com Sucesso!


## Exemplo de uso

In [44]:
# Exemplo de uso (passar o id do usuário como primeiro parametro)

recommend_projects(3, num_recommendations=15)

[1025, 516, 4, 520, 779, 1040, 1297, 1044, 537, 281, 1308, 287, 548, 42, 1066]

# SVD

## Como funciona

No contexto de recomendação com o algoritmo de Decomposição em Valores Singulares (SVD), utilizando a biblioteca Surprise, o processo pode ser descrito da seguinte forma:

O algoritmo SVD decompõe a matriz de interação em três matrizes menores, capturando as características latentes dos usuários e itens:

- **Decomposição da Matriz**:
    - A matriz original \( R \) (usuários x projetos) é decomposta em três matrizes: \( U \) (usuários x fatores latentes), \( Σ \) (diagonal de fatores latentes) e \( V^T \) (fatores latentes x projetos).
    - \( R = U . Σ . V^T \)
    
    Onde:
    - \( U \) é uma matriz onde cada linha representa um usuário em um espaço de características latentes.
    - \( Σ \) é uma matriz diagonal com os valores singulares, que ponderam a importância das características latentes.
    - \( V^T \) é a transposta de uma matriz onde cada coluna representa um projeto no mesmo espaço de características latentes.

- **Extração de Fatores Latentes**:
    - Durante o treinamento, o SVD aprende esses fatores latentes, que são essencialmente vetores de características que representam usuários e projetos.


## O modelo

In [45]:
# Instala o a biblioteca surprise, será usada para treinar o modelo com o SVD
%pip install surprise



In [46]:
# Importa os algoritmos necessários
from surprise.model_selection import cross_validate
from surprise import SVD, Dataset, Reader, accuracy

In [47]:
# As avaliações vão de 1 a 5 no dataset
reader = Reader(rating_scale=(1, 5))

In [48]:
# Carrega os dados para um formato que o SVD consegue ler
data = Dataset.load_from_df(df_model[['id_User', 'id_Project', 'score']], reader)

In [49]:
# Construindo conjunto de treinamento
trainset = data.build_full_trainset()

In [50]:
# Cria um modelo SVD
model = SVD()

In [51]:
# Ajusta o modelo SVD
model.fit(trainset)

<surprise.prediction_algorithms.matrix_factorization.SVD at 0x7a9b61418340>

## Exemplo de uso

É possível prever a avaliação data pelo usuário:

In [52]:
id_evaluator = 200
id_project = 8

model.predict(id_evaluator, id_project)

Prediction(uid=200, iid=8, r_ui=None, est=2.533734530746411, details={'was_impossible': False})

Intepretando esse resultado, temos que:

* `uid`: ID do usuário

* `iid`: ID do item (no nosso caso, projetos)

* `r_ui`: Avaliação real dada pelo usuário ao item. O valor `None` sugere que o usuário não avaliou esse item

* `est`: Previsão da avaliação do usuário.

* `details={'was_impossible': False}`: Este campo fornece informações adicionais sobre a previsão. O campo `was_impossible` indica se a previsão poderia ser feita ou não. Neste caso, é False, o que significa que a previsão foi possível.

## Métricas

Como o SVD proprõe a previsão da nota que será dada pelo usuário, as métricas escolhidas foram:

**RMSE (Root Mean Squared Error):** Esta métrica mede a raiz quadrada da média dos quadrados dos erros entre as classificações previstas e reais. Ou seja, o RMSE dá uma ideia do tamanho médio dos erros em relação às classificações reais.Quanto menor o RMSE, melhor.

**MAE (Mean Absolute Error):** Esta métrica calcula a média dos valores absolutos dos erros entre as classificações previstas e reais. Como no RMSE, quanto menor o MAE, melhor.


In [53]:
# Realizando validação cruzada
resultados_cv = cross_validate(model, data, measures=['RMSE', 'MAE'], cv=5, verbose=True)

Evaluating RMSE, MAE of algorithm SVD on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.9693  0.9905  1.0002  0.9933  0.9596  0.9826  0.0154  
MAE (testset)     0.7987  0.8317  0.8251  0.8224  0.7981  0.8152  0.0141  
Fit time          0.14    0.15    0.22    0.24    0.18    0.19    0.04    
Test time         0.01    0.01    0.02    0.02    0.02    0.02    0.00    


A validação cruzada (cross-validation) é uma técnica utilizada para avaliar a capacidade de generalização de um modelo de aprendizado de máquina. Em vez de treinar e testar o modelo apenas uma vez, a validação cruzada divide o conjunto de dados em várias partes (folds), treina e testa o modelo múltiplas vezes, e então calcula a média dos resultados para obter uma estimativa mais robusta do desempenho do modelo.

# Exportação do modelo


Nessa seção, vamos exportar o modelo em formato de objeto serializado.

In [54]:
import pickle

In [55]:
#salvamos o modelo treinado
with open('model.pkl', 'wb') as file:
  pickle.dump(model, file)

In [56]:
from google.colab import files

# Baixar arquivos
files.download('model.pkl')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# Conclusão


## Conclusão

&emsp;&emsp;Neste caderno, desenvolvemos um sistema de recomendação utilizando técnicas de machine learning para o contexto do LegacyLab. Nosso objetivo foi criar um modelo capaz de sugerir projetos que promovam colaborações produtivas entre os participantes, aproveitando a rica rede de interações e interesses comuns dentro da comunidade.

&emsp;&emsp;Exploramos a Decomposição em Valores Singulares (SVD) como uma abordagem eficaz para capturar relações latentes entre usuários e projetos, proporcionando recomendações precisas e personalizadas. Utilizamos a validação cruzada para avaliar o desempenho do nosso modelo, garantindo sua robustez e capacidade de generalização ao longo de diferentes subconjuntos de dados.

&emsp;&emsp;Além disso, implementamos a serialização do modelo com o módulo `pickle`, permitindo a fácil armazenagem e reutilização do modelo treinado. Esta etapa é crucial para a integração do sistema de recomendação em aplicações práticas, facilitando sua implementação e manutenção.

&emsp;&emsp;Os resultados obtidos demonstram o potencial do nosso modelo em não apenas facilitar a descoberta de projetos relevantes, mas também em fortalecer os vínculos colaborativos entre os membros do CEO’s Legacy. Ao promover a inovação e a sinergia, o LegacyLab se posiciona como um catalisador de transformação dentro da comunidade empresarial.

&emsp;&emsp;Por fim, a análise contínua do impacto e da eficácia das recomendações permitirá à Fundação Dom Cabral ajustar e aprimorar suas estratégias de desenvolvimento, consolidando ainda mais o papel do LegacyLab como um elemento chave no fomento à liderança e à colaboração empresarial.