Este  exemplo  de  código  simula  um  conjunto  de  dados  de  interações  deusuários,  calcula  os  itens  mais  populares  com  base  na  contagem  de  interações  e atualiza  as  recomendações  com  base  em  um  feedback  fictício,  exemplificando  o processo de reclassificação das avaliações com feedback do usuário e a manutenção da atualidade do sistema.

A recomendação por popularidade é quando um sistema sugere itens com base em quantas vezes eles foram avaliados ou interagidos por outros usuários. A ideia é que, se muitas pessoas gostam ou compram algo, esse item provavelmente será interessante para outros também.

In [2]:
import pandas as pd 
import numpy as np

In [5]:
# Simulação de dados de interação dos usuários com itens
data = pd.DataFrame({
    'user_id': np.random.randint(1, 100, 1000),
    'item_id': np.random.randint(1, 20, 1000),
    'interaction': np.random.randint(1, 5, 1000)  # 1-4 scale ratings
    })
    
# Contagem de interações para identificar popularidade 
item_popularity = data.groupby('item_id')['interaction'].sum().sort_values(ascending=False)
top_items = item_popularity.head(10)  # Top 10 itens populares

#  Simulação  de  um  feedback  do  usuário  para  atualizar recomendações
feedback = {'item_id': 15,'interaction_increase': 10}  # Aumento artificial na contagem de interações

# Atualiza as recomendações com o feedback do usuário
if feedback['item_id'] in item_popularity.index:item_popularity[feedback['item_id']]+= feedback['interaction_increase']

# Reordenar após feedback
item_popularity = item_popularity.sort_values(ascending=False)
updated_top_items = item_popularity.head(10) 
print(updated_top_items)

item_id
8     165
4     158
3     157
6     152
12    146
11    145
15    139
9     138
10    132
17    125
Name: interaction, dtype: int32


Conceitos importantes:

* Exploração vs. Exploração: Um bom sistema de recomendação deve equilibrar explorar novos itens (itens que o usuário ainda não viu) e explorar itens populares (aqueles que muitos usuários gostaram).
* Matriz de avaliações: Organiza as interações dos usuários com os itens (quem avaliou o quê) e ajuda a identificar padrões.
* Características de meta-nível: Usadas para ajustar o sistema, como a frequência de interações ou a popularidade de um item. Essas características ajudam a refinar as recomendações.

Técnicas avançadas para melhorar os sistemas de recomendação:
* Análise Exploratória de Dados (EDA): Usada para entender o comportamento dos usuários e identificar padrões.
* Decomposição em Valores Singulares (SVD): Uma técnica matemática que ajuda a reduzir a dimensionalidade e melhorar a eficiência do sistema, identificando padrões latentes nos dados.
* PCA (Análise de Componentes Principais): Técnica para reduzir a complexidade dos dados, mantendo as informações mais relevantes.

Exemplo de como a recomendação funciona em plataformas reais:
* Plataformas de streaming, como Netflix ou Spotify, usam a popularidade para mostrar filmes ou músicas populares para novos usuários.
* E-commerce: Como a Amazon, que recomenda produtos com base nas compras de outros usuários.

Nos sistemas de recomendação, frequentemente utilizamos a matriz de avaliações para representar as interações dos usuários com os itens. A matriz é composta por linhas (usuários) e colunas (itens), e suas células contêm as avaliações dos usuários para os itens. No entanto, essas matrizes costumam ser esparsas, ou seja, muitos valores estão vazios porque nem todos os usuários avaliam todos os itens. A partir dessa matriz, as técnicas matemáticas são aplicadas para encontrar padrões e realizar as recomendações.

Uma técnica importante para simplificar e entender melhor esses padrões é a Decomposição em Valores Singulares (SVD). A SVD decompõe a matriz de avaliações em três matrizes: uma representando os usuários, outra os itens e uma matriz diagonal que contém os valores singulares. A ideia é reduzir a complexidade dos dados, mantendo as informações essenciais, e assim facilitar o processo de predição e recomendação. A técnica ajuda a identificar padrões ocultos, chamados de componentes latentes, entre os usuários e itens. A principal vantagem da SVD é que ela permite reduzir o número de dados a serem processados, mas também pode perder alguma informação relevante, especialmente quando a redução de dimensionalidade é muito grande.

Outra técnica bastante utilizada é a Análise de Componentes Principais (PCA). Assim como a SVD, a PCA também tem o objetivo de reduzir a dimensionalidade, mas ela se concentra em maximizar a variância dos dados. Ao usar PCA, o sistema tenta encontrar as direções principais (chamadas de componentes principais) que explicam o máximo de variação nas preferências dos usuários. Embora a PCA também reduza a complexidade, ela pode perder algumas informações importantes e ser difícil de interpretar em termos de características específicas dos itens ou preferências dos usuários.

No contexto de sistemas de recomendação, a similaridade de Jaccard é uma métrica útil para comparar a semelhança entre dois conjuntos, como as interações de dois usuários com itens. Ela é calculada dividindo o número de itens em comum entre os dois conjuntos pelo número total de itens avaliados por pelo menos um dos usuários. Quanto maior a interseção entre os conjuntos, maior a similaridade. Isso é usado para identificar usuários ou itens semelhantes e, com isso, fazer recomendações mais precisas.

Os modelos de vizinhança são amplamente usados em sistemas de recomendação. Esses modelos se baseiam na ideia de que os usuários que têm gostos semelhantes tendem a gostar de itens semelhantes. Existem dois tipos principais de modelos de vizinhança: o modelo baseado em usuário, que busca identificar usuários com preferências parecidas, e o modelo baseado em item, que foca em itens similares. No modelo baseado em usuário, por exemplo, a similaridade de Pearson ou a distância cosseno são usadas para medir quão semelhantes são as avaliações de dois usuários, ajudando a prever quais itens um usuário pode gostar, com base nas preferências dos usuários semelhantes.

A filtragem colaborativa é uma técnica que utiliza a similaridade entre usuários ou itens para gerar recomendações. Em sistemas baseados em filtragem colaborativa, a ideia é que, se dois usuários têm gostos parecidos, então um usuário pode gostar dos itens que o outro gostou. Isso pode ser feito de duas formas: através de modelos baseados em usuário, que se concentram nas semelhanças entre os usuários, ou modelos baseados em item, que se concentram nas semelhanças entre os itens. A filtragem colaborativa é muito eficaz, mas pode ser desafiadora em sistemas com muitos usuários ou itens, devido à esparsidade da matriz de avaliações e ao alto custo computacional para calcular as semelhanças.

Em suma, as técnicas matemáticas como a SVD, PCA e a similaridade de Jaccard são fundamentais para a criação de sistemas de recomendação eficientes. Elas ajudam a identificar padrões de comportamento dos usuários, a reduzir a complexidade dos dados e a fazer recomendações mais precisas. A combinação de modelos de vizinhança com filtragem colaborativa também desempenha um papel crucial na personalização das recomendações, adaptando-se às preferências individuais dos usuários.



Os materiais práticos desta pasta estão divididos da seguinte forma e ordem:

    > comece_aqui.ipynb
    > popularidade
    > exploracao_explotacao
    > matrizes_esparsas
    > reducao_dimencionalidade
    > agrupamento_vizinhos
    > funcoes_de_utilidade
    > engenharia_de_features