# Capítulo 4: Sistemas de Recomendação Baseados em Conteúdo

> ``A forma deve ter um conteúdo, e esse conteúdo deve ser ligado à natureza.'' -- Alvar Aalto

## Introdução

Os sistemas colaborativos discutidos nos capítulos anteriores usam as correlações nos padrões de avaliação entre usuários para fazer recomendações. Por outro lado, esses métodos não utilizam atributos de itens para calcular previsões. Isso pareceria um desperdício; afinal, se John gosta do filme de ficção científica futurista *Terminator*, há uma grande chance de que ele também goste de um filme de gênero similar, como *Aliens*. Nesses casos, as avaliações de outros usuários podem não ser necessárias para fazer recomendações significativas. Os sistemas baseados em conteúdo são projetados para explorar cenários nos quais o item pode ser descrito com conjuntos descritivos de atributos. Nesses casos, as *próprias* avaliações de um usuário, além de outros filmes, são suficientes para descobrir recomendações significativas. Essa abordagem é particularmente útil quando o item é novo e há poucas avaliações disponíveis para ele.

Os sistemas de recomendação baseados em conteúdo tentam associar usuários a itens que são semelhantes ao que eles gostaram no passado. Essa similaridade não se baseia necessariamente em correlações de avaliação entre usuários, mas sim nos *atributos* dos objetos de que o usuário gostou. Ao contrário dos sistemas colaborativos, que explicitamente utilizam as avaliações de *outros* usuários além das do usuário-alvo, os sistemas baseados em conteúdo se concentram principalmente nas *próprias* avaliações do usuário-alvo e nos atributos dos itens de que ele gostou. Portanto, os outros usuários têm pouca, ou nenhuma, função a desempenhar nos sistemas baseados em conteúdo. Em outras palavras, a metodologia baseada em conteúdo utiliza uma fonte de dados diferente para o processo de recomendação. Como veremos no Capítulo 6, muitos sistemas de recomendação utilizam o poder de ambas as fontes. Esses sistemas de recomendação são chamados de sistemas de recomendação *híbridos*.

No nível mais básico, os sistemas baseados em conteúdo dependem de duas fontes de dados:

1.  A primeira fonte de dados é uma descrição de vários itens em termos de atributos centrados no conteúdo. Um exemplo de tal representação poderia ser a descrição textual de um item feita pelo fabricante.
2.  A segunda fonte de dados é um perfil de usuário, que é gerado a partir do feedback do usuário sobre vários itens. O feedback do usuário pode ser explícito ou implícito. O feedback explícito pode corresponder a avaliações, enquanto o feedback implícito pode corresponder a ações do usuário. As avaliações são coletadas de forma semelhante aos sistemas colaborativos.

O perfil do usuário relaciona os atributos dos vários itens aos interesses do usuário (avaliações). Um exemplo muito básico de perfil de usuário poderia ser simplesmente um conjunto de documentos de treinamento rotulados de descrições de itens, as avaliações do usuário como os rótulos, e um modelo de classificação ou regressão que relaciona os atributos do item às avaliações do usuário. O perfil de usuário específico depende muito da metodologia em questão. Por exemplo, avaliações explícitas podem ser usadas em um contexto, e feedback implícito pode ser usado em outro. Também é possível para o usuário especificar seu próprio perfil em termos de palavras-chave de interesse, e essa abordagem compartilha algumas características com sistemas de recomendação *baseados em conhecimento*.

É importante notar que as avaliações dos outros usuários geralmente não desempenham nenhum papel em um algoritmo de recomendação baseado em conteúdo. Isso é tanto uma vantagem quanto uma desvantagem, dependendo do cenário em questão. Por um lado, em cenários de *cold-start*, onde pouca informação sobre as avaliações de outros usuários está disponível, tal abordagem ainda pode ser utilizada, desde que haja informação suficiente sobre os próprios interesses do usuário. Isso, pelo menos, alivia parcialmente o problema de cold-start quando o número de outros usuários no sistema de recomendação é pequeno. Além disso, quando um item é novo, não é possível obter as avaliações de outros usuários para aquele item. Os métodos baseados em conteúdo permitem recomendações em tais cenários porque podem extrair os atributos do novo item e usá-los para fazer previsões. Por outro lado, o problema de *cold-start* para *novos usuários* não pode ser abordado com sistemas de recomendação baseados em conteúdo. Além disso, ao não usar as avaliações de outros usuários, reduz-se a diversidade e a novidade dos itens recomendados. Em muitos casos, os itens recomendados podem ser óbvios para o usuário, ou podem ser outros itens que o usuário já consumiu antes. Isso ocorre porque os atributos de conteúdo sempre recomendarão itens com atributos semelhantes ao que o usuário viu no passado. Um item recomendado com atributos semelhantes geralmente apresenta pouca surpresa para o usuário. Essas vantagens e desvantagens serão discutidas em uma seção posterior deste capítulo.

Os sistemas baseados em conteúdo são amplamente utilizados em cenários nos quais uma quantidade significativa de informações de atributos está disponível. Em muitos casos, esses atributos são palavras-chave, que são extraídas das descrições dos produtos. Na verdade, a grande maioria dos sistemas baseados em conteúdo extrai atributos de texto dos objetos subjacentes. Os sistemas baseados em conteúdo são, portanto, particularmente adequados para fazer recomendações em domínios ricos em texto e *não estruturados*. Um exemplo clássico do uso de tais sistemas é na recomendação de páginas da Web. Por exemplo, o comportamento de navegação anterior de um usuário pode ser utilizado para criar um sistema de recomendação baseado em conteúdo. No entanto, o uso de tais sistemas não se restringe apenas ao domínio da Web. Palavras-chave de descrições de produtos são usadas para criar perfis de itens e usuários para fins de recomendação em outros contextos de comércio eletrônico. Em outros contextos, atributos relacionais como fabricante, gênero e preço, podem ser usados além das palavras-chave. Tais atributos podem ser usados para criar representações *estruturadas*, que podem ser armazenadas em um banco de dados relacional. Nesses casos, é necessário combinar os atributos estruturados e não estruturados em uma única representação estruturada. Os princípios básicos de sistemas baseados em conteúdo, no entanto, permanecem invariantes se uma representação estruturada ou não estruturada é usada. Isso ocorre porque a maioria dos métodos de aprendizado no domínio estruturado tem análogos diretos no domínio não estruturado, e vice-versa. Para preservar a uniformidade na exposição, nossa discussão neste capítulo se concentrará em configurações não estruturadas. No entanto, a maioria desses métodos pode ser facilmente adaptada a configurações estruturadas.

Os sistemas baseados em conteúdo estão intimamente relacionados aos sistemas de recomendação *baseados em conhecimento*. Um resumo da relação entre os vários tipos de sistemas é fornecido na Tabela 1.2 do Capítulo 1. Assim como os sistemas baseados em conteúdo, os sistemas de recomendação baseados em conhecimento usam os atributos de conteúdo dos itens para fazer recomendações. A principal diferença é que os sistemas baseados em conhecimento suportam a especificação explícita dos requisitos do usuário em conjunto com interfaces interativas entre o usuário e os sistemas de recomendação. As bases de conhecimento são usadas em conjunto com essa interatividade para associar os requisitos do usuário aos itens. Por outro lado, os sistemas baseados em conteúdo geralmente usam uma abordagem baseada em aprendizado com base em *avaliações históricas*. Portanto, os sistemas baseados em conhecimento proporcionam um melhor controle ao usuário no processo de recomendação, enquanto os sistemas baseados em conteúdo aproveitam o comportamento passado de forma mais eficaz. No entanto, essas diferenças não são tão significativas, e alguns métodos baseados em conteúdo também permitem que os usuários especifiquem explicitamente seus perfis de interesse. Vários sistemas aproveitam os aspectos de aprendizado e interativos dentro de uma estrutura unificada. Tais sistemas são chamados de *sistemas de recomendação híbridos*. Os sistemas de recomendação baseados em conhecimento são discutidos no Capítulo 5, enquanto os sistemas de recomendação híbridos são discutidos no Capítulo 6. Este capítulo é organizado da seguinte forma. A próxima seção fornece uma visão geral dos componentes básicos de um sistema de recomendação baseado em conteúdo. Os métodos de extração e seleção de características são discutidos na seção 4.3. O processo de aprendizado de perfis de usuário e seu aproveitamento para recomendações é discutido na seção 4.4. Uma comparação das principais propriedades dos sistemas colaborativos e baseados em conteúdo é fornecida na seção 4.5. As conexões entre a filtragem colaborativa e os métodos baseados em conteúdo são exploradas na seção 4.6. Um resumo é dado na seção 4.7.

## 4.2 Componentes Básicos de Sistemas Baseados em Conteúdo

Os sistemas baseados em conteúdo têm certos componentes básicos, que permanecem invariantes em diferentes instâncias de tais sistemas. Como os sistemas baseados em conteúdo trabalham com uma grande variedade de descrições de itens e conhecimentos sobre os usuários, é preciso converter esses diferentes tipos de dados não estruturados em descrições padronizadas. Na maioria dos casos, é preferível converter as descrições dos itens em palavras-chave. Portanto, os sistemas baseados em conteúdo operam em grande parte, mas não exclusivamente, no domínio do texto. Muitas aplicações naturais de sistemas baseados em conteúdo também são centradas em texto. Por exemplo, os sistemas de recomendação de notícias são frequentemente sistemas baseados em conteúdo, e também são sistemas centrados em texto. Em geral, os métodos de classificação de texto e modelagem de regressão continuam sendo as ferramentas mais amplamente utilizadas para a criação de sistemas de recomendação baseados em conteúdo.

Os principais componentes de sistemas baseados em conteúdo incluem a parte de pré-processamento (offline), a parte de aprendizado (offline) e a parte de previsão online. As partes offline são usadas para criar um modelo resumido, que é frequentemente um modelo de classificação ou regressão. Esse modelo é então usado para a geração online de recomendações para os usuários. Os vários componentes dos sistemas baseados em conteúdo são os seguintes:

1.  **Pré-processamento e extração de características**: Os sistemas baseados em conteúdo são usados em uma ampla variedade de domínios, como páginas da Web, descrições de produtos, notícias, recursos musicais, e assim por diante. Na maioria dos casos, as características são extraídas dessas várias fontes para convertê-las em uma representação vetorial-espacial baseada em palavras-chave. Este é o primeiro passo de qualquer sistema de recomendação baseado em conteúdo e é altamente específico do domínio. No entanto, a extração adequada das características mais informativas é essencial para o funcionamento eficaz de qualquer sistema de recomendação baseado em conteúdo.
2.  **Aprendizado de perfis de usuário baseado em conteúdo**: Conforme discutido anteriormente, um modelo baseado em conteúdo é construído para prever os interesses do usuário em itens com base em seu histórico passado de compra ou avaliação de itens. Para alcançar esse objetivo, o feedback do usuário é aproveitado, o que pode se manifestar na forma de avaliações previamente especificadas (feedback explícito) ou atividade do usuário (feedback implícito). Esses feedbacks são usados em conjunto com os atributos dos itens para construir os dados de treinamento. Um modelo de aprendizado é construído com base nesses dados de treinamento. Essa etapa geralmente não é muito diferente da modelagem de classificação ou regressão, dependendo se o feedback é categórico (por exemplo, um ato binário de selecionar um item) ou se o feedback é numérico (por exemplo, avaliações ou frequência de compra). O modelo resultante é chamado de *perfil de usuário* porque conceitualmente relaciona os interesses do usuário (avaliações) aos atributos do item.
3.  **Filtragem e recomendação**: Nesta etapa, o modelo aprendido na etapa anterior é usado para fazer recomendações de itens para usuários específicos. É importante que esta etapa seja muito eficiente, pois as previsões precisam ser realizadas em tempo real.

Nas seções seguintes, descreveremos cada uma dessas fases em detalhes. A segunda fase de aprendizado frequentemente utiliza modelos de classificação prontos para uso. O campo da classificação de dados é uma vasta área por si só, e o objetivo deste livro não é discutir modelos de classificação em detalhes. Portanto, ao longo deste capítulo, assumiremos uma familiaridade funcional com os modelos de classificação. O objetivo será mostrar como um modelo de classificação específico pode ser usado como uma caixa preta no sistema de recomendação e os tipos de modelos de classificação que são especialmente adequados para sistemas de recomendação baseados em conteúdo. Uma breve descrição de dois dos modelos mais comumente usados está incluída, mas isso não é de forma alguma uma descrição exaustiva. Para o leitor que não está familiarizado com modelos de classificação, são incluídas referências a vários recursos úteis nas notas bibliográficas.

## 4.3 Pré-processamento e Extração de Características

A primeira fase em todos os modelos baseados em conteúdo é extrair características discriminativas para representar os itens. Características discriminativas são aquelas que são altamente preditivas dos interesses do usuário. Esta fase depende muito da aplicação específica em questão. Por exemplo, um sistema de recomendação de páginas da Web será muito diferente de um sistema de recomendação de produtos.

### 4.3.1 Extração de Características

Na fase de extração de características, as descrições de vários itens são extraídas. Embora seja possível usar qualquer tipo de representação, como uma representação de dados multidimensional, a abordagem mais comum é extrair palavras-chave dos dados subjacentes. Esta escolha se deve ao fato de que descrições de texto não estruturadas estão frequentemente amplamente disponíveis em uma variedade de domínios, e elas continuam sendo as representações mais naturais para descrever itens. Em muitos casos, os itens podem ter múltiplos campos descrevendo vários aspectos do item. Por exemplo, um comerciante que vende livros pode ter descrições dos livros e palavras-chave que descrevem os

...título e autor. Em alguns casos, essas descrições podem ser convertidas em um saco de palavras-chave, ou seja, uma representação vetorial-espacial. Em outros casos, pode-se trabalhar diretamente com uma representação multidimensional (estruturada). Esta última é necessária quando os atributos contêm quantidades numéricas (por exemplo, preço) ou campos que são extraídos de um pequeno universo de possibilidades (por exemplo, cor).

As várias características precisam ser ponderadas apropriadamente para facilitar seu uso no processo de classificação. A *ponderação de características* está intimamente relacionada à *seleção de características*, no sentido de que a primeira é uma versão suave da segunda. No caso da seleção de características, os atributos são incluídos ou não incluídos dependendo de sua relevância, enquanto no outro caso, as características recebem pesos diferentes dependendo de sua importância. A questão da seleção de características será discutida em detalhes na seção 4.3.4. Como a fase de extração de características é altamente específica para a aplicação, forneceremos ao leitor uma visão geral dos tipos de características que podem precisar ser extraídas em vários aplicativos.

### 4.3.1.1 Exemplo de Recomendação de Produto

Considere um site de recomendação de filmes[^1] como o IMDb [699], que fornece recomendações personalizadas para filmes. Cada filme é geralmente associado a uma descrição de sinopse, diretor, atores, gênero e assim por diante. Uma breve descrição de *Shrek* no site do IMDb é a seguinte:

> ``Depois que seu pântano é preenchido com criaturas mágicas, um ogro concorda em resgatar uma princesa para um senhor vilão, a fim de recuperar sua terra.''

Muitos outros atributos, como tags de usuário, também estão disponíveis e podem ser tratados como palavras-chave centradas em conteúdo.

No caso de *Shrek*, pode-se simplesmente concatenar todos os campos em palavras-chave para criar uma descrição de texto. O principal problema é que as várias palavras-chave podem não ter igual importância no processo de recomendação. Por exemplo, um ator em particular pode ter maior importância na recomendação do que uma palavra da sinopse. Isso pode ser alcançado de duas maneiras:

1.  **Conhecimento do domínio**: O título do filme e o ator principal podem receber mais peso do que as palavras na descrição. Em muitos casos, esse processo é feito de forma heurística por tentativa e erro.
2.  Em muitos casos, pode ser possível aprender a importância relativa de várias características de forma automatizada. Esse processo é chamado de *ponderação de características* e está intimamente relacionado à seleção de características. Ambos, ponderação e seleção de características, serão descritos em uma seção posterior.

### 4.3.1.2 Exemplo de Recomendação de Página da Web

Os documentos da web exigem técnicas especializadas de pré-processamento devido a algumas propriedades comuns de sua estrutura e à riqueza dos links internos. Duas grandes áreas de pré-processamento de documentos da web incluem a remoção de partes específicas dos documentos (por exemplo, tags) que não são úteis e o aproveitamento da estrutura real do documento.

Nem todos os campos em um documento da web são igualmente importantes. Os documentos HTML têm metadados, como o título, os metadados e o corpo do documento tipicamente, algoritmos analíticos tratam esses campos com diferentes níveis de importância e, portanto, ponderam-nos de forma diferente. Por exemplo, o título de um documento é considerado mais importante do que o corpo e é ponderado mais pesadamente. Outro exemplo de um processo de ponderação especialmente importante de um documento web é o texto âncora. O texto âncora contém uma descrição da página web para a qual ele aponta por meio de um link. Por causa de sua natureza descritiva, é considerado importante, mas às vezes não é relevante para o tópico da página em si. Portanto, é frequentemente removido do texto do documento. Em alguns casos, quando possível, o texto âncora pode até ser adicionado ao texto do documento para o qual ele aponta. Isso ocorre porque o texto âncora é frequentemente um resumo descritivo do documento para o qual aponta. O aprendizado da importância das várias características pode ser feito por métodos automatizados, conforme discutido na seção 4.3.4.

Uma página da web pode ser organizada em blocos de conteúdo que não estão relacionados ao assunto principal da página. Uma página da web típica terá muitos blocos irrelevantes, como anúncios, avisos ou notas, que não são muito úteis para mineração. Tem sido demonstrado que a qualidade dos resultados de mineração melhora quando apenas o texto no bloco principal é usado. No entanto, a detecção (automatizada) de blocos principais de documentos web em grande escala é em si um problema de mineração de dados. Embora seja relativamente fácil decompor a página web em blocos, às vezes é difícil identificar o bloco principal. A maioria dos métodos automatizados para determinar os blocos principais se baseia no fato de que uma página em particular geralmente utiliza um layout similar para todos os seus documentos. Portanto, a estrutura do layout é aprendida a partir dos documentos no local por meio da extração de árvores de tags do site. Outros blocos principais são extraídos através do uso de métodos de \textit{tree-matching} \cite{362, 662}. Métodos de aprendizado de máquina também podem ser usados para esta tarefa. Por exemplo, o problema de rotular o bloco principal em uma página pode ser tratado como um problema de classificação. As notas bibliográficas contêm ponteiros para métodos de extração do bloco principal de um documento web.

### 4.3.1.3 Exemplo de Recomendação de Música

A Pandora Internet Radio [603] é um conhecido mecanismo de recomendação de música, que associa faixas com características extraídas do Projeto Genoma Musical [703]. Exemplos de tais características de faixas podem ser ``ritmos de trance``, ``sintetizadores de ritmo``, ``tons harmônicos``, ``batidas diretas de bateria`` e assim por diante. Os usuários podem inicialmente especificar um único exemplo de uma faixa de seu interesse para criar uma ``estação``. Começando com esta única amostra de treinamento, faixas semelhantes são reproduzidas para o usuário. O usuário pode expressar seus gostos ou aversões a essas faixas.

O feedback do usuário é usado para construir um modelo mais refinado para recomendação de música. É digno de nota que, embora os atributos subjacentes sejam bastante diferentes neste caso, eles ainda podem ser tratados como palavras-chave, e o ``documento'' para uma determinada música corresponde à sacola de palavras associadas a ela. Alternativamente, pode-se associar atributos específicos com diferentes palavras-chave, o que leva a uma representação multidimensional estruturada.

A intenção inicial de uma faixa de interesse é mais parecida com um sistema de recomendação baseado em conhecimento do que com um sistema de recomendação baseado em conteúdo. Tais tipos de sistemas de recomendação baseados em conhecimento são referidos como sistemas de recomendação \texit{baseados em caso}. No entanto, quando as avaliações são usadas para fazer recomendações, a abordagem se torna mais semelhante à de um sistema de recomendação baseado em conteúdo. Em muitos casos, a Pandora também fornece uma explicação para as recomendações em termos dos atributos do item.


### 4.3.2 Representação e Limpeza de Características

Este processo é particularmente importante quando o formato não estruturado é usado para representação. A fase de extração de características é capaz de determinar sacos de palavras a partir das descrições não estruturadas de produtos ou páginas da Web. No entanto, essas representações precisam ser limpas e representadas em um formato adequado para processamento. Existem várias etapas no processo de limpeza:

1.  **Remoção de stop-words**: Grande parte do texto extraído de descrições de formato livre de itens conterá muitas palavras que não são específicas do item, mas que fazem parte do vocabulário comum. Tais palavras são tipicamente de alta frequência. Por exemplo, palavras como "a", "um" e "o" não serão particularmente específicas para o item em questão. Na aplicação de recomendação de filmes, é comum encontrar essas palavras na sinopse. Em geral, artigos, preposições, conjunções e pronomes são tratados como *stop-words*. Na maioria dos casos, listas padronizadas de *stop-words* estão disponíveis em várias línguas.
2.  **Radicalização (Stemming)**: Na radicalização, variações da mesma palavra são consolidadas. Por exemplo, as formas singular e plural de uma palavra ou diferentes tempos verbais da mesma palavra são consolidados. Em alguns casos, raízes comuns são extraídas de várias palavras. Por exemplo, palavras como "esperando" (*hoping*) e "esperança" (*hope*) são consolidadas na raiz comum "espera" (*hop*). Claro, a radicalização às vezes pode ter um efeito prejudicial, porque uma palavra como "pular" (*hop*) tem um significado diferente por si só. Muitas ferramentas prontas para uso \cite{710, 712} estão disponíveis para radicalização.
3.  **Extração de frases**: A ideia é detectar palavras que ocorrem juntas em documentos com frequência. Por exemplo, a frase "cachorro-quente" significa algo diferente de suas palavras constituintes. Dicionários definidos manualmente estão disponíveis para extração de frases, embora métodos automatizados também possam ser usados \cite{144, 364, 100}.

Após a execução dessas etapas, as palavras-chave são convertidas em uma *representação vetorial-espacial*. Cada palavra também é chamada de *termo*. Na representação vetorial-espacial, os documentos são representados como sacos de palavras, juntamente com suas frequências. Embora possa ser tentador usar a frequência bruta da ocorrência da palavra, isso geralmente não é desejável. Isso ocorre porque as palavras que ocorrem comumente são frequentemente menos discriminativas estatisticamente. Portanto, essas palavras são frequentemente desconsideradas por meio de uma ponderação para baixo (*down-weighting*). Isso é semelhante ao princípio de *stop-words*, exceto que é feito de forma suave, desconsiderando a palavra em vez de removê-la completamente.

Como as palavras são desconsideradas? Isso é alcançado usando a noção de *frequência inversa de documento*. A frequência inversa de documento, $idf_i$, do i-ésimo termo é uma função decrescente do número de documentos, $n_i$, nos quais ele ocorre.

$$idf_i = \log(n/n_i)$$

Aqui, o número de documentos na coleção é denotado por $n$.

Além disso, é preciso ter cuidado para que a ocorrência excessiva de uma única palavra na coleção não receba muita importância. Por exemplo, quando as descrições de itens são coletadas de fontes não confiáveis ou plataformas abertas, como a Web, elas podem conter uma quantidade significativa de spam. Para atingir esse objetivo, uma função de amortecimento $f(\cdot)$, como a raiz quadrada ou o logaritmo, é opcionalmente aplicada às frequências antes do cálculo de similaridade.

$$f(x_i) = \sqrt{x_i}$$

$$f(x_i) = \log(x_i)$$


A amortização de frequência é opcional e frequentemente omitida. Omitir o processo de amortização é equivalente a definir $f(x_i)$ como $x_i$. A frequência normalizada $h(x_i)$ para a i-ésima palavra é definida combinando a frequência inversa do documento com a função de amortização:

$$h(x_i) = f(x_i)idf_i$$

Este modelo é popularmente conhecido como o **modelo tf-idf**, onde *tf* representa a frequência do termo e *idf* representa a frequência inversa do documento.

### 4.3.3 Coleta de Gostos e Desgostos do Usuário

Além do conteúdo sobre os itens, também é necessário coletar dados sobre os gostos e desgostos do usuário para o processo de recomendação. A coleta de dados é feita durante a fase offline, enquanto as recomendações são determinadas durante a fase online quando um usuário específico está interagindo com o sistema. O usuário para quem a previsão é realizada em um dado momento é referido como o *usuário ativo*. Durante a fase online, o perfil e as preferências do próprio usuário são combinados com o conteúdo para criar as previsões. Os dados sobre os gostos e desgostos do usuário podem ser obtidos a partir dos seguintes fóruns:

1.  **Avaliações**: Nestes casos, os usuários especificam avaliações indicando sua preferência pelo item. As avaliações podem ser binárias, intervalares ou ordinais. Em casos raros, as avaliações podem até ser de valor real. A natureza da avaliação tem um impacto significativo no modelo usado para aprender os perfis do usuário.
2.  **Feedback implícito**: O feedback implícito se refere às ações do usuário, como comprar ou navegar em um item. Na maioria dos casos, apenas as preferências positivas de um usuário são capturadas com feedback implícito, mas não as negativas.
3.  **Opiniões em texto**: Em muitos casos, os usuários podem expressar suas opiniões na forma de descrições de texto. Em tais casos, as avaliações implícitas podem ser extraídas dessas opiniões. Esta forma de extração de avaliação está relacionada ao campo de mineração de opiniões e análise de sentimentos. Esta área está fora do escopo deste livro. Leitores interessados são encaminhados para \cite{364}.
4.  **Casos**: Os usuários podem especificar exemplos (ou casos) de itens nos quais estão interessados. Tais casos podem ser usados como feedback implícito com classificadores vizinhos mais próximos ou de Rocchio. No entanto, quando a similaridade de recuperação é usada em conjunto com funções cuidadosamente definidas de utilidade, esses métodos se tornam mais intimamente relacionados aos sistemas de recomendação baseados em caso. Os sistemas baseados em conteúdo são uma subclasse de sistemas de recomendação baseados em conhecimento em que o domínio do conhecimento é usado para descobrir correspondências de itens, em vez de algoritmos de aprendizado (veja a seção 5.3.1 do Capítulo 5). É muitas vezes difícil delinear onde os sistemas de recomendação baseados em conteúdo e baseados em conhecimento começam. Por exemplo, a Pandora Internet Radio frequentemente usa um caso inicial de um álbum de interesse para configurar "estações" para usuários com músicas semelhantes. Em um estágio posterior, o feedback do usuário sobre gostos e desgostos é utilizado para refinar as recomendações. Portanto, a primeira parte da abordagem pode ser vista como um sistema baseado em conhecimento, e a segunda parte da abordagem pode ser vista como um sistema baseado em conteúdo (ou colaborativo).

Em todas as formas mencionadas acima, os gostos ou desgostos de um usuário por um item são finalmente convertidos em uma avaliação unária, binária, baseada em intervalo ou real. Essa avaliação também pode ser vista como a extração de um rótulo de classe ou variável dependente, que é eventualmente aproveitada para fins de aprendizado.





### 4.3.4 Seleção e Ponderação de Características Supervisionadas

O objetivo da seleção e ponderação de características é garantir que apenas as palavras mais informativas sejam mantidas na representação vetorial-espacial. De fato, muitos sistemas de recomendação conhecidos \cite{60, 476} explicitamente defendem que um limite de corte deve ser usado no número de palavras-chave. Os resultados experimentais em \cite{476}, que foram realizados em vários domínios, sugeriram que o número de palavras extraídas deveria ser em algum lugar entre 50 e 300. A ideia básica é que as palavras com mais ruído frequentemente levam ao \textit{overfitting} e, portanto, devem ser removidas *a priori*. Isso é particularmente importante, considerando o fato de que o número de documentos disponíveis para aprender um perfil de usuário não é muito grande. Quando o número de documentos disponíveis para aprendizado é pequeno, a tendência do modelo ao *overfitting* será maior. Portanto, é crucial reduzir o tamanho do espaço de características.

Existem dois aspectos distintos para incorporar a informatividade das características em um documento de representação. O primeiro é a seleção de características, que corresponde à remoção de palavras. O segundo é a ponderação de características, que dá maior importância às palavras. Observe que a remoção de *stop-words* e o uso da frequência inversa de documento são exemplos de seleção e ponderação de características, respectivamente. No entanto, estes são métodos não supervisionados de seleção e ponderação de características, onde o feedback do usuário não é levado em consideração. Nesta seção, estudaremos métodos supervisionados para seleção de características, que levam em conta as avaliações do usuário para avaliar a informatividade das características. A maioria desses métodos avalia a sensibilidade da variável dependente a uma característica para avaliar a informatividade.

As medidas para calcular a informatividade das características podem ser usadas para realizar uma seleção rigorosa de características ou para ponderar heuristicamente o peso das características com uma função de quantificação computada de informatividade. As medidas usadas para a informatividade das características também são diferentes, dependendo se a avaliação do usuário é tratada como uma variável numérica ou categórica. Por exemplo, no contexto de avaliações binárias (ou avaliações com um pequeno número de valores discretos), faz sentido usar uma categoria em vez de representações numéricas. Também descreveremos alguns métodos que são comumente usados para ponderação de características. Na maioria das seguintes descrições, assumiremos uma representação não estruturada (textual), embora os métodos possam ser facilmente generalizados para representações estruturadas (multidimensionais). Isso ocorre porque a representação vetorial-espacial de texto pode ser vista como um caso especial da representação multidimensional. As notas bibliográficas contêm ponteiros para mais detalhes da seleção de características.

### 4.3.4.1 Índice de Gini

O índice de Gini é uma das medidas mais comumente usadas para a seleção de características. É uma medida simples e intuitiva, que é fácil de entender. O índice de Gini é inerentemente adequado para avaliações binárias, ordinais ou classificações que são distribuídas em um pequeno número de intervalos. O último caso pode ser, às vezes, obtido pela discretização das avaliações. A ordenação entre as avaliações é ignorada, e cada valor possível da avaliação é tratado como uma instância de um atributo categórico. Isso pode parecer uma desvantagem porque perde informações sobre a ordenação relativa das avaliações. No entanto, na prática, o número de avaliações possíveis geralmente é pequeno e a precisão significativa não é perdida.

Seja $t$ o número total de valores possíveis da avaliação. Entre os documentos que contêm uma palavra particular $w$, seja $p_1(w), \dots, p_t(w)$ a fração dos itens avaliados em cada um desses $t$ valores possíveis. Então, o índice de Gini da palavra $w$ é definido como:

$$Gini(w) = 1 - \sum_{i=1}^{t} p_i(w)^2$$




O valor de $Gini(w)$ sempre está no intervalo $[0, 1 - 1/t]$, com valores menores indicando maior poder discriminativo. Por exemplo, quando a presença da palavra $w$ sempre resulta em o documento ser avaliado com o j-ésimo valor de avaliação possível (ou seja, $p_j(w) = 1$), então essa palavra é muito discriminativa para previsões de avaliação. Correlativamente, o valor do índice de Gini nesse caso é $1-1^2 = 0$. Quando cada valor de $p_i(w)$ assume o mesmo valor de $1/t$, o índice de Gini atinge seu valor máximo de $1 - \sum_{i=1}^{t}(1/t)^2 = 1 - 1/t$.

### 4.3.4.2 Entropia

A Entropia é muito semelhante em princípio ao índice de Gini, exceto que princípios da teoria da informação são usados para projetar a medida. Assim como no caso anterior, seja $t$ o número total de valores possíveis da avaliação e $p_1(w), \dots, p_t(w)$ a fração dos documentos contendo uma palavra particular $w$, que são avaliados em cada um desses $t$ valores possíveis. Então, a entropia da palavra $w$ é definida como:

$$Entropia(w) = - \sum_{i=1}^{t} p_i(w)\log(p_i(w))$$

O valor da Entropia(w) sempre está no intervalo $[0, 1]$, com valores menores indicando maior poder discriminativo. Na verdade, essas duas medidas oferecem resultados muito semelhantes, embora tenham interpretações probabilísticas diferentes. O índice de Gini é mais fácil de entender, enquanto as medidas de entropia são mais firmemente baseadas em princípios matemáticos da teoria da informação.

### 4.3.4.3 Estatística $\chi^2$

A estatística de $\chi^2$ pode ser calculada tratando a co-ocorrência entre o termo e a classe como uma tabela de contingência. Por exemplo, considere um cenário onde estamos tentando determinar se uma palavra particular é relevante para o interesse de compra de um usuário. Assuma que o usuário comprou cerca de 10\% dos itens na coleção, e a palavra *w* ocorre em cerca de 20\% das descrições. Assuma que o número total de itens (e documentos correspondentes) na coleção é 1000. Então, o número *esperado* de ocorrências de cada possível combinação de ocorrência de palavra e contingência de classe é o seguinte:

| | Termo ocorre na descrição | Termo não ocorre |
| :--- | :--- | :--- |
| Usuário comprou o item | $1000 \cdot 0.1 \cdot 0.2 = 20$ | $1000 \cdot 0.1 \cdot 0.8 = 80$ |
| Usuário não comprou o item | $1000 \cdot 0.9 \cdot 0.2 = 180$ | $1000 \cdot 0.9 \cdot 0.8 = 720$ |

Os valores esperados mencionados acima são calculados sob a suposição de que a ocorrência do termo na descrição e o interesse do usuário no item correspondente são independentes um do outro. Se essas duas quantidades são independentes, o termo será claramente irrelevante para o processo de aprendizado. No entanto, na prática, o item pode ser altamente relacionado ao item em questão. Por exemplo, considere um cenário onde a tabela de contingência se desvia dos valores esperados e o usuário é muito propenso a comprar o item contendo o termo. Nesse caso, a tabela de contingência pode parecer o seguinte:



| | Termo ocorre na descrição | Termo não ocorre |
| :--- | :--- | :--- |
| Usuário comprou o item | $O_1 = 60$ | $O_2 = 40$ |
| Usuário não comprou o item | $O_3 = 140$ | $O_4 = 760$ |

A estatística de $\chi^2$ mede o desvio normalizado entre os valores observados e esperados nas várias células da tabela de contingência. Neste caso, a tabela de contingência contém $p = 2 \times 2 = 4$ células. Seja $O_i$ o valor observado da i-ésima célula e $E_i$ o valor esperado da i-ésima célula. Então, a estatística de $\chi^2$ é calculada da seguinte forma:

$$\chi^2 = \sum_{i=1}^{p} \frac{(O_i - E_i)^2}{E_i}$$

Portanto, no exemplo particular desta tabela, a estatística de $\chi^2$ se avalia da seguinte forma:

$$\chi^2 = \frac{(60 - 20)^2}{20} + \frac{(40 - 80)^2}{80} + \frac{(140 - 180)^2}{180} + \frac{(760 - 720)^2}{720}$$
$$= 80 + 20 + 8.89 + 2.22$$
$$= 111.11$$

Também é possível calcular a estatística de $\chi^2$ como uma função dos valores observados na tabela de contingência sem calcular explicitamente os valores esperados. Isso é possível porque os valores esperados são funções dos valores observados em linhas e colunas. Uma fórmula aritmética simples para calcular a estatística de $\chi^2$ em uma tabela de contingência de $2 \times 2$ é a seguinte (veja Exercício 8):

$$\chi^2 = \frac{(O_1 O_4 - O_2 O_3)^2 (O_1 + O_2 + O_3 + O_4)}{(O_1 + O_2)(O_3 + O_4)(O_1 + O_3)(O_2 + O_4)}$$

Aqui, $O_1, \dots, O_4$ são os valores observados de acordo com a tabela acima. É fácil verificar que esta fórmula produz o mesmo valor de estatística de $\chi^2$ de 111.11. Observe que o teste de $\chi^2$ também pode ser interpretado em termos do nível de significância probabilístico com o uso de uma distribuição de $\chi^2$. No entanto, para fins práticos, é suficiente saber que valores maiores da estatística de $\chi^2$ indicam que um termo particular e um item estão relacionados em um grau maior. Observe que se os valores observados forem exatamente iguais aos valores esperados, isso implica que o termo correspondente é irrelevante para o item em questão. Em tal caso, a estatística de $\chi^2$ avaliará para o valor mais baixo possível de 0. Portanto, as características top-k com a maior estatística de $\chi^2$ são mantidas.

### 4.3.4.4 Desvio Normalizado

O problema com a maioria das medidas mencionadas acima é que elas perdem informações sobre a ordem relativa das avaliações. Para casos em que as avaliações têm alta granularidade, o desvio normalizado é uma medida apropriada.

Seja $\sigma^2$ a variância de todas as avaliações nos documentos. Além disso, seja $\mu^+(w)$ a avaliação média de todos os documentos que contêm a palavra $w$, e $\mu^-(w)$ a avaliação média de todos os documentos que não contêm a palavra $w$. Então, o desvio normalizado da palavra $w$ é definido como:

$$Dev(w) = \frac{|\mu^+(w) - \mu^-(w)|}{\sigma}$$

Valores maiores de $Dev(w)$ indicam características mais discriminativas.



A quantificação mencionada é baseada na distribuição relativa das avaliações para documentos que contêm uma palavra específica em relação à distribuição de avaliações de todos os documentos. Uma medida relacionada é o **índice de discriminação de Fisher**, que calcula a razão da separação interclasse para a separação intraclasse no espaço de características (em vez de na dimensão das avaliações). Esta medida é descrita em detalhes em \cite{22}. O índice de discriminação de Fisher, no entanto, é mais adequado para variáveis dependentes categóricas do que para variáveis dependentes numéricas, como avaliações.

### 4.3.4.5 Ponderação de Características

A Ponderação de Características pode ser vista como uma versão suave da seleção de características. Na seção anterior sobre seleção de características, já discutimos como medidas como a frequência inversa de documento podem ser usadas para ponderar documentos. No entanto, a frequência inversa de documento é uma medida não supervisionada que não depende dos gostos ou desgostos do usuário. Uma medida supervisionada também pode ser usada para ponderar o vetor-espacial de representação, a fim de gerar um diferencial de importância para diferentes palavras. Por exemplo, em um sistema de recomendação de filmes, palavras-chave que descrevem um gênero de filme ou um ator são mais importantes do que palavras selecionadas da sinopse do filme. Por outro lado, as palavras na sinopse são sempre uma indicação de gostos. Portanto, elas não podem ser excluídas. A ponderação de características é uma abordagem mais refinada para discriminar entre várias palavras usando um peso em vez de uma decisão rígida e binária. A abordagem mais simples para a ponderação de características é pegar qualquer uma das medidas de seleção de características e usá-las para derivar os pesos. Por exemplo, a inversa do índice de Gini ou da entropia poderia ser usada. Em muitos casos, uma função heurística pode ser aplicada na medida de seleção para controlar a sensibilidade do processo de ponderação. Por exemplo, considere a seguinte função de ponderação $g(w)$ para a palavra $w$, onde $a$ é um parâmetro maior que 1.

$$g(w) = a - Gini(w)$$

O valor de peso resultante $g(w)$ estará sempre no intervalo $[a - 1, a)$. Ao variar o valor de $a$, a sensibilidade do processo de ponderação pode ser controlada. Valores menores de $a$ levarão a uma maior sensibilidade. O peso de cada palavra $w$ na representação vetorial-espacial é então multiplicado por $g(w)$. Funções de ponderação semelhantes podem ser definidas com relação à entropia e ao desvio normalizado. O processo de seleção de uma função de ponderação apropriada é uma heurística que varia significativamente de acordo com a aplicação em questão. O valor de $a$ pode ser visto como um parâmetro da função de ponderação. Também é possível aprender os parâmetros ideais de uma função como essa usando técnicas de validação cruzada. Tais técnicas são discutidas no Capítulo 7.



## 4.4 Aprendendo Perfis de Usuário e Filtragem

O aprendizado de perfis de usuário está intimamente relacionado à classificação e à modelagem de regressão. Quando as avaliações são tratadas como valores discretos (por exemplo, "gostei" ou "não gostei"), o problema é similar ao da classificação de texto. Por outro lado, quando as avaliações são tratadas como um conjunto de entidades numéricas, o problema é similar ao da modelagem de regressão. Além disso, o problema de aprendizado pode ser colocado tanto em domínios estruturados quanto não estruturados. Para manter a homogeneidade na apresentação, assumiremos que as descrições de itens estão na forma de documentos. No entanto, a abordagem pode ser facilmente generalizada para qualquer tipo de dado multidimensional, porque o texto é um tipo especial de dado multidimensional.

Em cada caso, assumimos que temos um conjunto $D_L$ de documentos de treinamento, que são rotulados por um usuário específico. Esse usuário também é referido como o *usuário ativo* quando esse usuário obtém uma recomendação do sistema. Os documentos de treinamento correspondem às descrições de itens, que são extraídas nas fases de pré-processamento e seleção de características. Além disso, os dados de treinamento contêm as avaliações atribuídas pelo usuário ativo a esses documentos. Esses documentos são usados para construir um modelo de treinamento. Observe que os rótulos atribuídos por outros usuários (diferentes do usuário ativo) não são usados no processo de treinamento. Portanto, os modelos de treinamento são específicos para usuários particulares e não podem ser usados para usuários escolhidos arbitrariamente. Isso é diferente da filtragem colaborativa tradicional, na qual métodos como a fatoração de matrizes constroem um único modelo para todos os usuários. O modelo de treinamento para um usuário específico representa o *perfil de usuário*.

Os rótulos nos documentos correspondem à natureza numérica, binária ou unária das avaliações. Assuma que a i-ésima avaliação em um documento é denotada por $x_i$. Nós também temos um conjunto $D_U$ de documentos de teste, que não são rotulados. Note que ambos os conjuntos, $D_L$ e $D_U$, são específicos para um usuário particular (usuário ativo). Os documentos de teste de teste correspondem a descrições de itens, que podem ser potencialmente recomendados ao usuário, mas que ainda não foram comprados ou avaliados por ele. Em domínios como a recomendação de notícias, os documentos em $D_U$ podem corresponder a páginas da web candidatas para recomendação ao usuário ativo. A definição precisa de $D_U$ depende do domínio em questão, mas os documentos individuais em $D_U$ são extraídos de forma similar aos de $D_L$. O modelo de treinamento em $D_L$ é usado para fazer recomendações de $D_U$ para o usuário ativo. Assim como na filtragem colaborativa, o modelo pode ser usado para fornecer uma avaliação prevista do item ou uma lista classificada das principais recomendações.

É evidentemente um problema similar ao da classificação e regressão em modelagem no domínio de texto. O leitor é encaminhado a uma pesquisa recente \cite{21} para uma discussão detalhada de muitas dessas técnicas. A seguir, discutiremos algumas das abordagens de aprendizado mais comuns.

### 4.4.1 Classificação de Vizinho Mais Próximo

O classificador de vizinho mais próximo é uma das técnicas de classificação mais simples e pode ser implementado de maneira relativamente direta. A primeira etapa é definir uma função de similaridade, que é usada no classificador de vizinho mais próximo. A função de similaridade mais comumente usada é a função de similaridade de cosseno. Seja $\vec{X} = (x_1, \dots, x_d)$ e $\vec{Y} = (y_1, \dots, y_d)$ um par de documentos, nos quais as frequências normalizadas da i-ésima palavra são dadas por $x_i$ e $y_i$, respectivamente, nos dois documentos. Note que essas frequências são normalizadas ou ponderadas com o uso de ponderação não supervisionada tf-idf ou os métodos supervisionados discutidos na seção anterior. O cosseno de similaridade é definido usando essas frequências normalizadas da seguinte forma:

$$Cos(\vec{X}, \vec{Y}) = \frac{\sum_{i=1}^{d} x_i y_i}{\sqrt{\sum_{i=1}^{d} x_i^2} \sqrt{\sum_{i=1}^{d} y_i^2}}$$

A similaridade de cosseno é frequentemente usada no domínio de texto por sua capacidade de se ajustar às variadas extensões dos documentos subjacentes. Quando essa abordagem é usada para outros tipos de dados estruturados e multidimensionais, outras funções de similaridade/distância, como a distância Euclidiana e de Manhattan, são usadas. Para dados relacionais com atributos categóricos, várias medidas de similaridade baseadas em correspondência de atributos estão disponíveis \cite{22}.



Essa função de similaridade é útil para fazer previsões para itens (documentos) nos quais a preferência do usuário é desconhecida. Para cada documento em $D_U$, seus $k$-vizinhos mais próximos em $D_L$ são determinados usando a função de similaridade de cosseno. O valor médio da avaliação para os $k$ vizinhos de cada item em $D_U$ é determinado. Esse valor médio é a avaliação prevista para o item correspondente em $D_U$. Uma heurística adicional que pode ser usada é ponderar cada avaliação com o valor de similaridade. Em casos onde as avaliações são tratadas como valores categóricos, o número de votos para cada valor de avaliação é determinado, e a avaliação com a maior frequência é prevista. Os documentos em $D_U$ são então classificados com base no valor de avaliação previsto, e os principais itens são recomendados ao usuário.

O principal desafio com esta abordagem é sua alta complexidade computacional. Observe que a necessidade de encontrar os vizinhos mais próximos de cada documento em $D_U$ precisa ser determinada, e o tempo necessário para cada determinação de vizinho mais próximo é proporcional ao tamanho de $D_L$. Portanto, a complexidade computacional total é igual a $|D_L| \times |D_U|$. Uma maneira de tornar a abordagem mais rápida é usar o agrupamento (*clustering*) para reduzir o número de documentos de treinamento em $D_L$. Para cada valor de avaliação distinto, o subconjunto de documentos em $D_L$ é agrupado em $p < |D_L|$ grupos. Portanto, se há $s$ valores distintos das avaliações, o número total de grupos é $s \cdot p$. Tipicamente, um centróide de agrupamento rápido (por exemplo, *k-means*) é usado para criar cada grupo de $p$ clusters. Observe que o número de grupos $s \cdot p$ é significativamente menor que o número de documentos de treinamento. Nesses casos, cada grupo é convertido em um documento maior correspondente à concatenação de todos os documentos no grupo. A representação vetorial-espacial deste documento maior pode ser extraída somando os valores de frequência de suas partes constituintes. O rótulo de avaliação correspondente associado ao documento é igual ao rótulo de avaliação dos documentos constituintes. Para cada documento de teste, $t$, os $k$ documentos mais próximos são encontrados a partir deste conjunto de documentos recém-criado, e a avaliação média de $k$ documentos é retornada como o rótulo para $t$. Assim como no caso anterior, a avaliação prevista para cada item em $D_U$ e os itens de melhor classificação são retornados para o usuário ativo. Esta abordagem acelera o processo de classificação, porque um deve agora apenas comparar a similaridade entre o documento de teste e um número relativamente pequeno de documentos agregados. Embora essa abordagem incorra em uma sobrecarga de pré-processamento de agrupamento, essa sobrecarga é geralmente compensada pela economia de tempo na fase de classificação quando os tamanhos de $D_L$ e $D_U$ são grandes.

Um caso especial desta abordagem de agrupamento é aquele em que todos os documentos pertencentes a um valor particular da avaliação são agregados em um único grupo. O valor de $p$ é definido como 1. A representação vetorial-espacial do vetor resultante de cada grupo também é referida como o vetor protótipo. Para um documento de teste, o vetor do vizinho mais próximo é reportado como o relevante para o alvo. Essa abordagem está intimamente relacionada à classificação de Rocchio, que também permite a noção de *relevância de feedback* do usuário ativo. O método de Rocchio foi originalmente projetado para classificadores binários, que, em nosso caso, se traduzem em avaliações binárias. As notas bibliográficas contêm ponteiros para o método de Rocchio.

### 4.4.2 Conexões com Sistemas de Recomendação Baseados em Casos

Os métodos de vizinho mais próximo estão conectados a sistemas de recomendação baseados em conhecimento em geral e, em particular, a sistemas de recomendação baseados em casos. Os sistemas de recomendação baseados em conhecimento são discutidos em detalhes no Capítulo 5. A principal diferença é que, nos sistemas de recomendação baseados em casos, o usuário interativamente especifica um único exemplo de item, e os vizinhos mais próximos desse exemplo são recuperados como possíveis itens de interesse para o usuário.




Além disso, uma quantidade significativa de conhecimento do domínio é usada na concepção da função de similaridade, porque apenas um único exemplo está disponível. Esse único exemplo pode ser visto de forma mais apropriada como um requisito do usuário em vez de uma avaliação histórica, pois é especificado interativamente. Em sistemas baseados em conhecimento, há menos ênfase no uso de dados históricos ou avaliações. Assim como o método Rocchio, tais métodos também são interativos, embora a interatividade seja muito mais sofisticada em sistemas baseados em casos.

### 4.4.3 Classificador de Bayes

O classificador de Bayes é discutido na seção 3.4 do Capítulo 3 em filtragem colaborativa. No entanto, a discussão no Capítulo 3 é um uso não padrão do modelo de Bayes no qual as entradas ausentes são previstas a partir das especificadas. No contexto de sistemas de recomendação baseados em conteúdo, o problema se traduz em um uso mais convencional do modelo de Bayes para classificação de texto. Portanto, revisitaremos o modelo de Bayes no contexto da classificação de texto.

Neste caso, temos um conjunto $D_L$ de documentos de treinamento, que contêm as avaliações e um conjunto $D_U$ de documentos de teste. Os rótulos são binários, indicando se um usuário gosta ou não de um item, ou $+1$ ou $-1$, respectivamente para cada um dos documentos de treinamento em $D_L$. É, no entanto, relativamente fácil generalizar este classificador para o caso em que as avaliações assumem mais de dois valores.

Como antes, assumimos que a avaliação do i-ésimo documento em $D_L$ é denotada por $c_i \in \{-1, 1\}$. Portanto, este rótulo representa a classe do usuário. Existem dois modelos que são comumente usados em dados de teste, que correspondem aos modelos de Bernoulli e multinomial, respectivamente. A seguir, discutiremos apenas o modelo de Bernoulli. O modelo multinomial é discutido em detalhes em \cite{22}.

No modelo de Bernoulli, as frequências das palavras são ignoradas, e apenas a presença ou ausência de uma palavra no documento é considerada. Portanto, cada documento é tratado como um vetor binário de $d$ palavras contendo apenas valores de 0 e 1. Considere um documento-alvo $\vec{X} \in D_U$, que pode corresponder à descrição de um item. Assuma que os $d$ atributos binários em $\vec{X}$ são denotados por $(x_1, \dots, x_d)$. Informalmente, gostaríamos de determinar $P(Usuário ativo gosta de \vec{X})$. Aqui, cada $x_i$ é um valor 0-1, correspondendo a se o i-ésimo termo está presente no documento $\vec{X}$. Então, se a classe (avaliação binária) de $\vec{X}$ é denotada por $c(\vec{X})$, isso é equivalente a determinar o valor de $P(c(\vec{X}) = 1 | x_1, \dots, x_d)$. Determinando ambos $P(c(\vec{X}) = 1 | x_1, \dots, x_d)$ e $P(c(\vec{X}) = -1 | x_1, \dots, x_d)$ e selecionando o maior dos dois, podemos determinar se o usuário ativo gosta ou não de $\vec{X}$. Essas expressões podem ser avaliadas usando a regra de Bayes e, em seguida, aplicando uma suposição ingênua da seguinte forma:

$$P(c(\vec{X}) = 1 | x_1, \dots, x_d) = \frac{P(c(\vec{X})=1) \cdot P(x_1, \dots, x_d | c(\vec{X})=1)}{P(x_1, \dots, x_d)}$$

$$\propto P(c(\vec{X}) = 1) \cdot P(x_1, \dots, x_d | c(\vec{X}) = 1)$$

$$= P(c(\vec{X}) = 1) \cdot \prod_{i=1}^{d} P(x_i | c(\vec{X}) = 1) \quad [Assunção Ingênua]$$

A suposição ingênua afirma que as ocorrências de palavras em documentos são condicionalmente independentes (em uma classe específica) e, portanto, podem ser substituídas por $\prod_{i=1}^d P(x_i | c(\vec{X}))$. Além disso, a constante de proporcionalidade é usada na primeira relação porque o denominador é independente da classe. Portanto, o denominador não desempenha nenhum papel na decisão sobre a ordem relativa das classes.




No entanto, o denominador desempenha um papel na classificação da propensão de diferentes itens (documentos) de serem apreciados pelo usuário. Isso é relevante para o problema de *classificar itens* para um usuário específico, em ordem de $P(c(\vec{X}) = 1 | x_1, \dots, x_d)$.

Em casos em que tal classificação de itens é necessária, a constante de proporcionalidade não é mais irrelevante. Isso é particularmente comum em aplicações de recomendação onde não é suficiente determinar as probabilidades relativas de itens pertencentes a diferentes valores de avaliação, mas sim classificá-los com relação um ao outro. Nesses casos, a constante de proporcionalidade precisa ser determinada. Assuma que a constante de proporcionalidade na relação de Bayes é denotada por $K$. A constante de proporcionalidade $K$ pode ser obtida usando o fato de que a soma das probabilidades de todas as possíveis instâncias de $c(\vec{X})$ é sempre igual a 1. Portanto, temos:

$$K \cdot P(c(\vec{X})=1) \cdot \prod_{i=1}^d P(x_i | c(\vec{X})=1) + K \cdot P(c(\vec{X})=-1) \cdot \prod_{i=1}^d P(x_i | c(\vec{X})=-1) = 1$$

Portanto, podemos derivar a seguinte fórmula para $K$:

$$K = \frac{1}{P(c(\vec{X})=1) \cdot \prod_{i=1}^d P(x_i | c(\vec{X})=1) + P(c(\vec{X})=-1) \cdot \prod_{i=1}^d P(x_i | c(\vec{X})=-1)}$$

Essa abordagem é usada para determinar a probabilidade de um usuário gostar de cada item em $D_U$. Os itens em $D_U$ são então classificados de acordo com esta probabilidade e apresentados ao usuário. Esses métodos são particularmente adequados para avaliações binárias. Existem outras formas de usar a probabilidade para estimar o valor previsto da avaliação e classificar os itens ao lidar com avaliações que não são necessariamente binárias. Tais métodos são discutidos em detalhes na seção 3.4 do Capítulo 3.

### 4.4.3.1 Estimando Probabilidades Intermediárias

O método de Bayes requer o cálculo de probabilidades intermediárias como $P(x_i | c(\vec{X}) = 1)$. Até agora, não discutimos como essas probabilidades podem ser estimadas em uma abordagem orientada por dados. A principal utilidade da regra de Bayes mencionada acima é que ela expressa as probabilidades de previsão em termos de outras probabilidades (por exemplo, $P(x_i | c(\vec{X})=1)$) que podem ser estimadas mais facilmente em uma abordagem orientada por dados. Reproduzimos a condição de Bayes acima:

$$P(c(\vec{X}) = 1 | x_1, \dots, x_d) \propto P(c(\vec{X}) = 1) \cdot \prod_{i=1}^d P(x_i | c(\vec{X}) = 1)$$

$$P(c(\vec{X}) = -1 | x_1, \dots, x_d) \propto P(c(\vec{X}) = -1) \cdot \prod_{i=1}^d P(x_i | c(\vec{X}) = -1)$$

Para calcular as probabilidades de Bayes, precisamos estimar as probabilidades no lado direito das equações acima. Estas incluem as probabilidades de classes a priori, como $P(c(\vec{X}) = 1)$ e $P(c(\vec{X}) = -1)$. Além disso, precisamos das probabilidades de característica-condicional, como $P(x_i | c(\vec{X})=1)$ e $P(x_i | c(\vec{X})=-1)$. A probabilidade de $P(c(\vec{X}) = 1)$ pode ser estimada como a fração de exemplos de treinamento positivos em $D_L$. Para reduzir o \textit{overfitting}, a suavização de Laplace é realizada adicionando valores proporcionais a um pequeno parâmetro $\alpha > 0$ ao numerador e ao denominador.

$$P(c(\vec{X}) = 1) = \frac{|D_L^+| + \alpha}{|D_L| + 2 \cdot \alpha}$$


**Tabela 4.1**: Ilustração do método de Bayes para um sistema baseado em conteúdo

| Palavra-chave $\Leftrightarrow$ Id da Música $\Downarrow$ | Bateria | Guitarra | Batida | Clássico | Sinfonia | Orquestra | Gosta ou Não Gosta |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| 1 | 1 | 1 | 1 | 0 | 0 | 0 | Não Gosta |
| 2 | 1 | 1 | 0 | 0 | 0 | 0 | Não Gosta |
| 3 | 0 | 1 | 1 | 0 | 0 | 0 | Não Gosta |
| 4 | 0 | 0 | 0 | 1 | 1 | 1 | Gosta |
| 5 | 0 | 1 | 0 | 1 | 0 | 1 | Gosta |
| 6 | 0 | 0 | 0 | 1 | 1 | 0 | Gosta |
| Teste-1 | 0 | 0 | 0 | 1 | 0 | 0 | ? |
| Teste-2 | 1 | 0 | 1 | 0 | 0 | 0 | ? |

<br>

O valor de $P(c(\vec{X}) = -1)$ é estimado de maneira exatamente similar. Além disso, a probabilidade condicional de característica $P(x_i | c(\vec{X}) = 1)$ é estimada como a fração das instâncias na classe positiva para as quais a i-ésima característica assume o valor de $x_i$. Seja $q^+(x_i)$ o número de instâncias na classe positiva que assumem o valor de $x_i \in \{0, 1\}$ para a i-ésima característica. Então, podemos usar um parâmetro de suavização de Laplace $\beta > 0$ para estimar a probabilidade da seguinte forma:

$$P(x_i | c(\vec{X}) = 1) = \frac{q^+(x_i) + \beta}{|D_L^+| + 2 \cdot \beta}$$

Uma abordagem similar pode ser usada para estimar $P(x_i | c(\vec{X}) = -1)$. Note que a suavização de Laplace é útil para casos em que os dados de treinamento são poucos. No caso extremo, onde $D_L^+$ está vazio, a probabilidade $P(x_i | c(\vec{X}) = 1)$ seria (apropriadamente) estimada como 0.5 como uma espécie de crença a priori. Sem a suavização, essa estimativa seria indeterminada, porque tanto o numerador quanto o denominador da razão seriam 0. A suavização de Laplace, assim como muitas medidas de regularização, pode ser interpretada em termos da maior importância das crenças a priori quando a quantidade de dados de treinamento é limitada. Embora tenhamos apresentado a estimativa mencionada para o caso de avaliações binárias, é relativamente fácil generalizar a estimativa quando existem $k$ valores distintos da avaliação. Um tipo similar de estimativa é discutido no contexto de filtragem colaborativa na seção 3.4 do Capítulo 3.

### 4.4.3.2 Exemplo do Modelo de Bayes

Fornecemos um exemplo do uso do modelo de Bayes para um conjunto de 6 exemplos de treinamento e dois exemplos de teste na Tabela 4.1. Na Tabela, as colunas correspondem a características representando propriedades de várias músicas. O gosto ou desgosto do usuário é ilustrado na última coluna da tabela. Portanto, a última coluna pode ser vista como a avaliação. As primeiras 6 linhas correspondem aos exemplos de treinamento, que correspondem ao perfil do usuário. Os dois últimos pares de linhas correspondem a duas músicas candidatas que precisam ser classificadas para o usuário ativo. Na linguagem do aprendizado de máquina, essas linhas também são referidas como instâncias de teste. Note que o campo final (variável dependente) é especificado apenas para as linhas de treinamento, porque o gosto ou desgosto do usuário (avaliações) não é conhecido para as linhas de teste. Esses valores precisam ser previstos.

Ao examinar as características na Tabela 4.1, torna-se imediatamente evidente que as três primeiras características (colunas) muitas vezes ocorrem em gêneros musicais populares como rock, enquanto as três últimas características ocorrem tipicamente na música clássica. O perfil do usuário, representado pela Tabela 4.1, parece indicar uma preferência por música clássica sobre rock. Da mesma forma, entre os exemplos de teste, apenas o primeiro dos dois exemplos parece corresponder aos interesses do usuário. Vamos examinar como a abordagem de Bayes é capaz de derivar esse fato de forma orientada por dados. Para facilitar o cálculo, assumiremos que a suavização de Laplace não é usada, embora seja importante usar métodos de suavização em aplicações reais.



Ao usar a regra de Bayes, podemos determinar as probabilidades condicionais para gostos e desgostos com base nos valores de características observados dos exemplos de teste:

$$P(Gosta|Teste-1) \propto 0.5 \prod_{i=1}^{6} P(Gosta|x_i)$$$$= (0.5) \cdot \frac{3}{4} \cdot \frac{2}{4} \cdot \frac{2}{4} \cdot \frac{3}{4} \cdot \frac{3}{4} \cdot \frac{1}{4}$$$$= \frac{3}{128}$$

$$P(Não Gosta|Teste-1) \propto 0.5 \prod_{i=1}^{6} P(Não Gosta|x_i)$$$$= (0.5) \cdot \frac{1}{4} \cdot \frac{0}{4} \cdot \frac{1}{4} \cdot \frac{0}{4} \cdot \frac{3}{4} \cdot \frac{2}{4}$$$$= 0$$

Normalizando as duas probabilidades para que somem 1, obtemos o resultado de que $P(Gosta|Teste-1)$ é 1 e $P(Não Gosta|Teste-1)$ é 0. No caso do Teste-2, o resultado oposto é obtido, onde $P(Gosta|Teste-2)$ é 0. Portanto, Teste-1 seria recomendado para o usuário ativo em vez do Teste-2. Este é o mesmo resultado que obtivemos na inspeção visual deste exemplo.

Quando a suavização de Laplace é usada, não obteremos valores de probabilidade binários, embora uma das classes obtenha uma probabilidade muito maior do que a outra. Em tais casos, todos os exemplos de teste podem ser classificados em ordem de sua probabilidade prevista de um ``gosto`` e recomendados ao usuário. A suavização de Laplace é aconselhável porque um único valor de ``0'' na forma de produto da probabilidade condicional no lado direito da regra de Bayes pode resultar em um valor de probabilidade condicional de 0.

### 4.4.4 Classificadores Baseados em Regras

Classificadores baseados em regras são projetados de várias maneiras, incluindo métodos de descarte de um (*leave-one-out*) e métodos de associações. Uma discussão detalhada dos vários tipos de classificadores baseados em regras é fornecida em \cite{18, 22}. No que se segue, discutiremos apenas classificadores de associações, porque eles se baseiam nos princípios simples de associação de regras. Uma discussão de métodos baseados em regras é fornecida na seção 3.3 do Capítulo 3. Consulte essa seção para os conceitos básicos de regras de associação e suas medidas, como *suporte* e *confiança*. O suporte de uma regra define a fração de linhas que satisfazem tanto o antecedente quanto o consequente de uma regra. A confiança de uma regra é a fração de linhas que satisfazem o consequente, a partir das linhas já conhecidas por satisfazer o antecedente. O conceito de uma linha que ``satisfaz'' o antecedente ou o consequente é descrito com mais detalhes abaixo.

Classificadores baseados em regras em sistemas baseados em conteúdo são similares a classificadores baseados em regras em filtragem colaborativa. Nos sistemas item-item de filtragem colaborativa, tanto os antecedentes quanto os consequentes de regras correspondem a avaliações de itens. A principal diferença é que os antecedentes das regras em filtragem colaborativa correspondem a avaliações de vários itens, enquanto os antecedentes das regras nos métodos baseados em conteúdo correspondem à presença de palavras-chave específicas nas descrições dos itens. Portanto, as regras são da seguinte forma:

Item contém conjunto de palavras-chave A $\Rightarrow$ Avaliação= Gosta
Item contém conjunto de palavras-chave B $\Rightarrow$ Avaliação= Não Gosta

Portanto, diz-se que um antecedente de uma regra ``satisfaz'' uma linha particular (representação de palavra-chave do item), se todas as palavras-chave no antecedente estiverem contidas nessa linha. Os consequentes correspondem às várias avaliações, que assumimos ser gostos ou desgostos binários para simplificação. Uma linha é dita satisfazer o consequente dessa regra se o valor da avaliação no consequente corresponder à variável dependente (avaliação) dessa linha.

A primeira etapa é aproveitar o perfil do usuário ativo (ou seja, documentos de treinamento) para minar todas as regras em um nível desejado de suporte e confiança. Como em todos os métodos baseados em conteúdo, as regras são específicas para o usuário ativo. Por exemplo, no caso da Tabela 4.1, o usuário ativo parece estar interessado em música clássica. Nesse caso, um exemplo de regra relevante, que tem 33\% de suporte e 100\% de confiança, é a seguinte:

{Clássica, Sinfonia} $\Rightarrow$ Gosta

Portanto, a ideia básica é minar todas essas regras para um determinado usuário ativo. Então, para os itens onde os interesses do usuário são desconhecidos, é determinado quais regras são acionadas. Uma regra é acionada por um item se as palavras-chave do antecedente do primeiro estiverem contidas no último. Uma vez que todas as regras acionadas tenham sido minadas, a avaliação média das regras acionadas é reportada como a avaliação do item-alvo. Muitos heurísticos diferentes existem para combinar as avaliações dos consequentes das regras. Por exemplo, podemos optar por ponderar a avaliação da regra com a confiança da regra ao computar a média. No caso de nenhuma regra ser acionada, heurísticos padrão precisam ser usados. Por exemplo, pode-se determinar a avaliação média do usuário ativo em todos os itens e também determinar a avaliação média do item-alvo por todos os usuários. A média dessas duas quantidades é reportada. Portanto, a abordagem geral para classificação baseada em regras pode ser descrita da seguinte forma:

1.  **(Fase de Treinamento)**: Determine todas as regras relevantes do perfil do usuário no nível mínimo de suporte e confiança desejados a partir do conjunto de dados de treinamento $D_L$.
2.  **(Fase de Teste)**: Para cada descrição de item em $D_U$, determine as regras acionadas e uma avaliação média. Classifique os itens em $D_U$ com base nessa avaliação média.

Uma vantagem dos sistemas baseados em regras é o alto nível de interpretabilidade que eles fornecem. Para um item recomendado, pode-se usar as palavras-chave no antecedente da regra acionada para dar uma recomendação ao usuário-alvo sobre por que ele pode gostar de um item em particular.



### 4.4.4.1 Exemplo de Métodos Baseados em Regras

Para ilustrar o uso de métodos baseados em regras, forneceremos um exemplo das regras geradas para o usuário ativo na Tabela 4.1. Em um nível de suporte de 33\% e confiança de 75\%, as seguintes regras são geradas juntamente com seus valores de suporte-confiança:

* **Regra 1**: {Clássica} $\Rightarrow$ Gosta (50\%, 100\%)
* **Regra 2**: {Sinfonia} $\Rightarrow$ Gosta (33\%, 100\%)
* **Regra 3**: {Clássica, Sinfonia} $\Rightarrow$ Gosta (33\%, 100\%)
* **Regra 4**: {Bateria, Guitarra} $\Rightarrow$ Não Gosta (33\%, 100\%)
* **Regra 5**: {Bateria} $\Rightarrow$ Não Gosta (33\%, 100\%)
* **Regra 6**: {Batida} $\Rightarrow$ Não Gosta (33\%, 100\%)
* **Regra 7**: {Guitarra} $\Rightarrow$ Não Gosta (50\%, 75\%)

As regras mencionadas são primariamente ordenadas em ordem decrescente de confiança, com empates desfeitos em ordem decrescente de suporte. É evidente que a regra 2 é acionada pelo *Teste-1*, enquanto as regras 5 e 6 são acionadas pelo *Teste-2*. Portanto, o *Teste-1* deve ser preferido em relação ao *Teste-2* como uma recomendação para o usuário ativo. Observe que as regras acionadas pelo *Teste-1* também fornecem uma compreensão do porquê ele deve ser a melhor recomendação para o usuário ativo. Tais explicações são frequentemente muito úteis em sistemas de recomendação, tanto da perspectiva do cliente quanto da perspectiva do comerciante.

### 4.4.5 Modelos Baseados em Regressão

Modelos baseados em regressão têm o mérito de poderem ser usados para vários tipos de avaliações, como avaliações binárias, baseadas em intervalo ou numéricas. Grandes classes de modelos de regressão, como modelos lineares, modelos de regressão logística e modelos de regressão ordenada, podem ser usadas para modelar vários tipos de avaliações. Aqui, descreveremos o modelo mais simples, que é referido como *regressão linear*. As notas bibliográficas contêm ponteiros para modelos de regressão mais sofisticados.

Seja $D_L$ uma matriz $n \times d$ representando os $n$ documentos no conjunto de treinamento rotulado em um léxico de tamanho $d$. Similarmente, seja $\vec{y}$ um vetor coluna $n$-dimensional contendo o vetor de avaliações para os $n$ documentos no conjunto de treinamento. A ideia básica na regressão linear é assumir que as avaliações podem ser modeladas como uma função linear das frequências das palavras. Seja $\vec{W}$ um vetor linha $d$-dimensional representando os coeficientes de cada palavra em relação à sua frequência de palavra com a avaliação. Então, o modelo de regressão linear assume que as frequências de palavra na matriz de treinamento $D_L$ estão relacionadas aos vetores de avaliação da seguinte forma:

$$\vec{y} \approx D_L \vec{W}^T$$

Portanto, o vetor de erros de previsão ($D_L \vec{W}^T - \vec{y}$) é um vetor de erro de previsão $n$-dimensional. Para otimizar a qualidade da previsão, deve-se minimizar a norma quadrada desse vetor. Além disso, um termo de regularização $\lambda ||\vec{W}||^2$ pode ser adicionado à função objetivo para reduzir o *overfitting*. Esta forma de regularização também é referida como regularização de *Tikhonov*. Aqui, $\lambda > 0$ é o parâmetro de regularização. Portanto, a função objetivo $O$ pode ser expressa da seguinte forma:

$$\text{Minimize } O = ||D_L \vec{W}^T - \vec{y}||^2 + \lambda ||\vec{W}||^2$$

O problema pode ser resolvido tomando o gradiente desta função objetivo com respeito a $\vec{W}$ e igualando a 0. Isso resulta na seguinte condição:

$$D_L^T(D_L \vec{W}^T - \vec{y}) + \lambda \vec{W}^T = 0$$

$$(D_L^T D_L + \lambda I)\vec{W}^T = D_L^T \vec{y}$$




**Tabela 4.2**: A família de modelos de regressão e aplicabilidade a vários tipos de avaliações

| Modelo de Regressão | Natureza da Avaliação (Variável Alvo) |
| :--- | :--- |
| Regressão Linear | Real |
| Regressão Polinomial | Real |
| Regressão Kernel | Real |
| Regressão Logística Binária | Binário, Unário |
| Regressão Logística Multivias | Categórico, Ordinal |
| Probit | Unário, Binário |
| Probit Multivias | Categórico, Ordinal |
| Probit Ordenado | Ordinal, Baseado em Intervalo |

A matriz $(D_L^T D_L + \lambda I)$ pode ser mostrada como positiva-definida e, portanto, invertível (veja Exercício 7). Portanto, podemos resolver diretamente para o vetor de pesos $\vec{W}$ da seguinte forma:

$$\vec{W}^T = (D_L^T D_L + \lambda I)^{-1} D_L^T \vec{y}$$

Aqui, $I$ é uma matriz identidade de $d \times d$. Portanto, uma forma de solução de ciclo fechado existe para $\vec{W}^T$. Para qualquer dado documento (descrição de item) $\vec{X}$ do conjunto não rotulado $D_U$, sua avaliação pode ser prevista tomando o produto escalar com o vetor $\vec{W}$. A regularização de Tikhonov, $\lambda ||\vec{W}||^2$, também é possível de ser usada se este termo for substituído por $\lambda ||\vec{W}||_1$. O problema de otimização resultante não tem uma solução de ciclo fechado, e métodos de gradiente descendente devem ser usados. Esta forma de regularização, também conhecida como Lasso \cite{242}, pode ser usada na dupla de seleção de características. Isso ocorre porque tais métodos têm a tendência de selecionar vetores de coeficientes esparsos para $\vec{W}$, nos quais a maioria dos componentes de $\vec{W}$ assume o valor de 0. Tais características podem ser descartadas. Portanto, métodos de regularização $L_1$ fornecem insights altamente interpretáveis sobre subconjuntos importantes de características para o processo de recomendação. Uma discussão detalhada desses modelos pode ser encontrada em \cite{22}.

O modelo linear é um exemplo de um modelo de regressão que é adequado para valores reais. Na prática, avaliações podem ser unárias, binárias, baseadas em intervalo ou categóricas (pequeno número de valores ordinais). Vários modelos lineares foram projetados para diferentes tipos de classes-alvo. Alguns exemplos incluem a regressão logística, regressão probit, regressão probit ordenada e regressão não linear. Avaliações unárias são frequentemente tratadas como avaliações binárias, nas quais os itens não rotulados são tratados como avaliações negativas. No entanto, a regressão especializada de feedback positivo e não rotulado (PU) \cite{364} existe para tais casos. A regressão probit ordenada é especialmente útil para modelos baseados em intervalo. Além disso, modelos de regressão não lineares, como a regressão polinomial e a regressão kernel, podem ser usados em casos onde a dependência entre as características e a variável alvo é não linear. Quando o número de características é grande e o número de exemplos de treinamento é pequeno, os modelos lineares geralmente se saem muito bem e podem, de fato, superar os modelos não lineares. Isso ocorre porque os modelos lineares são menos propensos ao *overfitting*. A Tabela 4.2 mostra o mapeamento entre os vários modelos de regressão e a natureza da variável alvo (avaliação).



### 4.4.6 Outros Modelos de Aprendizado e Visão Geral Comparativa

Como o problema de filtragem baseado em conteúdo é uma aplicação direta da classificação e modelagem de regressão, muitas outras técnicas de aprendizado podem ser usadas a partir da literatura. Uma discussão detalhada de várias classes de classificação pode ser encontrada em \cite{18, 86, 242, 436}. O modelo de árvore de decisão discutidos no Capítulo 3 também podem ser aplicados a métodos baseados em conteúdo. No entanto, para dados de dimensão muito alta, como texto, as árvores de decisão frequentemente não fornecem resultados muito eficazes. Resultados experimentais \cite{47} têm mostrado o fraco desempenho das árvores de decisão comparado a outras técnicas de classificação. Embora os classificadores baseados em regras estejam intimamente relacionados a árvores de decisão, eles são bem-sucedidos porque não assumem uma partição estrita do espaço de características. Os classificadores baseados em regras têm sido aplicados com sucesso para classificação de e-mail \cite{164, 165}. Entre os vários modelos, a abordagem de Bayes tem a vantagem de poder lidar com todos os tipos de variáveis de características com o uso de uma abordagem apropriada. Modelos baseados em regressão são muito robustos e podem lidar com todos os tipos de variáveis-alvo. A regressão logística e a regressão probit ordenada são particularmente úteis para avaliações binárias e baseadas em intervalos.

No caso de avaliações binárias, os vetores de máquinas de suporte \cite{114} são uma escolha popular. Os vetores de máquinas de suporte linear são muito semelhantes à regressão logística; a principal diferença é que a perda é quantificada como uma perda *hinge* em vez de usar a função de log. Os vetores de máquinas de suporte são altamente resistentes ao *overfitting*, e inúmeras implementações prontas para uso estão disponíveis na literatura. Ambos os vetores de máquinas de suporte linear e de kernel têm sido usados na literatura. Para o caso de alta dimensionalidade, como texto, foi observado que os vetores de máquinas de suporte linear são suficientes. Para tais casos, métodos especializados com um desempenho de aprendizado linear \cite{288} foram projetados. Embora as redes neurais \cite{87} possam ser usadas para construir modelos complexos arbitrariamente, não é aconselhável quando a quantidade de dados disponíveis é pequena. Isso ocorre porque as redes neurais são sensíveis ao ruído nos dados subjacentes e podem sobrecarregar os dados de treinamento quando seu tamanho é pequeno.

### 4.4.7 Explicações em Sistemas Baseados em Conteúdo

Como os sistemas baseados em conteúdo extraem modelos baseados em características de conteúdo, eles frequentemente fornecem insights altamente interpretáveis para o processo de recomendação. Por exemplo, em um sistema de recomendação de filmes, é útil apresentar ao usuário a razão para que ele goste de um filme específico, como a presença de um gênero particular, um ator, ou um conjunto informativo de palavras-chave. Como resultado, o usuário ativo será capaz de tomar uma decisão mais informada sobre se deve assistir ao filme. Da mesma forma, uma descrição de um usuário em um sistema de recomendação de música pode fornecer uma melhor compreensão de por que um usuário gostaria de uma faixa específica. Como exemplo, a Pandora Internet Radio \cite{693} fornece explicações para faixas recomendadas, como a seguinte:

> ``Estamos tocando esta faixa porque ela apresenta batidas de trance, batidas de quatro-no-chão, influências de disco, um gancho para refrões cativantes, batidas feitas para dança, batidas de bateria retas, pronunciação clara, letras de romance, narrativas líricas, construção sutil, uma introdução rítmica, uso de modos harmônicos, o uso de padrões de acordes, batidas de bateria leves, ênfase na instrumentação performática, um baixo sintetizado com sotaque de cordas, riffs de sintetizador, uso sutil de sintetizadores arpejados, efeitos pesados de sintetizador e batidas de sintetizador.``

Cada uma dessas características reportadas pode ser vista como uma característica importante, que é responsável pela classificação da instância de teste como um ``gosto''. Observe que tais explicações detalhadas são frequentemente ausentes em sistemas colaborativos, onde uma recomendação pode ser explicada apenas em termos de itens similares, em vez de em termos de características detalhadas desses itens. A natureza e a extensão dos *insights* são, no entanto, altamente sensíveis ao modelo específico usado. Por exemplo, os modelos de Bayes e baseados em regras são muito interpretáveis em termos da causalidade específica da classificação. Considere o exemplo da Tabela 4.1, no qual a seguinte regra é acionada para o exemplo Teste-1:

{Sinfonia} $\Rightarrow$ Gosta

É evidente que o item descrito pelo *Teste-1* foi recomendado ao usuário porque é uma sinfonia. Da mesma forma, no modelo de classificação de Bayes, é evidente que a contribuição de $P(\text{Sinfonia}|\text{Gosta})$ é a maior na fórmula multiplicativa para a classificação. Outros modelos, como regressão linear e modelos de regressão não lineares, também são fáceis de interpretar. No entanto, certas instâncias desses modelos, como o *Lasso*, fornecem insights importantes sobre as características mais relevantes para o processo de classificação.

### 4.5 Recomendações Baseadas em Conteúdo versus Colaborativas

É instrutivo comparar os métodos baseados em conteúdo com os métodos colaborativos discutidos nos Capítulos 2 e 3. Os métodos baseados em conteúdo têm várias vantagens e desvantagens em comparação com os métodos colaborativos. As vantagens dos métodos baseados em conteúdo são as seguintes:

1.  Quando um novo item é adicionado a uma matriz de avaliações, ele não tem avaliações dos vários usuários. Nenhum dos métodos de filtragem colaborativa baseados em memória e em modelo recomendaria esse item, porque dados de avaliação suficientes não estão disponíveis para fins de recomendação. Por outro lado, no caso de sistemas baseados em conteúdo, os itens anteriores avaliados por um usuário são aproveitados para fazer recomendações. Portanto, contanto que o usuário não seja novo, recomendações significativas podem ser feitas de uma forma que trata os novos itens de maneira justa em comparação com outros itens. Os sistemas colaborativos têm problemas de *cold-start* para novos usuários e novos itens, enquanto os sistemas baseados em conteúdo têm problemas de *cold-start* apenas para novos usuários.
2.  Conforme discutido na seção anterior, os métodos baseados em conteúdo fornecem explicações em termos das características dos itens. Isso geralmente não é possível com recomendações colaborativas.
3.  Os métodos baseados em conteúdo podem ser geralmente usados com classificadores de prateleira. Além disso, cada problema de classificação específico do usuário geralmente não é muito grande, como é o caso de sistemas colaborativos. Portanto, eles são particularmente fáceis de usar com relativamente pouco esforço de engenharia.

Por outro lado, os métodos baseados em conteúdo também têm várias desvantagens que não estão presentes nos recomendadores colaborativos.

1.  Os sistemas baseados em conteúdo tendem a encontrar itens que são semelhantes aos que o usuário já gostou. Esse problema é referido como *superspecialização*. É sempre desejável ter uma certa quantidade de novidade e serendipidade nas recomendações. A novidade se refere ao fato de que o item é diferente do que o usuário já viu no passado. A serendipidade implica que o usuário gostaria de descobrir itens *surpreendentemente relevantes* que de outra forma não teriam sido encontrados. Este é um problema para sistemas baseados em conteúdo nos quais os modelos de classificação baseados em atributos tendem a recomendar itens muito semelhantes. Por exemplo, se um usuário nunca ouviu ou avaliou música clássica, um sistema baseado em conteúdo  sistema tipicamente não recomendará tal item a ela, porque a música clássica será descrita por valores de atributos muito diferentes daqueles que a usuária avaliou até agora. Por outro lado, um sistema colaborativo poderia recomendar tais itens aproveitando os interesses de seu *grupo de pares*. A superspecialização e a falta de serendipidade são os dois desafios mais significativos dos sistemas de recomendação baseados em conteúdo.

2.  Embora os sistemas baseados em conteúdo ajudem a resolver problemas de *cold-start* para novos itens, eles não ajudam a resolver esses problemas para novos usuários. De fato, para novos usuários, o problema em sistemas baseados em conteúdo pode ser mais grave porque um modelo de classificação de texto geralmente requer um número suficiente de documentos de treinamento para evitar o *overfitting*.

Apesar dessas desvantagens, os sistemas baseados em conteúdo frequentemente complementam os sistemas colaborativos devido à sua capacidade de aproveitar o conhecimento baseado em conteúdo no processo de recomendação. Esse comportamento é alavancado em *sistemas híbridos de recomendação* (consulte o Cap. 6), nos quais o objetivo é combinar o melhor de ambos os mundos para criar um sistema de recomendação ainda mais robusto. Em geral, os sistemas baseados em conteúdo raramente são usados isoladamente e são geralmente usados em combinação com outros tipos de sistemas de recomendação.



### 4.6 Usando Modelos Baseados em Conteúdo para Filtragem Colaborativa

Há uma conexão interessante entre os modelos de filtragem colaborativa e os métodos baseados em conteúdo. Acontece que os métodos baseados em conteúdo podem ser diretamente usados para filtragem colaborativa. Embora a descrição de um item se refira a seus atributos descritivos, é possível visualizar cenários onde as avaliações dos usuários são aproveitadas para definir descrições de conteúdo. Para cada item, pode-se concatenar o nome de usuário (ou identificador) de um usuário que avaliou o item com o valor da avaliação para criar um novo "palavra-chave". Portanto, cada item seria descrito em termos de tantas palavras-chave quanto o número de avaliações desse item. Por exemplo, considere um cenário onde as descrições de vários filmes são as seguintes:

* **Terminator**: John#Gosta, Alice#Não Gosta, Tom#Gosta
* **Aliens**: John#Gosta, Peter#Não Gosta, Alice#Não Gosta, Sayani#Gosta
* **Gladiator**: Jack#Gosta, Mary#Gosta, Alice#Gosta

O símbolo ``\#'' é usado para denotar a demarcação da concatenação e garantir uma palavra-chave única por cada par de nome de usuário-avaliação. Essa abordagem geralmente é mais eficaz quando o número de avaliações possíveis é pequeno (por exemplo, avaliações unárias ou binárias). Depois que uma descrição baseada em conteúdo é construída, ela pode ser usada em conjunto com um algoritmo de conteúdo pronto para uso. Há quase um mapeamento um-para-um entre os métodos resultantes e os vários modelos de filtragem colaborativa, dependendo do método base usado para classificação. Embora cada uma dessas técnicas mapeie para um modelo de filtragem colaborativa, o inverso não é verdadeiro porque muitos métodos de filtragem colaborativa não podem ser capturados por essa abordagem. No entanto, fornecemos alguns exemplos do mapeamento:

1.  Um classificador de vizinho mais próximo no conteúdo de representação se aproxima de um modelo de filtragem colaborativa baseado em vizinhança de item (cf. seção 2.3.2 do Capítulo 2).
2.  Um modelo de regressão no conteúdo de representação se aproxima de um modelo de regressão usuário-sábio para filtragem colaborativa (cf. seção 2.6.1 do Capítulo 2).
3.  Um classificador baseado em regras no conteúdo se aproxima de um classificador baseado em regras usuário-sábio para filtragem colaborativa (cf. seção 3.3.2 do Capítulo 3).
4.  Um classificador de Bayes no conteúdo se aproxima de um modelo de Bayes usuário-sábio para filtragem colaborativa (cf. Exercício 4 do Capítulo 3).

Portanto, muitos métodos de filtragem colaborativa podem ser definidos ao apropriar o conteúdo de representação diretamente e usando algoritmos de conteúdo prontos para uso. Essas observações são importantes porque abrem inúmeras oportunidades para hibridização. Por exemplo, pode-se combinar as avaliações baseadas em *ratings* com atributos descritivos para obter um modelo ainda mais robusto. De fato, essa abordagem é frequentemente usada em sistemas híbridos de recomendação. Tal abordagem não mais ignora os dados de avaliação disponíveis de outros usuários, e os combina com o poder dos modelos baseados em conteúdo e colaborativos dentro de uma estrutura unificada.

### 4.6.1 Aproveitando Perfis de Usuário

Outro caso em que modelos de filtragem colaborativa podem ser criados com atributos de conteúdo ocorre quando os perfis de usuário estão disponíveis na forma de palavras-chave especificadas. Por exemplo, os usuários podem escolher especificar seus interesses particulares na forma de palavras-chave. Nesses casos, em vez de criar um modelo de classificação local para cada usuário, pode-se criar um modelo de classificação global para todos os usuários usando as características do item. Para cada par de item-usuário, uma característica centrada em conteúdo pode ser criada usando o produto Kronecker dos atributos do usuário correspondente e do item \cite{50}. Um modelo de classificação ou regressão é construído nesta representação para mapear pares item-usuário para avaliações. Essa abordagem é descrita em detalhes na seção 8.5.3 do Capítulo 8.

### 4.7 Resumo

Este capítulo introduz a metodologia de sistemas de recomendação baseados em conteúdo, nos quais modelos de aprendizado específicos do usuário são criados para o processo de recomendação. Os atributos de conteúdo nas descrições de itens são combinados com as avaliações do usuário para criar perfis de usuário. Modelos de classificação são criados com base nesses perfis. Esses modelos são então usados para classificar descrições de itens que ainda não foram avaliadas pelo usuário. Modelos de classificação e regressão, como classificadores de vizinho mais próximo, classificadores baseados em regras, o método de Bayes e modelos lineares, são usados por esses sistemas. Os métodos de Bayes têm sido usados com grande sucesso em uma variedade de cenários por causa de sua capacidade de lidar com vários tipos de conteúdo. Os sistemas baseados em conteúdo têm a vantagem de poderem lidar com problemas de *cold-start* para novos itens, embora não consigam lidar com problemas de *cold-start* para novos usuários. A serendipidade de sistemas baseados em conteúdo é relativamente baixa porque as recomendações baseadas em conteúdo se baseiam no conteúdo dos itens previamente avaliados pelo usuário.





### 4.8 Notas Bibliográficas

Os primeiros sistemas baseados em conteúdo foram atribuídos ao trabalho em \cite{60} e aos sistemas *Syskill & Webert* \cite{82, 476-478}. O sistema *Fab*, no entanto, usa um design de hibridização parcial no qual o grupo de pares é determinado usando métodos baseados em conteúdo, mas as avaliações de outros usuários são aproveitadas no processo de recomendação. A obra em \cite{5, 376, 477} fornece artigos de revisão excelentes sobre sistemas de recomendação baseados em conteúdo. O trabalho posterior foi projetado para encontrar websites interessantes, e, portanto, numerosos classificadores de texto foram testados para sua eficácia. Em particular, a obra em \cite{82} fornece uma série de pontos úteis sobre o desempenho relativo de vários sistemas baseados em conteúdo. Métodos probabilísticos para modelagem de usuário são discutidos em \cite{83}. O trabalho em \cite{163, 164} é notável por seu uso de sistemas baseados em regras para classificação de e-mail. A relevância de feedback de Rocchio \cite{511} também foi usada durante os primeiros anos, embora o trabalho não tenha uma base teórica, e possa muitas vezes ter um desempenho fraco em muitos cenários. Vários métodos de classificação de texto, que podem ser usados para recomendações baseadas em conteúdo, são discutidos em \cite{21, 22, 400}. Uma discussão sobre a noção de serendipidade no contexto de recuperação de informação é fornecida em \cite{599}. Alguns sistemas baseados em conteúdo filtram explicitamente itens muito similares a fim de melhorar a qualidade de uma recomendação. O trabalho em \cite{418} discute como se pode ir além dos algoritmos de métricas para medir a qualidade de um sistema de recomendação.

Métodos para extração, limpeza e seleção de características em classificação de texto são discutidos em \cite{21, 364, 400}. A extração do bloco de conteúdo principal de uma página da web a partir de múltiplas camadas é alcançada com a ajuda do algoritmo de correspondência de árvores, que pode ser encontrado em \cite{364, 662}. O uso de representações visuais para extrair conteúdo estrutural de páginas da Web é descrito em \cite{126}. Uma discussão detalhada sobre medidas de seleção de características para classificação pode ser encontrada em \cite{18}. Uma pesquisa recente sobre classificação de texto \cite{21} discute algoritmos de seleção de características para o caso específico de dados de texto.

Vários sistemas do mundo real têm sido projetados com o uso de sistemas baseados em conteúdo. Alguns dos primeiros são *Fab* \cite{60} e *Syskill & Webert* \cite{477}. Um sistema inicial, referido como *Personal WebWatcher* \cite{438, 439}, faz recomendações aprendendo as preferências dos usuários a partir das páginas da Web que eles visitam. Além disso, as páginas da Web que estão vinculadas à página visitada são usadas no processo de recomendação. O sistema *Letizia* \cite{356} usa um navegador com a capacidade de rastrear o comportamento de navegação do usuário e usá-lo para fazer recomendações. Um sistema conhecido como *Dynamic-Profiler* \cite{636} usa uma taxonomia predefinida para categorizar novas recomendações de notícias em tempo real. Em particular, este sistema usa o perfil do usuário para aprender as preferências e fazer recomendações personalizadas. O sistema *iWeb* \cite{55} representa os interesses do usuário na forma de uma rede semântica. O sistema *WebMate* \cite{150} aprende perfis de usuário na forma de vetores de palavras-chave. Este sistema é projetado para manter o controle de perfis de usuário de interesses positivos, em vez de negativos. Os princípios gerais em recomendações de notícias não são muito diferentes daqueles de filtragem de notícias. Métodos para realizar recomendações de notícias aprimoradas são discutidos em \cite{41, 84, 85, 392, 543, 561}. Alguns desses métodos usam representações aprimoradas, como *WordNet*, para melhorar o processo de modelagem. Os sistemas de recomendação da Web são geralmente mais desafiadores do que os sistemas de recomendação de notícias, porque o texto subjacente é frequentemente de menor qualidade. O sistema *CiteSeer* \cite{91} é capaz de descobrir interligações de interesse em uma bibliografia de banco de dados, identificando as citações comuns entre os documentos. Assim, ele usa explicitamente citações como um mecanismo de conteúdo para determinação de similaridade.

Sistemas baseados em conteúdo também têm sido usados em outros domínios como livros, música e filmes. Métodos baseados em conteúdo para recomendação de livros são discutidos em \cite{448}. O principal desafio em recomendações de música é a lacuna semântica entre as características facilmente disponíveis e a probabilidade de um usuário apreciar a música. Esta é uma característica comum entre os domínios de música e imagem. Algum progresso em preencher a lacuna semântica tem sido feito em \cite{138, 139}. A Pandora \cite{693} usa as características extraídas do Projeto Genoma Musical para fazer recomendações. A literatura de mineração de textos discute como se pode usar descrições de textos \cite{178} de itens (por exemplo, descrições de livros ou enredos de filmes) para fazer recomendações. O trabalho posterior \cite{139} mostra como se pode integrar tags nos sistemas de recomendação baseados em conteúdo. A abordagem usa linguística e o sistema *WordNet* para extrair conhecimento para o processo de recomendação. Um sistema de recomendação de filmes que usa categorização de texto é o *INTIMATE system* \cite{391}. Um método que combina sistemas baseados em conteúdo e colaborativos é discutido em \cite{520}. Uma visão geral mais ampla de sistemas de recomendação híbridos é fornecida em \cite{117}. Um potencial de trabalho, mencionado em \cite{376}, é aprimorar sistemas de recomendação baseados em conteúdo com conhecimento de enciclopédia \cite{174, 210, 211}, como o obtido da Wikipedia. Alguns métodos têm sido projetados para usar a Wikipedia para recomendação de filmes \cite{341}. Curiosamente, essa abordagem não melhora a precisão do sistema de recomendação. A aplicação de conhecimento semântico avançado em sistemas baseados em conteúdo tem sido mencionada como uma direção para trabalho futuro em \cite{376}.



### 4.9 Exercícios

1.  Considere um cenário em que um usuário fornece avaliações de gostos/desgostos para um conjunto de 20 itens, em que ele avalia 9 itens como "gosta" e os demais como "não gosta". Suponha que 7 descrições de itens contenham a palavra "thriller", e o usuário desgoste de 5 desses itens. Calcule o índice de Gini em relação à distribuição de dados original, e em relação ao subconjunto de itens que contêm a palavra "thriller". A seleção de características deve reter a palavra-chave nas descrições de itens?

2.  Implemente um classificador baseado em regras com o uso de seleção de padrão de associação.

3.  Considere um sistema de recomendação de filmes em que as músicas pertencem a um ou mais dos gêneros ilustrados na tabela, e um usuário particular fornece o seguinte conjunto de avaliações para cada um dos filmes.

| Gênero $\Leftrightarrow$ Id do Filme $\Downarrow$ | Comédia | Drama | Romance | Thriller | Ação | Horror | Gosta ou Não Gosta |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| 1 | 1 | 0 | 1 | 0 | 0 | 0 | Não Gosta |
| 2 | 1 | 1 | 0 | 0 | 1 | 0 | Não Gosta |
| 3 | 1 | 0 | 0 | 1 | 0 | 0 | Não Gosta |
| 4 | 0 | 0 | 0 | 0 | 1 | 0 | Gosta |
| 5 | 0 | 1 | 0 | 0 | 0 | 1 | Gosta |
| 6 | 0 | 0 | 0 | 1 | 0 | 1 | Gosta |
| Teste-1 | 0 | 0 | 0 | 0 | 1 | 0 | ? |
| Teste-2 | 0 | 1 | 1 | 0 | 0 | 0 | ? |

Com todas as regras que minam com suporte de 33\% e confiança de 75\%, você recomendaria o item *Teste-1* ou *Teste-2* para o usuário?

4.  Implemente um classificador de Bayes com suavização de Laplace.

5.  Repita o Exercício 3 usando um classificador de Bayes. Não use suavização de Laplace. Explique por que a suavização de Laplace é importante neste caso.

6. Repita o Exercício 3 com o uso de um classificador de vizinho 1-mais próximo.

7. Para uma matriz de dados de treinamento $D$, a regressão de mínimos quadrados regularizada requer a inversão da matriz $(D^T D + \lambda I)$, onde $\lambda > 0$. Mostre que esta matriz é sempre invertível.

8. A distribuição de $\chi^2$ é definida pela seguinte fórmula, conforme discutido no capítulo:

$$\chi^2 = \sum_{i=1}^{p} \frac{(O_i - E_i)^2}{E_i}$$

Mostre que para uma tabela de contingência $2 \times 2$, a fórmula mencionada pode ser reescrita da seguinte forma:

$$\chi^2 = \frac{(O_1 + O_2 + O_3 + O_4) \cdot (O_1 O_4 - O_2 O_3)^2}{(O_1 + O_2) \cdot (O_3 + O_4) \cdot (O_1 + O_3) \cdot (O_2 + O_4)}$$

Aqui, $O_1, \dots, O_4$ são definidos da mesma forma que no exemplo tabular no texto.
