# Medidas de Similaridade

Considere a seguinte matriz usuário-item. 

Matrix | Inception | Titanic | Star Wars | The Godfather
--------|-----------|---------|-----------|--------------
Alice    |     5     |    3    |     4     |      0
Bob      |     4     |    0    |     5     |      3
Carol    |     3     |    5    |     4     |      4
Dave     |     0     |    2    |     0     |      5
Eve      |     2     |    5    |     0     |      4

Como definimos que um usuário é similar ao outro?

## Similaridade

### Similaridade do Cosseno

$$
\cos(\theta) = \frac{A \cdot B}{\|A\| \|B\|}
$$

A similaridade do cosseno é uma métrica usada para determinar o grau de similaridade entre dois vetores. É especialmente útil em sistemas de recomendação para encontrar a similaridade entre usuários ou itens. A ideia é tratar as preferências de cada usuário como um vetor em um espaço n-dimensional e calcular o cosseno do ângulo entre esses vetores. Um valor de similaridade do coseno de 1 significa que os vetores são idênticos, e um valor de -1 significa que são completamente opostos.

Vamos ver um exemplo concreto. Suponha que temos dois usuários, Alice e Bob, que avaliaram três filmes diferentes. Os filmes são de gêneros de Ação, Comédia e Romance. As avaliações vão de 1 a 5, e elas podem ser vistas como vetores:

- Alice deu as seguintes avaliações: [Matrix: 5, Inception: 3, Star Wars: 1]
- Bob deu as seguintes avaliações: [Matrix: 2, Star Wars: 4, The Godfather: 5]

O vetor de Alice seria $A = [5, 3, 1]$ e o vetor de Bob seria $B = [2, 4, 5]$.

Primeiro, calculamos o produto escalar ($ A \cdot B $):

$ A \cdot B = (5 * 2) + (3 * 4) + (1 * 5) = 10 + 12 + 5 = 27 $

Depois, calculamos as normas de $ A $ e $ B $:

$ \|A\| = \sqrt{(5^2) + (3^2) + (1^2)} = \sqrt{25 + 9 + 1} = \sqrt{35} $

$ \|B\| = \sqrt{(2^2) + (4^2) + (5^2)} = \sqrt{4 + 16 + 25} = \sqrt{45} $

Finalmente, a similaridade do coseno entre Alice e Bob é:

$ \text{Similaridade do Cosseno} = \frac{27}{\sqrt{35} \times \sqrt{45}} \approx 0.65 $

Esse valor de $0.65$ indica uma similaridade moderada entre Alice e Bob com base em suas avaliações de filmes. Essa métrica será usada em um sistema de recomendação para sugerir filmes que um usuário similar gostou.

### Similaridade de Jaccard

A Similaridade de Jaccard também pode ser usada para medir a semelhança entre conjuntos de dados. Ao contrário da similaridade do cosseno que leva em consideração a magnitude das avaliações, a Similaridade de Jaccard é baseada apenas na presença ou ausência de itens. 

Para calcular a Similaridade de Jaccard entre dois usuários, você consideraria apenas os filmes que ambos classificaram, independentemente da classificação. A fórmula da Similaridade de Jaccard é a seguinte:

$ \text{Similaridade de Jaccard}(A, B) = \frac{|A \cap B|}{|A \cup B|} $

onde $ |A \cap B| $ é o número de itens classificados por ambos os usuários e $ |A \cup B| $ é o número total de itens classificados por pelo menos um dos usuários.

Vamos aplicar isso aos usuários Alice e Bob. Observando as classificações, Alice classificou "Matrix", "Inception" e "Star Wars", enquanto Bob classificou "Matrix", "Star Wars" e "The Godfather". 

Para calcular a interseção ($ A \cap B $), contaríamos o número de filmes que ambos classificaram:

- Alice e Bob classificaram ambos: "Matrix" e "Star Wars".

Isso nos dá $ |A \cap B| = 2 $.

A união ($ A \cup B $), por outro lado, seria o conjunto de todos os filmes classificados por Alice ou Bob:

- Filmes classificados por Alice: "Matrix", "Inception" e "Star Wars".
- Filmes classificados por Bob: "Matrix", "Star Wars" e "The Godfather".

A união dos filmes é: "Matrix", "Inception", "Star Wars" e "The Godfather", então $ |A \cup B| = 4 $.

Portanto, a Similaridade de Jaccard entre Alice e Bob seria:

$ \text{Similaridade de Jaccard}(Alice, Bob) = \frac{2}{4} = 0.5 $

Este valor de $ 0.5 $ significa que há uma sobreposição de 50% nos filmes classificados por Alice e Bob. Em um sistema de recomendação, isso poderia ser usado para recomendar filmes que foram classificados por usuários semelhantes, mas que um dos usuários ainda não viu.

### Correlação de Pearson ($r$)

A Correlação de Pearson é um método estatístico usado para medir a força de uma relação linear entre dois conjuntos de dados. Em sistemas de recomendação, ela pode ser usada para comparar as avaliações de dois usuários e ver o quão semelhantes são suas preferências.

A fórmula para calcular a Correlação de Pearson entre dois conjuntos de dados $ A $ e $ B $ é a seguinte:

$ r = \frac{\sum (A_i - \bar{A}) (B_i - \bar{B})}{\sqrt{\sum (A_i - \bar{A})^2 \sum (B_i - \bar{B})^2}} $

onde:
- $ A_i $ e $ B_i $ são as avaliações para cada item $ i $ que ambos os usuários classificaram.
- $ \bar{A} $ e $ \bar{B} $ são as médias das avaliações de $ A $ e $ B $, respectivamente.

Para calcular a Correlação de Pearson entre Alice e Bob, primeiro identificamos os filmes que ambos classificaram, que são "Matrix" e "Star Wars". Agora, consideramos as avaliações que Alice e Bob deram a esses filmes:

- Para "Matrix", Alice deu uma avaliação de 5 e Bob uma de 4.
- Para "Star Wars", Alice deu uma avaliação de 4 e Bob uma de 5.

As médias dessas avaliações são:

- $ \bar{A} = \frac{5 + 4}{2} = 4.5 $
- $ \bar{B} = \frac{4 + 5}{2} = 4.5 $

Agora, calculamos a parte superior da fórmula de Pearson $( \sum (A_i - \bar{A}) (B_i - \bar{B}) $):

$ (5 - 4.5)(4 - 4.5) + (4 - 4.5)(5 - 4.5) = (0.5)(-0.5) + (-0.5)(0.5) = -0.25 - 0.25 = -0.5 $

Em seguida, calculamos a parte inferior da fórmula $( \sqrt{\sum (A_i - \bar{A})^2 \sum (B_i - \bar{B})^2} $):

$ \sqrt{(5 - 4.5)^2 + (4 - 4.5)^2} \times \sqrt{(4 - 4.5)^2 + (5 - 4.5)^2} = \sqrt{(0.5)^2 + (-0.5)^2} \times \sqrt{(-0.5)^2 + (0.5)^2} $
$ = \sqrt{0.25 + 0.25} \times \sqrt{0.25 + 0.25} = \sqrt{0.5} \times \sqrt{0.5} = 0.5 \times 0.5 = 0.25 $

Finalmente, a Correlação de Pearson entre Alice e Bob é:

$ r = \frac{-0.5}{0.25} = -2 $

No entanto, este resultado não faz sentido no contexto da Correlação de Pearson porque o valor da correlação deve estar entre -1 e 1. O erro aqui surge do fato de que estamos lidando com uma amostra muito pequena (apenas dois filmes) para calcular a correlação. Em prática, precisaríamos de mais dados para obter uma medida significativa da Correlação de Pearson. Em um caso real, teríamos que considerar todas as avaliações comuns entre Alice e Bob para fazer esse cálculo.