# Construindo um Sistema de Recomendação Utilizando Python

Esse projeto tem como finalidade explorar alguns métodos sobre sistema de recomendação. A proposta é criarmos um sistema de recomendação simples utilizando o algoritmo de Recomendação Colaborativa. O ponto de partida é o artigo [Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions](http://ieeexplore.ieee.org/document/1423975/). Vamos implementar uma das propostas de recomendação colaborativa do artigo. Detalhes do método implementado é dado mais a frente.

<a id='dataset'></a>
## Dataset

Para demostrar os algoritmos de recomendação vamos utilizar o dataset da *[MovieLens](https://grouplens.org/datasets/movielens/)*.  O site possui varias versões do dataset cada qual com um número diferentes de filmes e usuários. Vamos utilizar a versão *small* deles que é descrita como segue: 

> **MovieLens Latest Datasets**

> These datasets will change over time, and are not appropriate for reporting research results. We will keep the download links stable for automated downloads. We will not archive or make available previously released versions.

> Small: 100,000 ratings and 1,300 tag applications applied to 9,000 movies by 700 users. Last updated 10/2016.

A primeira etapa é carregar a base de dados como vários DataFrames do Pandas. 

Vamos carregar 4 arquivos: 

* **links:** possui referência do id de cada filme para o id na base do [IMDb](http://www.imdb.com/) e na base do [TheMovieDb](http://www.themoviedb.org). Essa informação será usada no final para exibir mais informações dos filmes recomendados utilizando as APIs disponibilizadas por estes sites.
* **movies:** lista de filmes da base. Cada filme possui o título e uma lista de gêneros associada.
* **ratings:** tabela de avaliação de filmes. Cada usuário avalia um filme com uma nota de 1 a 5. É armazenado também o *timestamp* de cada avaliação.
* **tags:** termos associados a cada filme cadastrados pelos usuários.

Para este tutorial vamos utilizar somente as três primeiras tabelas.

<a id='descricao'></a>
## Descrição do Método de Recomendação

Como dito anteriormente, vamos utilizar um método de recomendação apresentada no artigo [Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions](http://ieeexplore.ieee.org/document/1423975/). Existem [vários tipos de sistemas de recomendação](https://www.bluepiit.com/blog/classifying-recommender-systems/), neste tutorial vamos utilizar a recomendação dita colaborativa. Esse titpo de recomendação utiliza a avaliação do usuário (*ratings*) para recomendar. Os usuários são comparados entre si, utilizando alguma métrica de similaridade, e a recomendação é proposta tomando como base os *ratings* dos usuários mais semelhantes. A recomendação é medida a partir da predição da nota que usuário daria a um determinado item (*predict rating*)

Duas métricas precisam ser definidas: 

* O cálculo da similaridade de usuários
* O cálculo do *predict rating*

Vamos utilizar as seguintes equações propostas no artigo: 

### Cáculo da Similaridade

$ sim(x,y) = \frac{\sum_{
    s \in S_{xy}}
    {
        (r_{x,s} - \bar{r_{x}})
        (r_{y,s} - \bar{r_{y}})
    }
}
{
    \sqrt{
        \sum_{s \in S_{xy}}{
            (r_{x,s} - \bar{r_{x}})^2
        }
        \sum_{s \in S_{xy}}{
            (r_{y,s} - \bar{r_{y}})^2
        }
    }
} $, onde:

* $S_x$: itens avaliados pelo usuário $x$;
* $S_y$: itens avaliados pelo usuário $y$;
* $S_{xy}$: o conjunto de todos os itens que foram avaliados tanto por x quanto por y, em outras palavras, a interseção dos conjuntos $S_x$ e $S_y$;
* $r_{x,s}$: *rating* do usuário $x$ para o item $s$;
* $r_{y,s}$: *rating* do usuário $y$ para o item $s$;
* $\bar{r_x}$: média do *ratings* dos filmes avaliados por $x$
* $\bar{r_y}$: média do *ratings* dos filmes avaliados por $y$

### O cálculo do *predict rating*

Para cada filme da base que o usuário não avaliou é calculado um valor de *rating* que o usuário daria ao filme. A proposta é calcular isto para todos os filmes da base e recomendar ao usuário os 10 filmes mais bem avaliados. Para este cálculo vamos utilizar a equação: 

$ r_{c,s} = \bar{r_c} + k * \sum_{c' \in \hat{C}}{sim(c,c') \times (r_{c',s} - \bar{r_{c'}})}$, onde:

* $c$ e $c'$: são usuários;
* $s$: um item;
* $k$: é um fator noramlizador dado por $k = \frac{1}{\sum_{c' \in \hat{C}}{|sim(c, c')|}}$
* $sim(c, c'):$ a similaridade do usuário c com o usuário c' dada pela equação anterior;
* $\hat{C}:$ o conjunto dos $N$ usuários mais similares a $c$ que avaliaram o item $s$.

as demais variáveis forma descritas na equação anterior, mudando apenas as letras utilizadas. 

