# Teste Data Science Elo7 - Descrição do Processo

Esse notebook descreve o processo de implementação do sistema de recomendação de filmes a partir da base Movie Lens como requisito do processo seletivo do Elo7.

Segundo recomendação do processo, esse notebook vai descrever a estratégia e lógica da solução proposta. O documento está dividido em 4 partes: Estrutura do Projeto, Análise Exploratória, Sistema de Recomendação e Avaliação do Sistema de Recomendação

O documento pode alterar de acordo com a evolução da solução.

## 1 - Estrutura do Projeto

Um projeto de Data Science pode seguir diversas estruturas e padrões diferentes. Apesar dessa liberdade dar flexibilidade para o cientista de dados, ela dificulta a reprodução do experimento, necessitando de um entendimento do projeto antes de executá-lo. Para suavizar essa dificultade, este projeto vai seguir o template <a href='https://drivendata.github.io' target='blank'>Cookiecutter Data Science</a>.

O objetivo deste template é organizar um projeto de Data Science, separando as responsabilidades em diretórios diferentes. Por exemplo, ao invés de produzir e reproduzir todo o código nos notebooks (que dificulta a leitura e incentiva más práticas de programação), o template apresenta um diretório de código fonte separando funções de dados, modelos, visualizações e atributos.

A estrutura do projeto é definda a seguir:


```bash
├── LICENSE
    ├── Makefile           <- Makefile with commands like `make data` or `make train`
    ├── README.md          <- The top-level README for developers using this project.
    ├── data
    │   ├── external       <- Data from third party sources.
    │   ├── interim        <- Intermediate data that has been transformed.
    │   ├── processed      <- The final, canonical data sets for modeling.
    │   └── raw            <- The original, immutable data dump.
    │
    ├── docs               <- A default Sphinx project; see sphinx-doc.org for details
    │
    ├── models             <- Trained and serialized models, model predictions, or model summaries
    │
    ├── notebooks          <- Jupyter notebooks. Naming convention is a number (for ordering),
    │                         the creators initials, and a short 
    │
    ├── references         <- Data dictionaries, manuals, and all other explanatory materials.
    │
    ├── reports            <- Generated analysis as HTML, PDF, LaTeX, etc.
    │   └── figures        <- Generated graphics and figures to be used in reporting
    │
    ├── requirements.txt   <- The requirements file for reproducing the analysis environment, e.g.
    │                         generated with `pip freeze > requirements.txt`
    │
    ├── setup.py           <- makes project pip installable (pip install -e .) so src can be imported
    ├── src                <- Source code for use in this project.
    │   ├── __init__.py    <- Makes src a Python module
    │   │
    │   ├── data           <- Scripts to download or generate data
    │   │   └── make_dataset.py
    │   │
    │   ├── features       <- Scripts to turn raw data into features for modeling
    │   │   └── build_features.py
    │   │
    │   ├── models         <- Scripts to train models and then use trained models to make
    │   │   │                 predictions
    │   │   ├── predict_model.py
    │   │   └── train_model.py
    │   │
    │   └── visualization  <- Scripts to create exploratory and results oriented visualizations
    │       └── visualize.py
    │
    └── tox.ini            <- tox file with settings for running tox; see tox.testrun.org
```

Para fins de simplificação, a estrutura do presente projeto será resumida da seguinte forma:

```bash
├── LICENSE
    ├── README.md          <- The top-level README for developers using this project.
    ├── data
    │   ├── processed      <- The final, canonical data sets for modeling.
    │   └── raw            <- The original, immutable data dump.
    │
    ├── notebooks          <- Jupyter notebooks. Naming convention is a number (for ordering),
    │                         the creators initials, and a short 
    ├── requirements.txt   <- The requirements file for reproducing the analysis environment, e.g.
    │                         generated with `pip freeze > requirements.txt`
    │
    ├── setup.py           <- makes project pip installable (pip install -e .) so src can be imported
    ├── src                <- Source code for use in this project.
    │   ├── __init__.py    <- Makes src a Python module
    │   │
    │   ├── data           <- Scripts to download or generate data
    │   │   └── make_dataset.py
    │   │
    │   ├── features       <- Scripts to turn raw data into features for modeling
    │   │   └── build_features.py
    │   │
    │   ├── models         <- Scripts to train models and then use trained models to make
    │   │   │                 predictions
    │   │   |
    │   │   └── predict_model.py
    │   │
    │   └── visualization  <- Scripts to create exploratory and results oriented visualizations
    │       └── visualize.py
    
    
```

Por convenção, as funções e variáveis do projeto serão escritas na língua inglesa, enquanto as explicações e texto serão escritos na língua portuguesa.

O projeto será desenvolvido em Python, utilizando bibliotecas comuns em projetos de Data Science (Pandas, Numpy, Scikit-learn, etc).

## 2 - Análise Exploratória e Pré-processamento

A análise exploratória de dados é, usualmente, a primeira parte de todo projeto de Data Science. Ela serve para conhecer os dados, saber do que se trata, como são organizados e estruturados, etc.

Nessa parte inicial todos os arquivos serão carregados em DataFrames, observando algumas características como quantidade de registros, tipo das variáveis, número de variáveis nulas, quantidade de valores únicos, quartis de variáveis numéricas, etc. É nessa parte que as hipóteses sobre os dados são definidas e avaliadas (dependendo da complexidade da hipótese). Ao analisar os dados, alguns pré-processamentos serão calculados para facilitar análises futuras.

Dado à limitação de hardware, a base inicial de 20 milhões de avaliações foi substituída pela base com 1 milhão.

## 3 - Sistema de Recomendação

As técnicas para sistema de recomendação podem ser divididas em dois grupos: baseadas em memória ou baseadas em modelos. As técnicas baseadas em memória recorrem aos items consumidos pelos usuários para gerar novas recomendações. A famosa collaborative filtering (user-based ou item-based) é um exemplo de técnica baseada em memória. 

Já as técnicas baseadas em modelo treinam modelos que ajudam a prever, por exemplo, a nota que um usuário daria para um item (através de modelos de regressão). Ou qual a probabilidade do usuário gostar ou não de um item (através de modelos de classificação).

Existem algumas bibliotecas python que implementam algumas técnicas de sistemas de recomendação como a <a href='http://surpriselib.com/' target='blank'>Suprise</a> ou a <a href='https://github.com/caserec/CaseRecommender' target='blank'>Case Recommender</a>. Existem casos onde seria possível e até recomendado utilizar essas bibliotecas, poupando tempo e esforço do time no desenvolvimento de um sistema de recomendação. Mas, ao construir seu próprio sistema de recomendação, é possível personalizá-lo de acordo a preferência e necessidade da aplicação.

Com a base de dados fornecida temo



## 3 - Sistema de Recomendação

Sistemas de recomendação é uma forma de filtrar itens e produtos de modo a maximizar e melhorar o consumo do usuário. Em tempos que empresas oferecem diversas opções de produtos, um sistema que apresenta as melhores opções personalizada para cada usuário otimiza o processo, deixando o usuário mais feliz com o produto e aumentando a receita da empresa, com uma venda acertiva. Empresas como Netflix, Amazon, Google, portais de notícias, Youtube, Facebook e etc utilizam sistemas de recomendação em alguma parte de seus produtos.

Exitem várias técnicas para se implementar um sistemas de recomendação. A escolha de uma técnica pode variar de acordo com os dados fornecidos, a velocidade necessária de resposta ou até o método de avaliação dos usuários (iteração explícita como nota ou implícita como compra). Entre as técnicas pode-se destacar a recomendação direta de itens (seguindo alguma estratégia) ou de predição de nota (através de algoritmos de regressão).

É possível, por exemplo, recomendar o item mais comum ou mais bem avaliado, recomendar um item genérico, usar a técnica de itens frequentes apriori ou usar técnicas de filtro colaborativo (Collaborative Filtering), que baseia na iteração e consumo dos usuários para recomendar um outro item. Técnicas de filtro colaborativo podem ser divididas em duas classes: as baseadas em memória e baseada em modelo. Baseada em memória utiliza técnicas de similaridade (distância euclideana ou coseno, por exemplo) entre vetores para identificar usuários ou itens similares e, a partir disso, gerar recomendações. Ela funciona bem para bases pequenas e quando não temos matrizes exparsas. 

Já técnicas baseadas em modelos utilizam o histórico de consumo ou avaliação dos itens para treinar uma máquina de predição para recomendar itens para o usuário . É possível usar técnicas de regressão para prever o valor de uma nota ou técnicas de classificação para prever a probabilidade do consumo do item. Dependendo do contexto dos dados é possível usar técnicas diferentes.

Existem algumas bibliotecas python que implementam algumas técnicas de sistemas de recomendação como a <a href='http://surpriselib.com/' target='blank'>Suprise</a> ou a <a href='https://github.com/caserec/CaseRecommender' target='blank'>Case Recommender</a>. Ambas contam com uma grande gama de algoritmos e métodos de sistemas de recomendação.

Na base de dados trabalhada nesse teste, temos as seguintes informações:

- Filme: nome, ano, lista de gêneros
- Usuário: faixa-etaria, profissão, localidade
- Avaliação: valor da nota (escala 1 a 5), data e hora da avaliação
- (extra) Links: descrição do filme

Com esses dados vamos testar três abordagens: recomendação dos top filmes, filtro colaborativo (baseado em usuário) e fatorização de matriz.

## 4 - Avaliação

A avaliação será feita em três par