# Exploração dos Dados

## Carregando o dataset

http://files.grouplens.org/datasets/movielens/ml-latest-small.zip

In [34]:
# Pacotes importantes para este projeto
import numpy as np
import pandas as pd
from time import time
import seaborn as sns
%matplotlib inline 

In [4]:
dfMovies = pd.read_csv("./ml-latest-small/movies.csv")
dfRatings = pd.read_csv("./ml-latest-small/ratings.csv")
dfTags = pd.read_csv("./ml-latest-small/tags.csv")
dfLinks = pd.read_csv("./ml-latest-small/links.csv")

print("Movies:")
print(dfMovies.head())
print("Ratings:")
print(dfRatings.head())
print("Tags:")
print(dfTags.head())
print("Links:")
dfLinks.head()

# Faz o merge do dataset utilizando os id's dos filmes como chave
result = pd.merge(dfMovies, dfRatings, on=['movieId'])
result.head()

Movies:
   movieId                               title  \
0        1                    Toy Story (1995)   
1        2                      Jumanji (1995)   
2        3             Grumpier Old Men (1995)   
3        4            Waiting to Exhale (1995)   
4        5  Father of the Bride Part II (1995)   

                                        genres  
0  Adventure|Animation|Children|Comedy|Fantasy  
1                   Adventure|Children|Fantasy  
2                               Comedy|Romance  
3                         Comedy|Drama|Romance  
4                                       Comedy  
Ratings:
   userId  movieId  rating   timestamp
0       1       31     2.5  1260759144
1       1     1029     3.0  1260759179
2       1     1061     3.0  1260759182
3       1     1129     2.0  1260759185
4       1     1172     4.0  1260759205
Tags:
   userId  movieId                      tag   timestamp
0      15      339  sandra 'boring' bullock  1138537770
1      15     1955                  

Unnamed: 0,movieId,title,genres,userId,rating,timestamp
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,7,3.0,851866703
1,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,9,4.0,938629179
2,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,13,5.0,1331380058
3,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,15,2.0,997938310
4,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,19,3.0,855190091


## Pré-processando os dados

### Dados nulos ou faltantes

In [None]:
print("Movies - Null values: {}".format(dfMovies.isnull().any().any()))
print("Ratings - Null values: {}".format(dfRatings.isnull().any().any()))
print("Tags - Null values: {}".format(dfTags.isnull().any().any()))
print("Links - Null values: {}".format(dfLinks.isnull().any().any()))

### Análise e processamento das categorias

    Nesta etapa estou verificando quais as categorias que são encontradas no dataset:
    - categorias repetidas;
    - itens que não correspondem às categorias;

In [None]:
categoriesData = dfMovies.genres.str.split('|', 10, expand=True)
categories = []
for col in categoriesData:
     categories.append(categoriesData[col].unique())
    
categories
print(categories[:])

### Tags

    - Avaliar os tags mais comuns;
    - Existe relação das tags com as avaliações? Palavras positivas e negativas?

### Análise e processamento dos nomes dos filmes

    - Avaliar se existem nomes de um mesmo filme com escritas diferentes;
    - 

### Análise e processamentos dos ratings

    - Normalizar os valores;
    - Verificar a existência de outliers;
    - Verificar se a distribuição dos ratings é uniforme entre os filmes;

In [33]:
number_of_ratings_per_movie = pd.value_counts(result['movieId'].values, sort=False)
type(number_of_ratings_per_movie)

print(number_of_ratings_per_movie.sort_values(ascending=False, na_position='first'))

356       341
296       324
318       311
593       304
260       291
480       274
2571      259
1         247
527       244
589       237
1196      234
110       228
1270      226
608       224
2858      220
1198      220
780       218
1210      217
588       215
457       213
590       202
2959      202
47        201
50        201
4993      200
364       200
858       200
150       200
380       198
32        196
         ... 
6109        1
120805      1
96          1
6243        1
104595      1
27922       1
133281      1
155820      1
26797       1
47287       1
8420        1
134246      1
5981        1
61250       1
3870        1
5917        1
1759        1
26323       1
32464       1
65216       1
65088       1
73276       1
7708        1
69118       1
110058      1
140763      1
48520       1
111913      1
1311        1
2049        1
dtype: int64


## Conclusões

- Quais são as categorias que possuem relação entre si? 
- Existe alguma relação entre a categoria do filme e a forma que ele é avaliado?


# Sistema de Recomendação

Idéias:
- Redução de dimensionalidade: utilizar auto-encoder ou PCA para reduzir número de features
- Clusterização para recomendações