# Trabalho Final de Classificação e Pesquisa de Dados

## <center> Arquivos </center>

### movie.csv

|        movieID      |   title  | genres |
| :----------------------: | :-------: | :---------: |
| **(sort <)** int | string |  string  |

### tag.csv

| userID |   movieID  |   tag   | timestamp |
| :---------: | :--------------: | :-------: | :---------------: |
|    int     |        int       | string |      date       |

### rating.csv

| userID |   movieID  |   rating   | timestamp |
| :---------: | :--------------: | :-----------: | :---------------: |
|    int     |        int       |     float   |      date        |


## Como trabalhamos:

### Estruturas:
- Árvore Trie, onde:
  - Chave: letra.
  - Dados: identificador do filme.
- Tabela Hash para os filmes, onde:
  - Chave: identificador do filme.
  - Dados: uma 5-upla dada por:
    - (gêneros, tags, avaliação, número de avaliações, nome do filme)
- Tabela Hash para os usuários, onde:
  - Chave: identificador do usuário.
  - Dados: uma lista de 2-uplas dadas por:
    - (identificador do filme, avaliação)

> Tanto os filmes, quanto os usuários, possuem um identificador único. Assim sendo, para que não houvessem colisões nas tabelas, os maiores identificadores foram utilizados para definir os tamanhos das hash's.


### Pesquisas:
- `movie <prefix>`

  (todos filmes com mesmo prefixo)

|        movieID      |   title  | genres | rating | count |
| :----------------------: | :-------: | :----------: | :-------: | :-------: |
| **(sort <)** int | string |  string  |  float  |    int    |

- `user <userID>`

  (todos ratings do usuário com ID userID)

| user_rating |   title   | global_rating | count |
| :----------------: | :--------: | :-------------------: | :-------: |
|      float        | string |        float         |    int    |

- `top<N> ‘<genre>’`

  (N melhores filmes com count $\geq$ 1000)

|   title  | genres |            rating           |                  count                   |
| :-------: | :---------: | :--------------------------: | :---------------------------------------: |
| string |  string |  **(sort >)** float  |   **($\geq$ 1000)** int   |

- `tags ‘<tag1>’ ‘<tag2>’ ...`

  (todos os filmes que possuem todas essas tags simultâneamente)

|   title  | genres | rating | count |
| :-------: | :----------: | :-------: | :-------: |
| string |  string  |  float  |    int   |


## Análise de dados:

Programas que tratam grandes quantidades de dados são usualmente utilizados com intuito de analisar informações melhorar algum setor específico a partir das correlações geradas - essas que são mais facilmente percebidas após as suas estruturações. Portanto, para que este trabalho não seja apenas uma verificação de conhecimento manual e um pouco algorítmico - como a construção do código que estruturou esses dados -, fora realizado algumas comparações com as notas dos filmes e suas relações com seus gêneros, as notas dadas pelos usuários considerando todas as notas, etc.



### Filmes e suas notas:

Para cada filme é feito um cálculo para a sua avaliação média de acordo com os dados presentes no arquivo ratings.csv. Assim sendo, foi feito um histograma com cinco intervalos referente as possíveis médias.

<img src="https://i.ibb.co/z4ctZFW/meta-chart-1.png" alt="meta-chart-1" border="0">

Com esse gráfico, é possível notar que, no conjunto de dados analisado, a maioria dos filmes teve uma avaliação satisfatória (com média maior que 2,5). Isso se dá principalmente pela origem dos dados ser um site de recomedações de filmes baseado em avaliações anteriores do usuário, ou seja, após uma certa quantidade de filmes avaliados pelo usuário, as suas notas tendem ser maiores, visto que, os filmes que ele está assistindo são filmes recomendados para ele. Ademais, os usuários tendem a assistir filmes que são bem avaliados, aumentando ainda mais a avaliação média dos filmes.

### Usuários e suas notas:

Assim como fora feito com os filmes, as notas dadas pelos usuários também foram avaliadas em relação às possíveis apreciações. Dessa forma, foi possível construir o seguinte histograma:

<a href="https://ibb.co/QJHKhD2"><img src="https://i.ibb.co/D1MRmrx/meta-chart-2.png" alt="meta-chart-2" border="0"></a>

É possível notar que, mesmo com a mediana da nota dos filmes estar entre 3 e 4, a grande maioria dos usuários deu notas 5 em proporção às outras notas. Como o histograma anterior foi realizado com uma média aritmética das médias de cada filme, então não foi possível verificar uma discrepância tão grande. Contudo, mesmo o cálculo não levando em consideração o número de pessoas que avaliou o filme, é possível perceber que o grande número de avaliações máximas para filmes implicou em uma média de notas satisfatória.

### Implicações dessa análise:
Esses histogramas foram utilizados para apenas considerar as relações entre os usuários e os filmes avaliados. Entretanto, poderia ser feito uma análise do algoritmo de recomendação do Movie Lens, por exemplo. Para isso, um bom algoritmo de recomendação iria resultar nos seguintes dados:
- Alta média aritmética das notás médias dos filmes.
- Alta média de avaliações dos usuários.

>Isso se dá devido a relação que os usuários têm com os filmes que são mais adequados para eles. Um filme recomendado especificamente para um usuário tende a ser avaliado positivamente por ele. Entretanto, um filme que fora recomendado de maneira errônea, implica em uma nota provavelmente mais baixa dada pelo usuário. Por conseguinte, um algoritmo de recomendação que não fosse eficaz faria com que os usuários assistissem filmes que não gostassem e avaliassem, em sua grande maioria, de forma negativa.

In [0]:
# Fazendo o Drive estar disponível como pastas acessíveis para o python e shell
from google.colab import drive
drive.mount('/content/gdrive', force_remount=True)

Mounted at /content/gdrive


In [0]:
%%bash
# Copiando os arquivos necessários do Drive
# Dados:
cp /content/gdrive/My\ Drive/Trabalho\ CPD/movie.csv ./movie.csv
cp /content/gdrive/My\ Drive/Trabalho\ CPD/rating.csv ./rating.csv
cp /content/gdrive/My\ Drive/Trabalho\ CPD/minirating.csv ./minirating.csv
cp /content/gdrive/My\ Drive/Trabalho\ CPD/tag.csv ./tag.csv
# Código:
cp /content/gdrive/My\ Drive/Trabalho\ CPD/hash.py ./hash.py
cp /content/gdrive/My\ Drive/Trabalho\ CPD/timeClass.py ./timeClass.py
cp /content/gdrive/My\ Drive/Trabalho\ CPD/trie.py ./trie.py
cp /content/gdrive/My\ Drive/Trabalho\ CPD/readFiles.py ./readFiles.py

In [23]:
# Código principal – Carrega nas estruturas de dados
from IPython.display import display
from readFiles import *
from timeClass import Time
import pandas as pd
import os

# cls: void -> void
# Objetivo: limpa o console.
def cls():
    os.system('cls' if os.name=='nt' else 'clear')

# movieSearch: string trieNode Hash -> pd.DataFrame
# Objetivo: dados um prefixo, uma trie e uma hash referente aos filmes, a função
#   devolve um dataframe em que as colunas são 'movieId', 'title', 'genres', 'rating'
#   e 'count'. Além disso, cada linha se refere a um filme que contém o prefixo dado
#   como prefixo de seu nome.
def movieSearch(prefix, trie, movieHASH):
    list = trie.find(prefix)
    if list != []:
        df = pd.DataFrame(columns=['movieId', 'title', 'genres', 'rating', 'count'])
        for tuple in list:
            title = tuple[0]
            movieId = tuple[1]
            element = movieHASH.search(movieId)

            genres = element.data[0]
            rating = element.data[2]
            count = element.data[3]

            auxDF = pd.DataFrame([[movieId, title, genres, rating, count]], columns=['movieId', 'title', 'genres', 'rating', 'count'])
            df = df.append(auxDF)

        return df
    else:
        return None

# userSearch: int Hash Hash -> pd.DataFrame
# Objetivo: dados um id de usuário, uma hash de usuários e uma hash de filmes, a função
#   devolve um dataframe em que as colunas são 'user_rating', 'title', 'global_rating' e
#   'count'. Além disso, cada linha se refere a um filme que esse usuário avaliou.
def userSearch(userId, userHASH, movieHASH):
    df = pd.DataFrame(columns=['user_rating', 'title', 'global_rating', 'count'])
    userTemp = userHASH.search(userId)
    if userTemp != None:
        for tuple in userTemp.data:
            user_rating = tuple[1]
            movieId = tuple[0]
            movieTemp = movieHASH.search(movieId)
            title = movieTemp.data[4]
            global_rating = movieTemp.data[2]
            count = movieTemp.data[3]

            auxDF = pd.DataFrame([[user_rating, title, global_rating, count]], columns=['user_rating', 'title', 'global_rating', 'count'])
            df = df.append(auxDF)

        return df
    else:
        return None

# StringToTags: str -> list
# Objetivo: dado uma string com nomes de tags no formato "'<tag1>' '<tag2>' (...)", retorna
#   uma lista com os nomes das tags. Neste caso, retornaria ["tag1", "tag2"].
def StringToTags(tagStr):
    inWord = False
    tag = ""
    tagList = []

    for ch in tagStr:
        if not inWord and ch == "'":
            inWord = True
        elif not inWord and ch != "'":
            continue
        elif inWord and ch == "'":
            inWord = False
            tagList.append(tag)
            tag = ""
        elif inWord and ch != "'":
            tag = tag + ch

    return tagList

# tagSearch: int str Hash -> pd.DataFrame
# Objetivo: dado um número n, uma string s e uma Hash de filmes, retorna um
#   dataframe em que as colunas são 'title', 'genres', 'rating' e 'count',
#   e as n linhas são um filme cada, que contém o gênero s, e no mínimo 1000
#   ratings. (ordenado pelo rating, decrescentemente)
def topSearch(n, genre, movieHASH):
    # Sub-função para inserir um filme no lugar certo,  em uma lista já
    # ordenada de filmes.
    def insort(ls, item):
        if ls == [] or item.data[2] < ls[-1].data[2]:
            ls.append(item)
        for i in range(len(ls)):
            if ls[i].data[2] < item.data[2]:
                ls.insert(i, item)
                break

    # Vai inserindo na lista, e retirando o último elemento (quando a lista
    # tem tamanho n)
    movieList = []
    for movie in movieHASH.iterable():
        ## ATENÇÃO: QUANDO FOR RODAR COM RATING.CSV, TROCAR 10 POR 1000 ##
        if movie.data[3] >= 10:
            if genre in movie.data[0].split('|'):
                if len(movieList) < n:
                    insort(movieList, movie)
                elif movie.data[2] > movieList[-1].data[2]:
                    insort(movieList, movie)
                    movieList = movieList[:n]

    # Cria e retorna o dataframe
    df = pd.DataFrame(columns=['title', 'genres', 'rating', 'count'])
    for movie in movieList:
        title = movie.data[4]
        genres = movie.data[0]
        rating = movie.data[2]
        count = movie.data[3]

        auxDF = pd.DataFrame([[title, genres, rating, count]], columns=['title', 'genres', 'rating', 'count'])
        df = df.append(auxDF)

    return df

# tagSearch: list -> pd.DataFrame
# Objetivo: dados uma lista de tags, a função devolve um dataframe em que as colunas
#   são 'title', 'genres', 'rating' e 'count', onde cada linha é um filme que contém
#   todas as tags na lista de tags.
def tagSearch(tagList, movieHASH):
    movieList = []
    df = pd.DataFrame(columns=['title', 'genres', 'rating', 'count'])
    for movie in movieHASH.iterable():
        # Coloca todos filmes da primeira tag
        tag = tagList[0]
        if tag in movie.data[1]:
            if movie not in movieList:
                movieList.append(movie)

    # Tira os filmes que não tem as outras tags
    for tag in tagList[1:]:
        movieList = filter(lambda x: tag in x.data[1], movieList)

    for movie in movieList:
        title = movie.data[4]
        genres = movie.data[0]
        rating = movie.data[2]
        count = movie.data[3]

        auxDF = pd.DataFrame([[title, genres, rating, count]], columns=['title', 'genres', 'rating', 'count'])
        df = df.append(auxDF)

    if movieList != []:
        return df
    else:
        return None


time = Time("main")

# Lendo arquivos CSV
movieMatrix = readCSV("movie.csv")
#ratingMatrix = readCSV("rating.csv")
tagMatrix = readCSV("tag.csv")

print("Read the CSV files")

time.time("load_files")

trie = createTrie(movieMatrix)

print("Created Trie")

time.time("create_trie")

movieHASH = Hash(int(movieMatrix[-1][0]))

time.time("initialize_hash")

# Adiciona id e generos dos filmes
for movie in movieMatrix:
    movieId = int(movie[0])
    name = movie[1]
    genres = movie[2]
    movieHASH.insert(movieId, (genres, [], 0, 0, name))

time.time("add_movie_id")

rating_file = open("rating.csv", "r")
userHASH = Hash(sum(1 for line in rating_file))

rating_file.seek(0)
next(rating_file)

# Para cada rating, incrementa numero de rating do filme e seu somatório de notas
for rating_str in rating_file:
    rating = rating_str.split(",")
    userId = int(rating[0])
    movieId = int(rating[1])
    ratingValue = float(rating[2])

    userHASH.append(userId, (movieId, ratingValue))
    aux = movieHASH.search(movieId)
    #(genres, tags, mean, n_ratings, name)
    if aux != None:
        movieHASH.insert(movieId, (aux.data[0], aux.data[1], aux.data[2] + ratingValue, aux.data[3] + 1, aux.data[4]))

time.time("read rating")

# Calcula a média de notas de cada filme
for movie in movieMatrix:
    movieId = int(movie[0])
    movieTemp = movieHASH.search(movieId)
    if(movieTemp != None and movieTemp.data[3] != 0):
        movieHASH.insert(movieId, (movieTemp.data[0], [], movieTemp.data[2]/movieTemp.data[3], movieTemp.data[3], movieTemp.data[4]))

del movieMatrix

time.time("calculate_media")

# Insere as Tags na Hash de filmes.
for tag in tagMatrix:
    movieId = int(tag[1])
    tagName = tag[2]

    movieTemp = movieHASH.search(movieId)

    if movieTemp != None and tagName not in movieTemp.data[1]:
        movieHASH.insert(movieId, (movieTemp.data[0], movieTemp.data[1] + [tagName], movieTemp.data[2], movieTemp.data[3], movieTemp.data[4]))

del tagMatrix

time.time("insert tags and create hash")

print("Created Hashes and finished Loading.")
time.print()

Read the CSV files
Created Trie
Created Hashes and finished Loading.

-------------------main timings-------------------
load_files: 0.497s
create_trie: 1.201s
initialize_hash: 0.117s
add_movie_id: 0.043s
read rating: 116.921s
calculate_media: 0.080s
insert tags and create hash: 1.108s
--------------------------------------------------


In [24]:
# Input do Console
strIn = input()
auxVector = strIn.split(' ')
dataframe = None
if len(auxVector) <= 1:
    print("Error.")
else:
    if auxVector[0] == "movie":
        prefix = strIn.replace("movie ", "")
        dataframe = movieSearch(prefix, trie, movieHASH)
    elif auxVector[0] == "user":
        userId = int(auxVector[1])
        dataframe = userSearch(userId, userHASH, movieHASH)
    elif auxVector[0][0:3] == "top":
        dataframe = topSearch(int(auxVector[0][3:]), auxVector[1].strip("'"), movieHASH)
    elif auxVector[0] == "tags":
        taglist = StringToTags(strIn.replace("tags ", ""))
        dataframe = tagSearch(taglist, movieHASH)

    if type(dataframe) != type(None):
        display(dataframe)

tags 'Brazil' 'drugs'


Unnamed: 0,title,genres,rating,count
0,City of God (Cidade de Deus) (2002),Action|Adventure|Crime|Drama|Thriller,4.23541,12937
0,Carandiru (2003),Crime|Drama,3.705085,295
0,Cazuza - O Tempo Não Pára (2004),Drama,3.15625,16
0,Elite Squad: The Enemy Within (Tropa de Elite ...,Action|Crime|Drama,3.94661,590
