#### Importando as bibliotecas

In [16]:
import pandas as pd
import xlrd
import pickle #modulo usado para serializar dados para o arquivo binario
import os
import time
import copy
from unicodedata import normalize

#### Criando as funções necessárias para acessar as árvores TRIE

In [17]:
class TrieNode(object):

    
    def __init__(self, char: str):   # __init__ é um método especial para fazer construtores
        self.char = char   # caractere do nodo atual
        self.filhos = []   # nodos filhos
        self.pFinalizada = False   # se é o último nodo e a palavra terminou
        self.indices = []   # lista vazia para nodos que não são término de palavra
        ### não é um índice único e sim uma lista, pois podem existir títulos de música repetidos com mais de um artista


#Definindo função que localiza uma string na arvore
def findString(select, dados, raiz, palavra: str) -> (bool, []):
    """
      1. Se a palavra existe e tem algum índice associado, retorna verdadeiro e a lista de índices dela
      2. Se a palavra não existe, retorna falso e uma lista com sugestões de palavras
      
      Sendo o parâmetro select utilizada para indicar se a busca é por artista ou música (0 música, 1 artista)
    """
    palavra = formataString(palavra)   # formata string de entrada para o padrão (todas as letras maiúsculas sem acento)
    nodo = raiz
    stringSugerida = ""  # guarda os caracteres já encontrados para sugerir os próximos
    
    if not raiz.filhos:   # se o nodo raiz não tiver nenhum filho, trivial, retorna falso
        return False, []
    for char in palavra:
        charNaoEncontrado = True
        for filho in nodo.filhos:
            if filho.char == char:
                charNaoEncontrado = False   # assinala que o char foi encontrado
                stringSugerida = stringSugerida+char
                nodo = filho   # passa iteração para o nodo filho
                break
        
        if charNaoEncontrado:   # chama a função que procura sugestões e retorna a tupla (False, lista de sugestões)
            return False, sugereStrings(select, dados, nodo, stringSugerida, 15)
    
    # Caso passe por todos os caracteres sem retornar false, então significa que a palavra foi encontrada
    # Resta saber se aquele nodo é um nodo final com um índice associado
    if nodo.pFinalizada:
        return True, nodo.indices
    else:
        return False, sugereStrings(select, dados, nodo, stringSugerida, 15)
    
# Função que formata string desconsiderando maiúsculas e minúsculas e que remove acentos
def formataString(string):
    string = normalize('NFKD', string).encode('ASCII', 'ignore').decode('ASCII')
    return string.upper()

def sugereStrings(select, dados, nodo, string, maxSugestoes):   # onde select igual a 1 significa que se procura um artista e False, música
        listaDeSugestoes = []   # cria lista vazia para adicionarmos as sugestões
        procuraSugestoes(nodo, string, listaDeSugestoes)   # chama a função que percorre a trie procurando sugestões
        
        itera = copy.deepcopy(listaDeSugestoes)   # utilizado para iteração na lista que está sendo modificada enquanto o loop itera
        
        # substitui os indices pelos títulos
        for indice in itera:
            listaDeSugestoes.remove(indice)   # remove o índice 
            if select:
                listaDeSugestoes.append(dados[indice]['Artista']) 
            else:
                listaDeSugestoes.append(dados[indice]['Titulo']) 
            
        
        listaDeSugestoes = sorted(listaDeSugestoes)   # ordena a lista alfabeticamente
        return listaDeSugestoes[:maxSugestoes]   # retorna apenas os n elementos da lista definidos por maxSugestoes

    
# função que dado um nodo, uma parte correta de uma string (que existe na TRIE), uma lista de sugestoes, retorna uma lista de sugestões
def procuraSugestoes(nodo, string, listaDeSugestoes):
        
        if nodo.pFinalizada:   
            listaDeSugestoes.append(nodo.indices[0])   # adiciona nova sugestão na lista
        
        for filho in nodo.filhos:            
            procuraSugestoes(filho, string+filho.char, listaDeSugestoes)   # recursão para cada filho 

        return        

#### Fazendo a leitura dos arquivos

In [18]:
#Faz a leitura do arquivo de registros
with (open('database.bin', 'rb')) as openfile:
    database = pickle.load(openfile)
    
#Leitura do arquivo de indices de anos
with (open('indices.bin', 'rb')) as openfile:
    indices = pickle.load(openfile)

#Leitura do arquivo com a arvore TRIE de titulos de musicas
with open('trieMusicas.bin','rb') as openfile:
    trieMusicas = pickle.load(openfile)
        
#Leitura do arquivo com a arvore TRIE de nomes de artistas
with open('trieArtistas.bin','rb') as openfile:
    trieArtistas = pickle.load(openfile)

## Definição das Querys

#### Query que retorna um numero N de pesquisas em ordem de relevancia, filtrando por artista/ano opcionalmente
###### Opcional: Depois criar um algoritmo que tente achar se tem mais de uma musica do mesmo artista em um ano

In [19]:
def relevancia(dados, top, ano=None, artista=None):    
    #Retornando de um determinado ano
    if(ano != None and artista == None):
        #Consultando do arquivo de indices qual o index inicial do ano que o usuario entrou
        for x in indices:
            if x['Ano'] == ano:
                comeco = x['Min']
        for i in range(comeco, comeco+top):
            print(dados[i])
            
    #Retornando de um determinado artista
    if(artista != None and ano == None):
        indicesArtista = findString(1, dados, trieArtistas, artista)[1] #retorna os indices do arquivo principal com registros do artista
        listaMusicas2 = []
        for i in indicesArtista:
            listaMusicas2.append(dados[i])

        listaMusicas = copy.deepcopy(listaMusicas2) #Faz uma copia de lista2 para lista, pq lista2 so referencia os registros de dados ao inves de criar eles novamente
        
        for i in range(len(listaMusicas)-1):
            for j in range(i+1, len(listaMusicas)-1):
                #print(j)
                if(listaMusicas[i]['Titulo'] == listaMusicas[j]['Titulo']):
                    listaMusicas[i]['Pontos'] = listaMusicas[i]['Pontos'] + listaMusicas[j]['Pontos']
                    listaMusicas.pop(j)
        
        listaMusicas = sorted(listaMusicas, key = lambda tup: (tup["Pontos"]), reverse=True)
        
        if(len(listaMusicas) < top): #Faz com que a query retorne apenas o numero de entradas pedido na variavel top
            top = len(listaMusicas) - 1
            
        for i in range(top):
            print(listaMusicas[i])    
            
    #Retorna o top geral
    if(ano == None and artista == None):
        for i in range(top):
            print(dados[topGeral[i]['Indice']])
        
    #Retorna o top dos artistas em determinado ano
    if(artista != None and ano != None):
        #Faz o mesmo procedimento que a busca por artista
        indicesArtista = findString(1, dados, trieArtistas, artista)[1] #retorna os indices do arquivo principal com registros do artista
        listaMusicas2 = []
        for i in indicesArtista:
            listaMusicas2.append(dados[i])

        listaMusicas = copy.deepcopy(listaMusicas2) #Faz uma copia de lista2 para lista, pq lista2 so referencia os registros de dados ao inves de criar eles novamente
        
        for i in range(len(listaMusicas)-1):
            for j in range(i+1, len(listaMusicas)-1):
                #print(j)
                if(listaMusicas[i]['Titulo'] == listaMusicas[j]['Titulo']):
                    listaMusicas[i]['Pontos'] = listaMusicas[i]['Pontos'] + listaMusicas[j]['Pontos']
                    listaMusicas.pop(j)
        
        listaMusicas = sorted(listaMusicas, key = lambda tup: (tup["Pontos"]), reverse=True)
        
        listaMusicasAno = [] #Lista com as musicas do artista no ano pedido
        
        for i in range(len(listaMusicas)):
            if(listaMusicas[i]['Ano'] == ano):
                listaMusicasAno.append(listaMusicas[i])
            
        if(len(listaMusicasAno) < top):
            top = len(listaMusicasAno)
            
        for i in range(top):
            print(listaMusicasAno[i])   

In [20]:
relevancia(database, 10, 2011, 'Katy Perry')

{'Artista': 'Katy Perry Featuring Kanye West', 'Titulo': 'E.T.', 'Ano': 2011, 'Pontos': 2601, 'Peak': 100, 'Semanas': 30}
{'Artista': 'Katy Perry', 'Titulo': 'Last Friday Night (T.G.I.F.)', 'Ano': 2011, 'Pontos': 1960, 'Peak': 100, 'Semanas': 24}
{'Artista': 'Katy Perry', 'Titulo': 'The One That Got Away', 'Ano': 2011, 'Pontos': 1897, 'Peak': 98, 'Semanas': 24}


#### Query que retorna uma lista de sugestões para artista/música dada um pedaço de string

In [21]:
findString(1, database, trieArtistas, "Daives")[1]

['Da Brat',
 'Daddy Dewdrop',
 'Daddy Yankee',
 'Daft Punk',
 'Dale & Grace',
 'Dale Ward',
 'Damita Jo',
 'Damn Yankees',
 'Dan + Shay',
 'Dan Baird',
 'Dan Fogelberg',
 'Dan Fogelberg/Tim Weisberg',
 'Dan Hartman',
 'Dan Hill',
 'Dan Hill (Duet With Vonda Shepard)']

In [22]:
def retiraFeaturing(artistaString):
    
    if " Featuring" in artistaString:   # Se a música tiver um featuring, deve-se retirá-lo
            indexFeat = artistaString.find(" Featuring")   # pega índice do char space antes de Featuring
            artistaString = artistaString[:indexFeat]   # retorna apenas o primeiro artista
        
    return artistaString   # caso não caia no if, simplesmente retorna o artista assim como veio

#### Query que retorna os N artistas mais relevantes de determinado ano

In [23]:
def relevanciaArtistaAno(dados, indiceFile, ano, maxArtistas):
    
    # Loop que pega o ano passado para procurar no arquivo principal o artista mais relevante
    for entrada in range(len(indiceFile)):
        if indiceFile[entrada]['Ano'] == ano:
            index = entrada
            indexMin = indiceFile[index]['Min']
            indexMax = indiceFile[index]['Max']
    
    artistasDict = {}
    
    # Itera pelos indices daquele determinado ano construindo um dicionário de artistas e pontos acumulados
    while indexMin <= indexMax:
        
        artistaIterado = retiraFeaturing(dados[indexMin]['Artista'])
        if artistaIterado in artistasDict:
            artistasDict[artistaIterado] += dados[indexMin]['Pontos']
        else:
            artistasDict[artistaIterado] = dados[indexMin]['Pontos']
        
        indexMin += 1
        
    #artistasDict = sorted(artistasDict.items(), key = lambda tup: (tup[1]["Pontos"]), reverse=True)
    dictSorted = sorted(artistasDict.items(), key=lambda kv: kv[1], reverse=True)
    
    return dictSorted[:maxArtistas]


In [24]:
relevanciaArtistaAno(database, indices, 2000, 5)


[("Destiny's Child", 6306),
 ('Faith Hill', 5970),
 ('Santana', 5273),
 ("'N Sync", 5182),
 ('Creed', 5100)]

#### Query que retorna os N artistas mais relevantes no geral

In [25]:
def topArtistas(n):   # sendo n o número máximo de artistas
      
    if os.path.exists("topArtistas.bin"): #confere se o arquivo existe
        with open("topArtistas.bin",'rb') as openfile:  #with automaticamente da um close() no final
            topArtistas = pickle.load(openfile)
       
    return topArtistas[:n]

In [26]:
topArtistas(5)

[('Madonna', 53607),
 ('Rihanna', 49051),
 ('Elton John', 47983),
 ('Mariah Carey', 46615),
 ('Usher', 45357)]