<img src="TuneMyMoodLogo.png">

O TuneMyMood é um projeto da matéria de Ciência dos Dados feito por alunos do segundo semestre de Engenharia de Computação no Insper. O projeto consiste em utilizar de classificadores, como Naive-Bayes e Support Vector Classification(Classificação de Suporte Vetorial), __para conseguir separar músicas por gênero musical e moods(humores)__ com base nos dados, recolhidos pelo Spotipy, uma biblioteca em python que se comunica com a WEB API do serviço de streaming de música Spotify, de: 
- acousticness(indice de 0 a 1 que representa o quão acústica é uma música), 
- danceability(índice de 0 a 1 que representa o quão boa uma música é para dançar), 
- instrumentalness(íncide de 0 a 1 que representa o quão próxima uma música chega de ser totalmente intrumental, sendo que sons como "Ooh" e "Aah" são considerados instrumentais), 
- key(Representa o tom na qual a música é tocada, começando da seguinte maneira: Dó=1, Ré=2, Mi=3, etc.), 
- liveness(Índice de 0 a 1 que representa o quão ao vivo uma música é, baseada em ruídos externos), 
- loudness(Índice de 0 a 1 que representa o quão barulhenta uma música é), 
- mode(Representa tons maiores ou menores. Exemplo: Dó maior = 1, Ré menor = 0), 
- speechiness(Índice de 0 a 1 que representa o quanto da música são palavras faladas ao invés de cantadas), 
- tempo(Representa o número de batidas por minuto da música, ou em outras palavras, o quão rápida ela é), 
- time_signature(Índice que representa o compasso da música, fração que representa o agrupamento de sons de uma música. Estilos diferentes costumam ter compassos específicos, como o compasso na valsa que é 3/4), 
- valence(Índice de 0 a 1 que representa o humor de uma música, sendo 0 uma música triste e 1 uma feliz)

#### Link para os atributos de uma música: https://developer.spotify.com/web-api/get-audio-features/

### Índice
<ul>
<li><a href=#api> 1.0 Utilizando a API Spotipy</a></li>
<li><a href=#classificadores> 2.0 Entendendo nossos classificadores</a></li>
<li><a href=#nb> 2.1 Classificador de Naive-Bayes</a></li>
<li><a href=#svc> 2.2 SVC - Classificador por Vetores de Suporte</a></li>
<li><a href=#train> 3.0 Treinando nossos classificadores</a></li>
<li><a href=#dataset> 4.0 Classificando um Dataset</a></li>
<li><a href=#versus> 5.0 Comparação: Naive-Bayes VS SVC</a></li>
<li><a href=#melhorias> 6.0 Possíveis melhorias ao modelo</a></li>
</ul>

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import os
import re
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction import DictVectorizer
import spotipy 
from spotipy.oauth2 import SpotifyClientCredentials
from sklearn.svm import SVC
from tmm_functions import *

<div id="api"><div/>
### Utilização da API e da biblioteca Spotipy
Ao linkar a API a um Client_User e um User_Secret, que são distribuidos pelo Spotify para quem quer fazer uso da API, podemos baixar uma playlist a partir de seu playlist_id e seu user_id, ambos coletados a partir de uma url. Como exemplo de seu funcionamento, vamos baixar duas playlists de Rock e ver como elas são retornadas pelo Spotipy.

In [2]:
lista_de_urls = ["https://open.spotify.com/user/spotify/playlist/37i9dQZF1DX153gOfbCM2i",
                "https://open.spotify.com/user/spotify/playlist/37i9dQZF1DX49jUV2NfGku"]



def lister(listaurl): #Função que recebe a lista de urls e devolve elas em uma lista de listas de
    liste = []        #["nome","user_id","playlist_id"]
    
    for i in range(len(listaurl)):
        a = re.split(r"/", listaurl[i])
        temp = [a[5]+str(i+1),a[4],a[6]]
        liste.append(temp)
    return liste



lista_pronta = lister(lista_de_urls)
with open("login.txt") as f: #Abrindo o login.txt que contem na 1a linha Client_user e na segunda a Client_secre
    data = f.readlines()

client=User(data) #Pegando os dados de um arquivo .txt que está escondido com Gitignore


def list_download(list_urls,lista_generos,genre,datavalue): #Função que baixa a playlist usando Spotipy em Dataframe
    
    #Note que já definiremos o gênero musical, já com classificação de Sim(1) ou Não(0)
    
    #list_urls = lista de urls
    #lista_generos = lista de generos - Facilita para ja marcar outros generos como Não(0)
    #genre = genero da playlist
    #datavalue = Se é ou não desse genero - Sim(1) ou Não(0)
    
    df_baixada = client.playlist_downloader(list_urls[0][0],list_urls[0][1],list_urls[0][2])
    print(1)
    df_list = []
    for i in range(1,len(list_urls)):
        df =client.playlist_downloader(list_urls[i][0],list_urls[i][1],list_urls[i][2])
        df_baixada = pd.concat([df_baixada,df])
        print(i+1)
    for i in range(len(lista_generos)):
        df_baixada[lista_generos[i]] = 0
    if datavalue == 1:
        df_baixada[genre] = datavalue
    print("SO DONE")
    return df_baixada #Playlist retornada em Dataframe

lista_generos=['funk','rock','eletronica','metal','sertanejo','rap']

df_spotipy_test = list_download(lista_pronta,lista_generos,"rock",1) #Todos os valores "Rock" serão fornecidos como 1
df_spotipy_test.head()

1
2
SO DONE


Unnamed: 0,acousticness,analysis_url,danceability,duration_ms,energy,id,instrumentalness,key,liveness,loudness,...,uri,valence,song_title,artist,funk,rock,eletronica,metal,sertanejo,rap
0,0.0113,https://api.spotify.com/v1/audio-analysis/3tSm...,0.553,219000,0.9,3tSmXSxaAnU1EPGKa6NytH,0.0,3,0.322,-4.556,...,spotify:track:3tSmXSxaAnU1EPGKa6NytH,0.398,In The End,Linkin Park,0,1,0,0,0,0
1,0.000504,https://api.spotify.com/v1/audio-analysis/5eek...,0.581,199893,0.887,5eek2X5459T1HoYJk2CKXv,0.00111,4,0.268,-3.659,...,spotify:track:5eek2X5459T1HoYJk2CKXv,0.724,Last Resort,Papa Roach,0,1,0,0,0,0
2,0.00164,https://api.spotify.com/v1/audio-analysis/3asF...,0.549,242280,0.93,3asFGFY3uLjMDmML1p0tYm,6.7e-05,5,0.39,-3.468,...,spotify:track:3asFGFY3uLjMDmML1p0tYm,0.526,Savior,Rise Against,0,1,0,0,0,0
3,0.000353,https://api.spotify.com/v1/audio-analysis/7kwi...,0.42,210240,0.929,7kwiwQhWRBSP1PJv4ZFJUK,0.000747,7,0.122,-3.899,...,spotify:track:7kwiwQhWRBSP1PJv4ZFJUK,0.3,Chop Suey!,System Of A Down,0,1,0,0,0,0
4,0.00624,https://api.spotify.com/v1/audio-analysis/6ZOB...,0.545,233827,0.86,6ZOBP3NvffbU4SZcrnt1k6,2.2e-05,11,0.165,-5.054,...,spotify:track:6ZOBP3NvffbU4SZcrnt1k6,0.581,Kryptonite,3 Doors Down,0,1,0,0,0,0


Perceba que as últimas colunas são os gêneros musicais. Na lógica utilizada no trabalho, __uma música comtempla apenas um estilo musical__, sendo isso uma limitação do nosso modelo, uma vez que sabemos que existem músicas que se enquadram em 2 ou mais estilos.

<div id="classificadores"></div>
### Entendendo nosso classificadores

#### Classificadores
Classificadores são ferramentas que quando treinadas conseguem tentar adivinhar qual será a resposta (classificação) de um determinado conjunto de características. Isso quer dizer que você os treina fornecendo certas características e lhe dizendo a resposta desejada, de forma que você tentará depois utilizar esse classificador para adivinhar a resposta de um novo conjunto de dados. Um exemplo bem vísivel seria o seguinte: Imagine que eu quero treinar um computador para indentificar fotos de gatos. Eu lhe mostro algumas fotos de gatos e digo "isso é um gato", depois mostro fotos de coisas que não são gatos, como cachorros, cavalos ou outras coisas e lhe digo "isso não é um gato", com base no input (a foto) e o output (a resposta), ele é treinado para quando fornecida uma foto tentar adivinhar se aquilo é um gato ou não. Classificadores mais complexos já conseguem receber respostas mais complicadas (por ex: gato,cachorro,cavalo,lebre,etc) ao contrário simples booleanos (por ex: não gato, gato) com isso, tornando o Machine Learning mais complexo e eficiente. No nosso caso vamos usar booleanos, pois cumprem muito bem o nosso propósito.


<div id="nb"></div>
#### Naive Bayes
O classificador de Naive-Bayes calcula duas probabilidades, uma é a probabilidade do input ser Sim(1) e a outra de ser Não(0). Ele então compara as duas e a maior é considerada a classificação real. O cálculo observa os termos(como tempo, valence, acousticness) como independentes. A conta de cada probabilidade pode ser mostrada pelo exemplo abaixo:

Sendo A um objeto com 3 termos: A1, A2, A3.

P(Sim/A) = P(A1/Sim)xP(A2/Sim)xP(A3/Sim)XP(Sim)
                            P(A)
                            
Note que P(An/Sim) pode ser definido por { CountAn / TotalSim }, ou seja, quantas vezes esse valores do termo A1 apareceu no treino em Sim. Fora isso, como haverá uma Comparação entre P(Sim/A) e P(Não/A), não precisamos calcular o P(A), pois será igual aos dois e o que import é qual é maior.

Dessa forma, se P(Sim/A) > P(Não/A), A = 1, se <, A = 0
<div id="svc"></div>
#### Support Vector Classificator
Support Vector Machines são poderosos algoritmos para tanto regressão quanto classificação. No caso do classificador(SVC), usamos o que é chamado de classificação discriminativa, ou seja, ao invés de modelar cada classe(como no NB) o SVC visualiza um plano cartesiano e traça uma linha ou curva que consegue separar os dados, da seguinte maneira:

Olhando de forma gráfica, vemos que queremos criar uma lógica que consiga dividir quaisquer valores que forem adicionados em 1 ou 0. Observando um plano simples(2D), com os termos A1 e A2 nos eixos, podemos observar que SVC é uma forma de classificar:

<img src="graph1.png">

A função do SVC é dividir esse gráfico em duas partes, por meio de uma reta ou curva:

<img src="graph2.png">
Tudo que estiver acima da linha verde será classificado como 0 e a abaixo como 1.

Porém, existem casos onde uma linha não cumprirá sua função, e por isso o SVC consegue utilizar de curvas também:
<img src="graph3.png">

O SVC consegue fazer isso para diversos resultados também:
<img src="graph4.png">

O classificador vetorial trabalha com diversos termos, não apenas dois, mas por questão de visualização utilizamos apenas 2 nesses exemplos.

<div id="train"></div>
### Treinando nossos classificadores
Agora que entendemos o funcionamento dessas ferramentas, vamos utilizá-las a partir da biblioteca scikit-learn para classificar nossos dados. As facilidades dessa biblioteca são inumeras, mas uma delas é o fator de podermos usar praticamente o mesmo código para o NB quanto para o SVC, como poderá ser observado no código a seguir. Além disso, não vamos usar as duas playlists coletadas nesse código para o classificador,pois seriam apenas cerca de 120 músicas, tal que isso seria um número pequeno para um treino preciso, então coletamos(vide: DataCollector.ipynb) cerca de 600 músicas(10 playlists) de cada gênero. 
Então para, por exemplo, Rock, vamos utilizar um rock_df, apanhado de 600 musicas de Rock, como 1 e um not_rock_df, um apanhado de 600 musicas de variados estilos sem Rock, como 0.

In [3]:
class Dataset: #classe para formatação e analise de datasets
    
    def __init__(self,df2):
        #df será passado como string do diretorio do csv
        if type(df2)==str:
            self.df=pd.read_csv(df2)
            self.df["loudness"]=abs(self.df["loudness"])
            self.dict=self.df.filter(items=['acousticness','danceability','instrumentalness','key','liveness','loudness','mode'
                      ,'speechiness','tempo','time_signature','valence','artist']).to_dict('records')
        else:
            #caso o df seja passado como um dataframe do pandas
            self.df=df2
            self.df["loudness"]=abs(self.df["loudness"])
            self.dict=self.df.filter(items=['acousticness','danceability','instrumentalness','key','liveness','loudness','mode'
                      ,'speechiness','tempo','time_signature','valence','artist']).to_dict('records')
            
        self.ans=self.df[self.df.columns[-1]].tolist()
        self.vec=DictVectorizer()
        self.train_songs=self.vec.fit_transform(self.dict).toarray()

# Abrindo Dataframes De Gênero
funk_df = pd.read_csv("funk_df.csv")
rock_df = pd.read_csv("rock_df.csv")
eletronica_df = pd.read_csv("eletronica_df.csv")
metal_df = pd.read_csv("metal_df.csv")
sertanejo_df = pd.read_csv("sertanejo_df.csv")
rap_df = pd.read_csv("rap_df.csv")

# Abrindo Dataframes De Não Gênero
not_funk_df = pd.read_csv("not_funk_df.csv")
not_rock_df = pd.read_csv("not_rock_df.csv")
not_eletronica_df = pd.read_csv("not_eletronica_df.csv")
not_metal_df = pd.read_csv("not_metal_df.csv")
not_sertanejo_df = pd.read_csv("not_sertanejo_df.csv")
not_rap_df = pd.read_csv("not_rap_df.csv")

# Organizando na Classe Dataset
funk_df = Dataset(funk_df)
rock_df = Dataset(rock_df)
eletronica_df = Dataset(eletronica_df)
metal_df = Dataset(metal_df)
sertanejo_df = Dataset(sertanejo_df)
rap_df = Dataset(rap_df)
not_funk_df = Dataset(not_funk_df)
not_rock_df = Dataset(not_rock_df)
not_eletronica_df = Dataset(not_eletronica_df)
not_metal_df = Dataset(not_metal_df)
not_sertanejo_df = Dataset(not_sertanejo_df)
not_rap_df = Dataset(not_rap_df)



In [4]:
class Trainer(): #classe para facilitar o treinamento com o NB e SVC
    def __init__(self):
        self.data={}
        self.nb={}
        self.svc={}
        self.results_nb={}
        self.results_svc={}
        self.vc={}
        

    def pre_format(self,genre,data,not_data):
        data.df[genre]=1
        not_data.df[genre]=0
        dada_concat=Dataset(pd.concat([data.df,not_data.df]))
        return dada_concat
    
    def train(self,name,dataset,genre):  #Função para treinar
        #name = nome do treinamento(pode ser escolhido qualquer nome)
        #dataset = objeto da classe Dataset que recebera o treino
        #genre = genero a ser treinado
        
        self.vc[name]=DictVectorizer() #Transforma uma lista de valores em vetores
        dataset.train_songs=self.vc[name].fit_transform(dataset.dict).toarray()
        #Usa o fit_transform do scikit-learn para organizar e transformar os dados de treinamento em vetores
        
        nb=MultinomialNB() #Definindo o NaiveBayes
        svc=SVC() #Difinindo o SVC
        
        #O fit recebe Input(características) e Output(1 e 0) em listas da seguinte maneira: nb.fit(Input,Output)
        self.nb[name]=nb.fit(dataset.train_songs,dataset.df[genre].tolist())
        self.svc[name]=svc.fit(dataset.train_songs,dataset.df[genre].tolist())
        return "The new dataset has been trained and saved"
    
    def evaluate(self,name,new_songs):
        #metodo para salvar as musicas que a maquina classificou
        #name = nome do treino que você quer usar
        #new_songs = dataset de musicas sem genero classificado
        
        new_songs.df=new_songs.df.reset_index(drop=True)
        new_songs.train_songs=self.vc[name].transform(new_songs.dict).toarray()

        sim_nb=[] #Lista de Sims(1) dados pelo NaiveBayes
        nao_nb=[] #Lista de Nãos(1) dados pelo NaiveBayes
        
        sim_svc=[] #Lista de Sims(1) dados pelo SVC
        nao_svc=[] #Lista de Nãos(1) dados pelo SVC
        
        nb_res=self.nb[name].predict(new_songs.train_songs)
        svc_res=self.svc[name].predict(new_songs.train_songs)
        
        for i in range(len(nb_res)):
            if nb_res[i] == 0:
                nao_nb.append(new_songs.df['song_title'][i]+' : '+new_songs.df['artist'][i])
            else:
                sim_nb.append(new_songs.df['song_title'][i]+' : '+new_songs.df['artist'][i])
            
            if svc_res[i] == 0:    
                nao_svc.append(new_songs.df['song_title'][i]+' : '+new_songs.df['artist'][i])
            else:
                sim_svc.append(new_songs.df['song_title'][i]+' : '+new_songs.df['artist'][i])
                

        self.results_nb[name]={'sim':sim_nb,'nao':nao_nb}
        self.results_svc[name]={'sim':sim_svc,'nao':nao_svc}
        
        return "The result of the evaluation is now saved"

In [5]:
ash=Trainer() #Definindo o nosso treinador, com um nome apropriado

funk_train_df = pd.concat([funk_df.df,not_funk_df.df]) #juntando os dois Dataframes, note: Dataset.df é um Dataframe
ash.train("Funk",Dataset(funk_train_df),"funk")

rock_train_df = pd.concat([rock_df.df,not_rock_df.df])
ash.train("Rock",Dataset(rock_train_df),"rock")

eletronica_train_df = pd.concat([eletronica_df.df,not_eletronica_df.df])
ash.train("eletronica",Dataset(eletronica_train_df),"eletronica")

metal_train_df = pd.concat([metal_df.df,not_metal_df.df])
ash.train("metal",Dataset(metal_train_df),"metal")

sertanejo_train_df = pd.concat([sertanejo_df.df,not_sertanejo_df.df])
ash.train("sertanejo",Dataset(sertanejo_train_df),"sertanejo")

rap_train_df = pd.concat([rap_df.df,not_rap_df.df])
ash.train("rap",Dataset(rap_train_df),"rap")

'The new dataset has been trained and saved'

<div id="dataset"></div>
### Classificando um Dataset
Agora que temos um treinamento para cada gênero, vamos usá-los para classificar um Dataset que saibamos o conteúdo, como as duas playlists de Rock que baixamos no começo desse notebook. Com isso, vamos ver quantas músicas de Rock nosso classificador consegue indentificar nesse Dataset e quantas de Funk ele indentifica. Em teoria, se o classificador está funcionando, o número de música Rock deve ser maior que o de músicas Funk(que inclusive deveria ser 0, porém o modelo provavelmente apresentará falhas e acabará por indentificar algum Funk como Rock).

In [6]:
#Vamos utilizar a função evaluate, que recebe o genero a ser classificado e o Dataset
    
#Perceba que o nome inserido no Evaluate deve ser o do treino que você quer usar, criado anteriormente

test_rock = Dataset(df_spotipy_test)

ash.evaluate("Rock",test_rock)
#print(ash.results_nb["rock"])
#print(ash.results_svc["rock"])



'The result of the evaluation is now saved'

In [7]:
nb_musicas_rock = len(ash.results_nb['Rock']['sim']) #Vendo os resultados no NaiveBayes
nb_musicas_nrock = len(ash.results_nb['Rock']['nao'])

svc_musicas_rock = len(ash.results_svc['Rock']['sim']) #Vendo os resultados no SVC
svc_musicas_nrock = len(ash.results_svc['Rock']['nao'])

print("NB - Rock :{} Não rock: {}".format(nb_musicas_rock,nb_musicas_nrock))
print("SVC - Rock :{} Não rock: {}".format(svc_musicas_rock,svc_musicas_nrock))
print("Podemos ver q nesse caso, o Naive Bayes se saiu melhor que o SVC, uma vez que marcou mais Rock em um Dataset apenas de Rock. Apesar de existirem diferentes métodos de comparação melhores que esse.")

NB - Rock :84 Não rock: 16
SVC - Rock :55 Não rock: 45
Podemos ver q nesse caso, o Naive Bayes se saiu melhor que o SVC, uma vez que marcou mais Rock em um Dataset apenas de Rock. Apesar de existirem diferentes métodos de comparação melhores que esse.


In [8]:
#Agora vamos ver como eles classificam o mesmo Dataset para o gênero Funk
ash.evaluate("Funk",test_rock)
nb_musicas_funk = len(ash.results_nb['Funk']['sim']) #Vendo os resultados no NaiveBayes
nb_musicas_nfunk = len(ash.results_nb['Funk']['nao'])

svc_musicas_funk = len(ash.results_svc['Funk']['sim']) #Vendo os resultados no SVC
svc_musicas_nfunk = len(ash.results_svc['Funk']['nao'])
print("NB - Funk :{} Não Funk: {}".format(nb_musicas_funk,nb_musicas_nfunk))
print("SVC - Funk :{} Não Funk: {}".format(svc_musicas_funk,svc_musicas_nfunk))
print("Podemos perceber que o classificador marcou consideravelmente menos músicas como Funk do que como Rock, o que mostra que apesar de não muito preciso, ele segue uma lógica que se comprova. Além disso, vimos mais uma vez o NB se saindo melhor que o SVC, ao marcar menos 2 erroneamente.")

NB - Funk :28 Não Funk: 72
SVC - Funk :31 Não Funk: 69
Podemos perceber que o classificador marcou consideravelmente menos músicas como Funk do que como Rock, o que mostra que apesar de não muito preciso, ele segue uma lógica que se comprova. Além disso, vimos mais uma vez o NB se saindo melhor que o SVC, ao marcar menos 2 erroneamente.


<div id="versus"></div>
### Naive Bayes Vs SVC
Agora que já observamos os dois classificadores, vamos fazer uma comparação entre eles em diferentes cenários, um para cada gênero musical. Dessa forma podemos dizer qual método é melhor para nosso conjunto de dados e para nosso objetivo. Para isso, teremos de redefinir a classe Trainer, chamando ela de Trainer2, pois teremos de adicionar uma nova função.

In [9]:
#Vamos definir novamente a classe treinador, porém agora com algumas mudanças:

# Função test_this que esta um gênero com base em seu dataset e um dos outros datasets selecionados de outro gênero
# Função evaluate agora também salva um dataset de músicas com 1


class Trainer2():
        def __init__(self):
            self.data={}
            self.nb={}
            self.svc={}
            self.results_nb={}
            self.results_svc={}
            self.df_results_nb = {}
            self.df_results_svc = {}
            self.vc={}
            
        def pre_format(self,genre,data,not_data):
            data.df[genre]=1
            not_data.df[genre]=0
            dada_concat=Dataset(pd.concat([data.df,not_data.df]))
            return dada_concat
    
        def train(self,name,dataset,genre="ans",threshold=[.5,.5]):
            self.vc[name]=DictVectorizer()
            dataset.train_songs=self.vc[name].fit_transform(dataset.dict).toarray()
            #name=nome da chave do dicionario que sera salvo o treinamento,
            #dataset=objeto da classe Dataset que recebera o treino
            
            nb=MultinomialNB(class_prior=threshold)
            svc=SVC()
            if genre=="ans":
                self.nb[name]=nb.fit(dataset.train_songs,dataset.ans)
                self.svc[name]=svc.fit(dataset.train_songs,dataset.ans)
            else:
                self.nb[name]=nb.fit(dataset.train_songs,dataset.df[genre].tolist())
                self.svc[name]=svc.fit(dataset.train_songs,dataset.df[genre].tolist())
            return "The new dataset was trained and saved"
        
        def evaluate(self,name,new_songs): #metodo para salvar as musicas que a maquina classificou
            #name = nome do treino que você quer usar
            #new_songs = dataset de de musicas sem genero classificado
        
            new_songs.df=new_songs.df.reset_index(drop=True)
            new_songs.train_songs=self.vc[name].transform(new_songs.dict).toarray()
    
            sim_nb=[] #Lista de Sims(1) dados pelo NaiveBayes
            nao_nb=[] #Lista de Nãos(1) dados pelo NaiveBayes

            sim_svc=[] #Lista de Sims(1) dados pelo SVC
            nao_svc=[] #Lista de Nãos(1) dados pelo SVC
            
            nb_res=self.nb[name].predict(new_songs.train_songs)
            svc_res=self.svc[name].predict(new_songs.train_songs)
            framesnb = []
            framessvc = []
            for i in range(len(nb_res)):
                if nb_res[i] == 0:
                    
                    nao_nb.append(new_songs.df['song_title'][i]+' : '+new_songs.df['artist'][i])
                else:
                    sim_nb.append(new_songs.df['song_title'][i]+' : '+new_songs.df['artist'][i])
                    framesnb.append(new_songs.df.iloc[i:i+1])
                if svc_res[i] == 0:
                    
                    nao_svc.append(new_songs.df['song_title'][i]+' : '+new_songs.df['artist'][i])
                else:
                    sim_svc.append(new_songs.df['song_title'][i]+' : '+new_songs.df['artist'][i])
                    framessvc.append(new_songs.df.iloc[i:i+1])
    
            self.results_nb[name]={'sim':sim_nb,'nao':nao_nb}
            self.results_svc[name]={'sim':sim_svc,'nao':nao_svc}
            self.df_results_nb[name] = pd.concat(framesnb)
            self.df_results_svc[name] = pd.concat(framessvc)
            
            return "The result of the evaluation is now saved!"
        def check_score(self,name,new_songs,genre="ans"):
            #metodo para checar a eficacia do machine learning
            new_songs.train_songs=self.vc[name].transform(new_songs.dict).toarray()
            if genre=="ans":
                print("This is the SVC score: {}".format(self.svc[name].score(new_songs.train_songs,new_songs.ans)))
    
                print("This is the NB score: {}".format(self.nb[name].score(new_songs.train_songs,new_songs.ans)))
        
            else:
                svcscore = self.svc[name].score(new_songs.train_songs,new_songs.df[genre].tolist())
                print("This is the SVC score: {}".format(svcscore))
                nbscore = self.nb[name].score(new_songs.train_songs,new_songs.df[genre].tolist())
                print("This is the NB score: {}".format(nbscore))
                if svcscore > nbscore:
                      print("Para {} o SVC se saiu melhor".format(name))
                else:
                      print("Para {} o NB se saiu melhor".format(name))
        def test_this(self,name,genre):
            #name=nome que sera salvo o treinamento 
            #genre=o genero que sera treinado
            
            genre_2=genre
            genre_list=['funk','rock','eletronica','metal','sertanejo','rap']

            genre_name=genre+'_df.csv'
            genre=Dataset(genre_name)
            not_genre_name='not_'+genre_name
            not_genre=Dataset(not_genre_name)
            genre_all=self.pre_format(genre,genre,not_genre)

            self.train(name,genre_all,genre)
            test_name_df='test_'+genre_name
            test_genre_df=Dataset(test_name_df)
            x=[]
            for i in range(len(genre_list)):
                if genre_list[i]!=genre_2:
                    x.append(genre_list[i])
            random_genre=np.random.choice(x)
    
            
            test_not_name_df='test_'+random_genre+'_df.csv'
            test_genre_not_df=Dataset(test_not_name_df)

            test_genre_all=self.pre_format(genre,test_genre_df,test_genre_not_df)

            self.check_score(name,test_genre_all,genre)
            self.evaluate(name,test_genre_all)
            
        def playlist_maker(self,genre,mood):
            genre_dataset =Dataset(pd.concat([pd.read_csv(genre+'_df.csv'),pd.read_csv('not_'+genre+'_df.csv')]))
            self.train(genre,genre_dataset,genre,threshold=[0.8,0.2])
            mega_dataset = Dataset(pd.read_csv("giant_df.csv"))
            self.evaluate(genre,mega_dataset)
            filtered_ds = Dataset(self.df_results_nb[genre])

            mood_dataset = Dataset(pd.concat([pd.read_csv(mood+'_df.csv'),pd.read_csv('not_'+mood+'_df.csv')]))
            self.train(mood,mood_dataset,mood)
            self.evaluate(mood,filtered_ds)
            playlist = self.df_results_nb[mood]

            playlist = playlist.drop_duplicates()
            playlist = playlist.sample(frac=1)



            return playlist

In [10]:
misty=Trainer2() #Definindo nosso novo treinador

for i in lista_generos: #fazendo para cada item na lista de generos
    print(i)
    misty.test_this(i,i)

funk
This is the SVC score: 0.75
This is the NB score: 0.8472222222222222
Para funk o NB se saiu melhor
rock
This is the SVC score: 0.575
This is the NB score: 0.785
Para rock o NB se saiu melhor
eletronica
This is the SVC score: 0.785
This is the NB score: 0.635
Para eletronica o SVC se saiu melhor
metal
This is the SVC score: 0.6010362694300518
This is the NB score: 0.6994818652849741
Para metal o NB se saiu melhor
sertanejo
This is the SVC score: 0.6571428571428571
This is the NB score: 0.8714285714285714
Para sertanejo o NB se saiu melhor
rap
This is the SVC score: 0.5918367346938775
This is the NB score: 0.6836734693877551
Para rap o NB se saiu melhor


In [11]:
misty.playlist_maker('rap','gym').head(5)

Unnamed: 0.1,Unnamed: 0,acousticness,analysis_url,danceability,duration_ms,energy,id,instrumentalness,key,liveness,...,mode,speechiness,tempo,time_signature,track_href,type,uri,valence,song_title,artist
441,8,0.0223,https://api.spotify.com/v1/audio-analysis/2vbW...,0.738,238746,0.875,2vbWpgFRbqbVZFybdCgm6M,0.0,11,0.247,...,0,0.331,95.073,4,https://api.spotify.com/v1/tracks/2vbWpgFRbqbV...,audio_features,spotify:track:2vbWpgFRbqbVZFybdCgm6M,0.664,Berzerk,Eminem
2,7,0.239,https://api.spotify.com/v1/audio-analysis/43Zy...,0.936,124056,0.523,43ZyHQITOjhciSUUNPVRHc,0.0,5,0.117,...,1,0.0597,119.889,4,https://api.spotify.com/v1/tracks/43ZyHQITOjhc...,audio_features,spotify:track:43ZyHQITOjhciSUUNPVRHc,0.699,Gucci Gang,Lil Pump
22,16,0.0232,https://api.spotify.com/v1/audio-analysis/1XRg...,0.89,233087,0.633,1XRgIKC5TPwo7nWGyKqgG0,0.000343,11,0.0993,...,1,0.168,139.948,4,https://api.spotify.com/v1/tracks/1XRgIKC5TPwo...,audio_features,spotify:track:1XRgIKC5TPwo7nWGyKqgG0,0.425,I Get The Bag (feat. Migos),Gucci Mane
364,19,0.801,https://api.spotify.com/v1/audio-analysis/5b2Q...,0.49,303781,0.598,5b2QnYcT9rQIkhRWt4HztQ,0.0,9,0.576,...,0,0.186,84.004,4,https://api.spotify.com/v1/tracks/5b2QnYcT9rQI...,audio_features,spotify:track:5b2QnYcT9rQIkhRWt4HztQ,0.61,Walk On Water (feat. Beyoncé),Eminem
421,35,0.000725,https://api.spotify.com/v1/audio-analysis/2nYw...,0.897,204787,0.448,2nYwV62UABTH0NanrwVIdQ,1.2e-05,1,0.365,...,1,0.0766,145.971,4,https://api.spotify.com/v1/tracks/2nYwV62UABTH...,audio_features,spotify:track:2nYwV62UABTH0NanrwVIdQ,0.316,Perplexing Pegasus,Rae Sremmurd


### Resultados
Podemos perceber que o SVC se saiu melhor nos gêneros: Eletrônica e Metal, enquanto o NB se saiu melhor em Funk, Rock, Sertanejo e Rap. Isso demonstra que mesmo com Datasets com o mesmo número e tipo de variáveis pode-se obter melhores resultados trocando o método, dependendo do output desejado para a classificação. Porém, é possível observar que o NB levou uma considerável vantagem no total, talvez por conta dos indices, provavelmente, serem quase totalmente independentes.

#### O que falta:

- Acabar a conclusão
- Classificar os Moods
- Fazer Dataset resultante de uma filtragem Genero+Mood
- Revisar

##### Talvez:

- Salvar resultado de um Dataset em uma playlist no Spotify
- Fazer modelo de 0:5 generos para testar

<div id="melhorias"></div>
### Possíveis melhorias do modelo

<ul>
<li> Aumentar a base de dados para cada gênero deixaria os classificadores mais precisos</li>
<li> Aumentar quantidade de gêneros musicais, incluindo:pop,samba,música clássica,além de outros, como subgêneros por exemplo</li>
<li> Testar a classificação de Neighbours - Classificação que observa os "vizinhos" de um valor, ou seja, os pontos mais próximos e os relaciona. </li>
<li> Adaptar os dados e testar classificação por Rede Neurais - um tipo de algoritmo de ensino supervisionado que consegue trabalhar com funções não lineares</li>
</ul>