In [113]:
import numpy as np
import pandas as pd
from nltk.corpus import stopwords
import string
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score

In [78]:
#dataframes
bossa = pd.read_csv('dataset/bossa_nova.csv')
funk = pd.read_csv('dataset/funk.csv')
gospel = pd.read_csv('dataset/gospel.csv')
sertanejo = pd.read_csv('dataset/sertanejo.csv')

In [80]:
#Atribuir colunas a generos
bossa['Gen'] = 'Bossa Nova'
funk['Gen'] = 'Funk'
gospel['Gen'] = 'Gospel'
sertanejo['Gen'] = 'Sertanejo'

In [82]:
datasets = [bossa,funk,gospel,sertanejo]

lyrics = pd.concat(datasets)

In [84]:
lyrics

Unnamed: 0,lyric,Gen
0,\r\nEu sei que vou te amar\r\nPor toda a minh...,Bossa Nova
1,\r\nOlha que coisa mais linda\r\nMais cheia d...,Bossa Nova
2,\r\nEra uma casa\r\nMuito engraçada\r\nNão ti...,Bossa Nova
3,"\r\nDe tudo, ao meu amor serei atento antes\r...",Bossa Nova
4,\r\nQuando a luz dos olhos meus\r\nE a luz do...,Bossa Nova
...,...,...
795,\r\nA luta chegou de repente\r\nE te colocou ...,Sertanejo
796,\r\nPara de mentir pra você mesmo\r\nSeu amor...,Sertanejo
797,\r\nQuadros nunca esquecem e sempre contarão\...,Sertanejo
798,\r\nVoltei era de madrugada e me assustei\r\n...,Sertanejo


In [86]:
lyrics.reset_index(drop=True,inplace=True)

In [88]:
lyrics.head()

Unnamed: 0,lyric,Gen
0,\r\nEu sei que vou te amar\r\nPor toda a minh...,Bossa Nova
1,\r\nOlha que coisa mais linda\r\nMais cheia d...,Bossa Nova
2,\r\nEra uma casa\r\nMuito engraçada\r\nNão ti...,Bossa Nova
3,"\r\nDe tudo, ao meu amor serei atento antes\r...",Bossa Nova
4,\r\nQuando a luz dos olhos meus\r\nE a luz do...,Bossa Nova


In [90]:
#Remove \n FILTRO 1
lyrics = lyrics.replace(r'\n',' ', regex=True) 
lyrics.reset_index(drop=True,inplace=True)
lyrics.head()

Unnamed: 0,lyric,Gen
0,\r Eu sei que vou te amar\r Por toda a minha ...,Bossa Nova
1,\r Olha que coisa mais linda\r Mais cheia de ...,Bossa Nova
2,\r Era uma casa\r Muito engraçada\r Não tinha...,Bossa Nova
3,"\r De tudo, ao meu amor serei atento antes\r ...",Bossa Nova
4,\r Quando a luz dos olhos meus\r E a luz dos ...,Bossa Nova


In [92]:
#Remove \r FILTRO 2
lyrics = lyrics.replace(r'\r',' ', regex=True) 
lyrics.reset_index(drop=True,inplace=True)
lyrics.head()

Unnamed: 0,lyric,Gen
0,Eu sei que vou te amar Por toda a minha vi...,Bossa Nova
1,Olha que coisa mais linda Mais cheia de gr...,Bossa Nova
2,Era uma casa Muito engraçada Não tinha te...,Bossa Nova
3,"De tudo, ao meu amor serei atento antes E ...",Bossa Nova
4,Quando a luz dos olhos meus E a luz dos ol...,Bossa Nova


In [94]:
stopwords.words('portuguese')

['a',
 'à',
 'ao',
 'aos',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aquilo',
 'as',
 'às',
 'até',
 'com',
 'como',
 'da',
 'das',
 'de',
 'dela',
 'delas',
 'dele',
 'deles',
 'depois',
 'do',
 'dos',
 'e',
 'é',
 'ela',
 'elas',
 'ele',
 'eles',
 'em',
 'entre',
 'era',
 'eram',
 'éramos',
 'essa',
 'essas',
 'esse',
 'esses',
 'esta',
 'está',
 'estamos',
 'estão',
 'estar',
 'estas',
 'estava',
 'estavam',
 'estávamos',
 'este',
 'esteja',
 'estejam',
 'estejamos',
 'estes',
 'esteve',
 'estive',
 'estivemos',
 'estiver',
 'estivera',
 'estiveram',
 'estivéramos',
 'estiverem',
 'estivermos',
 'estivesse',
 'estivessem',
 'estivéssemos',
 'estou',
 'eu',
 'foi',
 'fomos',
 'for',
 'fora',
 'foram',
 'fôramos',
 'forem',
 'formos',
 'fosse',
 'fossem',
 'fôssemos',
 'fui',
 'há',
 'haja',
 'hajam',
 'hajamos',
 'hão',
 'havemos',
 'haver',
 'hei',
 'houve',
 'houvemos',
 'houver',
 'houvera',
 'houverá',
 'houveram',
 'houvéramos',
 'houverão',
 'houverei',
 'houverem',
 'hou

In [96]:
def processamento_texto(txt):
    # remover símbolos de pontuação, resultando em um array de caracteres
    txt = [char for char in txt if char not in string.punctuation]
    # depois, juntar os caracteres em palavras novamente e separá-los em uma lista de tokens
    txt = ''.join(txt).split()
    # por fim, remover as stopwords da lista
    txt = [word for word in txt if word.lower() not in stopwords.words('portuguese')]
    
    return txt

In [105]:
#Obter os valores Tf-idf de todas as palavras.
#Este valor indica a importância de cada palavra em relação a todo o conjunto de palavras das letras de música.
#Para isso, utiliza-se o TfidfTransformer,
#que gerará os valores.
lyric_train,lyric_test,label_train,label_test = train_test_split(lyrics['lyric'],lyrics['Gen'],test_size=0.3)

In [106]:
#Chama a função de limpeza, usa a tfidf para classicar as palavras importantes e aplica o alg svc
pipelineSVC = Pipeline([('bow',CountVectorizer(analyzer=processamento_texto)),('tfidf',TfidfTransformer()),('svc',SVC())])

In [107]:
pipelineSVC.fit(lyric_train,label_train)

In [110]:
#predição 
predictions = pipelineSVC.predict(lyric_test)

In [111]:
print(classification_report(label_test,predictions))

              precision    recall  f1-score   support

  Bossa Nova       0.85      0.85      0.85       241
        Funk       0.92      0.77      0.84       252
      Gospel       0.91      0.90      0.91       234
   Sertanejo       0.71      0.85      0.77       233

    accuracy                           0.84       960
   macro avg       0.85      0.84      0.84       960
weighted avg       0.85      0.84      0.84       960



In [114]:
print(accuracy_score(label_test,predictions))

0.840625


In [130]:
products_list = lyrics['lyric'].values.tolist()
lista1 = products_list[:10]
lista2 = products_list[11:19]
lista3 = products_list[20:29]
lista4 = products_list[30:]