In [None]:
import pandas as pd
from collections import Counter
import nltk
from nltk.corpus import stopwords

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split

**Leitura do Conjunto de Dados**

In [None]:
df_music = pd.read_excel("http://robsonfernandes.net/cci/dataset_genero_musical.xlsx")

In [None]:
df_music.head(5)

Unnamed: 0.1,Unnamed: 0,musica,genero
0,0,\nEu sei que vou te amar\nPor toda a minha vi...,BOSSA NOVA
1,1,\nOlha que coisa mais linda\nMais cheia de gr...,BOSSA NOVA
2,2,\nEra uma casa\nMuito engraçada\nNão tinha te...,BOSSA NOVA
3,3,"\nDe tudo, ao meu amor serei atento antes\nE ...",BOSSA NOVA
4,4,\nQuando a luz dos olhos meus\nE a luz dos ol...,BOSSA NOVA


In [None]:
len(df_music)

3200

In [None]:
df_music["musica"].values[0]

' \nEu sei que vou te amar\nPor toda a minha vida eu vou te amar\nEm cada despedida eu vou te amar\nDesesperadamente, eu sei que vou te amar\nE cada verso meu será\nPra te dizer que eu sei que vou te amar\nPor toda minha vida\nEu sei que vou chorar\nA cada ausência tua eu vou chorar\nMas cada volta tua há de apagar\nO que esta ausência tua me causou\nEu sei que vou sofrer a eterna desventura de viver\nA espera de viver ao lado teu\nPor toda a minha vida '

In [None]:
print(df_music["musica"].values[0])

 
Eu sei que vou te amar
Por toda a minha vida eu vou te amar
Em cada despedida eu vou te amar
Desesperadamente, eu sei que vou te amar
E cada verso meu será
Pra te dizer que eu sei que vou te amar
Por toda minha vida
Eu sei que vou chorar
A cada ausência tua eu vou chorar
Mas cada volta tua há de apagar
O que esta ausência tua me causou
Eu sei que vou sofrer a eterna desventura de viver
A espera de viver ao lado teu
Por toda a minha vida 


**Análise de Grupos Musicais**

In [None]:
Counter(df_music["genero"])

Counter({'BOSSA NOVA': 800, 'FUNK': 800, 'GOSPEL': 800, 'SERTANEJO': 800})

**Baixar Corpus Amostras**

In [None]:
nltk.download("stopwords")

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [None]:
list_stop_words = stopwords.words("portuguese")

In [None]:
print(list_stop_words)

['a', 'à', 'ao', 'aos', 'aquela', 'aquelas', 'aquele', 'aqueles', 'aquilo', 'as', 'às', 'até', 'com', 'como', 'da', 'das', 'de', 'dela', 'delas', 'dele', 'deles', 'depois', 'do', 'dos', 'e', 'é', 'ela', 'elas', 'ele', 'eles', 'em', 'entre', 'era', 'eram', 'éramos', 'essa', 'essas', 'esse', 'esses', 'esta', 'está', 'estamos', 'estão', 'estar', 'estas', 'estava', 'estavam', 'estávamos', 'este', 'esteja', 'estejam', 'estejamos', 'estes', 'esteve', 'estive', 'estivemos', 'estiver', 'estivera', 'estiveram', 'estivéramos', 'estiverem', 'estivermos', 'estivesse', 'estivessem', 'estivéssemos', 'estou', 'eu', 'foi', 'fomos', 'for', 'fora', 'foram', 'fôramos', 'forem', 'formos', 'fosse', 'fossem', 'fôssemos', 'fui', 'há', 'haja', 'hajam', 'hajamos', 'hão', 'havemos', 'haver', 'hei', 'houve', 'houvemos', 'houver', 'houvera', 'houverá', 'houveram', 'houvéramos', 'houverão', 'houverei', 'houverem', 'houveremos', 'houveria', 'houveriam', 'houveríamos', 'houvermos', 'houvesse', 'houvessem', 'houvésse

Etapa de Limpeza

In [None]:
df_music["musica"].replace('\n', ' ',regex=True, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_music["musica"].replace('\n', ' ',regex=True, inplace=True)


In [None]:
df_music["musica"].values[0]

'  Eu sei que vou te amar Por toda a minha vida eu vou te amar Em cada despedida eu vou te amar Desesperadamente, eu sei que vou te amar E cada verso meu será Pra te dizer que eu sei que vou te amar Por toda minha vida Eu sei que vou chorar A cada ausência tua eu vou chorar Mas cada volta tua há de apagar O que esta ausência tua me causou Eu sei que vou sofrer a eterna desventura de viver A espera de viver ao lado teu Por toda a minha vida '

Etapa de Transformação

In [None]:
df_music["musica"] = df_music["musica"].str.lower()

In [None]:
df_music["musica"].values[0]

'  eu sei que vou te amar por toda a minha vida eu vou te amar em cada despedida eu vou te amar desesperadamente, eu sei que vou te amar e cada verso meu será pra te dizer que eu sei que vou te amar por toda minha vida eu sei que vou chorar a cada ausência tua eu vou chorar mas cada volta tua há de apagar o que esta ausência tua me causou eu sei que vou sofrer a eterna desventura de viver a espera de viver ao lado teu por toda a minha vida '

In [None]:
#Garantir que as amostras não possuem NA
df_music = df_music.dropna(axis=0)

In [None]:
#Instância da Classe CountVectorizer, sem as stop-words
counter = CountVectorizer(stop_words=list_stop_words, ngram_range = (1, 1))

#amostra de texto
texto = df_music["musica"].values[0]

texto_transform = counter.fit_transform([texto])

In [None]:
texto_transform

<1x22 sparse matrix of type '<class 'numpy.int64'>'
	with 22 stored elements in Compressed Sparse Row format>

In [None]:
columns = counter.get_feature_names_out()

In [None]:
columns

array(['amar', 'apagar', 'ausência', 'cada', 'causou', 'chorar',
       'desesperadamente', 'despedida', 'desventura', 'dizer', 'espera',
       'eterna', 'lado', 'pra', 'sei', 'sofrer', 'toda', 'verso', 'vida',
       'viver', 'volta', 'vou'], dtype=object)

In [None]:
df_music_transform = pd.DataFrame(texto_transform.toarray(), columns=columns)

In [None]:
df_music_transform

Unnamed: 0,amar,apagar,ausência,cada,causou,chorar,desesperadamente,despedida,desventura,dizer,...,lado,pra,sei,sofrer,toda,verso,vida,viver,volta,vou
0,5,1,2,4,1,2,1,1,1,1,...,1,1,5,1,3,1,3,2,1,8


Separação Amostral - Treinamento e Teste

In [None]:
# Letras de Músicas - Caracteristicas
X = df_music["musica"]

#Alvo para inferencia
y = df_music["genero"]

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.30, random_state=42)

Pipeline para Criação do Modelo Inferencial

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.naive_bayes import MultinomialNB, GaussianNB
from sklearn.ensemble import RandomForestClassifier

In [None]:
model_classify = Pipeline(
    [
        ('vect', CountVectorizer(stop_words= list_stop_words)), # Primeira Etapa
        #('clf', MultinomialNB()), # Segunda Etapa - Classificador
        ('clf', RandomForestClassifier(n_estimators=50)), # Segunda Etapa - Classificador
    ]
)

In [None]:
#Treinar modelo
model_classify.fit(X_train.values, y_train.values)

Avaliação do Modelo

In [None]:
from sklearn import metrics

In [None]:
#Avaliação Geral
model_classify.score(X_test, y_test)

0.821875

In [None]:
#Avaliação Geral
model_classify.score(X_test, y_test)

0.821875

In [None]:
#Realizar a predição das letras
genero_preds = model_classify.predict(X_test)

In [None]:
print(metrics.classification_report(y_test, genero_preds))

              precision    recall  f1-score   support

  BOSSA NOVA       0.81      0.85      0.83       248
        FUNK       0.91      0.79      0.84       238
      GOSPEL       0.87      0.88      0.88       254
   SERTANEJO       0.70      0.75      0.73       220

    accuracy                           0.82       960
   macro avg       0.82      0.82      0.82       960
weighted avg       0.83      0.82      0.82       960



In [None]:
print(metrics.classification_report(y_test, genero_preds))

              precision    recall  f1-score   support

  BOSSA NOVA       0.81      0.85      0.83       248
        FUNK       0.91      0.79      0.84       238
      GOSPEL       0.87      0.88      0.88       254
   SERTANEJO       0.70      0.75      0.73       220

    accuracy                           0.82       960
   macro avg       0.82      0.82      0.82       960
weighted avg       0.83      0.82      0.82       960



Predição Individual

In [None]:
letra_individual = '''

Quando eu digo que deixei de te amar
É porque eu te amo
Quando eu digo que não quero mais você
É porque eu te quero
Eu tenho medo de te dar meu coração
E confessar que eu estou em tuas mãos
Mas não posso imaginar
O que vai ser de mim
Se eu te perder um dia

Eu me afasto e me defendo de você
Mas depois me entrego
Faço tipo, falo coisas que eu não sou
Mas depois eu nego
Mas a verdade
É que eu sou louco por você
E tenho medo de pensar em te perder
Eu preciso aceitar que não dá mais
Pra separar as nossas vidas

E nessa loucura de dizer que não te quero
Vou negando as aparências
Disfarçando as evidências
Mas pra que viver fingindo
Se eu não posso enganar meu coração?
Eu sei que te amo!

Chega de mentiras
De negar o meu desejo
Eu te quero mais que tudo
Eu preciso do seu beijo
Eu entrego a minha vida
Pra você fazer o que quiser de mim
Só quero ouvir você dizer que sim!

Diz que é verdade, que tem saudade
Que ainda você pensa muito em mim
Diz que é verdade, que tem saudade
Que ainda você quer viver pra mim

'''

In [None]:
model_classify.predict([letra_individual])

array(['SERTANEJO'], dtype=object)

Salvando a IA em arquivo binário - Biblioteca

In [None]:
!pip install joblib



In [None]:
import joblib

In [None]:
model_file = 'music_geral.robson'
joblib.dump(model_classify,model_file)

['music_geral.robson']

Usar em Produção

In [None]:
model_ia = joblib.load(model_file)

In [None]:
model_ia.predict([letra_individual])

array(['SERTANEJO'], dtype=object)

# Avaliar nível de confiança do modelo

In [None]:
model_ia.classes_

array(['BOSSA NOVA', 'FUNK', 'GOSPEL', 'SERTANEJO'], dtype=object)

In [None]:
confianca = model_ia.predict_proba([letra_individual])

In [None]:
import numpy as np

In [None]:
[np.round(i) for i in confianca]

[array([0., 0., 0., 1.])]

In [None]:
[0., 0.2, 0., 0.8]

In [None]:
model_ia.classes_

# Instalar Lime - Modelo Explicável

In [None]:
!pip install lime

In [None]:
nome_das_classes = model_ia.classes_
nome_das_classes

In [None]:
from lime.lime_text import LimeTextExplainer

In [None]:
#instanciar o objeto do LimeText
explainer_ai = LimeTextExplainer(class_names=nome_das_classes)

# Explicabilidade Aplicada

In [None]:
letra_individual = '''

(DJ Glenner)
(DJ Glenner)

Gata (gata)
Chique e charmosa de Valentino
Joga pro maloqueiro que é rico
Só toma champanhe, cansou de whisky
Já é sexta, eu tô no pique

Fim de semana, transborda o copo dessa gata aí
Night é show com JK, nóis vai beber, se divertir
Na pista, eu visto ela dançando, e o foco dela é descer
Ai, ui, que maravilha, quer sentar para o 2T
Barbie quer encostar na party, tá com o bondão
De amiga linda querendo dar condição
Sabe que os moleque é drake, né bigode não
Puxa a ficha limpa, vê que nóis né ramelão

Mais um amanhã, eu tô em outra cidade
Com duas putinha que eu achava que era fã
Com duas lindinha que senta até de manhã
Ahn-ahn-ahn
De manhã eu tô louco de MD aqui nesse quarto
Com duas putinha que eu achava que era fã
Com duas lindinha que senta até de manhã
Ahn-ahn-ahn-ahn-ahn-ahn

Gata (gata)
Chique e charmosa de Valentino
Joga pro maloqueiro que é rico
Só toma champanhe, cansou de whisky
Já é sexta, eu tô no pique

Fim de semana, transborda o copo dessa gata aí
Night é show com Jottak, nóis vai beber, se divertir
Na pista, eu visto ela dançando, e o foco dela é descer
Ai, ui, que maravilha, quer sentar para o 2T
Barbie quer encostar na party, tá com o bondão
De amiga linda querendo dar condição
Sabe que os moleque é drake, né bigode não
Puxa a ficha limpa, vê que nóis né ramelão

Mais um amanhã, eu tô em outra cidade
Com duas putinha que eu achava que era fã
Com duas lindinha que senta até de manhã
Ahn-ahn-ahn
De manhã eu tô louco de MD aqui nesse quarto
Com duas putinha que eu achava que era fã
Com duas lindinha que senta até de manhã
Ahn-ahn-ahn-ahn-ahn-ahn

(DJ Glenner)
(DJ Glenner)

'''

In [None]:
letra_individual

In [None]:
exp = explainer_ai.explain_instance(letra_individual, model_ia.predict_proba, num_features=10, top_labels=1)

In [None]:
exp.show_in_notebook(text=True)