## Classificador Bayesiano - AI Component - Classification Lyrics

### Importar Bibliotecas

In [None]:
import pandas as pd
import numpy as np
from nltk.corpus import stopwords
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.naive_bayes import BernoulliNB, MultinomialNB, CategoricalNB
from sklearn.feature_extraction.text import CountVectorizer
from sklearn import metrics
import joblib

### Referencia do CountVectorizer - Bag of Words

In [None]:
letras = ['''
Eu sei que vou te amar
Por toda a minha vida eu vou te amar
Em cada despedida eu vou te amar
Desesperadamente, eu sei que vou te amar
E cada verso meu será
Pra te dizer que eu sei que vou te amar
Por toda minha vida
Eu sei que vou chorar
A cada ausência tua eu vou chorar
Mas cada volta tua há de apagar
O que esta ausência tua me causou
Eu sei que vou sofrer a eterna desventura de viver
A espera de viver ao lado teu
Por toda a minha vida
''']

vect = CountVectorizer()
X = vect.fit_transform(letras)

df = pd.DataFrame(X.toarray(), columns=vect.get_feature_names_out())

In [None]:
df

### Leitura do DataSet

In [None]:
df_lyrics = pd.read_excel("dataset_genero_musical.xlsx")

In [None]:
df_lyrics.head(5)

In [None]:
df_lyrics.dropna(inplace=True)

In [None]:
print(df_lyrics["musica"].values[0])

### Limpeza de Dados

In [None]:
import nltk
nltk.download('stopwords')

In [None]:
list_stops_words = stopwords.words("portuguese")
list_stops_words

In [None]:
# str.replace(r'[^\w\s]', '', regex=True):
#  remove tudo que não é caractere de palavra (\w = letras, dígitos, _, com suporte Unicode)
#nem espaço (\s). Na prática: tira pontuação/símbolos.

#str.replace('\n', ' ', regex=True): troca quebras de linha por espaço para não “grudar” palavras.

#str.lower(): converte tudo para minúsculas.

df_lyrics['musica'] = (
    df_lyrics['musica']
      .str.replace(r'[^\w\s]', '', regex=True)
      .str.replace('\n', ' ', regex=True)
      .str.lower()
)

In [None]:
print(df_lyrics["musica"].values[0])

### Separação em Treinamento e Teste - Hold-Out

In [None]:
X_train, X_test, y_train, y_test = train_test_split(df_lyrics["musica"], df_lyrics["genero"],
                                                    test_size=0.30, #Usando 30% de amostras pra teste
                                                    random_state=42) # Semente aleatória nas amostras

### Pipeline Model

In [None]:
classify = Pipeline(
                [('vect', CountVectorizer(stop_words= list_stops_words, ngram_range=(1, 2))), #1 - Extração de Características Numéricas
                 ('clf', MultinomialNB()), #2- Classificador
                 ])

#### Ajuste do Modelo

In [None]:
classify.fit(X_train, y_train)

### Avaliação do Modelo

Leitura sobre Métricas de Avaliação

https://medium.com/@mateuspdua/machine-learning-m%C3%A9tricas-de-avalia%C3%A7%C3%A3o-acur%C3%A1cia-precis%C3%A3o-e-recall-d44c72307959

In [None]:
preds = classify.predict(X_test)

print(metrics.classification_report(y_test, preds))

### Predição do Modelo

In [None]:
letra  = '''

Eu sei que vou te amar
Por toda a minha vida eu vou te amar
Em cada despedida eu vou te amar
Desesperadamente, eu sei que vou te amar
E cada verso meu será
Pra te dizer que eu sei que vou te amar
Por toda minha vida
Eu sei que vou chorar
A cada ausência tua eu vou chorar
Mas cada volta tua há de apagar
O que esta ausência tua me causou
Eu sei que vou sofrer a eterna desventura de viver
A espera de viver ao lado teu
Por toda a minha vida

'''

In [None]:
classify.predict([letra])

In [None]:
classify.classes_

In [None]:
classify.predict_proba([letra])

### Exportar Modelo - Componente

In [None]:
file_name = 'ai_component_cla_lyrics.unisagrado'
joblib.dump(classify, file_name)

### Leitura do Modelo - Componente

In [None]:
component_name = 'ai_component_cla_lyrics.unisagrado'

component_ai = joblib.load(component_name)

In [None]:
component_ai.predict([letra])

In [None]:
component_ai.classes_

In [None]:
component_ai.predict_proba([letra])