<a href="https://colab.research.google.com/github/Dennis-Farias/aulaLabBigDataEmAgricultura/blob/main/aula18_09_2024.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [55]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# Classificador
from sklearn.linear_model import SGDClassifier
# Seleção de dados de treino e teste
from sklearn.model_selection import train_test_split
# Exibir métricas
from sklearn.metrics import confusion_matrix
from sklearn import metrics
# Vetorizador do texto
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
base = pd.read_csv('musicas.csv')
base.head()

# Estatísticas de cada coluna
#base.describe()

# Verificando as ultimas n linhas
#base.tail(5)

# Uma amostra aleatória da base de dados
#base.sample()

In [None]:
# Configurando as variáveis
x = base['letra']
y = base['cantorId']
nomes = base['cantorNome'].unique()

#print(x)
#print(y)
#print(nomes)

# Convertendo todas as palavras para minusculas
palavras = x.str.lower().str.split()

In [None]:
# Criando um dicionário com todas as palavras da variável x (letras)
dicionario = set()
for i in palavras:
  dicionario.update(i)

minhasPalavras = dict(zip(dicionario, range(len(dicionario))))
print(len(minhasPalavras), 'palavras')
for i in range(0, 10):
  print(list(minhasPalavras.items())[i])

In [None]:
# Separando dados de treino e teste, 30% para teste
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.3, random_state=42, shuffle=True)

# Vetorizando - letras para números
txtvetorizador = TfidfVectorizer()

valorXtreino = txtvetorizador.fit_transform(x_treino)

In [None]:
# Treinando
modelo = SGDClassifier(loss='hinge', penalty='l2', alpha=1e-3, random_state=42, max_iter=5, tol=None)
modelo.fit(valorXtreino, y_treino)
# Vetorizando os dados de teste
vetorXteste = txtvetorizador.transform(x_teste)

In [None]:
# Previsão
previsao = modelo.predict(vetorXteste)
print(metrics.classification_report(y_teste.values, previsao, target_names=nomes))
print(nomes, modelo.classes_)

In [None]:
# Métricas
confusion_matrix = confusion_matrix(y_teste.values, previsao)
print(confusion_matrix)

In [None]:
plt.matshow(confusion_matrix, cmap='RdBu_r')
plt.title('Matriz de confusão')
plt.colorbar()
plt.ylabel('Classificações corretas')
plt.xlabel('Classificações')

In [None]:
print(nomes)
pd.crosstab(y_teste, previsao, rownames=['Real'], colnames=['Previsto'], margins=True)

In [None]:
# Testando o modelo com novas músicas
novosTrechos = [
    "we used to say we live and let live",
    "Proyecto de vida en comúnlLo sé todo el abismo que ves",
    "Inch worm, inch worm. Measuring the marigolds"
]
# Vetorizando
novoVetor = txtvetorizador.transform(novosTrechos)
previsao = modelo.predict(novoVetor)
print('Previsões ')
for trecho, artista in zip(novosTrechos, previsao):
  print(f'Trecho : {trecho}')
  print(f'Artista previsto : {nomes[artista]}')