In [76]:
import pandas as pd
import numpy as np
from collections import Counter
import re

# **BEATLES**

In [77]:
file_path = "dados/beatles lyrics.txt" 
with open(file_path, "r") as f:
    lines = f.readlines()

songs = []
song = {"title": "", "lyrics": ""}
for line in lines:
    line = line.strip()
    if line == "-----":
        if song["title"] and song["lyrics"]:
            songs.append(song)
        song = {"title": "", "lyrics": ""}
    elif not song["title"]:
        song["title"] = line
    else:
        song["lyrics"] += line + " "

df = pd.DataFrame(songs)
df



Unnamed: 0,title,lyrics
0,A day in the life,I read the news today oh boy About a lucky man...
1,A hard day's night,"""It's been a hard day's night, and I been work..."
2,A little help from my friends,"A little help from my friends ""What would you ..."
3,A taste of honey,A taste of honey... tasting much sweeter than ...
4,Across the universe,"""Words are flowing out like endless rain into ..."
...,...,...
206,You never give me your money You never give me...,You only give me your funny paper and in the m...
207,You really got a hold on me,I don't like you But I love you See that I'm a...
208,You won't see me,When I call you up Your line's engaged I have ...
209,You're going to lose that girl,"""You're going to lose that girl,"" You're going..."


In [78]:
stop_words = set(['i', 'and', 'to', 'and', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', 'yours', 'yourself', 
              'he', 'him', 'himself', 'she', 'her', 'herself', 'it', 'its', 'itself', 'they', 'them', 'themselves', 'we',
              'what', 'which', 'this', 'that', 'is', 'im', 'be', 'was', 'being', 'been', 'have', 'being', 'has', 'had',
              'those', 'these', 'whom', 'who','am', 'what' , 'having', 'a', 'doing', 'but', 'if', 'for', 'with', 'between',
              'until', 'by', 'of','will', 'ill', 'from', 'up', 'down', 'in', 'out', 'on', 'just', 'off', 'under', 'the', 'so', 'were','do' ])



def clean_text(text):
    text = re.sub(r'[^a-zA-Z\s]', '', text) # Remove caracteres especiais
    text = text.lower()
    words = text.split()
    words = [word for word in words if word not in stop_words]
    cleaned_text = ' '.join(words)
    return cleaned_text

# Função para remover stop words
def remove_stop_words(text):
    words = text.split()
    filtered_words = [word for word in words if word not in stop_words]
    return " ".join(filtered_words)

def word_frequency(text):
    cleaned_text = clean_text(text)
    words = cleaned_text.split()
    return Counter(words)


# Limpeza de letras de músicas e contagem de palavras
df['clean_lyrics'] = df['lyrics'].apply(clean_text).apply(remove_stop_words)
df['word_freq'] = df['clean_lyrics'].apply(lambda x: Counter(x.split()))


# Frequência global de palavras
global_word_freq = Counter()
for freq in df['word_freq']:
    global_word_freq += freq

all_songs_clean = " ".join(df['clean_lyrics'])
words_list_clean = all_songs_clean.split()
total_words_beatles_clean = len(words_list_clean)
print(f"Número total de palavras limpas nas músicas dos Beatles: {total_words_beatles_clean}")

# Palavras mais comuns
print(global_word_freq.most_common(15))



Número total de palavras limpas nas músicas dos Beatles: 19532
[('love', 384), ('know', 333), ('all', 263), ('dont', 257), ('your', 247), ('when', 189), ('can', 186), ('oh', 163), ('now', 155), ('want', 155), ('got', 154), ('see', 149), ('girl', 149), ('say', 145), ('baby', 145)]


In [79]:
# Calcular a probabilidade para as palavras limpas
word_count_clean = Counter(words_list_clean)
word_probability_clean = {word: count / total_words_beatles_clean for word, count in word_count_clean.items()}

# Ordenar as palavras pela probabilidade
sorted_word_probability_clean = {k: v for k, v in sorted(word_probability_clean.items(), key=lambda item: item[1], reverse=True)}

# Exibir as palavras com maior probabilidade de aparecer
for i, (word, prob) in enumerate(list(sorted_word_probability_clean.items())[:10]):  
    print(f"{i+1}. A probabilidade da palavra '{word}' aparecer em uma música dos Beatles é {prob:.6f}")


1. A probabilidade da palavra 'love' aparecer em uma música dos Beatles é 0.019660
2. A probabilidade da palavra 'know' aparecer em uma música dos Beatles é 0.017049
3. A probabilidade da palavra 'all' aparecer em uma música dos Beatles é 0.013465
4. A probabilidade da palavra 'dont' aparecer em uma música dos Beatles é 0.013158
5. A probabilidade da palavra 'your' aparecer em uma música dos Beatles é 0.012646
6. A probabilidade da palavra 'when' aparecer em uma música dos Beatles é 0.009676
7. A probabilidade da palavra 'can' aparecer em uma música dos Beatles é 0.009523
8. A probabilidade da palavra 'oh' aparecer em uma música dos Beatles é 0.008345
9. A probabilidade da palavra 'now' aparecer em uma música dos Beatles é 0.007936
10. A probabilidade da palavra 'want' aparecer em uma música dos Beatles é 0.007936


In [80]:
print(sorted_word_probability_clean)

print(f"Número total de palavras únicas: {len(sorted_word_probability_clean)}")


Número total de palavras únicas: 2519


# **QUEEN**

In [81]:

file_path = "dados/queen completo (1).txt" 
with open(file_path, "r") as f:
    lines = f.readlines()

songs = []
song = {"title": "", "lyrics": ""}
for line in lines:
    line = line.strip()
    if line == "-----":
        if song["title"] and song["lyrics"]:
            songs.append(song)
        song = {"title": "", "lyrics": ""}
    elif not song["title"]:
        song["title"] = line
    else:
        song["lyrics"] += line + " "

df1 = pd.DataFrame(songs)
df1

Unnamed: 0,title,lyrics
0,A human body,Oh They were talking in whispers In bear skins...
1,A kind of'a kind of magic',Magic (magic) This rage that lasts a thousand...
2,A kind of magic,"It's a kind of magic, It's a kind of magic A k..."
3,A winter's tale,"It's Winter-fall, Red skies are gleaming, oh S..."
4,Action this day,This street honey is a mean street Living in t...
...,...,...
195,The Show Must Go On,Empty spaces - what are we living for Abandone...
196,You And I,Music is playing in the darkness And a lantern...
197,You Are The Champions,I've paid my dues Time after time I've done my...
198,You Don't Fool Me,"You don't fool me You don't fool me... Da, da ..."


In [82]:
df1['clean_lyrics'] = df1['lyrics'].apply(clean_text)
df1['word_freq'] = df1['clean_lyrics'].apply(word_frequency)

# Frequência global de palavras
global_word_freq_queen = Counter()
for freq in df1['word_freq']:
    global_word_freq_queen += freq

all_songs_clean_queen = " ".join(df1['clean_lyrics'])
words_list_clean_queen = all_songs_clean_queen.split()
total_words_queen_clean_queen = len(words_list_clean_queen)

print(global_word_freq_queen.most_common(15))

[('all', 527), ('your', 481), ('love', 456), ('dont', 365), ('yeah', 357), ('one', 289), ('oh', 272), ('no', 271), ('get', 239), ('time', 222), ('back', 213), ('youre', 202), ('now', 195), ('can', 191), ('know', 189)]


In [83]:
word_count_clean_queen = Counter(words_list_clean_queen)
word_probability_clean_queen = {word: count / total_words_queen_clean_queen for word, count in word_count_clean_queen.items()}

# Ordenar as palavras pela probabilidade
sorted_word_probability_clean_queen = {k: v for k, v in sorted(word_probability_clean_queen.items(), key=lambda item: item[1], reverse=True)}

# Exibir as palavras com maior probabilidade de aparecer
for i, (word, prob) in enumerate(list(sorted_word_probability_clean_queen.items())[:10]):  
    print(f"{i+1}. A probabilidade da palavra '{word}' aparecer em uma música dos Beatles é {prob:.6f}")

1. A probabilidade da palavra 'all' aparecer em uma música dos Beatles é 0.019159
2. A probabilidade da palavra 'your' aparecer em uma música dos Beatles é 0.017487
3. A probabilidade da palavra 'love' aparecer em uma música dos Beatles é 0.016578
4. A probabilidade da palavra 'dont' aparecer em uma música dos Beatles é 0.013270
5. A probabilidade da palavra 'yeah' aparecer em uma música dos Beatles é 0.012979
6. A probabilidade da palavra 'one' aparecer em uma música dos Beatles é 0.010507
7. A probabilidade da palavra 'oh' aparecer em uma música dos Beatles é 0.009889
8. A probabilidade da palavra 'no' aparecer em uma música dos Beatles é 0.009852
9. A probabilidade da palavra 'get' aparecer em uma música dos Beatles é 0.008689
10. A probabilidade da palavra 'time' aparecer em uma música dos Beatles é 0.008071


In [84]:
print(f"Número total de palavras únicas: {len(sorted_word_probability_clean_queen)}")


Número total de palavras únicas: 3425


# **JUNTANDO**

In [85]:
df['band'] = 'Beatles'
df1['band'] = 'Queen'

# Concat both DataFrames
all_songs_df = pd.concat([df, df1]).reset_index(drop=True)
all_songs_df

Unnamed: 0,title,lyrics,clean_lyrics,word_freq,band
0,A day in the life,I read the news today oh boy About a lucky man...,read news today oh boy about lucky man made gr...,"{'read': 3, 'news': 3, 'today': 3, 'oh': 3, 'b...",Beatles
1,A hard day's night,"""It's been a hard day's night, and I been work...",hard days night working like dog hard days nig...,"{'hard': 4, 'days': 4, 'night': 4, 'working': ...",Beatles
2,A little help from my friends,"A little help from my friends ""What would you ...",little help friends would think sang tune woul...,"{'little': 9, 'help': 9, 'friends': 9, 'would'...",Beatles
3,A taste of honey,A taste of honey... tasting much sweeter than ...,taste honey tasting much sweeter than wine dre...,"{'taste': 3, 'honey': 6, 'tasting': 3, 'much':...",Beatles
4,Across the universe,"""Words are flowing out like endless rain into ...",words are flowing like endless rain into paper...,"{'words': 1, 'are': 3, 'flowing': 1, 'like': 4...",Beatles
...,...,...,...,...,...
406,The Show Must Go On,Empty spaces - what are we living for Abandone...,empty spaces are living abandoned places guess...,"{'empty': 1, 'spaces': 1, 'are': 3, 'living': ...",Queen
407,You And I,Music is playing in the darkness And a lantern...,music playing darkness lantern goes swinging s...,"{'music': 2, 'playing': 1, 'darkness': 3, 'lan...",Queen
408,You Are The Champions,I've paid my dues Time after time I've done my...,ive paid dues time after time ive done sentenc...,"{'ive': 5, 'paid': 1, 'dues': 1, 'time': 4, 'a...",Queen
409,You Don't Fool Me,"You don't fool me You don't fool me... Da, da ...",dont fool dont fool da da da da dah da da da d...,"{'dont': 22, 'fool': 19, 'da': 12, 'dah': 4, '...",Queen


In [86]:
train_df = all_songs_df.sample(frac=0.8, random_state=42) # 80% dos dados para treino
test_df = all_songs_df.drop(train_df.index) # 20% dos dados para teste
#80% das músicas para treinamento e, em seguida, usa os 20% restantes para teste. 

In [91]:
""" def word_frequency_by_band(df, band):
    band_songs = df[df['band'] == band]
    counter = Counter()
    for clean_lyrics in band_songs['clean_lyrics']:  # Aqui foi mudado para clean_lyrics
        counter += Counter(clean_lyrics.split())
    return counter

beatles_word_freq = word_frequency_by_band(train_df, 'Beatles') # Frequência de palavras dos Beatles
queen_word_freq = word_frequency_by_band(train_df, 'Queen') # Frequência de palavras do Queen
total_words_beatles = sum(beatles_word_freq.values()) 
total_words_queen = sum(queen_word_freq.values()) """

def word_frequency_by_band(df, band):
    band_songs = df[df['band'] == band] #Esta linha filtra o DataFrame df para conter apenas as músicas da banda especificada pela variável band. 
    unique_word_counter = Counter() # usado para contar a frequência de cada palavra única.
    
    for clean_lyrics in band_songs['clean_lyrics']:# percorre todas as letras de música para a banda especificada.
        unique_words = set(clean_lyrics.split()) #cada letra de música é dividida em palavras e convertida em um conjunto (set). Isso elimina as duplicatas, pois cada palavra única será contada apenas uma vez para cada música.
        unique_word_counter += Counter(unique_words) # O contador é atualizado com as palavras únicas dessa música. O objeto Counter toma um conjunto de palavras únicas e atualiza a contagem global para cada uma delas.
        
    return unique_word_counter#agora contém a frequência de cada palavra única para todas as músicas da banda especificada, é retornado.



[('know', 82), ('all', 75), ('love', 74), ('your', 72), ('when', 61), ('see', 60), ('dont', 60), ('can', 52), ('like', 51), ('now', 49), ('time', 46), ('say', 45), ('want', 44), ('one', 43), ('oh', 41)]


In [100]:
beatles_word_freq = word_frequency_by_band(train_df, 'Beatles') #calcular a frequência de cada palavra única nas músicas dos Beatles
queen_word_freq = word_frequency_by_band(train_df, 'Queen')

total_songs_beatles = len(train_df[train_df['band'] == 'Beatles'])#contando o número total de músicas dos Beatles no conjunto de treinamento.
total_songs_queen = len(train_df[train_df['band'] == 'Queen'])

p_word_given_beatles = {word: freq / total_songs_beatles for word, freq in beatles_word_freq.items()} #probabilidade condicional de uma palavra ocorrer, dado que a música é dos Beatles. 
#divide a frequência da palavra pelo número total de músicas dos Beatles. Isso resulta em (palavra∣Beatles)
p_word_given_queen = {word: freq / total_songs_queen for word, freq in queen_word_freq.items()} #P(palavra∣Queen).

global_word_freq = beatles_word_freq + queen_word_freq #Aqui você está somando as frequências das palavras para ambas as bandas. Isso é feito para encontrar a frequência global de cada palavra no conjunto de dados completo.
total_songs_global = total_songs_beatles + total_songs_queen #Este é o número total de músicas consideradas, tanto dos Beatles quanto da Queen.
p_word_global = {word: freq / total_songs_global for word, freq in global_word_freq.items()} #calculando a probabilidade global de cada palavra aparecer em qualquer música das duas bandas, P(palavra).


In [89]:
""" p_word_given_beatles = {word: freq / total_words_beatles for word, freq in beatles_word_freq.items()} # Probabilidade de uma palavra aparecer em uma música dos Beatles
p_word_not_given_beatles = {word: 1 - prob for word, prob in p_word_given_beatles.items()} # Probabilidade de uma palavra não aparecer em uma música dos Beatles

p_word_given_queen = {word: freq / total_words_queen for word, freq in queen_word_freq.items()}
p_word_not_given_queen = {word: 1 - prob for word, prob in p_word_given_queen.items()}

global_word_freq = beatles_word_freq + queen_word_freq # Frequência global de palavras
total_words_global = total_words_beatles + total_words_queen # Número total de palavras
p_word_global = {word: freq / total_words_global for word, freq in global_word_freq.items()} # Probabilidade de uma palavra aparecer em uma música de qualquer banda
 """

' p_word_given_beatles = {word: freq / total_words_beatles for word, freq in beatles_word_freq.items()} # Probabilidade de uma palavra aparecer em uma música dos Beatles\np_word_not_given_beatles = {word: 1 - prob for word, prob in p_word_given_beatles.items()} # Probabilidade de uma palavra não aparecer em uma música dos Beatles\n\np_word_given_queen = {word: freq / total_words_queen for word, freq in queen_word_freq.items()}\np_word_not_given_queen = {word: 1 - prob for word, prob in p_word_given_queen.items()}\n\nglobal_word_freq = beatles_word_freq + queen_word_freq # Frequência global de palavras\ntotal_words_global = total_words_beatles + total_words_queen # Número total de palavras\np_word_global = {word: freq / total_words_global for word, freq in global_word_freq.items()} # Probabilidade de uma palavra aparecer em uma música de qualquer banda\n '

In [90]:

def classify_song(song_lyrics, p_word_given_beatles, p_word_given_queen, p_word_global): 
    #song_lyrics: Texto da música que você deseja classificar.
    #p_word: Dicionários que contêm as probabilidades de ocorrência de cada palavra nas músicas dos Beatles e da Queen, respectivamente.
    #p_word_global: Dicionário que contém as probabilidades de ocorrência de cada palavra em todas as músicas (tanto dos Beatles quanto da Queen).
    word_freq = Counter(song_lyrics.split()) # divisão das letras da música em palavras e contamos a frequência de cada uma.
    p_beatles_given_words = 1.0 #nicialização das probabilidades de a música ser dos Beatles ou da Queen com 1.0.
    p_queen_given_words = 1.0
    unknown_word_prob = 1e-5 # uma pequena probabilidade para palavras que não foram vistas durante o treinamento.

    for word, freq in word_freq.items():
        #multiplicamos as probabilidades iniciais pelas probabilidades de cada palavra aparecer em músicas dos Beatles ou da Queen, elevadas à frequência com que essas palavras aparecem na música que estamos classificando.
        p_beatles_given_words *= (p_word_given_beatles.get(word, unknown_word_prob) ** freq)
        p_queen_given_words *= (p_word_given_queen.get(word, unknown_word_prob) ** freq)

    p_beatles_given_words /= np.prod([p_word_global.get(word, unknown_word_prob) ** freq for word, freq in word_freq.items()]) #Dividimos as probabilidades acumuladas pela probabilidade de cada palavra aparecer em qualquer música (Beatles ou Queen). Isso serve para normalizar e evitar números muito grandes ou muito pequenos.
    p_queen_given_words /= np.prod([p_word_global.get(word, unknown_word_prob) ** freq for word, freq in word_freq.items()])
    
    if p_beatles_given_words > p_queen_given_words:
        return 'Beatles'
    else:
        return 'Queen'
        #Comparamos as probabilidades e retornamos a banda que tem maior probabilidade de ter criado a música.

# Teste o classificador
correct_predictions = 0 # Contador para manter o controle do número de previsões corretas.

for idx, row in test_df.iterrows(): #Loop for para classificar cada música no conjunto de teste e verificar se a previsão está correta.
    predicted_band = classify_song(row['clean_lyrics'], p_word_given_beatles, p_word_given_queen, p_word_global)
    
    if predicted_band == row['band']:
        correct_predictions += 1

accuracy = correct_predictions / len(test_df) # Calculo da acurácia como a razão entre as previsões corretas e o total de músicas no conjunto de teste.
print(f'Acurácia do classificador: {accuracy * 100:.2f}%')

Acurácia do classificador: 64.63%


  p_beatles_given_words /= np.prod([p_word_global.get(word, unknown_word_prob) ** freq for word, freq in word_freq.items()]) #Dividimos as probabilidades acumuladas pela probabilidade de cada palavra aparecer em qualquer música (Beatles ou Queen). Isso serve para normalizar e evitar números muito grandes ou muito pequenos.
  p_queen_given_words /= np.prod([p_word_global.get(word, unknown_word_prob) ** freq for word, freq in word_freq.items()])
