In [2]:
import pandas as pd

df = pd.read_csv("letras_sertanejo.csv")

In [3]:
df

Unnamed: 0,Artistas,Nome da Musica,Letra
0,Simone Mendes,Dois Tristes,"Oh, oh\r\nOntem saímos de novo\r\nE você embur..."
1,"Simone Mendes, Manu Bahtidao",Daqui pra Frente,"Joga, joga a mão em cima\r\nJoga a mão e grita..."
2,"Gusttavo Lima, Traia Veia",Equivocada,Eu\r\nDentro do meu carro\r\nIndo pro trabalho...
3,Gusttavo Lima. Bruno e Marrone,Relacao Errada,E eu já te pedi desculpa sem errar\r\nMe anule...
4,"Manu Bahtidao, Guilherme e Benuto",Torre Eiffel,Eu rezo pra você achar\r\nO amor da sua vida\r...
5,Ze Neto e Cristiano,Deu moral,Sempre tem um\r\nQue conhece outro\r\nQue conh...
6,Diego e Victor Hugo,Bem mais que eu,Sei que você não 'tá entendendo nada\r\nTanta ...
7,"Rionegro e Solimoes, Maiara e Maraisa",Isso e coisa de quem quer voltar,"Um ""oi saudade"", às três da tarde\r\nNão é nor..."
8,"Thiago e Samuel, Simone Mendes",Amor diferente,"Um beijo foda, já beijei\r\nUma cama quente, j..."
9,"Jorge e Mateus, Lauana Prado",Havera sinais,Tá quase viu?\r\nOntem a noite eu beijei algué...


In [4]:
import re
from collections import Counter

# Funcao para processar as letras
def preprocess_lyrics(lyrics):
    # Normalize line breaks and whitespace
    lyrics = re.sub(r'\s+', ' ', lyrics).strip()
    # Convert to lowercase
    lyrics = lyrics.lower()
    # Remove punctuation
    lyrics = re.sub(r'[^\w\s]', '', lyrics)
    return lyrics

# Aplicar a funcao para as letras
df['Letras processadas'] = df['Letra'].apply(preprocess_lyrics)

# Mostrando as letras processadas para vizualizacao
df[['Artistas', 'Nome da Musica', 'Letras processadas']].head()


Unnamed: 0,Artistas,Nome da Musica,Letras processadas
0,Simone Mendes,Dois Tristes,oh oh ontem saímos de novo e você emburrada co...
1,"Simone Mendes, Manu Bahtidao",Daqui pra Frente,joga joga a mão em cima joga a mão e grita hey...
2,"Gusttavo Lima, Traia Veia",Equivocada,eu dentro do meu carro indo pro trabalho dando...
3,Gusttavo Lima. Bruno e Marrone,Relacao Errada,e eu já te pedi desculpa sem errar me anulei à...
4,"Manu Bahtidao, Guilherme e Benuto",Torre Eiffel,eu rezo pra você achar o amor da sua vida algu...


In [5]:
# Combine all processed lyrics into a single text
all_lyrics = ' '.join(df['Letras processadas'])

# Count the occurrences of each word
word_counts = Counter(all_lyrics.split())

# Display the most common words
common_words = word_counts.most_common(200)
common_words

[('eu', 93),
 ('que', 89),
 ('e', 82),
 ('a', 61),
 ('de', 60),
 ('não', 50),
 ('te', 45),
 ('gente', 44),
 ('você', 42),
 ('é', 42),
 ('o', 37),
 ('só', 35),
 ('um', 29),
 ('se', 29),
 ('do', 28),
 ('quem', 28),
 ('pra', 27),
 ('isso', 26),
 ('com', 25),
 ('mas', 25),
 ('amor', 24),
 ('na', 23),
 ('quer', 22),
 ('cê', 22),
 ('tá', 20),
 ('mais', 20),
 ('briga', 20),
 ('mesmo', 20),
 ('voltar', 20),
 ('no', 19),
 ('coisa', 19),
 ('acaba', 17),
 ('por', 16),
 ('todo', 15),
 ('mundo', 14),
 ('tudo', 14),
 ('hey', 13),
 ('vem', 13),
 ('saudade', 13),
 ('me', 12),
 ('vai', 12),
 ('tipo', 11),
 ('assunto', 11),
 ('da', 11),
 ('sei', 11),
 ('minha', 11),
 ('alguém', 10),
 ('ela', 10),
 ('diferente', 10),
 ('morre', 10),
 ('oh', 9),
 ('quando', 9),
 ('dois', 9),
 ('fica', 9),
 ('já', 9),
 ('boca', 9),
 ('nada', 9),
 ('nem', 9),
 ('sua', 9),
 ('ou', 9),
 ('aqui', 9),
 ('faz', 9),
 ('meu', 8),
 ('conheço', 8),
 ('bebe', 8),
 ('ver', 8),
 ('ninguém', 8),
 ('bem', 8),
 ('chegou', 8),
 ('até', 8),

In [6]:
# Function to calculate lexical diversity
def lexical_diversity(text):
    words = text.split()
    return len(set(words)) / len(words)

# Calculate vocabulary size and lexical diversity for each song
df['Volume de Vocabulario'] = df['Letras processadas'].apply(lambda x: len(set(x.split())))
df['Diversidade Lexical'] = df['Letras processadas'].apply(lexical_diversity)

# Display the results
df[['Artistas', 'Nome da Musica', 'Volume de Vocabulario', 'Diversidade Lexical']].head()

Unnamed: 0,Artistas,Nome da Musica,Volume de Vocabulario,Diversidade Lexical
0,Simone Mendes,Dois Tristes,77,0.285185
1,"Simone Mendes, Manu Bahtidao",Daqui pra Frente,77,0.292776
2,"Gusttavo Lima, Traia Veia",Equivocada,61,0.281106
3,Gusttavo Lima. Bruno e Marrone,Relacao Errada,70,0.309735
4,"Manu Bahtidao, Guilherme e Benuto",Torre Eiffel,115,0.402098


In [7]:

def words_before_slash_r(text):
    linhas = text.strip().split('\r\n')
    ultimas_palavras = [linha.split()[-1] for linha in linhas if linha.split()]
    return ultimas_palavras

df['rhymes'] = df['Letra'].apply(words_before_slash_r)
df['rhymes']

0    [oh, novo, emburrada, fechada, lado, boa, Deus...
1    [cima, grita, hey, Ceará, ó, falou, amor, dema...
2    [Eu, carro, trabalho, áudio, madrugada, desboc...
3    [errar, perder, agradar, fazer, parte, fazer, ...
4    [achar, vida, queria, feliz, quis, certo, sorr...
5    [um, outro, alguém, eu, tinha, bebeu, aqui, mi...
6    [nada, casa, razão, coração, pouco, importante...
7    [tarde, esquecer, madruga, beber, causa, cara"...
8    [beijei, deitei, jeito, peito, tirei, ver, voc...
9    [viu?, alguém, caiu, caiu, viu?, arrepiei, ass...
Name: rhymes, dtype: object

In [16]:
df[['rhymes','Artistas']]

Unnamed: 0,rhymes,Artistas
0,"[oh, novo, emburrada, fechada, lado, boa, Deus...",Simone Mendes
1,"[cima, grita, hey, Ceará, ó, falou, amor, dema...","Simone Mendes, Manu Bahtidao"
2,"[Eu, carro, trabalho, áudio, madrugada, desboc...","Gusttavo Lima, Traia Veia"
3,"[errar, perder, agradar, fazer, parte, fazer, ...",Gusttavo Lima. Bruno e Marrone
4,"[achar, vida, queria, feliz, quis, certo, sorr...","Manu Bahtidao, Guilherme e Benuto"
5,"[um, outro, alguém, eu, tinha, bebeu, aqui, mi...",Ze Neto e Cristiano
6,"[nada, casa, razão, coração, pouco, importante...",Diego e Victor Hugo
7,"[tarde, esquecer, madruga, beber, causa, cara""...","Rionegro e Solimoes, Maiara e Maraisa"
8,"[beijei, deitei, jeito, peito, tirei, ver, voc...","Thiago e Samuel, Simone Mendes"
9,"[viu?, alguém, caiu, caiu, viu?, arrepiei, ass...","Jorge e Mateus, Lauana Prado"


0    [oh, novo, emburrada, fechada, lado, boa, Deus...
1    [cima, grita, hey, Ceará, ó, falou, amor, dema...
2    [Eu, carro, trabalho, áudio, madrugada, desboc...
3    [errar, perder, agradar, fazer, parte, fazer, ...
4    [achar, vida, queria, feliz, quis, certo, sorr...
5    [um, outro, alguém, eu, tinha, bebeu, aqui, mi...
6    [nada, casa, razão, coração, pouco, importante...
7    [tarde, esquecer, madruga, beber, causa, cara"...
8    [beijei, deitei, jeito, peito, tirei, ver, voc...
9    [viu?, alguém, caiu, caiu, viu?, arrepiei, ass...
Name: rhymes, dtype: object