In [1]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.feature_extraction.text import CountVectorizer
plt.style.use('seaborn')
from wordcloud import WordCloud

In [2]:
"""
Lexicon source is (C) 2016 National Research Council Canada (NRC) 
and library is for research purposes only.  
Source: http://sentiment.nrc.ca/lexicons-for-research/
"""
lexicon = pd.read_csv('./data/pt-nrc-lexicon.csv', sep=';', encoding='utf-8')

In [15]:
df = pd.read_csv('./data/clean_lyrics.csv')
df.head()

Unnamed: 0,id,title,artist,composer,album,year,lyric,decade,clean_lyric,unique_words,words
0,2360,João Teimoso,Marília Batista,Noel Rosa / Marilia Batista.,Poeta da Vila,1953,Tenho mais o que fazer Não discuto com teimoso...,50,discuto teimoso perder precioso viver joão tei...,"{'precioso', 'viver', 'boas', 'coroas', 'nome'...","['discuto', 'teimoso', 'perder', 'precioso', '..."
1,2361,Morena Sereia,Marília Batista,José Maria De Abreu 1936 / Noel Rosa.,Poeta da Vila,1953,Morena sereia Que à beira-mar não passeia Que ...,50,morena sereia beiramar passeia senta praia dei...,"{'tufão', 'lindos', 'esqueci', 'nome', 'morena...","['morena', 'sereia', 'beiramar', 'passeia', 's..."
2,2362,"Parabéns, Guanabara",Jackson do Pandeiro,,Jackson do Pandeiro - 1955,1955,"Rio, querida Guanabara Eu sou gente também Ace...",50,rio querida guanabara gente aceito parabéns pa...,"{'adoram', 'guanabara', 'vim', 'noel', 'aceito...","['rio', 'querida', 'guanabara', 'gente', 'acei..."
3,2363,O Bom Xaxador,Jackson do Pandeiro,,Jackson do Pandeiro - 1955,1955,Depois do baião foi que veio o forró Depois do...,50,baião veio forró forró veio rojão pisada chão ...,"{'rojão', 'veio', 'xaxado', 'vim', 'chão', 'fo...","['baião', 'veio', 'forró', 'forró', 'veio', 'r..."
4,2364,Cheguei Agora,Jackson do Pandeiro,,Jackson do Pandeiro - 1955,1955,Beira mar beira do rio Ê ê beira mar Cheguei a...,50,beira mar beira rio ê ê beira mar cheguei beir...,"{'candomblé', 'bahia', 'ê', 'café', 'coco', 'c...","['beira', 'mar', 'beira', 'rio', 'ê', 'ê', 'be..."


In [16]:
df = df.__deepcopy__()

In [17]:
df.drop(columns=['id', 'composer', 'artist', 'album'], inplace=True)
df.head()

Unnamed: 0,title,year,lyric,decade,clean_lyric,unique_words,words
0,João Teimoso,1953,Tenho mais o que fazer Não discuto com teimoso...,50,discuto teimoso perder precioso viver joão tei...,"{'precioso', 'viver', 'boas', 'coroas', 'nome'...","['discuto', 'teimoso', 'perder', 'precioso', '..."
1,Morena Sereia,1953,Morena sereia Que à beira-mar não passeia Que ...,50,morena sereia beiramar passeia senta praia dei...,"{'tufão', 'lindos', 'esqueci', 'nome', 'morena...","['morena', 'sereia', 'beiramar', 'passeia', 's..."
2,"Parabéns, Guanabara",1955,"Rio, querida Guanabara Eu sou gente também Ace...",50,rio querida guanabara gente aceito parabéns pa...,"{'adoram', 'guanabara', 'vim', 'noel', 'aceito...","['rio', 'querida', 'guanabara', 'gente', 'acei..."
3,O Bom Xaxador,1955,Depois do baião foi que veio o forró Depois do...,50,baião veio forró forró veio rojão pisada chão ...,"{'rojão', 'veio', 'xaxado', 'vim', 'chão', 'fo...","['baião', 'veio', 'forró', 'forró', 'veio', 'r..."
4,Cheguei Agora,1955,Beira mar beira do rio Ê ê beira mar Cheguei a...,50,beira mar beira rio ê ê beira mar cheguei beir...,"{'candomblé', 'bahia', 'ê', 'café', 'coco', 'c...","['beira', 'mar', 'beira', 'rio', 'ê', 'ê', 'be..."


### Núvem de palavras (BOW) dos termos mais frequentes durante as décadas

In [18]:
cv = CountVectorizer()
lyrics_cv = cv.fit_transform(df['unique_words'].iloc[:])

df_cv = pd.DataFrame(lyrics_cv.toarray(), columns=cv.get_feature_names_out())

In [19]:
df_cv['decade'] = df['decade']

In [20]:
vect_words = df_cv.groupby('decade').sum().T

In [21]:
vect_words = vect_words.reset_index(level=0)
vect_words = vect_words.rename_axis(columns='')

In [22]:
vect_words

Unnamed: 0,index,0,10,20,50,60,70,80,90
0,1quero,0,0,0,0,0,0,0,1
1,1x,1,0,0,0,0,0,0,0
2,1º,0,0,0,0,0,0,1,0
3,1ºde,1,0,0,0,0,0,0,0
4,24hrs,1,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...
29696,úmido,0,0,0,0,0,0,0,1
29697,única,5,3,0,0,1,3,0,6
29698,único,5,5,0,0,1,2,2,2
29699,útero,0,0,0,0,0,1,0,0


In [21]:
def plot_wordcloud(df,row,col):
     wc = WordCloud(background_color="white",colormap="Dark2",
                     max_font_size=100,random_state=15)
     fig = plt.figure(figsize=(20,10))
     
     for index, value in enumerate(df.columns[1:]):
       top_dict = dict(zip(df['words'].tolist(),df[value].tolist()))
       wc.generate_from_frequencies(top_dict)
       plt.subplot(row,col,index+1)
       plt.imshow(wc,interpolation="bilinear")
       plt.axis("off")
       plt.title(f"{value}",fontsize=15)
plt.subplots_adjust(wspace=0.1, hspace=0.1)
plt.show()

<Figure size 576x396 with 0 Axes>

In [22]:
df['decade'].unique()

array([50, 60, 70, 80, 90,  0, 10, 20])