In [1]:
import pandas as pd
import numpy as np
import os
import re
import nltk
from nltk.stem import RSLPStemmer

In [2]:
def orengo(song):
    st = RSLPStemmer()
    words = filter(lambda x: len(x)>0, song)
    word_list = list(map(lambda x: st.stem(x), words))
    return word_list

In [3]:
def remove_stopwords(doc):
    stopwords = nltk.corpus.stopwords.words('portuguese')
    new_doc = list(filter(lambda x: x not in stopwords, doc))
    return new_doc

In [4]:
df = pd.read_csv('.\data\data.csv')

In [5]:
df.head()

Unnamed: 0,artist,music_name,lyrics,translated
0,/marilia-mendonca/,/marilia-mendonca/ausencia.html,sei bem o que te faz bem eu sei mas no fundo e...,sei bem o que te faz bem eu sei mas no fundo e...
1,/marilia-mendonca/,/marilia-mendonca/todo-mundo-vai-sofrer.html,a garrafa precisa do copo o copo precisa da me...,a garrafa precisa do copo o copo preciso da me...
2,/marilia-mendonca/,/marilia-mendonca/bebi-liguei.html,acordei mais uma vez embriagado e o seu cheiro...,acordei mais uma vez embriagado e o seu cheiro...
3,/marilia-mendonca/,/marilia-mendonca/ciumeira.html,no começo eu entendia mas era só cama não tinh...,no começo eu entendia mas foi somente cama não...
4,/marilia-mendonca/,/marilia-mendonca/bem-pior-que-eu.html,mente que vai dar uma volta e vem me ver entre...,mente que vai dar uma volta e vem mim ver entr...


In [9]:
#creates new df where the column lyrics carries every song of a given artist
df1 = df.groupby('artist', sort=False).agg({'lyrics': lambda x: ' '.join(x), 'translated': lambda x: ' '.join(x)}).reset_index()

In [10]:
df1.head()

Unnamed: 0,artist,lyrics,translated
0,/marilia-mendonca/,sei bem o que te faz bem eu sei mas no fundo e...,sei bem o que te faz bem eu sei mas no fundo e...
1,/roberto-carlos/,eu tenho tanto pra lhe falar mas com palavras ...,eu tenho tanto pra o falar mas com palavras nã...
2,/gusttavo-lima/,ô há mais de duas horas ensaiando uma recaída ...,ô há mais de duas horas ensaiando uma recaída ...
3,/jorge-e-mateus/,ela queima o arroz quebra copo na pia tropeça ...,o a queimadura o arroz quebrar floco na pia tr...
4,/aline-barros/,mestre eu preciso de um milagre transforma min...,mestre eu preciso de um milagre transforma min...


In [11]:
#removes stopwords and creates new column
df1['no_stopwords'] = df1['lyrics'].apply(lambda x: remove_stopwords(x.split(' ')))

In [12]:
#applies stemmer and creates new column
df1['orengo'] = df1['lyrics'].apply(lambda x: orengo(x.split(' ')))

In [13]:
#total number of words
df1['words'] = df1['lyrics'].apply(lambda x: len(x.split(' ')))

In [14]:
#total number of words without considering stopwords
df1['words_ns'] = df1['no_stopwords'].apply(lambda x: len(x))

In [15]:
#removes stopwords from translated text and creates new column
df1['ns_pt'] = df1['translated'].apply(lambda x: remove_stopwords(x.split(' ')))

In [16]:
#vocabulary
df1['unique'] = df1['lyrics'].apply(lambda x: len(set(x.split(' '))))

In [17]:
#vocabulary after stemming
df1['orengo_unique'] = df1['orengo'].apply(lambda x: len(set(x)))

In [18]:
#vocabulary without considering stopwords
df1['ns_unique'] = df1['no_stopwords'].apply(lambda x: len(set(x)))

In [19]:
#vocabulary without considering stopwords after stemming
df1['ns_orengo_unique'] = df1['no_stopwords'].apply(lambda x: len(set(orengo(x))))

In [20]:
#vocabulary after translation
df1['unique_pt'] = df1['translated'].apply(lambda x: len(set(x.split(' '))))

In [21]:
#vocabulary after stemming + translation
df1['orengo_pt'] = df1['translated'].apply(lambda x: len(set(orengo(x.split(' ')))))

In [22]:
#vocabulary without considering stopwords (translated)
df1['ns_uni_pt'] = df1['ns_pt'].apply(lambda x: len(set(x)))

In [23]:
#vocabulary without considering stopwords after stemming + translation
df1['ns_or_pt'] = df1['ns_pt'].apply(lambda x: len(set(orengo(x))))

In [24]:
df1.head()

Unnamed: 0,artist,lyrics,translated,no_stopwords,orengo,words,words_ns,ns_pt,unique,orengo_unique,ns_unique,ns_orengo_unique,unique_pt,orengo_pt,ns_uni_pt,ns_or_pt
0,/marilia-mendonca/,sei bem o que te faz bem eu sei mas no fundo e...,sei bem o que te faz bem eu sei mas no fundo e...,"[sei, bem, faz, bem, sei, fundo, tentei, falto...","[sei, bem, o, que, te, faz, bem, eu, sei, mas,...",3951,2165,"[sei, bem, faz, bem, sei, fundo, tentei, falto...",817,602,735,545,821,613,740,560
1,/roberto-carlos/,eu tenho tanto pra lhe falar mas com palavras ...,eu tenho tanto pra o falar mas com palavras nã...,"[tanto, pra, falar, palavras, sei, dizer, gran...","[eu, tenh, tant, pra, lhe, fal, mas, com, pala...",5169,2706,"[tanto, pra, falar, palavras, sei, dizer, gran...",1038,727,941,664,1038,742,944,681
2,/gusttavo-lima/,ô há mais de duas horas ensaiando uma recaída ...,ô há mais de duas horas ensaiando uma recaída ...,"[ô, duas, horas, ensaiando, recaída, número, t...","[ô, há, mais, de, dua, hor, ensai, uma, recaíd...",4414,2306,"[ô, duas, horas, ensaiando, recaída, número, t...",844,679,752,613,844,681,754,619
3,/jorge-e-mateus/,ela queima o arroz quebra copo na pia tropeça ...,o a queimadura o arroz quebrar floco na pia tr...,"[queima, arroz, quebra, copo, pia, tropeça, so...","[ela, queim, o, arroz, quebr, cop, na, pia, tr...",4120,2162,"[queimadura, arroz, quebrar, floco, pia, trope...",765,591,681,529,767,603,684,544
4,/aline-barros/,mestre eu preciso de um milagre transforma min...,mestre eu preciso de um milagre transforma min...,"[mestre, preciso, milagre, transforma, vida, e...","[mestr, eu, precis, de, um, milagr, transform,...",3826,2081,"[mestre, preciso, milagre, transforma, vida, e...",747,581,650,520,750,585,657,529


In [25]:
df1.to_csv('./data/final_data.csv', index=False)