In [1]:
import pandas as pd
import numpy as np
from textblob import TextBlob as tb
import langid
import os
import re
import nltk
from nltk.stem import RSLPStemmer
from googletrans import Translator
import time

In [2]:
def orengo(song):
    st = RSLPStemmer()
    words = filter(lambda x: len(x)>0, song)
    word_list = list(map(lambda x: st.stem(x), words))
    return word_list

In [3]:
def remove_stopwords(doc):
    stopwords = nltk.corpus.stopwords.words('portuguese')
    new_doc = list(filter(lambda x: x not in stopwords, doc))
    return new_doc

In [4]:
df = pd.read_csv('.\data\dataset_lyrics.csv')

In [5]:
#removes compilations
df = df[(df.artist != '/colecao-amo-voce/')&(df.artist != '/corinhos-infantis/')&(df.artist != '/corinhos-evangelicos/')&
        (df.artist != '/harpa-crista/')&(df.artist != '/hinos/')&(df.artist != '/musicas-catolicas/')&(df.artist != '/musicas-gospel/')&
        (df.artist != '/pineapple/')&(df.artist != '/umbanda/')&(df.artist != '/alok/')]

In [6]:
#removes artists with less than 25 songs
df = df[(df.artist != '/melim/')&(df.artist != '/kell-smith/')&(df.artist != '/midiam-lima/')&(df.artist != '/isadora-pompeo/')]

In [7]:
#data cleansing
df['lyrics'] = df['lyrics'].str.strip('<div data-plugin=""googleTranslate"" id=""lyrics"">')
df['lyrics'] = df['lyrics'].str.strip('<img alt="Instrumental" class="instrumental-icon" src="/img/etc/instrumental.png"/')
df['lyrics'] = df['lyrics'].apply(lambda x: x.lower())

In [8]:
#df['lyrics'] = df['lyrics'].str.replace('\n', ' ')
df['lyrics'] = df['lyrics'].str.replace('\r', '')
df['lyrics'] = df['lyrics'].apply(lambda x: re.sub('[0-9!,.;:\]?}{()"["|@#$%*]', "", x))

In [9]:
dicionario_addr = 'dicionario1.txt'
dicionario = {}
t = Translator()

# translate phrase words to pt
# avoid due to excedent use of google requisitions (limited to 1000/day)
def get_pt(frase, vizinhanca):
    fraseretorno = ""
    split_frase = frase.split(" ")
    for x in range (0, len(split_frase)):
        palavra = split_frase[x]
        if(len(palavra)>2):                 #function only works for words with len>2
            if(check_isLanguage(palavra)):      #checks if word and phrase are same language
                fraseretorno+=palavra
            else:                           #not same language
                fraseretorno+=getFinalword(split_frase,x,vizinhanca)
        else:
            fraseretorno+=palavra
        fraseretorno+=" "
    return fraseretorno

def check_isLanguage(palavra):
    lang_palavra = t.detect(palavra).lang
    if(lang_palavra != "pt"):
        return False
    return True

def getFinalword(vetor_frase, palavra_position, neighborhood_size):       #check with neighborhood and gives final word
    menor, maior = calculo_neighborhood(vetor_frase,palavra_position, neighborhood_size)
    frasefinal = ""
    for i in range (menor, maior+1):
        frasefinal+= " " + vetor_frase[palavra_position+i]
    #frasefinaltb = tb(frasefinal)
    lang_frasefinal = t.detect(frasefinal).lang
    if(lang_frasefinal != "pt"):
        try:
            return pt_dictionary(vetor_frase[palavra_position], lang_frasefinal)
            #palavratb = tb(vetor_frase[palavra_position])
            #return str(palavratb.translate(to="pt"))
        except:
            #print('deu ruim)
            return vetor_frase[palavra_position]
    return vetor_frase[palavra_position]


def pt_dictionary(palavra, lang):
    if palavra in dicionario:
        print(palavra + ": já está no dic!")
        return dicionario[palavra]
    else:
        #palavratb = tb(palavra)
        #print("traduzir para colocar no dic " + palavra)
        traducao = t.translate(palavra, src=lang, dest='pt').text #str(palavratb.translate(from_lang=lang,to="pt"))
        #print("traduzido " + palavra + " para " + traducao)
        dicionario[palavra] = traducao
        add_dicionario(dicionario_addr,palavra)
        print(palavra + ": adicionado ao dic!")
        return traducao

def calculo_neighborhood(vetor_frase, palavra_position,neighborhood_size):
    menor = 0
    for i in range (neighborhood_size,0,-1):
        if palavra_position-i >= 0:
            menor = -i
            break
    maior = 0
    for i in range (neighborhood_size,0,-1):
        if palavra_position+i < len(vetor_frase):
            maior = i
            break
    return menor, maior

def load_dicionario(arquivo):
    if os.path.exists(arquivo):
        fl = open(arquivo, "r", encoding='utf-8')
        for line in fl.readlines():
            palavra, traducao = line.split(':')
            dicionario[palavra] = traducao
        fl.close()
    else:
        fl = open(arquivo, 'w+')

def add_dicionario(arquivo, chave):
    if os.path.exists(arquivo):
        f = open(arquivo,'a', encoding='utf-8')
    else:
        f = open(arquivo, 'w+',encoding='utf-8')
    f.write(chave +":"+ dicionario[chave]+"\n")
    f.close()


In [10]:
#google for translation only


def get_pt2(frase, vizinhanca): #vizinhanca defines the context size for the word language analysis
    fraseretorno = ""
    split_frase = frase.split(" ")
    for x in range (0, len(split_frase)):
        palavra = split_frase[x].lstrip().rstrip()
        if(len(palavra)<2):
            fraseretorno+=palavra
        else:
            if(check_isLanguage2(palavra)):      #checks if word is in portuguese
                fraseretorno+=palavra
            else:                           #not pt
                fraseretorno+=getFinalword(split_frase,x,vizinhanca)
            fraseretorno+=" "
    return fraseretorno

def check_isLanguage2(palavra):
    lang_palavra = langid.classify(palavra)
    if(lang_palavra != "pt"):
        return False
    return True

def getFinalword(vetor_frase, palavra_position, neighborhood_size):       #check with neighborhood and gives final word
    menor, maior = calculo_neighborhood(vetor_frase,palavra_position, neighborhood_size)
    frasefinal = ""
    for i in range (menor, maior+1):
        frasefinal+= " " + vetor_frase[palavra_position+i]
    lang_frasefinal = langid.classify(frasefinal)
    if(lang_frasefinal[0] != "pt"):
        return pt_dictionary2(vetor_frase[palavra_position], lang_frasefinal)
    return vetor_frase[palavra_position]

def calculo_neighborhood(vetor_frase, palavra_position,neighborhood_size):
    menor = 0
    for i in range (neighborhood_size,0,-1):
        if palavra_position-i >= 0:
            menor = -i
            break
    maior = 0
    for i in range (neighborhood_size,0,-1):
        if palavra_position+i < len(vetor_frase):
            maior = i
            break
    return menor, maior

def pt_dictionary2(palavra, lang):
    if palavra in dicionario:
        print(palavra + ": já está no dic!")
        return dicionario[palavra]
    else:
        palavratb = tb(palavra)
        print(palavratb)
        print("traduzir para colocar no dic " + str(palavra) + " de " + lang[0])
        traducao = palavra
        try:
            traducao = str(palavratb.translate(from_lang=lang[0],to="pt"))
            print("traduzido " + palavra + " para " + traducao)
            dicionario[palavra] = traducao
            add_dicionario(dicionario_addr,palavra)
            print(palavra + ": adicionado ao dic!")
            return traducao
        except Exception as ex:
            if(type(ex).__name__ != "NotTranslated"):
                print(palavra + " Exception: " + type(ex).__name__ )
                return None
            else:
                print("traduzido " + palavra + " para " + traducao)
                dicionario[palavra] = traducao
                add_dicionario(dicionario_addr,palavra)
                print(palavra + ": adicionado ao dic!")
                return traducao
                #se nao foi erro em que traducao igual a palavra recebida
        #traducao = t.translate(palavra, src=lang, dest='pt').text.rstrip().lstrip()
        #traducao = "teste"
        
    
def load_dicionario(arquivo):
    if os.path.exists(arquivo):
        fl = open(arquivo, "r", encoding='utf-8')
        for line in fl.readlines():
            palavra, traducao = line.split(':')
            dicionario[palavra] = traducao
        fl.close()
    else:
        fl = open(arquivo, 'w+')

def add_dicionario(arquivo, chave):
    if os.path.exists(arquivo):
        f = open(arquivo,'a', encoding='utf-8')
    else:
        f = open(arquivo, 'w+',encoding='utf-8')
    f.write(chave +":"+ dicionario[chave]+"\n")
    f.close()
    
def traduzindo(song):
    import time
    verses = song.split('\n')
    full_song = ""
    #print(verses)
    for v in verses:
        #print (v)
        translated_verses = get_pt2(v,1)
        full_song+=translated_verses
    #print("fullsong:" + full_song)
    time.sleep(1)
    return full_song

df['lyrics'] = df['lyrics'].str.replace('\n\n', '\n')


dicionario_addr = 'dicionario_teste.txt' 
dicionario = {}
t = Translator()
langid.set_languages(['pt','es','en'])
load_dicionario(dicionario_addr)
#for d in dicionario:
#    print (d + " -> " + dicionario[d])

#palavratb = tb("te")
#trad = str(palavratb.translate(from_lang="en",to="pt"))

#print(trad)

for index, row in df.iterrows():
    #print(row['lyrics'])
    row['translated'] = traduzindo(row['lyrics']) 
    print("tradução: " + row['translated'] + "\n\n" )
    

te
traduzir para colocar no dic te de es
traduzido te para você
te: adicionado ao dic!
faz: já está no dic!
bem: já está no dic!
mas: já está no dic!
coragem: já está no dic!
me: já está no dic!
tocar: já está no dic!
mas: já está no dic!
mas: já está no dic!
amei: já está no dic!
me: já está no dic!
agora: já está no dic!
vou: já está no dic!
que: já está no dic!
bater: já está no dic!
que: já está no dic!
cara: já está no dic!
entendedor: já está no dic!
tradução: sei bem oque você cara
 bem
 eu sei mais
 no fundo eu já tentei não faltou coragem
 éuma hora eu ia mim
 toque
 que você não vai mais voltar não receber mensagem também émensagem sei que opra sempre virou pó ena cabeça deu um nó mais
 eu tô bem consciente mais
 amei
 amei sozinho mas por dois mim
 conformei que agora
 enão depois vou
 ter que seguir em frente preocupa não que
 eu não vou bater
 no seu portão preocupa não que não vai ver mais omeu nome nenhuma ligação preocupa não que
 eu vou tomar vergonha na cara
 preocupa

tradução: você fez tudo que eu pedia
 pra não fazer econseguiu me perder
 logótipo
 pra você sábio
 que não ia mim
 escutar
 que
 desenhar
 aminha te ver
 errar
 você fechou os seus olhos tampou os ouvidos Eu sei
 fez
 de
 mudo
 eacordou em desespero naufragou
 com
 os seus próprios erros
 tão dizendo por lá
 que
 nunca
 Eu sei
 esquece um amor ir
 com
 acalme-se
 espera
 lá
 do que foi mesmo que você falou você foi amelhor coisa que eu nunca tiva
 por pouco eu não me iludo
 obrigado por devastar
 tudo
 


ei: já está no dic!
senta: já está no dic!
será: já está no dic!
chorando: já está no dic!
me: já está no dic!
assustando: já está no dic!
ia: já está no dic!
ali: já está no dic!
que: já está no dic!
ele: já está no dic!
ok: já está no dic!
com: já está no dic!
estragar: já está no dic!
preocupada: já está no dic!
se: já está no dic!
era: já está no dic!
ele: já está no dic!
culpa: já está no dic!
dele: já está no dic!
quem: já está no dic!
ser: já está no dic!
por: já está no dic!


tradução: já memorizei oseu corpo tudo
 para ocaso da gente não se ver
 de novo doa aquem doer essa éaverdade entre
 nos dois não cabe saudade pra você sou só mais uma carona não
 final
 de uma balada mim
 Eu embrulhei
 sabendo
 somos dois estranhos numa cama temporária fazendo amor consciente que ésó momento
 oquarto égrande mas não cabe sentimento
 ir
 doer demais escutar
 oseu bye tchau
 depois do iamor
 você
 adeus
 pro seu corpo não
 ir
 doer demais escutar
 oseu bye tchau
 depois do iamor
 você
 saber que seu corpo nunca mais v


pra: já está no dic!
turma: já está no dic!
daqueles: já está no dic!
que: já está no dic!
bebe: já está no dic!
só: já está no dic!
pra: já está no dic!
lembrar: já está no dic!
depois: já está no dic!
chorar: já está no dic!
passou: já está no dic!
mudou: já está no dic!
rodou: já está no dic!
desaprendi: já está no dic!
te: já está no dic!
chamar: já está no dic!
de: já está no dic!
degrau: já está no dic!
te: já está no dic!
ver: já está no dic!
degr

tradução: será
 que
 eu tô vendo coisa eu sei eu já bebi demais mais
 ainda tô no meu normal chegou um amigo dele todos
 eeu nem sei pra onde eu vou fugir
 tá
 mim
 envio
 sinal
 tentando uma aproximação se épra falar
 do ex eu
 dispenso mas pelo jeito que
 ele
 tá me olhando ele que tá me querendo Eu sei
 ele
 que éamigo tomou uma esqueceu imagina
 eu que ta
 bebendo odia inteiro aqui jogado mandou
 sorriso
 eacertou meu ponto fraco
 Eu sei
 ele
 que éamigo tomou uma esqueceu imagina
 eu tava um sofrendo um querendo os dois alcoolizado eu tô pegand 


só: já está no dic!
louco: já está no dic!
de: já está no dic!
acordar: já está no dic!
de: já está no dic!
madrugada: já está no dic!
vai: já está no dic!
nos: já está no dic!
julgar: já está no dic!
amou: já está no dic!
nunca: já está no dic!
vai: já está no dic!
entender: já está no dic!
que: já está no dic!
só: já está no dic!
sei: já está no dic!
mas: já está no dic!
te: já está no dic!
vejo: já está no dic!
com: já está no dic!
el

tradução: acertar
 suas coisas que estão aqui nesse apartamento você não entra mais olha oque mim
 fez você foi me trair
 agora arrependido quer virar
 de volta
 já deu cansei das suas mentiras
 ruim
 contado
 cresci não acredito mais em conto de fada
 não adianta vir
 com baixaria morreu amulher carinhosa efiel
 que
 você amava
 acertar
 oelevador
 asua
 ruim
 evaza ta
 avisando la
 n / D
 portaria
 que aqui você não entra mais alô porteiro tô ligando pra você avisar
 que adividir
 de
 agora
 eu tô solteira já me cansei da brincadeira chame
 otaxi que
 ele
 vai pagar alô porteiro tô ligando pra você avisar
 que esse homem que
 é
 lá
 ele não pode mais subir tá proib 


te: já está no dic!
provocar: já está no dic!
descobri: já está no dic!
procurando: já está no dic!
hoje: já está no dic!
farsa: já está no dic!
vai: já está no dic!
acabar: já está no dic!
hora: já está no dic!
de: já está no dic!
hoje: já está no dic!
ele: já está no dic!
ficar: já está no dic!
no: já está no dic!
dev

traduzido comparar para comparar
comparar: adicionado ao dic!
explicar
traduzir para colocar no dic explicar de en
traduzido explicar para explicar
explicar: adicionado ao dic!
me: já está no dic!
desespero
traduzir para colocar no dic desespero de es
traduzido desespero para desespero
desespero: adicionado ao dic!
procurar
traduzir para colocar no dic procurar de en
traduzido procurar para procurar
procurar: adicionado ao dic!
falar: já está no dic!
nunca: já está no dic!
que: já está no dic!
mas: já está no dic!
tradução: eu tenho tanto pra o falar
 mais
 com palavras não sei dizer como égrande omeu amor por você enão ha nada
 pra
 comparar para poder lhe explicar como égrande omeu amor por você nem mesmo océu nem as estrelas nem mesmo omar eoinfinito não émaior que omeu amor nem mais bonito mim
 desespero aprocurar alguma forma de lhe falar
 como égrande omeu amor por você nunca
 se esqueça nem um segundo que
 eu tenho oamor maior do mundo como égrande omeu amor por você mais
 como 

traduzido permanece para permanece
permanece: adicionado ao dic!
minuto
traduzir para colocar no dic minuto de es
traduzido minuto para minuto
minuto: adicionado ao dic!
mas: já está no dic!
qualquer
traduzir para colocar no dic qualquer de es
traduzido qualquer para qualquer um
qualquer: adicionado ao dic!
amor: já está no dic!
só: já está no dic!
aumenta
traduzir para colocar no dic aumenta de es
traduzido aumenta para aumenta
aumenta: adicionado ao dic!
vivo
traduzir para colocar no dic vivo de es
traduzido vivo para vivo
vivo: adicionado ao dic!
por: já está no dic!
ela: já está no dic!
porque: já está no dic!
mundo
traduzir para colocar no dic mundo de es
traduzido mundo para mundo
mundo: adicionado ao dic!
se: já está no dic!
sabe: já está no dic!
se: já está no dic!
cabe
traduzir para colocar no dic cabe de es
traduzido cabe para encaixa
cabe: adicionado ao dic!
mas: já está no dic!
de: já está no dic!
verdade: já está no dic!
assim: já está no dic!
eternidade
traduzir para colo

de: já está no dic!
pra: já está no dic!
esquecer: já está no dic!
toda: já está no dic!
presentes
traduzir para colocar no dic presentes de es
traduzido presentes para apresentar
presentes: adicionado ao dic!
ver: já está no dic!
na: já está no dic!
lhe: já está no dic!
lembrar: já está no dic!
de: já está no dic!
mim: já está no dic!
estar: já está no dic!
amor: já está no dic!
como
traduzir para colocar no dic como de es
traduzido como para como
como: adicionado ao dic!
que: já está no dic!
amor: já está no dic!
lembrar: já está no dic!
de: já está no dic!
mim: já está no dic!
envolvida
traduzir para colocar no dic envolvida de es
traduzido envolvida para envolto
envolvida: adicionado ao dic!
antes
traduzir para colocar no dic antes de es
traduzido antes para antes
antes: adicionado ao dic!
de: já está no dic!
mas: já está no dic!
na: já está no dic!
sorri: já está no dic!
vai: já está no dic!
de: já está no dic!
mim: já está no dic!
como: já está no dic!
nada: já está no dic!
pensa

traduzido brancos para guelras
brancos: adicionado ao dic!
bonitos
traduzir para colocar no dic bonitos de es
traduzido bonitos para bonito
bonitos: adicionado ao dic!
grito
traduzir para colocar no dic grito de en
traduzido grito para grito
grito: adicionado ao dic!
me: já está no dic!
ensinando
traduzir para colocar no dic ensinando de es
traduzido ensinando para ensinando
ensinando: adicionado ao dic!
lentos
traduzir para colocar no dic lentos de es
traduzido lentos para lento
lentos: adicionado ao dic!
de: já está no dic!
agora: já está no dic!
tanto
traduzir para colocar no dic tanto de en
traduzido tanto para tanto
tanto: adicionado ao dic!
na: já está no dic!
vida: já está no dic!
voz
traduzir para colocar no dic voz de es
traduzido voz para voz
voz: adicionado ao dic!
macia
traduzir para colocar no dic macia de es
traduzido macia para macia
macia: adicionado ao dic!
me: já está no dic!
acalma
traduzir para colocar no dic acalma de es
traduzido acalma para calma
acalma: adiciona

traduzido guia para guia
guia: adicionado ao dic!
terra
traduzir para colocar no dic terra de es
traduzido terra para terra
terra: adicionado ao dic!
me: já está no dic!
ampara
traduzir para colocar no dic ampara de es
traduzido ampara para proteger
ampara: adicionado ao dic!
me: já está no dic!
deus: já está no dic!
de: já está no dic!
lourdes
traduzir para colocar no dic lourdes de es
traduzido lourdes para lourdes
lourdes: adicionado ao dic!
de: já está no dic!
nazaré
traduzir para colocar no dic nazaré de es
traduzido nazaré para Eu nascerei
nazaré: adicionado ao dic!
virgem
traduzir para colocar no dic virgem de en
traduzido virgem para virgem
virgem: adicionado ao dic!
santa
traduzir para colocar no dic santa de es
traduzido santa para santa
santa: adicionado ao dic!
bondade
traduzir para colocar no dic bondade de es
traduzido bondade para bondade
bondade: adicionado ao dic!
hoje: já está no dic!
nós: já está no dic!
jesus: já está no dic!
virgem: já está no dic!
esposa
traduzir 

vindo: adicionado ao dic!
te: já está no dic!
beija: já está no dic!
na: já está no dic!
boca: já está no dic!
apaixonado
traduzir para colocar no dic apaixonado de es
traduzido apaixonado para dobrado
apaixonado: adicionado ao dic!
diz
traduzir para colocar no dic diz de es
traduzido diz para dizer
diz: adicionado ao dic!
que: já está no dic!
te: já está no dic!
ama: já está no dic!
sou: já está no dic!
eu: já está no dic!
sou: já está no dic!
eu: já está no dic!
sou: já está no dic!
eu: já está no dic!
sou: já está no dic!
eu: já está no dic!
tradução: ocara que
 pensa em você toda hora
 que
 conta
 os segundos se você demora que
 é
 todo otempo querendo você ver
 porque já não sabe enlouquecer
 sem você eno meio da noite você chama pra dizer que você amor esse cara sou eu
 ocara que
 pega você pelo braço esbarra em quem for que interrompa seus passos é
 do seu lado pro que
 certo
 evier oherói esperado por toda mulher por você ele encara operigo seu melhor amigo esse cara sou eu
 oc

restou Exception: HTTPError


TypeError: can only concatenate str (not "NoneType") to str

In [12]:
#counting english and spanish words

langid.set_languages(['pt', 'en', 'es'])

def get_pt_only(frase, vizinhanca): #vizinhanca defines the context size for the word language analysis
    #print(frase)
    counter = 0
    fraseretorno = ""
    split_frase = frase.split(" ")
    for x in range (0, len(split_frase)):
        palavra = split_frase[x].lstrip().rstrip()
        #print (palavra)
        if(check_isLanguage_pt(palavra)):      #checks if word is in portuguese
            fraseretorno+=palavra + " "
        else:
            palavra_final=getFinallang(split_frase,x,vizinhanca)
            if(palavra_final == palavra):
                fraseretorno+=palavra + " "
            else:
                counter+=1
    return fraseretorno, counter

def check_isLanguage_pt(palavra):
    lang_palavra = langid.classify(palavra)
    #print(palavra + " " + lang_palavra[0])
    if(lang_palavra[0] != "pt"):
        return False
    return True

def getFinallang(vetor_frase, palavra_position, neighborhood_size):       #check with neighborhood and gives final word
    menor, maior = calculo_neighborhood(vetor_frase,palavra_position, neighborhood_size)
    frasefinal = ""
    for i in range (menor, maior+1):
        frasefinal+= " " + vetor_frase[palavra_position+i]
    lang_frasefinal = langid.classify(frasefinal)
    if(lang_frasefinal[0] != "pt"):
        return ""
    else:
        return vetor_frase[palavra_position]
    
def calculo_neighborhood(vetor_frase, palavra_position,neighborhood_size):
    menor = 0
    for i in range (neighborhood_size,0,-1):
        if palavra_position-i >= 0:
            menor = -i
            break
    maior = 0
    for i in range (neighborhood_size,0,-1):
        if palavra_position+i < len(vetor_frase):
            maior = i
            break
    return menor, maior
    return vetor_frase[palavra_position]


def toPT(song):
    import time
    verses = song.split('\n')
    contador = 0
    full_song = ""
    #print(verses)
    for v in verses:
        #print (v)
        translated_verses, foreign = get_pt_only(v,3)
        full_song+=translated_verses
        contador+=foreign
    #print("fullsong:" + full_song)
    time.sleep(1)
    return full_song, contador

for index, row in df.iterrows():
    print(row['lyrics'])
    row['translated'], row['foreign'] = toPT(row['lyrics']) 
    print("tradução: " + row['translated'] + "\nforeign: " + str(row['foreign']) + "\n\n" )

sei bem
o que te faz bem eu sei
mas no fundo eu já tentei não faltou coragem
é uma hora eu ia me tocar que você não vai mais voltar
não receber mensagem também é mensagem
sei que o pra sempre virou pó
e na cabeça deu um nó mas eu tô bem consciente
mas amei
amei sozinho mas por dois
me conformei que agora e não depois
vou ter que seguir em frente
preocupa não
que eu não vou bater no seu portão
preocupa não
que não vai ver mais o meu nome nenhuma ligação
preocupa não
que eu vou tomar vergonha na cara
preocupa não
pra um bom entendedor
meia ausência b
tradução: sei bem o que te faz bem eu sei mas no fundo eu já tentei não faltou coragem é uma hora eu ia me tocar que você não vai mais voltar não receber mensagem também é mensagem sei que o pra sempre virou pó e na cabeça deu um nó mas eu tô bem consciente amei sozinho mas por dois me conformei que agora e não depois vou ter que seguir em frente preocupa não que eu não vou bater no seu portão preocupa não que não vai ver mais o meu nome nen

KeyboardInterrupt: 

In [11]:
def translate(song):
    import time
    verses = song.split('\n')
    translated_verses = list(map(lambda x: get_pt(x,1), verses))
    full_song = "".join(translated_verses)
    print(full_song)
    time.sleep(1)
    return full_song

In [14]:
#df['translated'] = df['lyrics'].apply(lambda x: translate(x))
for index, row in df.iterrows():
    row['translated'] = translate(row['lyrics'])

JSONDecodeError: Expecting value: line 1 column 1 (char 0)

In [15]:
df[df['artist'] == '/roberto-carlos/']

Unnamed: 0,artist,music_name,lyrics
50,/roberto-carlos/,/roberto-carlos/como-e-grande-o-meu-amor-por-v...,eu tenho tanto pra lhe falar\nmas com palavras...
51,/roberto-carlos/,/roberto-carlos/amigo-letras.html,você meu amigo de fé meu irmão camarada\namigo...
52,/roberto-carlos/,/roberto-carlos/nossa-senhora-2.html,cubra-me com seu manto de amor\nguarda-me na p...
53,/roberto-carlos/,/roberto-carlos/amor-sem-limite.html,quando a gente ama alguém de verdade\nesse amo...
54,/roberto-carlos/,/roberto-carlos/outra-vez.html,você foi o maior dos meus casos\nde todos os a...
55,/roberto-carlos/,/roberto-carlos/emocoes-letras.html,quando eu estou aqui\neu vivo esse momento lin...
56,/roberto-carlos/,/roberto-carlos/detalhes.html,não adianta nem tentar me esquecer\ndurante mu...
57,/roberto-carlos/,/roberto-carlos/lady-laura-letras.html,ho às vezes vontade de ser\nnovamente um menin...
58,/roberto-carlos/,/roberto-carlos/meu-querido-meu-velho-meu-amig...,esses seus cabelos brancos bonitos\nesse olhar...
59,/roberto-carlos/,/roberto-carlos/cama-e-mesa.html,eu quero ser sua canção eu quero ser seu tom\n...


In [17]:
df.iloc[70,2]

'o conta gota da saudade tá pingando\nde pouco a pouco gota a gota vou tirando\nvocê de mim você de mim\nconfesso que isso nunca teve nos meus planos\neu não to bem mas até que to me virando\nmelhor assim melhor assim\ne vai ter noite que eu vou dormir com vontade\nvou digitar mas não vou enviar mensagem\ne pouco a pouco vou me afastando de você\ne de passo em passo vou te esquecer\npedacinho por pedaço eu\narranco você do coração você do coração\ne de passo em passo vou te esquecer\npedacinho por pedaço eu\narranco você da minha vida cancela a recaída\ne vai noite que eu vou dormir com vontade\nvou digitar mas não vou enviar mensagem\npouco a pouco vou me afastando de você\ne de passo em passo vou te esquecer\npedacinho por pedaço eu\narranco você do coração você do coração\ne de passo em passo vou te esquecer\npedacinho por pedaço eu\narranco você da minha vida cancela a recaí'

In [24]:
#creates new df where the column lyrics carries every song of a given artist
df1 = df.groupby('artist')['lyrics'].apply(' '.join).reset_index()

In [11]:
#applies stemmer and creates new column
df1['orengo'] = df1['lyrics'].apply(lambda x: orengo(x.split(' ')))

In [12]:
#removes stopwords and creates new column
df1['no_stopwords'] = df1['lyrics'].apply(lambda x: remove_stopwords(x.split(' ')))

In [None]:
#removes stopwords from translated text and creates new column
df1['ns_pt'] = df1['translated'].apply(lambda x: remove_stopwords(x.split(' ')))

In [13]:
#vocabulary
df1['unique'] = df1['lyrics'].apply(lambda x: len(set(x.split(' '))))

In [14]:
#vocabulary after stemming
df1['orengo_unique'] = df1['orengo'].apply(lambda x: len(set(x)))

In [15]:
#vocabulary without considering stopwords
df1['ns_unique'] = df1['no_stopwords'].apply(lambda x: len(set(x)))

In [16]:
#vocabulary without considering stopwords after stemming
df1['ns_orengo_unique'] = df1['no_stopwords'].apply(lambda x: len(set(orengo(x))))

In [None]:
#vocabulary after translation
df1['unique_pt'] = df['translated'].apply(lambda x: len(set(x.split(' '))))

In [None]:
#vocabulary after stemming + translation
df1['orengo_pt'] = df['translated'].apply(lambda x: len(set(x)))

In [None]:
#vocabulary without considering stopwords (translated)
df1['ns_uni_pt'] = df1['ns_pt'].apply(lambda x: len(set(x)))

In [None]:
#vocabulary without considering stopwords after stemming + translation
df1['ns_or_pt'] = df1['ns_pt'].apply(lambda x: len(set(orengo(x))))

In [17]:
df1.head()

Unnamed: 0,artist,lyrics,orengo,no_stopwords,unique,orengo_unique,ns_unique,ns_orengo_unique
0,/aline-barros/,mestre eu preciso de um milagre transforma min...,"[mestr, eu, precis, de, um, milagr, transform,...","[mestre, preciso, milagre, transforma, vida, e...",748,581,651,520
1,/amado-batista/,ao te ver pela primeira vez eu tremi todo uma ...,"[ao, te, ver, pel, prim, vez, eu, trem, tod, u...","[ver, primeira, vez, tremi, todo, coisa, tomou...",846,621,750,559
2,/ana-carolina/,eu e você não é assim tão complicado não é dif...,"[eu, e, voc, não, é, assim, tão, complic, não,...","[assim, tão, complicado, difícil, perceber, , ...",776,599,686,539
3,/anavitoria/,eu poderia acordar sem teu olhar de sono sem t...,"[eu, pod, acord, sem, teu, olh, de, son, sem, ...","[poderia, acordar, olhar, sono, lábio, dono, q...",852,673,767,613
4,/anderson-freire/,não consigo ir além do teu olhar tudo que eu c...,"[não, consig, ir, além, do, teu, olh, tud, que...","[consigo, ir, além, olhar, tudo, consigo, imag...",1127,868,1025,801


In [18]:
df1.to_csv('./data/final_data.csv', index=False)