# Raspagem de dados de letras de músicas
Neste notebook, acessamos a plataforma letras.mus.br para salvar todas as letras de músicas de um determinado artista em uma tabela, permitindo uma análise linguística posterior.

In [1]:
import pandas as pd
import numpy as np
from bs4 import BeautifulSoup
import requests
import re

## Escolhendo o artista e requisitando o conteúdo da página HTML

In [2]:
letras = 'https://www.letras.mus.br/'
artista = 'belchior' #PODEMOS ESCOLHER OUTRO ARTISTA!
url = letras + artista

In [3]:
try:
    req = requests.get(url)
except requests.exceptions.RequestException as e:  # This is the correct syntax
    print(e)
content = req.content

In [4]:
url

'https://www.letras.mus.br/belchior'

### Parsing: links de todas as músicas

In [5]:
soup = BeautifulSoup(content, 'html.parser')

In [6]:
soup.title

<title>Belchior - LETRAS.MUS.BR</title>

In [7]:
#<ul class="cnt-list"> (LISTA DE TODAS AS MÚSICAS)
#<ol class="cnt-list cnt-list--num cnt-list--col2"> (LISTA DE MÚSICAS MAIS TOCADAS)
musicas = soup.find_all("a", {"class": "song-name"})

In [8]:
musicas

[<a class="song-name" href="/belchior/a-cor-do-cacau/"><span>A Cor do Cacau</span></a>,
 <a class="song-name" href="/belchior/44448/"><span>A Palo Seco</span></a>,
 <a class="song-name" href="/belchior/344900/"><span>Aguapé</span></a>,
 <a class="song-name" href="/belchior/1154802/"><span>Águas de Março</span></a>,
 <a class="song-name" href="/belchior/239370/"><span>Aliás</span></a>,
 <a class="song-name" href="/belchior/239371/"><span>Almanaque</span></a>,
 <a class="song-name" href="/belchior/153384/"><span>Alucinação</span></a>,
 <a class="song-name" href="/belchior/1839470/"><span>Amor de Perdição</span></a>,
 <a class="song-name" href="/belchior/400596/"><span>Amor e Crime</span></a>,
 <a class="song-name" href="/belchior/344901/"><span>Antes do Fim</span></a>,
 <a class="song-name" href="/belchior/1538319/"><span>Aparências</span></a>,
 <a class="song-name" href="/belchior/44449/"><span>Apenas Um Rapaz Latino Americano</span></a>,
 <a class="song-name" href="/belchior/400597/"><

In [9]:
str_musicas = str(musicas)
#href="/belchior/959402/"
split = 'href="/' + artista + '/'
lista_musicas = str_musicas.split(split)
lista_musicas = lista_musicas[1:]
print(len(lista_musicas))
lista_musicas

128


['a-cor-do-cacau/"><span>A Cor do Cacau</span></a>, <a class="song-name" ',
 '44448/"><span>A Palo Seco</span></a>, <a class="song-name" ',
 '344900/"><span>Aguapé</span></a>, <a class="song-name" ',
 '1154802/"><span>Águas de Março</span></a>, <a class="song-name" ',
 '239370/"><span>Aliás</span></a>, <a class="song-name" ',
 '239371/"><span>Almanaque</span></a>, <a class="song-name" ',
 '153384/"><span>Alucinação</span></a>, <a class="song-name" ',
 '1839470/"><span>Amor de Perdição</span></a>, <a class="song-name" ',
 '400596/"><span>Amor e Crime</span></a>, <a class="song-name" ',
 '344901/"><span>Antes do Fim</span></a>, <a class="song-name" ',
 '1538319/"><span>Aparências</span></a>, <a class="song-name" ',
 '44449/"><span>Apenas Um Rapaz Latino Americano</span></a>, <a class="song-name" ',
 '400597/"><span>Arte Final</span></a>, <a class="song-name" ',
 '344902/"><span>Até Amanhã</span></a>, <a class="song-name" ',
 '411035/"><span>Ate Mais Ver</span></a>, <a class="song-name" '

In [10]:
links_musicas = []
for link in lista_musicas:
    link = link.split('/')
    link = link[0]
    link = letras + artista + '/' + link + '/'
    links_musicas.append(link)
    print(link)
links_musicas

https://www.letras.mus.br/belchior/a-cor-do-cacau/
https://www.letras.mus.br/belchior/44448/
https://www.letras.mus.br/belchior/344900/
https://www.letras.mus.br/belchior/1154802/
https://www.letras.mus.br/belchior/239370/
https://www.letras.mus.br/belchior/239371/
https://www.letras.mus.br/belchior/153384/
https://www.letras.mus.br/belchior/1839470/
https://www.letras.mus.br/belchior/400596/
https://www.letras.mus.br/belchior/344901/
https://www.letras.mus.br/belchior/1538319/
https://www.letras.mus.br/belchior/44449/
https://www.letras.mus.br/belchior/400597/
https://www.letras.mus.br/belchior/344902/
https://www.letras.mus.br/belchior/411035/
https://www.letras.mus.br/belchior/709644/
https://www.letras.mus.br/belchior/bahiuno/
https://www.letras.mus.br/belchior/350408/
https://www.letras.mus.br/belchior/296787/
https://www.letras.mus.br/belchior/400598/
https://www.letras.mus.br/belchior/1060059/
https://www.letras.mus.br/belchior/1391391/
https://www.letras.mus.br/belchior/296788/

['https://www.letras.mus.br/belchior/a-cor-do-cacau/',
 'https://www.letras.mus.br/belchior/44448/',
 'https://www.letras.mus.br/belchior/344900/',
 'https://www.letras.mus.br/belchior/1154802/',
 'https://www.letras.mus.br/belchior/239370/',
 'https://www.letras.mus.br/belchior/239371/',
 'https://www.letras.mus.br/belchior/153384/',
 'https://www.letras.mus.br/belchior/1839470/',
 'https://www.letras.mus.br/belchior/400596/',
 'https://www.letras.mus.br/belchior/344901/',
 'https://www.letras.mus.br/belchior/1538319/',
 'https://www.letras.mus.br/belchior/44449/',
 'https://www.letras.mus.br/belchior/400597/',
 'https://www.letras.mus.br/belchior/344902/',
 'https://www.letras.mus.br/belchior/411035/',
 'https://www.letras.mus.br/belchior/709644/',
 'https://www.letras.mus.br/belchior/bahiuno/',
 'https://www.letras.mus.br/belchior/350408/',
 'https://www.letras.mus.br/belchior/296787/',
 'https://www.letras.mus.br/belchior/400598/',
 'https://www.letras.mus.br/belchior/1060059/',
 '

In [11]:
len(links_musicas)

128

### Lista de músicas mais tocadas

In [12]:
mais_tocadas = soup.find_all("ol", {"class": "cnt-list cnt-list--num -flex-col-2 js-song-list"})
mais_tocadas

[<ol class="cnt-list cnt-list--num -flex-col-2 js-song-list"> <li class="cnt-list-row -song" data-artist="Belchior" data-dns="belchior" data-id="153384" data-name="Alucinação" data-sharetext="Alucinação de Belchior" data-shareurl="https://www.letras.mus.br/belchior/153384/" data-url="153384"> <a href="/belchior/153384/" title="Alucinação"><span>Alucinação</span></a> <div class="song-options"></div> </li> <li class="cnt-list-row -song" data-artist="Belchior" data-dns="belchior" data-id="44453" data-name="Coração Selvagem" data-sharetext="Coração Selvagem de Belchior" data-shareurl="https://www.letras.mus.br/belchior/44453/" data-url="44453"> <a href="/belchior/44453/" title="Coração Selvagem"><span>Coração Selvagem</span></a> <div class="song-options"></div> </li> <li class="cnt-list-row -song" data-artist="Belchior" data-dns="belchior" data-id="44448" data-name="A Palo Seco" data-sharetext="A Palo Seco de Belchior" data-shareurl="https://www.letras.mus.br/belchior/44448/" data-url="444

In [13]:
str_musicas = str(mais_tocadas)
#href="/belchior/959402/"
lista_musicas_mais_tocadas = str_musicas.split(split)
lista_musicas_mais_tocadas = lista_musicas_mais_tocadas[1:]
print(len(lista_musicas_mais_tocadas))
lista_musicas_mais_tocadas

20


['153384/" title="Alucinação"><span>Alucinação</span></a> <div class="song-options"></div> </li> <li class="cnt-list-row -song" data-artist="Belchior" data-dns="belchior" data-id="44453" data-name="Coração Selvagem" data-sharetext="Coração Selvagem de Belchior" data-shareurl="https://www.letras.mus.br/belchior/44453/" data-url="44453"> <a ',
 '44453/" title="Coração Selvagem"><span>Coração Selvagem</span></a> <div class="song-options"></div> </li> <li class="cnt-list-row -song" data-artist="Belchior" data-dns="belchior" data-id="44448" data-name="A Palo Seco" data-sharetext="A Palo Seco de Belchior" data-shareurl="https://www.letras.mus.br/belchior/44448/" data-url="44448"> <a ',
 '44448/" title="A Palo Seco"><span>A Palo Seco</span></a> <div class="song-options"></div> </li> <li class="cnt-list-row -song" data-artist="Belchior" data-dns="belchior" data-id="44449" data-name="Apenas Um Rapaz Latino Americano" data-sharetext="Apenas Um Rapaz Latino Americano de Belchior" data-shareurl="h

In [14]:
links_mais_tocadas = []
for link in lista_musicas_mais_tocadas:
    link = link.split('/')
    link = link[0]
    link = letras + artista + '/' + link + '/'
    links_mais_tocadas.append(link)
    print(link)
links_mais_tocadas

https://www.letras.mus.br/belchior/153384/
https://www.letras.mus.br/belchior/44453/
https://www.letras.mus.br/belchior/44448/
https://www.letras.mus.br/belchior/44449/
https://www.letras.mus.br/belchior/344922/
https://www.letras.mus.br/belchior/44462/
https://www.letras.mus.br/belchior/44464/
https://www.letras.mus.br/belchior/44454/
https://www.letras.mus.br/belchior/44451/
https://www.letras.mus.br/belchior/132598/
https://www.letras.mus.br/belchior/44459/
https://www.letras.mus.br/belchior/44457/
https://www.letras.mus.br/belchior/1448417/
https://www.letras.mus.br/belchior/44456/
https://www.letras.mus.br/belchior/44460/
https://www.letras.mus.br/belchior/44452/
https://www.letras.mus.br/belchior/saia-do-meu-caminho/
https://www.letras.mus.br/belchior/44458/
https://www.letras.mus.br/belchior/44463/
https://www.letras.mus.br/belchior/44461/


['https://www.letras.mus.br/belchior/153384/',
 'https://www.letras.mus.br/belchior/44453/',
 'https://www.letras.mus.br/belchior/44448/',
 'https://www.letras.mus.br/belchior/44449/',
 'https://www.letras.mus.br/belchior/344922/',
 'https://www.letras.mus.br/belchior/44462/',
 'https://www.letras.mus.br/belchior/44464/',
 'https://www.letras.mus.br/belchior/44454/',
 'https://www.letras.mus.br/belchior/44451/',
 'https://www.letras.mus.br/belchior/132598/',
 'https://www.letras.mus.br/belchior/44459/',
 'https://www.letras.mus.br/belchior/44457/',
 'https://www.letras.mus.br/belchior/1448417/',
 'https://www.letras.mus.br/belchior/44456/',
 'https://www.letras.mus.br/belchior/44460/',
 'https://www.letras.mus.br/belchior/44452/',
 'https://www.letras.mus.br/belchior/saia-do-meu-caminho/',
 'https://www.letras.mus.br/belchior/44458/',
 'https://www.letras.mus.br/belchior/44463/',
 'https://www.letras.mus.br/belchior/44461/']

## Função para recuperar a dados sobre uma letra de uma página web. A partir de uma url do letras.br, extrai o título da música, nome do compositor, letra e compara se é uma das mais tocadas

In [15]:
#<div class="cnt-letra p402_premium" style="font-size: 19px"> (ELEMENTO HTML QUE CONTÉM A LETRA)

def parse_lyric(url):
    #testa se é uma das músicas mais tocadas
    mais_tocada = 0
    if url in links_mais_tocadas:
        mais_tocada = 1
        
    
    try:
        req = requests.get(url)
    except requests.exceptions.RequestException as e:  # This is the correct syntax
        print(e)        
    content = req.content
    soup = BeautifulSoup(content, 'html.parser')
    
    #compositor
    #<div class="letra-info_comp">
    html_comp = soup.find_all("div", {"class": "letra-info_comp"})
    html_comp = str(html_comp)
    compositor = html_comp.split('Composição:  ')[1]
    compositor = compositor.split('<a')[0]
    compositor = compositor[0:-2].strip()
    primeiro_comp = compositor.split(' / ')[0] 
    
    
    #título da música
    #<div class="cnt-head_title">
    html_title = soup.find_all("div", {"class": "cnt-head_title"})
    html_title = str(html_title)
    titulo = html_title.split('<h1>')[1]
    titulo = titulo.split('</h1>')[0]
    
    #letra da música
    html = soup.find_all("div", {"class": "cnt-letra p402_premium"})
    html = str(html)
    estrofes = html.split('<p>')
    estrofes = estrofes[1:]

    letra = ''
    for estrofe in estrofes:
        
        #estrofe = estrofe.lower()        
        #estrofe = estrofe.replace('</p>',' ')
        #aqui optamos por manter a marcação de paragrafo, para que seja possível fazer uma análise de estrofes
        #optamos também por manter as letras maiúsculas
        #esses detalhes podem facilmente ser modificados em uma análise posterior
        
        estrofe = estrofe.replace('<br/>',' ')
        estrofe = estrofe.replace('</br>',' ')
        estrofe = estrofe.replace('<br>',' ')
        estrofe = estrofe.replace('</div>]','')
        letra += estrofe

    letra = letra.strip()
    return titulo, compositor, primeiro_comp, mais_tocada, letra

In [16]:
#teste
t, c, pc, mt, l = parse_lyric('https://www.letras.mus.br/belchior/344922/')
print(t)
print(c)
print(pc)
print(mt)
print(l)

IndexError: list index out of range

## Visitando cada página, extraindo e armazenando as informações

In [None]:
from unicodedata import normalize
def remover_acentos(txt):
    return normalize('NFKD', txt).encode('ASCII', 'ignore').decode('ASCII')

In [None]:
letras_col = []
mais_tocada_col = []
titulo_col = []
compositor = artista.replace('-',' ')

for url in links_musicas:
    t, c, pc, mt, l = parse_lyric(url)
    
    print(t)
    print(c)
    print(mt)
    print(l)
    print()
    
    c = c.lower()
    c = remover_acentos(c)
    pc = pc.lower()
    pc = remover_acentos(pc)
    
    #só adciona ao dataframe se o compositor estiver definido na página e for igual ao artista
    #algumas letras podem não ter compositor definido. pode-se remover essa condição, nesses casos
    #também testa se já existe alguma letra com o mesmo título no dataset
    #se houver mais de um compositor, testará se o primeiro é igual ao artista buscado
    if (c == compositor or pc == compositor) and (t not in titulo_col):
        letras_col.append(l)
        mais_tocada_col.append(mt)
        titulo_col.append(t)    
    
    

In [None]:
len(titulo_col)

## Montando um DataFrame

In [None]:
df = pd.DataFrame(data = {'titulo':titulo_col, 
                         'mais tocada': mais_tocada_col,
                         'letra': letras_col})

In [None]:
df

# Exportando CSV

In [None]:
filename = artista + '_raw.csv'
filename

In [None]:
df.to_csv(filename,sep='¢')