# Carregando os dados

A base que será utilizada apresenta músicas de diversos gêneros musicais diferentes. Vamos precisar filtrar eles.

In [1]:
import pandas as pd
import re
import os

# Arquivo de entrada
input_file = 'corpus-musicas-brasileiras.csv'

# Leitura do CSV, ignorando linhas corrompidas
skip_lines = [10002, 10003, 11341, 11342, 19356, 19357, 19364, 19365,
              140164, 140165, 140197, 140198, 182920, 182921, 182953, 182954]
              
df = pd.read_csv(input_file, encoding_errors='ignore', skiprows=skip_lines)

# Filtrar gêneros desejados
generos = ['Forró', 'Piseiro', 'Forró; Piseiro']
df = df[df['Gênero Musical'].isin(generos)]

# Selecionar colunas relevantes
df = df[['Nome da Música', 'Letra da Música']]

# Criar pasta para salvar as músicas individualmente
os.makedirs('songs', exist_ok=True)

# Set para evitar arquivos duplicados
salvos = set()

# Processar cada música
for _, row in df.iterrows(): #Ignora o índice da linha (apenas o conteúdo dela é importante)
    nome_original = row['Nome da Música'].replace(' - Ao Vivo', '')
    nome_limpo = re.sub(r'[\\/*?:"<>|]', '', nome_original)
    nome_arquivo = f'songs/{nome_limpo}.txt'

    #ignorar duplicações
    if nome_arquivo in salvos:
        continue
    salvos.add(nome_arquivo)

    # Limpeza da letra
    letra = str(row['Letra da Música']).replace('\n', ' ')
    letra = re.sub(r"[!#$%&'()*+,-./:;<=>?@\\^_`{|}~]", '', letra)

    # Escrever apenas a letra no arquivo
    with open(nome_arquivo, 'w', encoding='utf-8') as f:
        f.write(letra.strip())
