# Carregando os dados

A base que será utilizada apresenta músicas de diversos gêneros musicais diferentes. Vamos precisar filtrar eles.

In [None]:
import pandas as pd
import re

# Caminho do arquivo CSV original
input_file = 'corpus-musicas-brasileiras.csv'
output_file = 'forro_lyrics.csv'

# Ler o arquivo CSV e filtrar linhas com problemas
df = pd.read_csv(
        input_file, encoding_errors = 'ignore', skiprows = [ 10002, 10003,
                                                             11341, 11342,
                                                             19356, 19357,
                                                             19364, 19365,
                                                             140164, 140165,
                                                             140197, 140198,
                                                             182920, 182921,
                                                             182953, 182954 ] )

# Filtrar as linhas onde o Gênero é "forró" e variações dele
genre: list[ str ] = [ 'Forró', 'Piseiro', 'Forró; Piseiro' ]
filtered_df = df[ df[ 'Gênero Musical' ].isin( genre ) ]

# lista_de_generos: list[ str ] = df[ 'Gênero Musical' ].unique().tolist()
# print( lista_de_generos )

# Obter a lista de todos os artistas únicos no DataFrame original (df)
lista_de_artistas: list[ str ] = filtered_df[ 'Artista' ].unique().tolist()

# Selecionar apenas as colunas "Artista" e "Letra da Música"
lyrics_df = filtered_df[ [ 'Artista', 'Nome da Música', 'Letra da Música' ] ]

# Dicionário para salvar todos os artistas e suas músicas
artist_dict: dict = { }

lyrics: list[ str ] = [ ]

for artist in lista_de_artistas:
    # Nome do arquivo de saída
    output_file: str = f'artists/{artist}.csv'

    # Dicionário para salvar as músicas de um artista
    songs: dict[ str, list ] = { }

    for index, row in lyrics_df.iterrows():
        if row[ 'Artista' ] == artist:
            song_name: str = row[ 'Nome da Música' ]
            if song_name not in songs:
                lyric: str = str( row[ 'Letra da Música' ] ).replace( '\n', ' ' ).replace( '  ', ' ' )
                caracteres_para_remover = r"[!#$%&'()*+,-./:;<=>?@\\^_`{|}~]"
                lyric = re.sub( caracteres_para_remover, '', lyric )
                lyrics.append( lyric )
                songs[ song_name ] = [ artist, lyric ]

    artist_dict[ artist ] = songs

    # Abrir o arquivo de saída no modo de escrita
    with open( output_file, 'w', encoding = 'utf-8' ) as outfile:
        # Iterar pelos itens do dicionário
        for song, items in songs.items():
            outfile.write( f"Artista: {items[ 0 ]}\n" )
            custom_name: str = str( song ).replace( ' - Ao Vivo', '' )
            outfile.write( f"Nome: {custom_name}\n" )
            outfile.write( f"Letra: {items[ 1 ]}\n" )
            outfile.write( f"\n" )

    print( f"Arquivo '{output_file}' criado com sucesso." )

