# Extraindo as Letras da Discografia do Fifth Harmony

Fifth Harmony foi um girl group estadunidense, formado na segunda temporada do reality show The X Factor USA. O grupo era formado por Ally Brooke, Normani Kordei, Lauren Jauregui e Dinah Jane. A formação original incluía Camila Cabello, que anunciou sua saída oficialmente em dezembro de 2016. Elas lançaram um EP e três álbuns completos. O grupo até hoje vendeu mais de 15 milhões de discos e singles apenas nos Estados Unidos.

Seus prêmios incluem quatro iHeartRadio Music Awards, três MTV Europe Music Awards, cinco MTV Video Music Awards, um American Music Award, um Billboard Women in Music Award e nove Teen Choice Awards. Em dezembro de 2016, somente nos Estados Unidos, Fifth Harmony tinha vendido um total de 424 mil álbuns, sete milhões de músicas digitais e 1,6 bilhões de download digital, de acordo com a Nielsen Soundscan.

Originalmente, o nome do grupo era "LYLAS", mas já existia outra banda chamada "The Lylas". Assim, LYLAS mudou seu nome para 1432 na qual os jurados Simon Cowell e L.A. Reid criticaram o novo nome e Cowell sugeriu que mudassem o nome novamente. Cowell decidiu seguir com elas, mas anunciou que abriria uma votação online para escolher um novo nome para o girl group. O nome escolhido pelo público foi "Fifth Harmony".

Cerca de um mês depois de terminar a segunda temporada de X Factor, em 14 de janeiro de 2013, Fifth Harmony foi eleita a "Próxima Superestrela Pop de 2013" pela revista Popdust. Elas passaram a fazer covers e receberam elogios dos artistas originais, entre eles Ed Sheeran, Ariana Grande e Mikky Ekko.

Mais informações no link: https://pt.wikipedia.org/wiki/Fifth_Harmony

<p align="center">
  <img src="5h.jpg" alt="Imagem Banda" width="400">
</p>

## API LyricsGenius
A API LyricsGenius é uma poderosa ferramenta que permite acessar uma vasta coleção de letras de músicas e informações sobre artistas. Desenvolvida pela Genius, uma plataforma conhecida por sua base de dados de letras e anotações, a API oferece funcionalidades que facilitam a busca por letras, detalhes de álbuns, informações sobre colaboradores e muito mais. Com suporte a consultas por nome de artista, título da música ou até mesmo trechos de letras, a API é especialmente útil para desenvolvedores que desejam integrar dados musicais em aplicativos e sites. Além disso, a API fornece recursos para obter anotações e interpretações das letras, enriquecendo a experiência do usuário ao explorar o significado das músicas. Através da LyricsGenius API, os amantes da música e os desenvolvedores podem aprofundar sua compreensão sobre as canções e seus criadores, trazendo um novo nível de interação com a música.

Mais informações e a documentação de como usar a API no link: https://docs.genius.com/

<p align="center">
  <img src="genius.png" alt="Imagem API" width="400">
</p>


In [1]:
# Importando as bibliotecas
import os
import pandas as pd
import requests
import lyricsgenius
import csv

# Chamada de Requisição
api_key = "YOUR API_KEY" # colocar sua chave da API Genius
genius = lyricsgenius.Genius(api_key)

# Busca do artista na API
# Limitando para 50 músicas pois a discografia oficial possui um número menor de músicas do que o valor indicado
artist = genius.search_artist("Fifth Harmony", max_songs=50)

Searching for songs by Fifth Harmony...

Song 1: "Work From Home"
Song 2: "Worth It"
Song 3: "Down"
Song 4: "That’s My Girl"
Song 5: "All in My Head (Flex)"
Song 6: "He Like That"
Song 7: "Don’t Say You Love Me"
Song 8: "Angel"
Song 9: "BO$$"
Song 10: "No Way"
Song 11: "Sledgehammer"
Song 12: "Dope"
Song 13: "The Life"
Song 14: "Write On Me"
Song 15: "Big Bad Wolf"
Song 16: "Deliver"
Song 17: "Reflection"
Song 18: "I’m in Love with a Monster"
Song 19: "I Lied"
Song 20: "Miss Movin’ On"
Song 21: "Gonna Get Better"
Song 22: "Who Are You"
Song 23: "Lonely Night"
Song 24: "Brave, Honest, Beautiful"
Song 25: "1000 Hands"
Song 26: "Bridges"
Song 27: "Sauced Up"
Song 28: "Squeeze"
Song 29: "Make You Mad"
Song 30: "Scared of Happy"
Song 31: "Messy"
Song 32: "Not That Kinda Girl"
Song 33: "We Know"
Song 34: "Red (Live cover)"
Song 35: "Like Mariah"
Song 36: "All Again"
Song 37: "Me & My Girls"
Song 38: "Better Together"
Song 39: "Can You See"
Song 40: "Voicemail"
Song 41: "Top Down"
Song 42: "G

In [3]:
# Importando para um arquivo json
artist.save_lyrics()

Wrote Lyrics_FifthHarmony.json.


In [5]:
# Acessando as chaves principais dos dados contidos no arquivo JSON
data = json.load(open("Lyrics_FifthHarmony.json", "r"))
data.keys()

dict_keys(['alternate_names', 'api_path', 'description', 'facebook_name', 'header_image_url', 'id', 'image_url', 'instagram_name', 'is_meme_verified', 'is_verified', 'name', 'translation_artist', 'twitter_name', 'url', 'current_user_metadata', 'followers_count', 'description_annotation', 'user', 'songs'])

In [7]:
# Carregando dados em um dataframe e examinando os dados dentro de 'songs'
df = pd.DataFrame(data['songs'])
df.keys()

Index(['annotation_count', 'api_path', 'artist_names', 'full_title',
       'header_image_thumbnail_url', 'header_image_url', 'id',
       'lyrics_owner_id', 'lyrics_state', 'path', 'primary_artist_names',
       'pyongs_count', 'relationships_index_url', 'release_date_components',
       'release_date_for_display',
       'release_date_with_abbreviated_month_for_display',
       'song_art_image_thumbnail_url', 'song_art_image_url', 'stats', 'title',
       'title_with_featured', 'url', 'featured_artists', 'primary_artist',
       'primary_artists', 'apple_music_id', 'apple_music_player_url',
       'description', 'embed_content', 'featured_video', 'language',
       'recording_location', 'release_date', 'current_user_metadata',
       'song_art_primary_color', 'song_art_secondary_color',
       'song_art_text_color', 'album', 'custom_performances',
       'description_annotation', 'lyrics_marked_complete_by',
       'lyrics_marked_staff_approved_by', 'media', 'producer_artists',
     

In [11]:
# Selecionando os dados úteis em um novo dataframe
df_oficial = df[['title', 'lyrics', 'release_date']].copy()

# Classificando as músicas pelo álbum
df_oficial['Album'] = df['album'].apply(lambda x: x.get('name') if isinstance(x, dict) else None)

# Eliminando músicas que não pertencem aos álbuns oficiais 
df_oficial = df_oficial.drop(index=[33, 35, 42, 44, 49])

# Reseta o índice, se necessário
df_oficial.reset_index(drop=True, inplace=True)

# Convertendo a coluna 'release_date' para o formato de data
df_oficial['release_date'] = pd.to_datetime(df_oficial['release_date'], errors='coerce')

# Extraindo apenas o ano da coluna 'release_date' para armazenar na 'release_year'
df_oficial['release_year'] = df_oficial['release_date'].dt.year

# Exibindo o dataframe resultante
df_oficial

Unnamed: 0,title,lyrics,release_date,Album,release_year
0,Work From Home,[Verse 1: Camila]\nI ain't worried about nothi...,2016-02-26,7/27 (Japan Deluxe Edition),2016
1,Worth It,"[Chorus: Camila & Kid Ink]\nGive it to me, I'm...",2015-01-30,Reflection (Japan Deluxe Edition),2015
2,Down,[Intro: Gucci Mane]\nIt's Gucci\nFifth Harmony...,2017-06-02,Fifth Harmony,2017
3,That’s My Girl,[Intro: Camila]\nThat's my girl\n\n[Verse 1: A...,2016-05-27,7/27 (Japan Deluxe Edition),2016
4,All in My Head (Flex),"[Intro: Dinah]\nFlex, time to impress\nCome an...",2016-05-27,7/27 (Japan Deluxe Edition),2016
5,He Like That,[Intro: Ally & Normani]\nMmm\nPumps and a bump...,2017-08-25,Fifth Harmony,2017
6,Don’t Say You Love Me,[Chorus: Lauren]\nDon't say you miss me\nWhen ...,2017-08-25,Fifth Harmony,2017
7,Angel,[Intro: Normani & Lauren]\nWho said I was an a...,2017-08-10,Fifth Harmony,2017
8,BO$$,[Intro]\nWoo\nWoo\n\n[Verse 1: Normani]\nEvery...,2014-07-07,Reflection (Japan Deluxe Edition),2014
9,No Way,[Verse 1: Lauren]\nI know you don't want me an...,2016-05-27,7/27 (Japan Deluxe Edition),2016


In [18]:
import nltk
from nltk.corpus import stopwords
import re

# Define uma função para remover stopwords de um texto
def remove_stopwords(text):
    # Separa o texto em uma lista de palavras
    text = text.split(' ')
    # Filtra a lista, mantendo apenas as palavras que não estão na lista de stopwords em inglês
    text = [x for x in text if x not in stopwords.words('english')]
    # Junta a lista de palavras filtradas em uma única string e a retorna
    return ' '.join(text)

# Aplica a função de remoção de stopwords em cada linha da coluna 'lyrics' do dataframe
df_oficial.loc[:, 'lyrics'] = df_oficial.loc[:, 'lyrics'].apply(lambda x: remove_stopwords(x))

# Define uma função para remover pontuação do texto
def remove_ponctuation(text):
    # Usa uma expressão regular para manter apenas letras (maiúsculas e minúsculas) e junta as palavras em uma string
    return " ".join(re.findall("[a-zA-Z]+", text))

# Aplica a função de remoção de pontuação em cada linha da coluna 'lyrics' do dataframe
df_oficial.loc[:, 'lyrics'] = df_oficial.loc[:, 'lyrics'].apply(lambda x: remove_ponctuation(x))

# Define uma função para remover palavras com menos de 3 caracteres do texto
def remove_words_with_less_3(text):
    # Separa o texto em uma lista de palavras
    text = text.split(' ')
    # Filtra a lista, mantendo apenas as palavras com mais de 3 caracteres
    text = [x for x in text if len(x) > 3]
    # Junta a lista de palavras filtradas em uma única string e a retorna
    return ' '.join(text)

# Aplica a função de remoção de palavras curtas em cada linha da coluna 'lyrics' do dataframe
df_oficial.loc[:, 'lyrics'] = df_oficial.loc[:, 'lyrics'].apply(lambda x: remove_words_with_less_3(x))

# Converte todo o texto em letras minúsculas em cada linha da coluna 'lyrics' do dataframe
df_oficial.loc[:, 'lyrics'] = df_oficial.loc[:, 'lyrics'].apply(lambda x: x.lower())

# Cria uma nova coluna 'Word Count' no dataframe que conta o número de palavras em cada linha da coluna 'lyrics'
df_oficial['Word Count'] = df_oficial['lyrics'].apply(lambda x: len(x.split(' ')))

# Função para remover as palavras indesejadas
def remove_unwanted_words(text):
    words_to_remove = ["embed", "intro", "verse", "chorus", "outro", "instrumental"]
    pattern = r'\b(?:' + '|'.join(words_to_remove) + r')\b'
    return re.sub(pattern, '', text, flags=re.IGNORECASE)

# Aplicar a função na coluna de letras
df_oficial["lyrics"] = df_oficial["lyrics"].apply(remove_unwanted_words)

# Salvar o CSV atualizado
df_oficial.to_csv("FifthHarmonyLyrics.csv", index=False)

In [22]:
import sqlite3

# Criando um banco de dados de teste
conn = sqlite3.connect('FifthHarmony.db')

# Salvando no banco de dados
df_oficial.to_sql('lyrics', conn, index=False)

# Verificando se os dados estão presentes no banco de dados
c = conn.cursor()
c.execute('''  
SELECT * FROM LYRICS
          ''')
# Visualização do Banco de Dados gerado
c.fetchall()

[('Work From Home',
  ' camila worried nothin wearin nada sittin pretty impatient know gotta hours make harder sendin picture fired  normani dinah know always night shift stand nights alone need explanation cause baby boss home  lauren gotta work work work work work work work gotta work work work work work work work gotta work work work work work work work body work work work work work work work work home work home  ally ally dinah motion give promotion make feel like vacay turn ocean need nobody need body nothing sheets between getting early  dinah dinah camila camila know always night shift stand nights alone need explanation cause baby boss home yeah yeah  lauren gotta work work work work work work work gotta work work work work work work work gotta work work work work work work work body work work work work work work work work home work home  dolla dolla yeah girl work work make clap hands yeah take ground pick look back yeah work like timesheet ride like woah line ride foreign bre