# Data Hits Extraction

En este cuaderno se explicará el proceso llevado a cabo para la extracción de los *hits* que aparecen en la lista de *billboard hot-100*, con todas sus características.

Para la extracción de se ha desarrollado un objeto (Music_Data), con varias funciones.

El objeto ofrece un total de 5 funciones.

1. Get_Billboard_Data -> Dado un rango de fechas se extraen todos los *hits Hot-100* de *billboard* en ese rango y se añaden diferentes características de cada una de las canciones obtenidas a través de la API de *spotify (spotipy)*

2. Get_Billboard_Data_Lyrics -> Esta función es igual a la anterior, pero añade además, la letra de cada una de las canciones. Se crearon 2 funciones, ya que en un principio se usaba esta función. Pero el proceso es bastante lento en comparación con el anterior, debido al funcionamiento de la API de extracción de canciones (Lyric Genius). Como existen muchas duplicidades en la extracción, se pensó que sería mejor hacer una extracción sin letras de canciones y una vez eliminados todos los duplicados, añadir las letras sobre las canciones de interés, ahorrando mucho tiempo en el proceso.

3. Get_User_Playlist_Data -> Función que permite obtener, para un usuario de *Spotify* dado, todas las canciones de todas sus playlists públicas, con las características de las mismas.

4. Get_User_Playlist_Data_Lyrics -> Función igual a la anterior, que añade a cada una de las canciones, la letra de la misma. Por lo mismo que comentado en la función 2, existen 2 funciones.

5. Get_Lyrics -> Función que dado un dataframe, de los generados con Get_Billboard_Data o Get_User_Playlist_Data, añade la letra de las canciones, esta función se aplicará cuando se filtre por las canciones de interés, y por tanto será mucho más rápido el proceso, de extracción.

Para la generación de los *hits* solo son necesarias las funciones Get_Billboard_Data y/o Get_Billboard_Data_Lyrics, las demás funciones serán usadas en los siguientes cuadernos, ya sea para descargar canciones aleatorias o para extraer las letras de las canciones.

La extracción se ha ido realizando por año desde 1958 (Desde que se existen registros de *Hot-100*) hasta agosto de 2020. Se ha realizado una extracción por año para evitar errores debidos a la conexión, ya que si el rango de fechas es demasiado grande, el tiempo de duración de extracción será más alto y puede ocurrir problemas por alguna caida de conexión y demas, se hace esto para asegurar.

Como se han realizado extracciones desde 1958 hasta 2020, se han realizado un total de 62 extracciones.
Algunas se realizaron con Get_Billboard_Data_Lyrics (las primeras) y otras con Get_Billboard_Data, para agilizar el proceso. 

En este notebook se mostrarán ejemplos de extracción llevados a cabo. No se mostrarán todas las extracciones, ya que el proceso es exactamente el mismo para cada uno de los años.

Para acceder a todos los datos generados, acceder al siguiente [enlace](https://drive.google.com/drive/folders/1NyCAPqVdK4ZcOPovaSirImuEoe7fceAl?usp=sharing).

1. Lo primero necesario es importar el objeto Music_Data para la extracción 

In [1]:
from music_data import Music_Data

2. A continuación es necesario obtener Id's:
    - Obtener un "Spotify client id" siguiendo el enlace: [aqui](https://developer.spotify.com/documentation/general/guides/app-settings/)
    - Obtener un "Genius client id" siguiendo el enlace: [aqui](https://docs.genius.com/#/getting-started-h1)
3. Se inicializa objeto con Id's

In [2]:
# sp_cid: Sustituir por spotify client id (str)
# sp_secret: Sustituir por spotify secret id (str)
# ge_token: Sustituir Genius secret id (str)
data_music = Music_Data("sp_cid", "sp_secret", "ge_token")

4. Aquí se muestran algunos ejemplos de extracción de datos para diferentes años.

In [3]:
df_14 = data_music.Get_Billboard_Data("01-01-2014","31-12-2014")

Added song: The Monster Artist: Eminem 
Added song: Timber Artist: Pitbull 
Added song: Counting Stars Artist: OneRepublic
Added song: Say Something Artist: A Great Big World & Christina Aguilera
Added song: Royals Artist: Lorde
Added song: Demons Artist: Imagine Dragons
Added song: Let Her Go Artist: Passenger
Added song: Wake Me Up! Artist: Avicii
Added song: Wrecking Ball Artist: Miley Cyrus
Added song: Story Of My Life Artist: One Direction
Added song: Roar Artist: Katy Perry
Added song: Drunk In Love Artist: Beyonce 
Added song: Hold On, We're Going Home Artist: Drake 
Added song: Dark Horse Artist: Katy Perry 
Added song: Burn Artist: Ellie Goulding
Added song: Do What U Want Artist: Lady Gaga 
Added song: Sweater Weather Artist: The Neighbourhood
Added song: Team Artist: Lorde
Added song: White Walls Artist: Macklemore & Ryan Lewis 
Added song: 23 Artist: Mike WiLL Made-It 
Added song: Pompeii Artist: Bastille
Added song: Stay The Night Artist: Zedd 
Added song: Unconditionally 

In [4]:
df_14.to_csv ("../Data/top_100_Billboard_2014.csv", index = False, header=True)

In [5]:
df_13 = data_music.Get_Billboard_Data("01-01-2013","31-12-2013")

Added song: Locked Out Of Heaven Artist: Bruno Mars
Added song: Diamonds Artist: Rihanna
Added song: Ho Hey Artist: The Lumineers
Added song: I Knew You Were Trouble. Artist: Taylor Swift
Added song: Beauty And A Beat Artist: Justin Bieber 
Added song: Die Young Artist: Ke$ha
Added song: One More Night Artist: Maroon 5
Added song: I Cry Artist: Flo Rida
Added song: Home Artist: Phillip Phillips
Added song: Thrift Shop Artist: Macklemore & Ryan Lewis 
Added song: Don't You Worry Child Artist: Swedish House Mafia 
Added song: Scream & Shout Artist: will.i.am & Britney Spears
Added song: Try Artist: P!nk
Added song: Some Nights Artist: fun.
Added song: Let Me Love You (Until You Learn To Love Yourself) Artist: Ne-Yo
Added song: Girl On Fire Artist: Alicia Keys 
Added song: The A Team Artist: Ed Sheeran
Added song: It's Time Artist: Imagine Dragons
Added song: Gangnam Style Artist: PSY
Added song: Swimming Pools (Drank) Artist: Kendrick Lamar
Added song: All I Want For Christmas Is You Art

In [6]:
df_13.to_csv ("../Data/top_100_Billboard_2013.csv", index = False, header=True)

In [4]:
df_02 = data_music.Get_Billboard_Data("01-01-2002","31-12-2002")

Added song: How You Remind Me Artist: Nickelback
Added song: U Got It Bad Artist: Usher
Added song: Family Affair Artist: Mary J. Blige
Added song: Get The Party Started Artist: P!nk
Added song: Always On Time Artist: Ja Rule 
Added song: My Sacrifice Artist: Creed
Added song: Whenever, Wherever Artist: Shakira
Added song: Hero Artist: Enrique Iglesias
Added song: Differences Artist: Ginuwine
Added song: A Woman's Worth Artist: Alicia Keys
Added song: Livin' It Up Artist: Ja Rule 
Added song: Gone Artist: 'N Sync
Added song: Wherever You Will Go Artist: The Calling
Added song: Rock The Boat Artist: Aaliyah
Added song: In The End Artist: Linkin Park
Added song: I Do!! Artist: Toya
Added song: Turn Off The Light Artist: Nelly Furtado
Added song: We Thuggin' Artist: Fat Joe 
Added song: Butterflies Artist: Michael Jackson
Added song: Hey Baby Artist: No Doubt 
Added song: Superman (It's Not Easy) Artist: Five For Fighting
Added song: Caramel Artist: City High 
Added song: Only Time Artist

In [5]:
df_02.to_csv ("../Data/top_100_Billboard_2002.csv", index = False, header=True)

In [3]:
df_05 = data_music.Get_Billboard_Data_Lyrics("01-01-2005","31-12-2005")

Added song: Let Me Love You Artist: Mario
Added song: Drop It Like It's Hot Artist: Snoop Dogg 
Added song: 1, 2 Step Artist: Ciara 
Added song: Soldier Artist: Destiny's Child 
Added song: Lovers And Friends Artist: Lil Jon & The East Side Boyz 
Added song: My Boo Artist: Usher And Alicia Keys
Added song: Over And Over Artist: Nelly 
Added song: Wonderful Artist: Ja Rule 
Added song: Lose My Breath Artist: Destiny's Child
Added song: I Don't Want To Be Artist: Gavin DeGraw
Added song: Disco Inferno Artist: 50 Cent
Added song: Breakaway Artist: Kelly Clarkson
Added song: Get Back Artist: Ludacris
Added song: Only U Artist: Ashanti
Added song: Let's Go Artist: Trick Daddy 
Added song: How We Do Artist: The Game 
Added song: She Will Be Loved Artist: Maroon 5
Added song: Boulevard Of Broken Dreams Artist: Green Day
Added song: Karma Artist: Lloyd Banks 
Added song: Goodies Artist: Ciara 
Added song: Dare You To Move Artist: Switchfoot
Added song: What U Gon' Do Artist: Lil Jon & The East

In [4]:
df_05.to_csv ("../Data/top_100_Billboard_2005.csv", index = False, header=True)