# Proyecto Colaborativo

> El proyecto consiste en el desarrollo de un proceso ETL básico con el objetivo de realizar un análisis estadístico de datos.

## ETL - Extract, Transform, Load

Un proceso (o pipeline) ETL es una secuencia de operaciones de **descarga, transformación y carga de datos**. La estructura de un ETL, por lo tanto, se desarrolla de manera secuencial.
- Primero realizamos una **extracción automatizada** de información desde alguna fuente de datos, típicamente una **base de datos o API**.
- Una vez los datos están todos extraídos, **se procesan** para facilitar las tareas para las cuales se van a utilizar estos datos. Por ejemplo, podemos transformar nuestros datos de una estructura de dos tablas relacionadas entre sí, en una estructura de una única tabla combinada. Durante esta etapa también se realiza la **limpieza de datos**, que consiste en ajustar la información a un formato fácilmente procesable (ej. convertir strings de fechas a objetos `datetime`, convertir valores como `--` o `?` en `np.nan` para facilitar análisis de valores perdidos, etc.).
- Cuando los datos ya están transformados y listos para el caso de uso, se almacenan conservando este nuevo formato, con el objetivo de no repetir todo el proceso de extracción y transformación de nuevo cada vez que se quieran utilizar. El almacenamiento típicamente se realiza en una **base de datos**, o estructuras de almacenamiento más permisivas como **data lakes** y **sistemas de ficheros**. Esto último dependerá de la naturaleza de la información y de las restricciones técnicas y económicas del proyecto.

Existen dos formas comunes de diseñar e implementar un proceso ETL:
- La primera, y la más fácil, es una en la que extraemos todos los datos, luego procesamos todo, y luego almacenamos todo.
- La segunda, un poco más difícil, pero a la vez robusta a grandes volúmenes de datos, consiste en procesar y almacenar la información sobre la marcha, mientras se está extrayendo.

## Fases del proyecto

En este proyeco se espera la implementación completa de una pipeline ETL destinada a facilitar un análisis de datos de cara a un cliente final. Estas son las fases del proyecto:

- **ETL**: Realizamos el proceso descrito anteriormente, mediante la técnica de implementación que prefieran. La fuente de datos debe ser una o varias API(s) pública(s) a elección del equipo y validada según el criterio del docente. Los datos se almacenarán en el sistema de ficheros del ordenador.
- **Análisis de Datos**: Con los datos transformados y almacenados, se tiene que realizar un estudio y análisis de la información que contienen. El estudio tiene que tener un foco claro y unas preguntas objetivo que se desean responder. El estudio tiene que comprender la exploración de la información y la presentación de visualizaciones y medidas estadísticas que ayuden a responder a las preguntas objetivo.
- **Entrega**: La entrega del proyecto se realizará a través del correo electrónico. Un representante del equipo enviará un email adjuntando el enlace al repositorio público de GitHub (u otro servicio cloud de Git, Como GitLab, BitBucket o Codeberg). En el repositorio tienen que estar presentes todos los notebooks utilizados para el trabajo, bien estructurados e idealmente enumerados en orden de ejecución para todo aquel que quiera probar el código. Es importante el uso correcto de `.gitignore` para evitar saturar el repositorio con ficheros y carpetas que no aporten valor al trabajo, así como para escribir en un fichero ignorado información sensible como credenciales de las APIs.

In [2]:
import requests
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns

In [20]:
url = " http://ws.audioscrobbler.com/2.0/"

In [23]:
API_KEY = "29c90c00701a7497d7223d0ebe0b0c63"

url = "https://ws.audioscrobbler.com/2.0/"

params = {
    "method": "chart.gettopartists",
    "api_key": API_KEY,
    "format": "json",
    "limit": 50
}

response = requests.get(url, params=params)
data = response.json()

In [25]:
response = requests.get(url, params=params)
response.status_code

200

In [26]:
data.keys()

dict_keys(['artists'])

In [28]:
data["artists"].keys()

dict_keys(['artist', '@attr'])

In [29]:
data["artists"]["artist"][:2]

[{'name': 'The Weeknd',
  'playcount': '1070953019',
  'listeners': '5166246',
  'mbid': 'c8b03190-306c-4120-bb0b-6f2ebfc06ea9',
  'url': 'https://www.last.fm/music/The+Weeknd',
  'streamable': '0',
  'image': [{'#text': 'https://lastfm.freetls.fastly.net/i/u/34s/2a96cbd8b46e442fc41c2b86b821562f.png',
    'size': 'small'},
   {'#text': 'https://lastfm.freetls.fastly.net/i/u/64s/2a96cbd8b46e442fc41c2b86b821562f.png',
    'size': 'medium'},
   {'#text': 'https://lastfm.freetls.fastly.net/i/u/174s/2a96cbd8b46e442fc41c2b86b821562f.png',
    'size': 'large'},
   {'#text': 'https://lastfm.freetls.fastly.net/i/u/300x300/2a96cbd8b46e442fc41c2b86b821562f.png',
    'size': 'extralarge'},
   {'#text': 'https://lastfm.freetls.fastly.net/i/u/300x300/2a96cbd8b46e442fc41c2b86b821562f.png',
    'size': 'mega'}]},
 {'name': 'Taylor Swift',
  'playcount': '3546833443',
  'listeners': '5799862',
  'mbid': '20244d07-534f-4eff-b4d4-930878889970',
  'url': 'https://www.last.fm/music/Taylor+Swift',
  'stream

In [30]:
artists = data["artists"]["artist"]

df = pd.DataFrame(artists)
df.head()

Unnamed: 0,name,playcount,listeners,mbid,url,streamable,image
0,The Weeknd,1070953019,5166246,c8b03190-306c-4120-bb0b-6f2ebfc06ea9,https://www.last.fm/music/The+Weeknd,0,[{'#text': 'https://lastfm.freetls.fastly.net/...
1,Taylor Swift,3546833443,5799862,20244d07-534f-4eff-b4d4-930878889970,https://www.last.fm/music/Taylor+Swift,0,[{'#text': 'https://lastfm.freetls.fastly.net/...
2,Radiohead,1320657387,8072132,a74b1b7f-71a5-4011-9441-d0b5e4122711,https://www.last.fm/music/Radiohead,0,[{'#text': 'https://lastfm.freetls.fastly.net/...
3,Kendrick Lamar,991074491,4956260,381086ea-f511-4aba-bdf9-71c753dc5077,https://www.last.fm/music/Kendrick+Lamar,0,[{'#text': 'https://lastfm.freetls.fastly.net/...
4,Ariana Grande,1051950170,4346320,f4fdbb4c-e4b7-47a0-b83b-d91bbfcfa387,https://www.last.fm/music/Ariana+Grande,0,[{'#text': 'https://lastfm.freetls.fastly.net/...


In [31]:
df["playcount"] = df["playcount"].astype(int)

In [32]:
df["listeners"] = df["listeners"].astype(int)

In [34]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   name        50 non-null     object
 1   playcount   50 non-null     int64 
 2   listeners   50 non-null     int64 
 3   mbid        48 non-null     object
 4   url         50 non-null     object
 5   streamable  50 non-null     object
 6   image       50 non-null     object
dtypes: int64(2), object(5)
memory usage: 2.9+ KB


In [36]:
df["streamable"].unique()

array(['0'], dtype=object)

In [37]:
df.shape

(50, 7)

In [38]:
df.sort_values("playcount", ascending = False).head(10)

Unnamed: 0,name,playcount,listeners,mbid,url,streamable,image
1,Taylor Swift,3546833443,5799862,20244d07-534f-4eff-b4d4-930878889970,https://www.last.fm/music/Taylor+Swift,0,[{'#text': 'https://lastfm.freetls.fastly.net/...
14,Lana Del Rey,1512009653,5114914,b7539c32-53e7-4908-bda3-81449c367da6,https://www.last.fm/music/Lana+Del+Rey,0,[{'#text': 'https://lastfm.freetls.fastly.net/...
7,Kanye West,1462562966,7799218,,https://www.last.fm/music/Kanye+West,0,[{'#text': 'https://lastfm.freetls.fastly.net/...
2,Radiohead,1320657387,8072132,a74b1b7f-71a5-4011-9441-d0b5e4122711,https://www.last.fm/music/Radiohead,0,[{'#text': 'https://lastfm.freetls.fastly.net/...
5,Drake,1098811856,6582793,9fff2f8a-21e6-47de-a2b8-7f449929d43f,https://www.last.fm/music/Drake,0,[{'#text': 'https://lastfm.freetls.fastly.net/...
0,The Weeknd,1070953019,5166246,c8b03190-306c-4120-bb0b-6f2ebfc06ea9,https://www.last.fm/music/The+Weeknd,0,[{'#text': 'https://lastfm.freetls.fastly.net/...
49,The Beatles,1069606894,6389096,b10bbbfc-cf9e-42e0-be17-e2c3e1d2600d,https://www.last.fm/music/The+Beatles,0,[{'#text': 'https://lastfm.freetls.fastly.net/...
4,Ariana Grande,1051950170,4346320,f4fdbb4c-e4b7-47a0-b83b-d91bbfcfa387,https://www.last.fm/music/Ariana+Grande,0,[{'#text': 'https://lastfm.freetls.fastly.net/...
8,"Tyler, The Creator",1006358172,4196662,f6beac20-5dfe-4d1f-ae02-0b0a740aafd6,"https://www.last.fm/music/Tyler,+The+Creator",0,[{'#text': 'https://lastfm.freetls.fastly.net/...
6,Lady Gaga,993115063,7556103,650e7db6-b795-4eb5-a702-5ea2fc46c848,https://www.last.fm/music/Lady+Gaga,0,[{'#text': 'https://lastfm.freetls.fastly.net/...


In [39]:
df.describe()

Unnamed: 0,playcount,listeners
count,50.0,50.0
mean,669440400.0,4604100.0
std,536219600.0,1857881.0
min,69435610.0,2030620.0
25%,334042100.0,3126427.0
50%,561028500.0,4123732.0
75%,789514300.0,6151632.0
max,3546833000.0,8947047.0


In [68]:
df.to_csv("top_artist_lastfm.csv", index = False)

In [38]:
API_KEY = "29c90c00701a7497d7223d0ebe0b0c63"

url2 = "https://ws.audioscrobbler.com/2.0/"

params = {
    "method": "chart.gettoptracks",
    "api_key": API_KEY,
    "format": "json",
    "limit": 50
}

response2 = requests.get(url2, params=params)
data2 = response2.json()

In [39]:
response2 = requests.get(url2, params=params)
response2.status_code

200

In [40]:
data2.keys()

dict_keys(['tracks'])

In [41]:
data2["tracks"].keys()

dict_keys(['track', '@attr'])

In [42]:
tracks = data2["tracks"]["track"]

In [43]:
df_tracks = pd.DataFrame(tracks) 

In [44]:
df_tracks.head()

Unnamed: 0,name,duration,playcount,listeners,mbid,url,streamable,artist,image
0,End of Beginning,159,29970287,1839761,74f3b043-c0b4-4590-8c10-bfc4e3a06fef,https://www.last.fm/music/Djo/_/End+of+Beginning,"{'#text': '0', 'fulltrack': '0'}","{'name': 'Djo', 'mbid': '83cedfd0-a118-48eb-ad...",[{'#text': 'https://lastfm.freetls.fastly.net/...
1,HELICOPTER,161,820590,241951,1add4052-879f-49ce-9961-8f095c800c61,https://www.last.fm/music/A$AP+Rocky/_/HELICOPTER,"{'#text': '0', 'fulltrack': '0'}","{'name': 'A$AP Rocky', 'mbid': '25b7b584-d952-...",[{'#text': 'https://lastfm.freetls.fastly.net/...
2,Stateside + Zara Larsson,176,4683753,447433,ffbf7862-2476-4164-ac32-f5904ccefe0f,https://www.last.fm/music/PinkPantheress/_/Sta...,"{'#text': '0', 'fulltrack': '0'}","{'name': 'PinkPantheress', 'mbid': '7441014f-f...",[{'#text': 'https://lastfm.freetls.fastly.net/...
3,Order of Protection,0,400803,211391,,https://www.last.fm/music/A$AP+Rocky/_/Order+o...,"{'#text': '0', 'fulltrack': '0'}","{'name': 'A$AP Rocky', 'url': 'https://www.las...",[{'#text': 'https://lastfm.freetls.fastly.net/...
4,Fame Is a Gun,181,14346794,815574,8a5a12d3-e00d-450b-8c26-e4f4495f9ea7,https://www.last.fm/music/Addison+Rae/_/Fame+I...,"{'#text': '0', 'fulltrack': '0'}","{'name': 'Addison Rae', 'mbid': '610b71d9-fa78...",[{'#text': 'https://lastfm.freetls.fastly.net/...


In [45]:
df_tracks.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   name        50 non-null     object
 1   duration    50 non-null     object
 2   playcount   50 non-null     object
 3   listeners   50 non-null     object
 4   mbid        32 non-null     object
 5   url         50 non-null     object
 6   streamable  50 non-null     object
 7   artist      50 non-null     object
 8   image       50 non-null     object
dtypes: object(9)
memory usage: 3.6+ KB


In [46]:
df_tracks["duration"] = df_tracks["duration"].astype(int)

In [47]:
df_tracks["playcount"] = df_tracks["playcount"].astype(int)

In [48]:
df_tracks["listeners"] = df_tracks["listeners"].astype(int)

In [49]:
df_tracks.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   name        50 non-null     object
 1   duration    50 non-null     int64 
 2   playcount   50 non-null     int64 
 3   listeners   50 non-null     int64 
 4   mbid        32 non-null     object
 5   url         50 non-null     object
 6   streamable  50 non-null     object
 7   artist      50 non-null     object
 8   image       50 non-null     object
dtypes: int64(3), object(6)
memory usage: 3.6+ KB


In [51]:
df_tracks["artist"] = df_tracks["artist"].apply(lambda x: x["name"])

In [52]:
df_tracks

Unnamed: 0,name,duration,playcount,listeners,mbid,url,streamable,artist,image
0,End of Beginning,159,29970287,1839761,74f3b043-c0b4-4590-8c10-bfc4e3a06fef,https://www.last.fm/music/Djo/_/End+of+Beginning,"{'#text': '0', 'fulltrack': '0'}",Djo,[{'#text': 'https://lastfm.freetls.fastly.net/...
1,HELICOPTER,161,820590,241951,1add4052-879f-49ce-9961-8f095c800c61,https://www.last.fm/music/A$AP+Rocky/_/HELICOPTER,"{'#text': '0', 'fulltrack': '0'}",A$AP Rocky,[{'#text': 'https://lastfm.freetls.fastly.net/...
2,Stateside + Zara Larsson,176,4683753,447433,ffbf7862-2476-4164-ac32-f5904ccefe0f,https://www.last.fm/music/PinkPantheress/_/Sta...,"{'#text': '0', 'fulltrack': '0'}",PinkPantheress,[{'#text': 'https://lastfm.freetls.fastly.net/...
3,Order of Protection,0,400803,211391,,https://www.last.fm/music/A$AP+Rocky/_/Order+o...,"{'#text': '0', 'fulltrack': '0'}",A$AP Rocky,[{'#text': 'https://lastfm.freetls.fastly.net/...
4,Fame Is a Gun,181,14346794,815574,8a5a12d3-e00d-450b-8c26-e4f4495f9ea7,https://www.last.fm/music/Addison+Rae/_/Fame+I...,"{'#text': '0', 'fulltrack': '0'}",Addison Rae,[{'#text': 'https://lastfm.freetls.fastly.net/...
5,The Fate of Ophelia,226,19950287,904708,8670a098-6ab7-4e18-8ac0-0ec7259151f8,https://www.last.fm/music/Taylor+Swift/_/The+F...,"{'#text': '0', 'fulltrack': '0'}",Taylor Swift,[{'#text': 'https://lastfm.freetls.fastly.net/...
6,Punk Rocky,234,1153004,258575,4f120766-a704-4abe-a643-a48f52e9fa34,https://www.last.fm/music/A$AP+Rocky/_/Punk+Rocky,"{'#text': '0', 'fulltrack': '0'}",A$AP Rocky,[{'#text': 'https://lastfm.freetls.fastly.net/...
7,STOLE YA FLOW,0,469085,192213,,https://www.last.fm/music/A$AP+Rocky/_/STOLE+Y...,"{'#text': '0', 'fulltrack': '0'}",A$AP Rocky,[{'#text': 'https://lastfm.freetls.fastly.net/...
8,I Just Might,212,859780,241825,781018b7-f4f0-4fae-9b41-f45ecbe34024,https://www.last.fm/music/Bruno+Mars/_/I+Just+...,"{'#text': '0', 'fulltrack': '0'}",Bruno Mars,[{'#text': 'https://lastfm.freetls.fastly.net/...
9,WHERE IS MY HUSBAND!,196,7018239,743678,8493b88b-faf1-4735-b329-2366ad52b955,https://www.last.fm/music/RAYE/_/WHERE+IS+MY+H...,"{'#text': '0', 'fulltrack': '0'}",RAYE,[{'#text': 'https://lastfm.freetls.fastly.net/...


In [53]:
df_tracks = df_tracks[["name", 
                       "duration",
                       "playcount",
                       "listeners",
                      "artist"]]

In [55]:
df_tracks.to_csv("top_tracks_lastfm.csv", index = False)