<img src="images/header.png" alt="Logo UCLM-ESII" align="right">

<br><br><br><br>
<h2><font color="#92002A" size=4>Trabajo Fin de Grado</font></h2>

<h1><font color="#6B001F" size=5>Generaci√≥n autom√°tica de playlist de canciones <br> mediante t√©cnicas de miner√≠a de datos</font></h1>
<h2><font color="#92002A" size=3>Parte 0 - Estudio del 'Million Playlist Dataset' (MPD)</font></h2>

<br>
<div style="text-align: right">
    <font color="#B20033" size=3><strong>Autor</strong>: <em>Miguel √Ångel Cantero V√≠llora</em></font><br>
    <br>
    <font color="#B20033" size=3><strong>Directores</strong>: <em>Jos√© Antonio G√°mez Mart√≠n</em></font><br>
    <font color="#B20033" size=3><em>Juan √Ångel Aledo S√°nchez</em></font><br>
    <br>
<font color="#B20033" size=3>Grado en Ingenier√≠a Inform√°tica</font><br>
<font color="#B20033" size=2>Escuela Superior de Ingenier√≠a Inform√°tica | Universidad de Castilla-La Mancha</font>

</div>

---

<br>

<a id="indice"></a>
<h2><font color="#92002A" size=5>√çndice</font></h2>

<br>

* [1. Introducci√≥n](#section1)
* [2. Carga de ficheros](#section2)
* [3. Estructura de los ficheros JSON](#section3)
* [4. Criterios de construcci√≥n](#section4)  
* [5. Observaciones](#section5)
* [6. Conclusiones](#section6)

<br>

---

In [1]:
# Permite establecer la anchura de la celda
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:95% !important; }</style>"))

In [2]:
#!pip install emoji
#!pip install regex

In [3]:
import emoji
import json
import os
import regex as re

from collections import Counter
from emoji import UNICODE_EMOJI


---

<br>

<a id="section1"></a>
## <font color="#92002A">1 - Introducci√≥n</font>
<br>

Para generar nuestro DataSet con playlists de *Spotify*, hemos tomado como referencia una muestra del conjunto de listas usado para la competici√≥n "[__RecSys Challenge 2018__](https://recsys-challenge.spotify.com/)". Dicha muestra est√° publicada en *GitHub* dentro del proyecto [_Spotify-Song-Recommendation-ML_](https://github.com/vaslnk/Spotify-Song-Recommendation-ML) del usuario *vaslnk*.

A este conjunto se le conoce por el nombre de ["__Million Playlist Dataset__" (MPD)](https://recsys-challenge.spotify.com/readme). El MPD contiene un mill√≥n de listas de reproducci√≥n (playlists) generadas por usuarios de _Spotify_. Estas listas se crearon durante el periodo de enero de 2010 y octubre de 2017. Cada playlist contiene su t√≠tulo, la lista de canciones (incluyendo metadatos de cada una), informaci√≥n de edici√≥n (√∫ltima vez editada y n√∫mero de veces editada) y otra informaci√≥n diversa sobre la playlist.

En esta libreta vamos a ver qu√© caracter√≠sticas posee dicha muestra, para llevar parte de ellas al conjunto que queremos crear.

<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#92002A"></i></font></a>
</div>

---

<a id="section2"></a>
## <font color="#92002A">2 - Carga de ficheros</font>
<br>

In [4]:
# Variables globales

# Directorio donde se encuentra la muestra del MPD
MPD_PATH = 'spotifyMPD/'

In [5]:
mpd_files = [(MPD_PATH + file) for file in os.listdir(MPD_PATH) 
             if file.startswith('mpd.slice.') & file.endswith('.json')]

mpd_dict_list = []

for file in mpd_files:
    with open(file, 'r') as f:
        mpd_dict_list.append(json.load(f))

print(f"{len(mpd_dict_list)} ficheros cargados")

mpd_files

4 ficheros cargados


['spotifyMPD/mpd.slice.1000-1999.json',
 'spotifyMPD/mpd.slice.0-999.json',
 'spotifyMPD/mpd.slice.2000-2999.json',
 'spotifyMPD/mpd.slice.3000-3999.json']

<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#92002A"></i></font></a>
</div>

---

<a id="section3"></a>
## <font color="#92002A">3 - Estructura de los ficheros JSON</font>

<br>

El _Million Playlist Dataset_ est√° dividido en 1.000 ficheros, donde cada uno contiene 1.000 listas de reproducci√≥n. Estos ficheros se han nombrado siguiendo la siguiente convenci√≥n:

<br>

```
mpd.slice.STARTING_PLAYLIST_ID_-_ENDING_PLAYLIST_ID.json
```

<br>

Por ejemplo, las primeras 1.000 listas del MPD est√°n contenidas en un fichero llamado `mpd.slice.0-999.json` y las √∫ltimas 1.000 listas est√°n en un fichero llamado `mpd.slice.999000-999999.json`.

<br>

Cada bloque es un diccionario JSON con dos campos:

- ___info___
- ___playlists___

In [6]:
# Usamos como ejemplo el primer diccionario que tenemos en la lista
example_dict = mpd_dict_list[0]

example_dict.keys()

dict_keys(['info', 'playlists'])

---

<a id="section31"></a>
### <font color="#B20033">El campo '*info*'</font>
<br>

El campo _info_ es un diccionario que contiene informaci√≥n general sobre el bloque en particular:
* ___slice___: Porci√≥n de listas que contiene.
* ___version___: Versi√≥n del conjunto de datos.
* ***generated_on***: Fecha en la que se ha generado (formato *timestamp*).

In [7]:
example_dict['info']

{'generated_on': '2017-12-03 08:41:42.057563',
 'slice': '1000-1999',
 'version': 'v1'}



---

<a id="section32"></a>
### <font color="#B20033">El campo '*playlists*'</font>
<br>

Este campo es un array que contiene 1.000 listas. Cada lista es un diccionario que posee los siguientes campos:

* ***pid***: [integer] Identificador de la playlist dentro del conjunto. Es un n√∫mero entre 0 y 999.999
* ***name***: [string] T√≠tulo de la lista.
* ***modified_at***: [seconds - timestamp] Fecha de modificaci√≥n.
* ***num_artists***: [integer] N√∫mero total de artistas √∫nicos que contiene la playlist.
* ***num_albums***: [integer] N√∫mero total de √°lbumes √∫nicos que contiene la playlist.
* ***num_tracks***: [integer] N√∫mero total de pistas que contiene la playlist.
* **num_followers**: [integer] N√∫mero de seguidores que tiene la playlist.
* ***num_edits***: [integer] N√∫mero de sesiones de edici√≥n. Se considera que las pistas agregadas en una ventana de dos horas han sido agregadas en una sola sesi√≥n de edici√≥n.
* ***duration_ms***: [miliseconds - timestamp] Duraci√≥n total de la playlist.
* ***collaborative***: [boolean] Si es colaborativa.
* ***tracks***: Lista de diccionarios con informaci√≥n sobre las pistas. Cada diccionario contiene los siguientes campos:
    * *track_name*: T√≠tulo de la pista.
    * *track_uri*: Direcci√≥n Spotify de la pista.
    * *album_name*: T√≠tulo del √°lbum.
    * *album_uri*: Direcci√≥n Spotify del √°lbum.
    * *artist_name*: Nombre del artista.
    * *artist_uri*: Direcci√≥n Spotify del artista.
    * *duration_ms*: Duraci√≥n en milisegundos de la pista.
    * *pos*: Posici√≥n de la pista dentro de la playlist.    

In [8]:
example_dict['playlists'][0].keys()

dict_keys(['name', 'collaborative', 'pid', 'modified_at', 'num_tracks', 'num_albums', 'num_followers', 'tracks', 'num_edits', 'duration_ms', 'num_artists'])

In [9]:
example_dict['playlists'][0]['tracks'][0].keys()

dict_keys(['pos', 'artist_name', 'track_uri', 'artist_uri', 'track_name', 'album_uri', 'duration_ms', 'album_name'])

---

<a id="section33"></a>
### <font color="#B20033">Ejemplo</font>

<br>

A continuaci√≥n se muestra un item de ejemplo perteneciente a la lista de playlists:

```json
{
    "name": "musical",
    "collaborative": "false",
    "pid": 5,
    "modified_at": 1493424000,
    "num_albums": 7,
    "num_tracks": 12,
    "num_followers": 1,
    "num_edits": 2,
    "duration_ms": 2657366,
    "num_artists": 6,
    "tracks": [
        {
            "pos": 0,
            "artist_name": "Degiheugi",
            "track_uri": "spotify:track:7vqa3sDmtEaVJ2gcvxtRID",
            "artist_uri": "spotify:artist:3V2paBXEoZIAhfZRJmo2jL",
            "track_name": "Finalement",
            "album_uri": "spotify:album:2KrRMJ9z7Xjoz1Az4O6UML",
            "duration_ms": 166264,
            "album_name": "Dancing Chords and Fireflies"
        },
        {
            "pos": 1,
            "artist_name": "Degiheugi",
            "track_uri": "spotify:track:23EOmJivOZ88WJPUbIPjh6",
            "artist_uri": "spotify:artist:3V2paBXEoZIAhfZRJmo2jL",
            "track_name": "Betty",
            "album_uri": "spotify:album:3lUSlvjUoHNA8IkNTqURqd",
            "duration_ms": 235534,
            "album_name": "Endless Smile"
        },
        {
            "pos": 2,
            "artist_name": "Degiheugi",
            "track_uri": "spotify:track:1vaffTCJxkyqeJY7zF9a55",
            "artist_uri": "spotify:artist:3V2paBXEoZIAhfZRJmo2jL",
            "track_name": "Some Beat in My Head",
            "album_uri": "spotify:album:2KrRMJ9z7Xjoz1Az4O6UML",
            "duration_ms": 268050,
            "album_name": "Dancing Chords and Fireflies"
        },
        // 8 tracks omitted
        {
            "pos": 11,
            "artist_name": "Mo' Horizons",
            "track_uri": "spotify:track:7iwx00eBzeSSSy6xfESyWN",
            "artist_uri": "spotify:artist:3tuX54dqgS8LsGUvNzgrpP",
            "track_name": "Fever 99\u00b0",
            "album_uri": "spotify:album:2Fg1t2tyOSGWkVYHlFfXVf",
            "duration_ms": 364320,
            "album_name": "Come Touch The Sun"
        }
    ],
}
```

<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#92002A"></i></font></a>
</div>

---

<a id="section4"></a>
## <font color="#92002A">4 - Criterios de construcci√≥n</font>

<br>

El _Million Playlist Dataset_ se ha creado muestreando listas de reproducci√≥n de los miles de millones que existen en _Spotify_ y que los usuarios han creado a lo largo de los a√±os. Las listas de reproducci√≥n que cumplen los siguientes criterios, se seleccionan al azar:

* Ha sido creada por un usuario que reside en los Estados Unidos y es mayor de 13 a√±os.
* A la hora en la que fue generado el MPD, la lista era p√∫blica.
* Contiene entre 5 y 250 pistas.
* Contiene al menos 3 artistas √∫nicos.
* Contiene al menos 2 √°lbumes √∫nicos.
* No contiene pistas locales (pistas que no est√°n en _Spotify_ y que el usuario tiene en su dispositivo personal).
* Tienen al menos un seguidor (sin incluir el creador de la playlist).
* Se han creado despu√©s del 1 de junio de 2010 y antes del 1 de diciembre de 2017.
* No tiene un t√≠tulo ofensivo.
* No tiene un t√≠tulo orientado a adultos si la lista de reproducci√≥n fue creada por un usuario menor de 18 a√±os.

<br>

A continuaci√≥n, vamos a comprobar algunos de estos criterios en la muestra que hemos obtenido:

In [10]:
playlists = []

# Descartamos la clave 'info' y concatenamos los 
# valores de la clave 'playlists' en una nueva lista
for item in mpd_dict_list:
    playlists += item['playlists']
    
print(f"N√∫mero de listas: {len(playlists)} ")

N√∫mero de listas: 4000 


---
<a id="section41"></a>
### <font color="#B20033" size=3>N√∫mero de pistas</font>
<br>

In [11]:
print("N√∫mero m√°ximo de pistas: {0}".format(max([pl['num_tracks'] for pl in playlists])))
print("N√∫mero m√≠nimo de pistas: {0}".format(min([pl['num_tracks'] for pl in playlists])))

N√∫mero m√°ximo de pistas: 248
N√∫mero m√≠nimo de pistas: 5


---
<a id="section42"></a>
### <font color="#B20033" size=3>N√∫mero de √°lbumes</font>
<br>

In [12]:
print("N√∫mero m√≠nimo de √°lbumes: {0}".format(min([pl['num_albums'] for pl in playlists])))

N√∫mero m√≠nimo de √°lbumes: 2


---
<a id="section43"></a>
### <font color="#B20033" size=3>N√∫mero de artistas</font>
<br>

In [13]:
print("N√∫mero m√≠nimo de artistas: {0}".format(min([pl['num_artists'] for pl in playlists])))

N√∫mero m√≠nimo de artistas: 3


---
<a id="section44"></a>
### <font color="#B20033" size=3>N√∫mero de seguidores</font>
<br>

In [14]:
print("N√∫mero m√≠nimo de seguidores: {0}".format(min([pl['num_followers'] for pl in playlists])))

N√∫mero m√≠nimo de seguidores: 1


---

<br>

<div class="alert alert-block alert-warning">

<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
__Importante__: Algunas caracter√≠sticas como el pa√≠s de residencia del usuario, fecha de creaci√≥n o edad del usuario (para comprobar que no contiene t√≠tulos orientados a adultos), no es posible obtenerlas ya que la WebAPI de _Spotify_ no proporciona esta informaci√≥n.
</div>

<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i> __Nota 1__: Si una lista es p√∫blica o contiene pistas locales no podemos comprobarlo en este fragmento del MPD, pero si podremos hacerlo una vez descarguemos las playlists. 
</div>

<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i> __Nota 2__:
Podemos comprobar si un t√≠tulo es ofensivo, pero no de forma directa (WebAPI de *Spotify*). Para ello, buscaremos un conjunto de '*palabras ofensivas*' que nos permitan realizar esta comprobaci√≥n.
</div>

<br>

<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#92002A"></i></font></a>
</div>

---

<a id="section5"></a>
## <font color="#92002A">5 - Observaciones</font>
<br>

A parte de los criterios de construcci√≥n con los que se llev√≥ a cabo el DataSet, vamos a hacer algunas comprobaciones en los t√≠tulos para ver si podemos extraer alguna nueva caracter√≠stica que nos ayude a crear nuestro propio conjunto.

### <font color="#B20033" size=3>Longitud de los t√≠tulos</font>
<br>

In [15]:
# Creamos una lista con los t√≠tulos de las playlists
names = [pl['name'] for pl in playlists]

sort_name = min(names, key=len) # T√≠tulo m√°s corto
long_name = max(names, key=len) # T√≠tulo m√°s largo

In [16]:
print("T√≠tulo m√°s corto:")
print(f"\t{sort_name} --> {len(sort_name)} caracteres\n\n")

print("T√≠tulo m√°s largo:")
print(f"\t{long_name}")
chars = len(long_name) - long_name.count(' ')
print(f"\t- {chars} caracteres (sin espacios)")

T√≠tulo m√°s corto:
	pr --> 2 caracteres


T√≠tulo m√°s largo:
	Fifty Shades Of Grey (Original Motion Picture Soundtrack)
	- 50 caracteres (sin espacios)


<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i> __Nuevo criterio__: El t√≠tulo contiene entre 2 y 50 caracteres (sin espacios).
</div>

<br>

Vamos a estudiar tambi√©n el n√∫mero de palabras que tiene un t√≠tulo:

In [17]:
print("N√∫mero m√°ximo de palabras que tiene un t√≠tulo: {0}".format(max([len(pl['name'].split()) for pl in playlists])))

N√∫mero m√°ximo de palabras que tiene un t√≠tulo: 9


<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i> __Nuevo criterio__: El t√≠tulo contiene menos de 10 palabras.
</div>

---

### <font color="#B20033" size=3>Existencia de emoticonos</font>
<br>

Estudiamos el n√∫mero de emoticonos/emojis que contienen los t√≠tulos de las playlists:

In [18]:
# Comprueba si el car√°cter es un emoticono.
def is_emoji(s):
    return s in UNICODE_EMOJI['en']

# Comprueba si un texto contiene emoticonos.
def contains_emoji(text):
    return len([c for c in UNICODE_EMOJI['en'] if(c in str(text))]) > 0

# Comprueba si un texto contiene s√≥lo emoticonos.
def all_text_emoji(text):
    return all([(c in UNICODE_EMOJI['en']) for c in str(text)])

# Cuenta los emoticonos que contiene un texto.
def count_text_emoji(text):
    return sum([(c in UNICODE_EMOJI['en']) for c in str(text)])

# Elimina los emoticonos de un texto.
def remove_emoji(text):
    return emoji.get_emoji_regexp().sub(u'', str(text))

In [19]:
max_emojis = max([len(name) for name in names if count_text_emoji(name)])
print(f"N√∫mero m√°ximo de emojis que contiene el t√≠tulo: {max_emojis}")

N√∫mero m√°ximo de emojis que contiene el t√≠tulo: 10


<br>

Si el t√≠tulo s√≥lo contiene emojis, el n√∫mero m√°ximo de estos es:

In [20]:
max_only_emojis = max([len(name) for name in names if all_text_emoji(name)])
print(f"N√∫mero m√°ximo de emojis que contiene el t√≠tulo: {max_only_emojis}")

N√∫mero m√°ximo de emojis que contiene el t√≠tulo: 6


<br>

<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i> __Nuevos criterios__:
* El t√≠tulo contiene como m√°ximo 10 emoticonos, si tambi√©n contiene texto.
* Si el t√≠tulo est√° formado √∫nicamente por emoticonos, contiene un n√∫mero m√°ximo de 4.
</div>

---

### <font color="#B20033" size=3>Alfabeto</font>
<br>

Por √∫ltimo, vamos a comprobar si los t√≠tulos de la muestra de playlists contienen algun car√°cter que no sea perteneciente al alfabeto latino:

In [21]:
# Comprueba que los caracteres de un texto pertenecen
# al alfabeto latino o al conjunto de caracteres comunes
def contains_valid_characters(input):
    """
    :param input: Texto que queremos comprobar.
    :return: Si pertenece o no al alfabeto (boolean).
    """
    text = str(input)
    pattern = re.compile(r'([\p{IsCommon}\p{IsLatin}]+)', re.UNICODE)
    result = re.search(pattern,text)
    is_valid = False
    if len(result) > 0:
        is_valid = len(result[0]) == len(text)
    return is_valid

Con la funci√≥n que hemos declarado en el bloque anterior, vamos a imprimir aquellos t√≠tulos que contienen alg√∫n car√°cter que no sea del alfabeto latino, _{IsLatin}_ o del conjunto de caracteres comunes, _{IsCommon}_.

In [22]:
for name in names:
    if not contains_valid_characters(name):
        print(name)

‚ù§Ô∏è
‚ù§Ô∏è
‚òÅÔ∏è‚òÅÔ∏è‚òÅÔ∏è
‚ùÑÔ∏è
‚úîÔ∏è
( Õ°¬∞ Õú ñ Õ°¬∞)
‚ö°Ô∏è‚ö°Ô∏è‚ö°Ô∏è
‚ö°Ô∏è
‚ùÑÔ∏è
üèÉüèº‚Äç‚ôÄÔ∏è
‚ÄºÔ∏è
‚ù§Ô∏è
‚ù§Ô∏è‚ù§Ô∏è
‚ù§Ô∏è
‚ù§Ô∏è


Vemos que aquellos t√≠tulos que la funci√≥n nos ha devuelto como _False_ contienen solamente emoticonos (a excepci√≥n del 2 y el 11). Por lo tanto, consideramos que no tenemos otros caracteres pertenecientes a otros alfabetos.

<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i> __Nuevo criterio__: Los t√≠tulos s√≥lo contienen caracteres del alfabeto latino y emoticonos.
</div>

---

### <font color="#B20033" size=3>Otras observaciones</font>

<br>

Para hacernos una idea de qu√© contienen los t√≠tulos de las playlists, vamos a ver cu√°les son las palabras (junto al n√∫mero de apariciones) que existen en el conjunto:

In [23]:
word_list = Counter(' '.join(names).lower().split()).most_common()
word_list[0:15]

[('country', 149),
 ('chill', 117),
 ('music', 106),
 ('songs', 94),
 ('summer', 89),
 ('rock', 77),
 ('new', 71),
 ('playlist', 66),
 ('good', 64),
 ('party', 60),
 ('rap', 60),
 ('workout', 59),
 ('the', 58),
 ('christmas', 55),
 ('mix', 50)]

Como podemos observar, algunas de las palabras m√°s frecuentes que contienen los t√≠tulos son:
- G√©neros musicales
- Estaciones del a√±o
- Estados de √°nimo
- Actividades
- Eventos
- ...

<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#92002A"></i></font></a>
</div>

---

<a id="section6"></a>
## <font color="#92002A">6 - Conclusiones</font>
<br>

Una vez estudiada la muestra obtenida del *Million Playlist Dataset*, hemos obtenido los siguientes criterios para crear nuestro propio conjunto:

1. La playlist es p√∫blica (al menos durante la fase de descarga).
2. Contiene entre 5 y 250 pistas.
3. Contiene al menos 3 artistas √∫nicos.
4. Contiene al menos 2 √°lbumes √∫nicos.
5. No contiene pistas locales.
6. Tienen al menos un seguidor.
7. No tiene un t√≠tulo ofensivo.
8. El t√≠tulo contiene entre 2 y 50 caracteres (sin espacios).
9. El t√≠tulo contiene menos de 10 palabras.
10. Los t√≠tulos s√≥lo contienen caracteres del alfabeto latino y emoticonos.
11. El t√≠tulo contiene como m√°ximo 10 emoticonos, si tambi√©n contiene texto.
12. Si el t√≠tulo est√° formado √∫nicamente por emoticonos, contiene un n√∫mero m√°ximo de 4.

<br>

La mayor parte de estos criterios ser√°n aplicados en la libreta [_Filtrado de Playlists_](04-FiltradoPlaylists.ipynb). Sin embargo, para reducir el n√∫mero de playlists a obtener y facilitar la descarga, otros de ellos ser√°n aplicados en las siguientes libretas:
- [Preparaci√≥n de la descarga de playlists](02-PreparacionDescarga.ipynb).
- [Descarga de playlists](03-DescargaPlaylists.ipynb).

<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#92002A"></i></font></a>
</div>

---

<div style="text-align: right"> <font size=6><i class="fa fa-graduation-cap" aria-hidden="true" style="color:#92002A"></i> </font></div>