# Spark - Core

#### Máster en Data Science y Big Data, AFI Escuela de Finanzas
#### Claudia Quintana Wong

## Descripción de ficheros

Fichero albums.tsv:
* id: Identificador único del disco.
* title: Título del disco.

Fichero artists.tsv:

* id: Identificador único del artista.
* name: Nombre del artista.
* hotness: Nivel de popularidad del artista.
* familiarity: Reconocimiento del artista.
* location: Ubicación del artista.


Fichero songs.tsv:

* id: Identificador único de la canción.
* title: Título de la canción.
* year: Año de publicación de la canción.
* hotness: Popularidad de la canción.
* id_artist: Identificador único del artista de la canción.
* id_album: Identificador único del álbum de la canción.
* duration: Duración en segundos de la canción.
* end_of_fade_in: Segundo de la canción en el que termina el fade in.
* start_of_fade_out: Segundo de la canción en el que empieza el fade out.
* tempo: Tempo de la canción.
* time_signature: Número de tiempos por compás de la canción.
* key: Escala de la canción (de 0 a 11).
* loudness: Volumen de la canción.
* mode: Tipo de escala de la canción (mayor = 0 o menor = 1)
* style: Estilo de la canción.

## Carga de datos

Inicialmente se leen y cargan los datos en memoria. Al ser archivos de de tipo .tsv es necesario separar caa una de las columnas haciendo *split* por el tabulador (\t)

In [1]:
data_folder = './data'

albums = sc.textFile(f'{data_folder}/albums.tsv')
artists = sc.textFile(f'{data_folder}/artists.tsv')
songs = sc.textFile(f'{data_folder}/songs.tsv')

In [2]:
def splitLine(line):
    return line.split('\t')

albums_rdd = albums.map(splitLine)
artists_rdd = artists.map(splitLine)
songs_rdd = songs.map(splitLine)

### 1. ¿Cuál es el estilo más rápido (tempo) en media?

Para dar respuesta a esta interrogante, primeramente se parsea cada observación, dejando solo las variables *style* y *tempo* de cada canción. Posteriormente, se agrupan las canciones por estilo y se calcula la media del *tempo* por grupo. Es importante destacar que la función de media (*parse_group*) fue implementada desde cero. Finalmente, se organizan los grupos ascendentemente de acuerdo a la media calculada y se da como respuesta el primer elemento. Como resultado se obtiene que el estilo más rápido en media es *rebetika*.

In [3]:
def parse(row):
    return (row[14], row[9])

def parse_group(row):
    tempos = [float(value) for key, value in row[1]]
    avg = sum(tempos)/len(tempos)
    return (avg, row[0])

songs_rdd3 = songs_rdd.map(parse)
songs_rdd4 = songs_rdd3.groupBy(lambda item: item[0])
songs_rdd5 = songs_rdd4.map(parse_group)
songs_rdd6 = songs_rdd5.sortByKey().take(1)
songs_rdd6

[(47.447, 'rebetika')]

###  2. ¿Cuales son los 5 artistas, ubicados en UK (cualquier territorio de UK), con mayor número de canciones en escala menor (mode = 1)?

Inicialmente, es necesario filtrar por los artistas que están ubicados en cualquier territorio de UK. Para comprobar esta condición se comprueba que 'UK', 'United Kingdom' o 'England' sea una de las palabras que componen el nombre de la locación. Aunque se pudo observar que hay otros territorios que pueden o no pertenecer a UK, puesto que los nombres de los territorios no aparecen escritos en un formato estándar se ha decidido incluir solo estas comprobaciones porque se considera que estas palabras representan unívocamente territorios de UK. 

Por ejemplo, aparece el territorio "Ireland" pero no es suficiente para saber si se refiere a Irlanda del Norte o simplemente a Irlanda (que no pertenece a UK). Otro ejemplo es el de "Nottingham", donde tampoco se puede distinguir si se refiere a la ciudad inglesa o a un pueblo estadounidense ubicado en Nuevo Hampshire. 

La idea que se sigue para resolver este ejercio es determinar cuáles son los artistas de UK y cuáles con las canciones en escala menor. De manera que, luego a través de un *join* se puede asociar cada artista con sus canciones y contar cuántas canciones de cada artista cumplen la condición. Se ordenan cada uno de los resultados de manera descendente según la cantidad de canciones y se recuperan las primeras observaciones.

Los resultados se presentan en forma de tuplas donde la llave es la cantidad de canciones de un artista y el valor pertenece a información del artista. 

In [4]:
artists_rdd1 = artists_rdd.filter(lambda row: 'UK' in row[4].split() or 
                                  'United Kingdom' in row[4] or 
                                  'England' in row[4].split())
artists_rdd2 = artists_rdd1.map(lambda row: (row[0], row))
songs_rdd1 = songs_rdd.filter(lambda row: row[13] == '1')
songs_rdd2 = songs_rdd1.map(lambda row: row[4])
songs_rdd3 = songs_rdd2.groupBy(lambda item: item)
songs_rdd4 = songs_rdd3.map(lambda item: (item[0],len(item[1])))

In [5]:
join_rdd = artists_rdd2.join(songs_rdd4)
join_rdd1 = join_rdd.map(lambda item: (item[1][1], item[1][0])).sortByKey(ascending=False).take(5)
join_rdd1

[(9,
  ['AR9W3X91187FB3994C',
   'Phil Collins',
   '0.584836889',
   '0.814506224',
   'Chiswick, London, England']),
 (7,
  ['ARFCUN31187B9AD578',
   'The Rolling Stones',
   '0.776037656',
   '0.814829656',
   'London, England']),
 (7,
  ['ARH6W4X1187B99274F',
   'Radiohead',
   '0.68365806',
   '0.899934952',
   'Oxford, UK']),
 (6,
  ['ARD8JVH1187FB4DA04',
   'Bad Company',
   '0.482100019',
   '0.696816892',
   'England']),
 (6,
  ['ARAIABB1187B9AC6E2',
   'Seal',
   '0.580013183',
   '0.567313224',
   'Paddington, London, England'])]

### 3. Desde 1970 hasta hoy, ¿las canciones son más rápidas (tempo), altas (loudness) y cortas (duration) en media? Ordena los resultados por año ascendente.

Para resolver esta consulta primeramente se filtran las canciones que hayan sido lanzadas después de 1970 y se agrupan las observaciones por *year* y posteriormente, calcularemos la media de *tempo*, *loudness* y *duration* con el fin de comprobar si las canciones tienden a ser más rápidas, altas y cortas con el pasar de los años. Los resultados consisten en el año y la media de cada una de estas variables en el orden mencionado. 


In [6]:
songs_rdd5 = songs_rdd.filter(lambda item: int(item[2]) >= 1970)
songs_rdd6 = songs_rdd5.groupBy(lambda item: item[2])

In [7]:
def mean_song(item):
    key, value = item
    year, length = key, len(list(value))
    tempos, loudness, duration = 0, 0, 0
    for val in list(value):
        tempos += float(val[9])
        loudness += float(val[12])
        duration += float(val[6])    
    return (key, [tempos/length, loudness/length, duration/length])
    
songs_rdd7 = songs_rdd6.map(mean_song).sortByKey()
songs_rdd7.collect()

[('1970', [121.34628571428576, -11.92847619047619, 231.42578619047612]),
 ('1971', [136.16195999999997, -12.153000000000002, 259.55428919999997]),
 ('1972', [129.17204166666667, -11.719291666666665, 238.54539749999995]),
 ('1973', [116.356125, -11.711541666666664, 294.16444416666667]),
 ('1974', [125.08609090909091, -10.670681818181817, 239.49134636363632]),
 ('1975', [125.41183333333332, -11.249541666666666, 277.4406354166666]),
 ('1976', [137.26139999999998, -11.6584, 210.99404933333338]),
 ('1977', [139.33685714285716, -11.820114285714288, 255.30692799999997]),
 ('1978', [134.38385, -10.1125, 247.85456749999997]),
 ('1979', [137.51694444444445, -11.879083333333332, 226.0566886111111]),
 ('1980', [126.89337499999999, -11.098531250000002, 210.438730625]),
 ('1981', [127.96074999999999, -11.57044444444444, 211.69224499999987]),
 ('1982', [125.14522, -11.34874, 251.2374241999999]),
 ('1983', [126.14368085106382, -12.302872340425532, 237.46428063829788]),
 ('1984', [127.95625, -12.015031

### 4. ¿Cuál es el estilo que más abusa de los efectos de fade in y fade out (mayor número de segundos desde inicio al final del fade in más desde el inicio del fade out al final de la canción)?

A partir de las variables del problema, para determinar el estilo que más abusa de los efectos *fade in* y *fade out* se utiliza la suguiente expresión:

$$end\_of\_fade\_in + duration - start\_of\_fade\_out$$

El número de segundos desde el inicio de la canción hasta el final del *fade in* está dato por la variable $end\_of\_fade\_in$.

El número de segundos desde el inicio del *fade out* hasta el final de la canción está dado por la expresión: $duration - start\_of\_fade\_out$

Además, teniendo en cuenta que según los datos los efectos de fade in y fade out no están asociados directamente a un estilo, se halla la canción que más abusa de estos efectos y damos como respuesta el estilo asociado. 

En el resultado aparece el efecto *fade* calculado, el estilo y la canción que le corresponde.

In [8]:
def map_song(item):
    return (float(item[7]) + float(item[6]) - float(item[8]), (item[14], item[1]))

songs_rdd8 = songs_rdd.map(map_song)
songs_rdd9 = songs_rdd8.sortByKey(ascending=False)
songs_rdd9.take(1)

[(123.34402, ('industrial dance', 'bereit'))]

La canción que más abusa pertenece al estilo *industrial dance*

### Otra interpretación: 
Una interpretación diferente podría ser que el estilo que más abusa de los efectos fades es aquel en que sus canciones abusan más de este efecto en media

In [9]:
def group_mean(item):
    style = item[0]
    acum_fade = 0
    for fade, _ in list(item[1]):
        acum_fade += fade
    return style, acum_fade/len(list(item[1]))

grouped = songs_rdd8.groupBy(lambda item: item[1][0])

song_rdd_n = grouped.map(group_mean).sortBy(lambda item: item[1], ascending=False)
song_rdd_n.take(1)

[('industrial dance', 61.67226499999998)]

Ambas interpretaciones indican que el estilo que más abusa de los efectos *fades* es el *industrial dance*

### 5. ¿Cual es la canción más popular (hotness) de los 5 artistas más populares (hotness)?

Para resolver esta consulta se siguieron los siguientes pasos:

1. Ordenar los artistas según su popularidad y tomar los 5 más populares.
2. Eliminar de la lista de canciones las que se desconoce su valor de popularidad
3. Agrupar las canciones por artista y quedarnos con la que mayor popularidad tiene en cada grupo
4. Hacer un join entre la lista de los 5 artistas más populares y la lista de la canción más popular por artista


Por último los resultados se presentan en tupas de la forma: $(artist\_id, artist\_name, artist\_hotness, song\_name, song\_hotnese)$

In [10]:
artists_rdd3 = artists_rdd.sortBy(lambda item: item[2], ascending=False).map(lambda item: (item[0], item)).take(5)
artists_rdd3 = sc.parallelize(artists_rdd3) #los 5 aristas más populares

songs_rdd10 = songs_rdd.filter(lambda item: item[3] != 'NA')
songs_rdd10 = songs_rdd10.groupBy(lambda item: item[4])

def get_max(item):
    artist_id = item[0]
    all_songs = list(item[1])
    
    max_score, song = 0, []
    
    for s in all_songs:
        if max_score < float(s[3]):
            max_score = float(s[3])
            song = s
    return (artist_id, song)


songs_rdd11 = songs_rdd10.map(get_max) # de cada artista la canción más hotness
join_rdd2 = artists_rdd3.join(songs_rdd11)
join_rdd3 = join_rdd2.map(lambda item: (item[0], item[1][0][1], item[1][0][2], item[1][1][1], item[1][1][3]))
join_rdd4 = join_rdd3.sortBy(lambda item: item[2], ascending=False)
join_rdd4.collect()

[('ARRH63Y1187FB47783',
  'Kanye West',
  '1.082502557',
  'Street Lights',
  '0.814517241'),
 ('ARF8HTQ1187B9AE693', 'Daft Punk', '1.021255588', 'Da Funk', '0.8622545'),
 ('ARTDQRC1187FB4EFD4',
  'Black Eyed Peas',
  '1.005941966',
  "Let's Get It Started",
  '0.624425493'),
 ('ARS54I31187FB46721',
  'Taylor Swift',
  '0.922412443',
  'The Way I Loved You',
  '0.853828893'),
 ('ARJ7KF01187B98D717',
  'Coldplay',
  '0.916053228',
  'One I Love',
  '0.810263613')]