# Analisis de Datos - Spotify Worldwide
### Gilberto Espinoza Maciel (gilbertoespinoza97@gmail.com)

## Caso de Estudio: [*Spotify's Worldwide Daily Song Ranking*](https://www.kaggle.com/edumucelli/spotifys-worldwide-daily-song-ranking/home)


* __Conjunto de Datos: __ Spotify Worldwide Daily Song Ranking
* __Descripción: __ El conjunto de datos que se presenta a continuación, muestra las 200 canciones mas escuchadas de cada pais donde el servicio _Spotify_ está disponible. Por ejemplo, los primeros 200 renglones son para el 1 de Enero del 2017, las siguientes 200 columnas son para el 2 de Enero del 2017 de Ecuador (ec). Esta base de datos será guiada principalmente por las columnas _Date_ y _Region_, pues con ellas podemos agrupar datos. Las demas columnas _Position_, _Track Name_, _Artist_, _Streams_ serán el vector de caracteristicas de cada entrada. La columna _URL_ es de acceso libre a la canción a través del servicio de _Spotify Web_. Cada renglon es un registro que nos dice que canción fue escuchada tantas veces (_streams_), que posición alcanzó en la región y fecha correspondiente.

<!-- For instance, the first 200 rows present the ranking for the 1st of January in Argentina. The following 200 rows will contain the ranking for the 2nd of January in Argentina. The regions are alphabetically sorted.
-->
Variable | Descripción | Etiqueta
-------- | ----------- | 
1 | Posicion de la canción en las mas escuchadas | _Position_
2 | Nombre de la canción | _Track Name_
3 | Artista de la canción | _Artist_
4 | Cantidad de veces que ha sido reproducida | _Streams_
5 | URL para escuchar la canción | _URL_
6 | Fecha a la que corresponde el registro | _Date_
7 | País donde se realizo el registro | _Region_


* __Vector de caracteristicas: __ $v = \{ postion, track\_name, artist, streams, date, region\}$

In [1]:
import pandas as pd
# Siendo data.csv el dataset inicial
daily_song_df = pd.read_csv("data/data.csv")
print(daily_song_df.head(10))

   Position                  Track Name           Artist  Streams  \
0         1  Reggaetón Lento (Bailemos)             CNCO    19272   
1         2                    Chantaje          Shakira    19270   
2         3   Otra Vez (feat. J Balvin)    Zion & Lennox    15761   
3         4                Vente Pa' Ca     Ricky Martin    14954   
4         5                      Safari         J Balvin    14269   
5         6                La Bicicleta     Carlos Vives    12843   
6         7                  Ay Mi Dios         IAmChino    10986   
7         8          Andas En Mi Cabeza    Chino & Nacho    10653   
8         9                 Traicionera  Sebastian Yatra     9807   
9        10                 Shaky Shaky     Daddy Yankee     9612   

                                                 URL        Date Region  
0  https://open.spotify.com/track/3AEZUABDXNtecAO...  2017-01-01     ec  
1  https://open.spotify.com/track/6mICuAdrwEjh6Y6...  2017-01-01     ec  
2  https://open.sp

Observamos los primeros  10 registros de nuestro _Data Frame_, las entradas corresponden a Ecuador.

Realizamos un vistazo preliminar del _dataset_.

In [2]:
print("Informacion.")
print(daily_song_df.info())

print("-" * 25) # Barra separadora

print("Descripcion")
print(daily_song_df.describe())

Informacion.
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3441197 entries, 0 to 3441196
Data columns (total 7 columns):
Position      int64
Track Name    object
Artist        object
Streams       int64
URL           object
Date          object
Region        object
dtypes: int64(2), object(5)
memory usage: 183.8+ MB
None
-------------------------
Descripcion
           Position       Streams
count  3.441197e+06  3.441197e+06
mean   9.464399e+01  5.189176e+04
std    5.739567e+01  2.018035e+05
min    1.000000e+00  1.001000e+03
25%    4.500000e+01  3.322000e+03
50%    9.200000e+01  9.227000e+03
75%    1.430000e+02  2.965800e+04
max    2.000000e+02  1.138152e+07


Con `daily_song_df.info()` vemos que contamos con __3 441 197 registros disponibles__. 200 registros por los 53 países da un total de 10 600.
Entonces tenemos un estimado de 324 días en nuestra base de datos. Pero eso pasa si suponemos que cada dia cuanta con sus 200 registros. Puede que haya dias faltantes, países que no cuenten con todos los días, días en que no esten los esperados 200 registros. 

Si suponemos que la base de datos apuntaba a tener las 200 canciones de los 53 países por los 365 días del año 2017, entonces se deberían esperar __3 869 000 registros__ entonces tenemos un estimado de __427 803 registros faltantes__, ubicar donde se encuentran estos hoyos es un objetivo de míneria de datos.

Al observar la descripcion, vemos que las únicas dos variables númericas con las que contamos, _position_ no es útil dado que solo va 1 a 200 siempre. La cantidad de _streams_ es relevante para comparar entre canciones y el principal indicador, dado que marca quien es alcanza el _top_ de las canciones mas escuchadas. Un analísis posterior mas a detalle puede que sea útil.

In [3]:
daily_song_df

Unnamed: 0,Position,Track Name,Artist,Streams,URL,Date,Region
0,1,Reggaetón Lento (Bailemos),CNCO,19272,https://open.spotify.com/track/3AEZUABDXNtecAO...,2017-01-01,ec
1,2,Chantaje,Shakira,19270,https://open.spotify.com/track/6mICuAdrwEjh6Y6...,2017-01-01,ec
2,3,Otra Vez (feat. J Balvin),Zion & Lennox,15761,https://open.spotify.com/track/3QwBODjSEzelZyV...,2017-01-01,ec
3,4,Vente Pa' Ca,Ricky Martin,14954,https://open.spotify.com/track/7DM4BPaS7uofFul...,2017-01-01,ec
4,5,Safari,J Balvin,14269,https://open.spotify.com/track/6rQSrBHf7HlZjtc...,2017-01-01,ec
5,6,La Bicicleta,Carlos Vives,12843,https://open.spotify.com/track/0sXvAOmXgjR2QUq...,2017-01-01,ec
6,7,Ay Mi Dios,IAmChino,10986,https://open.spotify.com/track/6stYbAJgTszHAHZ...,2017-01-01,ec
7,8,Andas En Mi Cabeza,Chino & Nacho,10653,https://open.spotify.com/track/5mey7CLLuFToM2P...,2017-01-01,ec
8,9,Traicionera,Sebastian Yatra,9807,https://open.spotify.com/track/5J1c3M4EldCfNxX...,2017-01-01,ec
9,10,Shaky Shaky,Daddy Yankee,9612,https://open.spotify.com/track/58IL315gMSTD37D...,2017-01-01,ec


En una visualizacion inicial de los datos podemos ver que hay caracteres especiales en el nombre de las canciones. Si esto resulta un problema, se debera configurar una alternativa UTF que pueda leer los simbolos.

In [8]:
""" Diccionario con codigo de regiones """
regiones_id = {'id': 'Indonesia', 'ca': 'Canada', 'sg': 'Singapore', 'pt': 'Portugal', 
              'au': 'Australia', 'hn': 'Honduras', 'dk': 'Denmark', 'pl': 'Poland', 
              'it': 'Italy', 'hk': 'Hong Kong', 'ie': 'Irelad', 'lt': 'Lithuania', 
              'gt': 'Guatemala', 'se': 'Senegal', 'lu': 'Luxemburg', 'fr': 'France', 
              'ar': 'Argentina', 'ec': 'Ecuador', 'uy': 'Uruguay', 'tw': 'Taiwan', 
              'gr': 'Greece', 'do': 'Dominic Republic', 'fi': 'Finland', 'co': 'Colombia', 
              'global': 'Global', 'lv': 'Latvia', 'cz': 'Czech Republic', 'at': 'Austria', 
              'bo': 'Bolivia', 'gb': 'United Kingdom', 'jp': 'Japon', 'be': 'Belgium', 
              'es': 'Spain', 'ee': 'Estonia', 'no': 'Norway', 'nz': 'New Zeland', 
              'tr': 'Turkey', 'br': 'Brazil', 'is': 'Iceland', 'pe': 'Peru', 
              'cr': 'Costa Rica', 'mx': 'Mexico', 'ch': 'Switzerland', 
              'pa': 'Panama', 'nl': 'Netherlands', 'hu': 'Hungary', 'ph': 'Philippines',
              'sk': 'Slovakia', 'sv': 'El Salvador', 'cl': 'Chile', 'us': 'United States',
              'my': 'Malaysia', 'de': 'Germany', 'py': 'Paraguay'}

# Para conveniencia de manejo de nombres paises usamos este diccionario inverso
regiones_name = {v : k for k,v in regiones_id.items()}
# test
assert regiones_name['Mexico'] == 'mx'

#columns = daily_song_df.columns
df_columnas = ['Position', 'Track Name', 'Artist', 'Streams', 'URL', 'Date', 'Region']


In [9]:
""" Bloque de funciones """
import pickle

def save_p(object, filename, path="data/"):
    
    file_object = open(path+filename, 'wb')
    pickle.dump(object, file_object)  #PICKLE
    file_object.close()
    
def load_p(filename, path="data/"):
    file_object = open(path+filename,'rb')
    objeto = pickle.load(file_object)       #PICKLE
    return objeto
    
    


### Análisis de las regiones
Extraemos los intervalos dentro del dataframe que corresponden a las distintas regiones

In [10]:
""" CARGANDO DE PICKLE
# rangos para todas las regiones
region_range = dict() #un dict cuyas keys seran las regiones

for region in regiones.keys(): #Guardamos las posiciones en una lista
    region_range[region] = list()

for i in range(0, len(daily_song_df)): # region_range.dict - Guardado File
    region_range[ daily_song_df["Region"][i] ].append(i)
"""
# GUARDANDO
#save_p(region_range, "region_range.dict")
""" CARGAMOS EL DICCIONARIO """
region_range = load_p("region_range.dict")

Ahora contamos con el indice de todos los registros para cada region. Para comodidad guaramos esto utilizando `pickle`, utilizando las funciones previamente declaradas.
Ahora realizaremos un analisis de las registros encontrados. Inicialmente encontraremos la cantidad de registros total que tiene cada region, para poder ver donde estan los datos faltantes.

In [11]:
region_total = dict()
for region in region_range:
    region_total[region] = len(region_range[region])
    
CANT_MAX_DIAS = max([region_total[region] for region in region_total])
print("Maximo de registros de una region: {}".format(CANT_MAX_DIAS))

regiones_completas = [region for region in region_total.keys() if region_total[region] == CANT_MAX_DIAS]
print("Regiones que cuentan con un  registro completo: {}".format(regiones_completas))

Maximo de registros de una region: 74200
Regiones que cuentan con un  registro completo: ['id', 'ca', 'sg', 'pt', 'au', 'dk', 'pl', 'it', 'hk', 'ie', 'se', 'fr', 'ar', 'ec', 'tw', 'fi', 'co', 'at', 'gb', 'be', 'es', 'no', 'nz', 'tr', 'br', 'pe', 'cr', 'mx', 'ch', 'nl', 'ph', 'cl', 'us', 'de']


Notamos que el maximo es 74200, lo cual que si todos los dias estan completos con sus 200 registros
       contamos con 371 dias para estos casos. Mientras que en la peor region tenemos 4098 registros,  si estan las 200 canciones tendremos 20.49 dias de registros

In [12]:
#mx_df = daily_song_df.loc[region_range['mx'][0]:region_range['mx'][-1]]
#mx_df.head(10)

Ahora vamos a definir estas funciones que seran utiles para un manejo sencillo de nuestra base de datos

In [13]:
def get_region(df, region):
    """
    Funcion que regresa el dataframe delimitado a una region
    """
    return df.loc[df['Region'] == region]

#%% DATES LIST
""" get dates dado un dataframe"""
def get_dates(df):
    """
        Regresa una lista de todas las fechas del df recibido.
        Las fechs estan en string foramto 2017-12-31
        No todos las regines tienen dias completos
    """
    dates = []
    for date in df['Date']:
        if date not in dates:
            dates.append(date)
    return dates
#%%
def get_artist(df):
    """
    Regresa la lista de artistas que componen un data frame, sin repeticioes
    """
    artists = []
    for artist in df['Artist']:
        if artist not in artists:
            artists.append(artist)
    return artists

#%%
def get_top_by_day(num, date, df):
    """
    Regresa un dataframe con el top num de la fecha dada del df dado, asumimos el df 
    dado es de una region definida
    """
    return df.loc[df['Date'] == date].head(num)
#%% donde
def get_top(num, df, region=None, dates=None):
    """
        Regresa un dataframe que contiene el top num (e.g. top 10, top 50)
        de la region solicitada, y en un conjunto de fechas dada.
        region = {'mx','global', ...}
        date = ['20XX-12-31','20XX-12-31', ...]
    """
    if region is not None:
        df = get_region(df, region)
    if dates is None:
        dates = get_dates(df)
    
    data = pd.DataFrame()
    for date in dates:
        data = data.append(get_top_by_day(num, date, df))
        
    return data

## Clustering



## Clasificacion

Cada dia es un vector de artistas



### Naive Bayes

In [49]:
""" Naive Bayes """
# Inicializar el ambiente
import numpy as np
import pandas as pd

import time
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB, MultinomialNB, BernoulliNB

from matplotlib import pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
# ipython magic

%matplotlib inline

labels = daily_song_df.columns.values
regiones_to_process = ['Mexico', 'Chile', 'United States', 'Brazil', 'Canada']
reg_selec = [regiones_name[region] for region in regiones_]
#cant_dias = {reg : region_total[reg] for reg in reg_selec}

dias = get_dates(get_region(daily_song_df,'mx'))

cant_dias = [region_total[reg] for reg in reg_selec]


Tenemos que ver nuestros datos para saber como entrenar a bayes

Tenemos n regiones, estas seran las clases que queremos saber
cada una cuenta 200 con 
 * Canciones
 * Artistas
por cada dia del conjunto de entrenamiento. Vamos utilizar las regiones que estan completas, lo cual seria 371 dias para cada una.

Tomaremos varias regiones, Mexico, USA, Chile, Venezuela. Por ejemplo.
Escojo estas todas de America.

Para un manejo mas sencillo conseguiremos los datos top 30 de las regiones que queremos evaluar

In [58]:
""" Top 30 (quizas todo esto fue en vano....) """ 
num_top = 30 # top de canciones que queremos conseguir [1,200]

mx_subdata = get_top(30, daily_song_df, 'mx')
data = []
for region in regiones_to_process:
    data.append(get_top(num_top, daily_song_df, regiones_name[region]))
    
print(len(data), type(data), type(data[0])) # checamos que tenemos una lista de dataframe
data = pd.concat(data) # juntamos los 5 dataframes de las 5 regiones en uno
# ahora revisamos que tenemos un dataframe  de las 5 regiones
print(len(data), type(data))
""" data es nuestro dataframe que solo contiene las mejores 30 canciones de las 5 regiones escogidas"""

5 <class 'list'>


In [59]:
# Tenemos que verificar todas sean las mismas? lo asumo por que quiero #ASK
#dates = get_dates(data['Mexico'])


""" Cuales son todos los artistas que conforman estas 5 regiones """
artists = get_artist(data)
""" Ahora este es nuestro vector de caracteristicas para cada dia. Cada dia se compone de 30 de alguno de estos"""
print(artists)
print(len(artists))
# vector de palabras, como en el spam, checaremos cuando estan estos por cada dia 
# y el resultado es la region a donde pertene

55650 <class 'pandas.core.frame.DataFrame'>


TypeError: object of type 'int' has no len()

In [65]:
""" Tenemos que pasar cada artista a un 0 o un 1 segun la lista artists y separarlo por dias """
# Creamos un ndarray 
# Vamos a hacer a cada dia un vector de los artistas que estuvieron en el top ese mismo dia
X = np.ndarray(shape = (len(dias)*len(regiones_to_process), len(artists)))
print(X.shape) # Tenemos un total 1855 dias  y 260 posibles artistas 
print(X)

(1855, 260)
[[  1.37448778e-315   6.91614664e-310   1.37448778e-315 ...,
    0.00000000e+000   0.00000000e+000   0.00000000e+000]
 [  0.00000000e+000   0.00000000e+000   0.00000000e+000 ...,
    0.00000000e+000   0.00000000e+000   0.00000000e+000]
 [  0.00000000e+000   0.00000000e+000   0.00000000e+000 ...,
    0.00000000e+000   0.00000000e+000   0.00000000e+000]
 ..., 
 [  0.00000000e+000   0.00000000e+000   0.00000000e+000 ...,
    0.00000000e+000   0.00000000e+000   0.00000000e+000]
 [  0.00000000e+000   0.00000000e+000   0.00000000e+000 ...,
    0.00000000e+000   0.00000000e+000   0.00000000e+000]
 [  0.00000000e+000   0.00000000e+000   0.00000000e+000 ...,
    0.00000000e+000   0.00000000e+000   0.00000000e+000]]


In [76]:
""" Conseguir lista de artistas """
# for region in regiones_to_process: 
region = 'mx'
    #for dia in dias:
dia = '2017-01-01'

artists_day = ((data.loc[data['Date'] == dia]).loc[data['Region'] == region])['Artist'].values

print(artists_day)
        

array(['Shakira', 'CNCO', 'Ricky Martin', 'J Balvin', 'Zion & Lennox',
       'Carlos Vives', 'Sebastian Yatra', 'The Chainsmokers',
       'Daddy Yankee', 'The Weeknd', 'DJ Snake', 'IAmChino', 'Bruno Mars',
       'Maroon 5', 'Christian Nodal', 'Clean Bandit', 'Piso 21',
       'Enrique Iglesias', 'Maluma', 'Ozuna', 'Chino & Nacho',
       'The Weeknd', 'Ariana Grande', 'Maluma', 'Calvin Harris',
       'Charlie Puth', 'Drake', 'Wisin', 'Martin Garrix', 'Major Lazer'], dtype=object)

In [77]:
col = ['Artist', 'Date']
data_ = data[col]
data_

Unnamed: 0,Artist,Date
2206360,Shakira,2017-01-01
2206361,CNCO,2017-01-01
2206362,Ricky Martin,2017-01-01
2206363,J Balvin,2017-01-01
2206364,Zion & Lennox,2017-01-01
2206365,Carlos Vives,2017-01-01
2206366,Sebastian Yatra,2017-01-01
2206367,The Chainsmokers,2017-01-01
2206368,Daddy Yankee,2017-01-01
2206369,The Weeknd,2017-01-01


In [70]:
""" Entrenando Bayes Multnomial """

bayes_m = MultinomialNB(alpha=1.0, class_prior=None, fit_prior=False)



y = data['Region'].values # clases de nuestro modelo

#bayes_m.fit(data_array, y)

In [51]:
""" Entrenando Bayes Gaussian #DEPRACATED """
bayes = GaussianNB() # iniciamos nuestro bayes bobo gaussiano
"""
Este bayes fue descartado pues procesa strings
"""

 # bayes.train
X_train, X_test = train_test_split(X, test_size=0.5, random_state=int(time.time()))
# caracteristicas a considerar para el entrenamiento
columnas_usadas = ['Track Name','Artist'] # queremos ver si naive bayes puede predecir usando solo estas columnas

bayes.fit(
    X_train[columnas_usadas].values,
    X_train['Region']
)

ValueError: could not convert string to float: 'Simone & Simaria'

In [None]:
y_pred = bayes.predict(X_test[columnas_usadas])

# Print results
print("Number of mislabeled points out of a total {} points : {}, performance {:05.2f}%"
      .format(
          X_test.shape[0],
          (X_test["Region"] != y_pred).sum(),
          100*(1-(X_test["Region"] != y_pred).sum()/X_test.shape[0])
))