# Ejemplo sobre métricas de distancia

En este ejemplo vamos a realizar la importación de datos mediante pandas. Una vez importados los datos, vamos a computar las distancias existentes entre las diversas muestras importadas. De modo ilustrativo se emplearán cuatros métricas de distancias: la distancia basada en la cardinalidad del conjunto de intersección entre dos conjuntos dados; la métrica de Jaccard; la distancia del coseno y la distancia del coseno suavizada. 

In [4]:
import urllib.request
import os.path
import pandas as pd
import numpy as np
from numpy import zeros
import random as rd
from scipy.sparse import coo_matrix,csr_matrix
import time
from sklearn.preprocessing import normalize
from collections import defaultdict

Tras realizar la importación de los paquetes que emplearemos, cargamos los datos. Para ello hacemos uso de pandas. Los datos a emplear continenen información sobre el número de veces que un conjunto de usuarios han reproducido música de un cierto artista. 

In [5]:
if not os.path.isfile("prueba.tsv"):
    url = "https://www.dropbox.com/s/na8xphvfglsf2to/prueba.tsv?dl=1"
    u = urllib.request.urlopen(url)
    data = u.read()
    u.close() 
    with open("prueba.tsv", "wb") as f :
        f.write(data)

data = pd.read_table("prueba.tsv", usecols=[0, 2, 3], names=['user', 'artist', 'plays'])


De cara al análisis posterior, vamos a agrupar los datos creando los conjuntos necesarios. Primero agrupamos en base a cada uno de los artistas. Tras ello, codificamos tanto los usuarios como los artistas como una categoría de pandas. Creadas las categorías, extraemos los conjuntos de usuarios vinculados a cada artista. 

In [6]:
user_count = data.groupby('artist').size()
data['user'] = data['user'].astype("category")
data['artist'] = data['artist'].astype("category")
artist_sets = dict((artist, set(users)) for artist, users in data.groupby('artist')['user'])

In [7]:
artists_ = dict(enumerate(data['artist'].cat.categories))   

También nos será útil tener una lista ordenada con los artistas. Para ello usamos la función sorted y le pasamos como segundo argumento la función en base a la cual vamos a ordenar la lista. Esa función se puede definir mediante el operador lambda. En este caso tendremos que para un usuario x el operador lambda devuelve el número de usuarios que han reproducido canciones de un artista. Este número es devuelto como un valor negativo, de modo que la lista se ordena del valor menor al mayor forzando que el primer elemento sea aquél que tiene el mayor número de reproducciones. 

In [8]:
to_generate = sorted(list(artists_),key=lambda x: -user_count[x])

La forma más directa para determinar cuán parecidos son dos conjuntos categoriales de datos es mediante el cómputo del número de elementos que tienen en común. 

In [9]:
#La forma más fácil y directa: compruebo si existen artitas comunes entre discos
def solapamiento(a, b):
    return len(a.intersection(b))

Para conseguir una medida más precisa sobre el parecido de dos conjuntos de datos categoriales, se puede normalizar el anterior resultado simplemente dividiéndolo por el número de elementos que están bien en el primer conjunto, bien en el segundo.

In [10]:
def jaccard(a,b):
    inter = float(len(a.intersection(b)))
    return inter/(len(a) +len(b) - inter)

In [11]:
start = time.time()
df = pd.DataFrame(columns=('artista1','artista2','solapamiento','Jaccard'))
i = 0
for artist in to_generate[1:2]:
    set1 = artist_sets[artists_[artist]]
    for art in to_generate[2:103]:
        if art != artist:
            set2 = artist_sets[artists_[art]]            
            df.loc[i] = [artists_[artist],artists_[art],solapamiento(set1,set2),jaccard(set1,set2)]   
            i += 1    
print(df)
loadEnd = time.time()
print("load time "+ str(loadEnd - start))

      artista1               artista2 solapamiento   Jaccard
0    radiohead               coldplay           90  0.011258
1    radiohead  red hot chili peppers           49  0.006909
2    radiohead                   muse           84  0.012045
3    radiohead             pink floyd           41  0.005983
4    radiohead              metallica           26  0.003787
5    radiohead            the killers           45  0.006773
6    radiohead            linkin park           24  0.003606
7    radiohead                nirvana           57  0.008761
8    radiohead       system of a down           23  0.003546
9    radiohead                  queen           21  0.003310
10   radiohead                     u2           48  0.007703
11   radiohead                placebo           38  0.006093
12   radiohead              bob dylan           33  0.005294
13   radiohead               the cure           45  0.007280
14   radiohead              daft punk           37  0.005983
15   radiohead          

Otra medida que se suele emplear para medir la distancia entre datos categoriales es la medida del coseno. 

In [12]:
def cosine(a, b):
    return np.dot(a, b.T)[0, 0] / (norm2(a) * norm2(b))

def norm2(v):
    return np.sqrt((v.data ** 2).sum())

In [13]:
#asignamos un id a cada usuario. Para ello creamos un diccionario por defecto empleando el operador lambda. 
#Tras ello mapeamos un id a cada valor del diccionario, siendo el valor cada uno de los usuarios que tenemos. 
userids = defaultdict(lambda: len(userids))
data['userid'] = data['user'].map(userids.__getitem__)
artists = dict((artist, csr_matrix(
                (group['plays'], (zeros(len(group)), group['userid'])),
                shape=[1, len(userids)]))
        for artist, group in data.groupby('artist'))


In [16]:
for artist in to_generate[2:100]:
    print(cosine(artists['radiohead'],artists[artists_[artist]]))

0.00789347807501069
0.022318506370666746
0.004381875915778587
0.00395019381788708
0.0056511272988250495
0.007031559405047427
0.0014372226330307874
0.00256339273094042
0.0004902134348568248
0.00022102846299853996
0.004306918964438808
0.011935500860442838
0.005153591425129064
0.008061905554987061
0.012729293446214643
0.003248009450472991
0.0095503152607265
0.0037007284074806667
0.004747613212891607
0.005101176700385703
0.017860666258345186
0.006739938717700872
0.0024702255091381855
0.002552225689430623
0.009033834282938092
0.004452452620623447
0.008513732367246148
0.01379102860292077
0.005473861764375433
0.005660681043842465
0.009565450900397182
0.005174163734177935
0.0038199687113924796
0.0026915776727666372
0.00043475036670630516
0.0029686671569486528
0.0170963083977027
0.0022014646447658793
0.009725872340629382
0.0066909974385932205
0.0015518572038316525
0.0003520727088243165
0.004514966145619515
0.003463358367682004
0.017959152178670355
0.00026220479444719947
0.0001324410621821594
0.

In [17]:
SMOOTHING = 20

def smoothed_cosine(a, b):
    
    overlap = np.dot(binarize(a), binarize(b).T)[0, 0]

    
    return (overlap / (SMOOTHING + overlap)) * cosine(a, b)

def binarize(artist):
    ret = csr_matrix(artist)
    ret.data  = np.ones(len(artist.data))
    return ret

In [19]:
for artist in to_generate[2:100]:
    print(smoothed_cosine(artists['radiohead'],artists[artists_[artist]]))

0.006458300243190564
0.015849374089314066
0.003539207470436551
0.0026550483038257425
0.00319411542977068
0.004868002665032834
0.0007839396180167931
0.0018975764371896616
0.0002622071860862086
0.00011320970056022778
0.0030401780925450412
0.007819810908565997
0.0032088399439482848
0.005581319230375657
0.008262874693156874
0.0022002644664494454
0.006656280333233622
0.0024462442015550172
0.0031910187168615713
0.0032118519965391467
0.011701815824433052
0.004043963230620523
0.0012351127545690928
0.001589121655683218
0.006376824199721007
0.0027722818203881837
0.005301003172058922
0.009116103652778136
0.0031930860292190026
0.002681375231293799
0.007143817761056123
0.0035050786586366656
0.0024796288126582764
0.0017634474407781417
0.00022267701709347337
0.001169474940616136
0.011581370204895377
0.0010427990422575218
0.006822626865814641
0.004600060739032839
0.0008300631555378606
0.00014497111539824796
0.002842756462056732
0.0016872771534861045
0.010775491307202213
5.2440958889439896e-05
5.217375

## Primer ejercicio: 
Crear un dataframe de pandas para computar las distancias del coseno y el coseno suavizado de un artista dado a un conjunto de artistas. Realizad este ejercicio de acuerdo al procedimiento empleado en el caso de la distancias de solapamiento y la de Jaccard. 