In [2]:
import pandas as pd
import numpy as np
from collections import defaultdict
from functools import reduce
pd.options.mode.chained_assignment = None  # default='warn'


In [3]:
def load_database(path):
    
    """
    Esta función debe cargar la base de datos de acuerdo a un path. Esta función puede servir también 
    como filtro del número de listas de reproducción a usar para probar a priori.
    """
    data = np.load(path)
    database =pd.Series(np.array([x for x in data.item().values()]))
    return database

In [4]:
data = load_database("spotify.npy")

In [5]:
def obtener_orden(data, suport):
    
    """Función que se queda con las canciones que pasan el soporte, cuenta su frecuencia y crea un diccionario
    ordenado descendentemente, para ocuparlo en el orden de los patterns"""
    
    if suport < 1:
        suport = suport * len(data)
    full_canciones = np.concatenate(data)
    canciones, frecuencias = np.unique(full_canciones, return_counts= True)
    data_frecuencia = pd.DataFrame(list(zip(canciones,frecuencias)), columns = ["cancion", "frecuencia"])
    data_cumple = data_frecuencia[(data_frecuencia['frecuencia'] > suport)] 
    data_cumple = data_cumple.set_index('cancion')
    data_cumple = data_cumple.sort_values("frecuencia", ascending= False)
    dic = data_cumple.to_dict()
    return dic

In [6]:
orden = obtener_orden(data, 250)

In [124]:
orden
orden_series = pd.Series(list(orden["frecuencia"].keys()))

In [8]:
def item_set_ordenado(fila, orden):
    tupla = ()
    
    """ Función que ordena los itemsets y deja solo los que pasan el soporte"""
    
    for cancion in orden['frecuencia'].keys():
        if cancion in fila:
            tupla += tuple([cancion])
    if len(tupla)>0:
        return tupla
    return None

In [9]:
itemsets_ordenados = data.apply(item_set_ordenado, args = [orden]).dropna()

In [10]:
itemsets_ordenados

0                          (Closer, Forever, Say My Name)
1                                                 (Home,)
2       (Ignition - Remix, No Role Modelz, Lean On (fe...
5                                              (Riptide,)
6                                                (Mercy,)
7                                            (One Dance,)
8               (My Girl, Redbone, Body Like A Back Road)
9                                             (Stronger,)
12                       (I'm the One, Despacito - Remix)
13                                               (Hello,)
15                                             (Forever,)
22      (Congratulations, Unforgettable, XO TOUR Llif3...
23                          (Despacito - Remix, Believer)
24                                           (Let It Go,)
25                      (Blessings, Hallelujah, Believer)
27      (goosebumps, My Girl, Hallelujah, Skinny Love,...
28      (Caroline, No Role Modelz, Fake Love, Hello, B...
29      (Close

In [12]:
def buscar_pattern_base(lista, cancion):
    
    """Función que busca los patrones bases """
    
    set_de_canciones = tuple()
    
    if cancion not in lista or lista[0] == cancion: # si la canción buscada no esta en la lista, retorno None
        return None
    else:
        # busco las canciones antecesoras a la canción buscada y me quedo con todas 
        # ellas excluyendo a la canción buscada.
        
        for can in lista:
            if can == cancion:
                break
            set_de_canciones += tuple([can])
        return set_de_canciones

In [136]:
def conditional_fp_tree(cancion,orden):
    
    fp_tree = defaultdict(int)
    q = itemsets_ordenados.apply(buscar_pattern_base, args = [cancion]).dropna() # busco sus pattern_base

    sets, frecuencias = np.unique(q, return_counts= True) # redusco los patterns_base y pongo sus conteos

    freq = dict(zip(sets,frecuencias)) # convierto en diccionario

    group_by_subarbol = defaultdict(dict)

    for can in orden["frecuencia"].keys():

        """ agrupo los pattern base que vienen del mismo sub arbol """

        for tupla in freq.keys():
            if can == tupla[0]:
                group_by_subarbol[can].update({tupla: freq[tupla]})



    for subarbol in group_by_subarbol.keys():
        if len(group_by_subarbol[subarbol])!= 0:
            """ por cada sub arbol, si no está vacío, busco la canción que se repite en todos los pattern de ese arbol"""
            k = reduce(set.intersection, (set(key) for key in group_by_subarbol[subarbol].keys())) #hago intersección
            if len(k) != 0:
                v = reduce(lambda x, y: x + y , (group_by_subarbol[subarbol][key] for key in group_by_subarbol[subarbol].keys() if all(x in key for x in key) )) # sumo las ocurrencias
                for song in k:
                    fp_tree[song] = v # agrego las ocurrencias con sus claves a un diccionario, para luego hacer las rules
    return fp_tree
            

In [176]:
def frequent_pattern(frame):
    subs = [[]]
    """Función que obtiene todos los subsets de un item"""
    for elemento in list(frame[0].keys()):
        for sub_set in subs:
            subs = subs + [list(sub_set)+ [elemento]]
    return [(set(i).union(set([frame[1]])), min([frame[0][i] for i in set(i)])) for i in subs if len(set(i))!=0 ]

In [192]:
a = orden_series.apply(conditional_fp_tree,args = [orden])
a

0                                                    {}
1                                        {'Closer': 59}
2                             {'Closer': 45, 'Home': 5}
3             {'Closer': 139, 'Home': 15, 'HUMBLE.': 7}
4     {'Closer': 121, 'Home': 8, 'HUMBLE.': 41, 'Ros...
5     {'Closer': 118, 'Home': 19, 'HUMBLE.': 12, 'Ro...
6     {'Closer': 61, 'Home': 4, 'HUMBLE.': 183, 'Ros...
7     {'Closer': 159, 'Home': 5, 'HUMBLE.': 15, 'Ros...
8     {'Closer': 107, 'Home': 2, 'HUMBLE.': 106, 'Ro...
9     {'Closer': 88, 'Home': 6, 'HUMBLE.': 108, 'Ros...
10    {'Closer': 118, 'Home': 25, 'HUMBLE.': 11, 'Ro...
11    {'Closer': 31, 'Home': 6, 'HUMBLE.': 114, 'Ros...
12    {'Closer': 68, 'Home': 24, 'HUMBLE.': 4, 'Rose...
13    {'Closer': 54, 'Home': 1, 'HUMBLE.': 139, 'Con...
14    {'Closer': 41, 'Home': 62, 'HUMBLE.': 3, 'Rose...
15    {'Closer': 60, 'Home': 3, 'HUMBLE.': 128, 'Ros...
16    {'Closer': 54, 'Home': 11, 'HUMBLE.': 36, 'Ros...
17    {'Closer': 30, 'Home': 8, 'HUMBLE.': 93, '

In [196]:
frame = pd.concat([a, orden_series], axis=1)
frame = frame.iloc[ 0:8 , : ]
frame

In [None]:
frame.apply(frequent_pattern, axis=1)

KeyboardInterrupt: 