# Tarea 1: Reglas de Asociación

Autor: Tomás González Villarroel

Comenzaremos importando las librerías a usar:

In [1]:
import pandas as pd
import numpy as np

## Parte 1: Preprocesamiento de datos

A continuación, se implementarán las funciones para el manejo del _dataset_.


### 1.1 `preprocess(df)`

Con esta función se dejan solo las columnas pertinentes, se quitan los valores nulos y se dejan solo aquellas filas que tengan rating mayor o igual a 4.

In [2]:
def preprocess(df):
    '''
    Función que preprocesa los DataFrames. 
    En primer lugar solo queda con las columnas userId, movieId y rating.
    Luego quita aquellas filas con algún valor nulo.
    Finalmente deja en el DataFrame solo las filas con rating mayor o igual a 4
    '''
    df = df[['userId', 'movieId', 'rating']]
    
    df = df.dropna()
    
    df = df[df.rating >= 4.0]
    
    return df

Se prueba la función:

In [3]:
ratings = pd.read_csv('ratings.csv')
preprocessed = preprocess(ratings)
preprocessed

Unnamed: 0,userId,movieId,rating
6,1,151,4.0
7,1,223,4.0
8,1,253,4.0
9,1,260,4.0
10,1,293,4.0
...,...,...,...
1357892,11482,2571,4.0
1357893,11482,2959,4.0
1357896,11482,3552,4.0
1357897,11482,3578,4.0


## 1.2 `dataframe_to_ndarray(df)`


In [4]:
def dataframe_to_ndarray(df):
    '''
    Función que transforma DataFrame a ndarray.
    Primero se agrupan los datos según 'userId'.
    Luego se aplica list de modo que se tenga en la columna 'movieId'
    todas las películas que al respectivo usuario le han gustado.
    Finalmente se aplica np.to_array para transformar cada lista
    y la columna en array.
    '''
    # Inspirado en https://stackoverflow.com/questions/34143988/pandas-group-by-to-convert-different-rows-to-one-row-with-array-of-values
    result = preprocessed.groupby(by=['userId'])['movieId'].apply(list).apply(lambda x: np.array(x))
    
    # Retornamos un n-dimensional array
    return result.to_numpy()

Se prueba la función:

In [5]:
ndarray_movies = dataframe_to_ndarray(preprocessed)
ndarray_movies

array([array([  151,   223,   253,   260,   293,   296,   318,   541,  1036,
        1079,  1090,  1097,  1196,  1198,  1200,  1214,  1215,  1219,
        1240,  1249,  1258,  1259,  1266,  1278,  1321,  1333,  1358,
        1374,  1387,  1967,  2021,  2100,  2118,  2138,  2140,  2143,
        2173,  2174,  2193,  2288,  2291,  2542,  2628,  2762,  2872,
        2944,  2959,  2968,  3081,  3153,  3479,  3489,  3499,  3889,
        3996,  4011,  4027,  4128,  4306,  4467,  4571,  4754,  4896,
        4911,  4993,  5026,  5039,  5171,  5540,  5797,  5816,  5952,
        6093,  6333,  6539,  6754,  6774,  7046,  7153,  7389,  7438,
        7454,  7757,  8368,  8507,  8636,  8961, 31696]),
       array([   3,   62,   70,  110,  260,  266,  480,  541,  589,  908,  924,
       1196, 1210, 1214, 1249, 1259, 1270, 1327, 1356, 1544, 1580, 1673,
       1748, 1974, 2454, 2455, 2948, 2951, 3150, 3173, 3450, 3513, 3555,
       3703, 3753, 3917, 3923, 3926, 3927, 3928, 3930, 3937, 3959]),
       arr

## Parte 2: Implementación del algortimo FP-Growth

A continuación se implementan las clases `Node` y `FPGrowth`. Se documentó cada método para entregar mayor claridad del funcionamiento.

### Consideraciones
- El método `mine_tree` retorna una lista de listas.
- El método `generate_association_rules` retorna un DataFrame.

In [6]:
class Node:
    def __init__(self, id_):
        '''
        Inicializador de la clase Node.
        Contiene los siguientes atributos:
        - self.movie_id: Entregado al inicializar, indica el id de la película
        - self.children: Diccionario que almacenará los nodos hijos de la forma id_movie: Node
        - self.count: Lleva la frecuencia del nodo. Será de utilidad al crear y minar el árbol.
        '''
        self.movie_id = id_
        self.children = {}
        self.count = 1

class FPGrowth:

    def __init__(self):
        '''
        Inicializador de la clase FPGrowth
        Contiene los siguientes atributos:
        - self.root: Contiene al nodo raíz. Este no tiene id_movie, por lo que se le entrega None.
        - self.cpb: Diccionario que almacenará el Conditional Pattern Base. 
                    Sigue el formato {item: {base: frecuencia, ...}}
        - self.fpg: Diccionario que almacenará los Frecuent Pattern Generated. 
                    Se realizó la creación de Conditional FP-Tree y luego
                    se crearon directamente los Frecuent Pattern Generated, 
                    para almacenar solo estos últimos.
                    Sigue el formato: {item: [[itemset_frecuente, frecuencia], ...]}
        - self.total_trans: Contendrá la cantidad total de transacciones,
                    lo cual será de utilidad para calcular soportes.
        - self.perms: Contendrá temporalmente las permutaciones posibles para crear los
                    Frecuent Pattern Generated.
        '''
        self.root = Node(None)
        self.cpb = {}
        self.fpg = {}
        self.total_trans = None
        self.perms = []

    def create_tree(self, ndarray_movies, min_support):
        '''
        Método para crear el FP-Tree.
        Los pasos seguidos para crear el árbol fueron:
        1. Se buscan los itemsets de largo 1 y se calcula su frecuencia
        2. Se aplica el umbral min_support y se eliminan los itemsets de soporte menor
        3. Se agregan las transacciones según orden de soporte
        4. Se crea el árbol usando las transacciones reordenadas
        '''
        # 1. Método unique sacado de la documentación 
        # https://numpy.org/doc/stable/reference/generated/numpy.unique.html
        itsets_1 = np.unique([item for itemset in ndarray_movies for item in itemset], return_counts=True)
        zip_itsets = zip(itsets_1[0], itsets_1[1])

        # 2.
        self.total_trans = ndarray_movies.shape[0]
        itsets_supp = sorted([item for item in zip_itsets if item[1]/self.total_trans >= min_support],
                             key=lambda x: x[1], reverse=True)
        
        # Se preparan los diccionarios a usar cuando se mine el árbol
        for item, freq in itsets_supp:
            self.cpb[item] = {}
            self.fpg[item] = [[[item], freq]]

        # 3.
        transactions = []
        for itemset in ndarray_movies:
            trans = []
            for item, freq in itsets_supp:
                if item in itemset:
                    trans.append(item)
            if trans:
                transactions.append(trans)
      
        # 4.
        for trans in transactions:
            self.add_trans(self.root, trans)

        #self.print_tree(root)
        return self.root


    def add_trans(self, root, trans):
        '''
        Método recursivo para agregar los nodos al árbol siguiendo las transacciones.
        '''
        # Si ya está en los nodos hijos, se suma uno a su cuenta
        if trans[0] in root.children:
            root.children[trans[0]].count += 1

        # Si no, se crea
        else:
            root.children[trans[0]] = Node(trans[0])

        # Se pasa al siguiente item de la transacción, usando recursión.
        if len(trans) > 1:
            self.add_trans(root.children[trans[0]], trans[1:])
         

    def mine_tree(self, fptree, min_support):
        '''
        Método para minar el FP-Tree.
        Los pasos seguidos para minar el árbol fueron:
        1. Crear el CPB de cada movie_id
        2. Crear el CFP-Tree y FPG de cada movie_id frecuente
        3. Generar los itemsets frecuentes
        '''

        # 1.
        for movie_id in self.cpb:
            self.get_cpb(fptree, movie_id, [])
        #print(self.cpb)

        # 2. y 3.
        self.get_fpg(min_support)

        # Se retorna una lista de listas con los itemsets frecuentes
        freq_itemsets = []
        for id_movie in self.fpg:
            for itemsets in self.fpg[id_movie]:
                freq_itemsets.append(itemsets[0])
        return freq_itemsets


    
    def get_cpb(self, node, movie_id, current=[]):
        '''
        Método recursivo para obtener el CPB.
        '''
        
        # Chequeamos que coincida el nombre y llevemos algo en la lista además del nodo actual
        if node.movie_id == movie_id:
            if len(current) > 1:
                self.cpb[movie_id][tuple(current[:-1])] = node.count

        # Si no, agregamos el id a la lista actual y seguimos recorriendo el árbol
        else:
            for name, child in node.children.items():
                self.get_cpb(child, movie_id, current + [name])

    def get_fpg(self, min_support):
        '''
        Método para obtener los FPG.
        Sigue los siquientes pasos:
        1. Recorre todas las CPB
        2. Construye todas las combinaciones para cada item
        3. Guarda las combinaciones que tengan soporte 
           mayor a min_support dentro de self.fpg
        '''
        # 1.
        for item in self.cpb:
            
            # 2.
            every_item = []
            for base in self.cpb[item]:
                for i in base:
                    if i not in every_item:
                        every_item.append(i)

            if every_item:
                # 3.
                # Caso 1 item, no se necesitan hacer combinaciones en este.
                # Se guarda en comb_items solo aquellos items con soporte mayor o igual a min_support,
                # y esta lista se utilizará en el caso de n items
                comb_items = []
                for current_item in every_item:
                    freq_item = 0
                    for base in self.cpb[item]:
                        if current_item in base:
                            freq_item += self.cpb[item][base]
                    if freq_item/self.total_trans >= min_support:
                        self.fpg[item].append([[current_item, item], freq_item]) 
                        comb_items.append(current_item)

                # Caso n items
                # Lógica: Se van creando combinaciones de largo cada vez mayor, 
                # utilizando los items de comb_items
                current_len = 1
                while current_len < len(comb_items):
                    self.perms = []
                    current_len += 1
                    self.get_combs(comb_items, current_len)
                    
                    # Se filtran las bases de largo suficiente como para contener a una de las combinaciones
                    long_bases = [b for b in self.cpb[item] if len(b) >= current_len]
                    for itset in self.perms:
                        freq_item = 0
                        for base in long_bases:
                            present = True
                            
                            # Se verifica que cada item de la combinación esté en la base
                            for elem in itset:
                                if elem not in base:
                                    present = False
                                    break
                            
                            # En caso de que esté, se aumenta la frecuencia en el valor correspondiente
                            if present:
                                freq_item += self.cpb[item][base]
                                
                        # Finalmente, se agrega a los FPG si el soporte es mayor o igual a min_support
                        if freq_item/self.total_trans >= min_support:
                            self.fpg[item].append([itset + [item], freq_item])

    
    def get_combs(self, items, length, result=[]):
        '''
        Método recursivo auxiliar para definir combinaciones de items.
        Utiliza la lista self.perms.
        '''
        if len(result) == length:
            self.perms.append(result)
        else:
            for i in range(len(items)):
                item = items[i]
                self.get_combs(items[i + 1:], length, result + [item])


    def generate_association_rules(self, freq_itemset, confidence=0, lift=0):
        '''
        Método para generar reglas de asociación.
        Para generar las reglas de asociación se siguieron los siguientes pasos:
        1. Eliminar los itemsets frecuentes de largo 1
        2. Se generan las reglas de asociación
        '''
        # 1.
        freq_itset = [list(itset) for itset in freq_itemset if len(itset) > 1]
        
        # Se genera un diccionario con los itemsets frecuentes y sus frecuencias
        dic_itsets = {tuple(sorted(subl[0])):subl[1] for v in self.fpg.values() for subl in v}

        # 2. (perdón por el spanglish)
        antecedentes = []
        consecuentes = []
        confianzas = []
        lifts = []
        supports = []
        for itset in freq_itset:
            for i in range(len(itset)):
                for j in range(i):
                    ant = itset[j:i]
                    cons = itset[0:j] + itset[i:]
                    
                    # Se obtienen las frecuencias desde el diccionario dic_itsets
                    freq_union = dic_itsets[tuple(sorted(ant + cons))]
                    freq_cons = dic_itsets[tuple(sorted(cons))]
                    freq_ant = dic_itsets[tuple(sorted(ant))]
                    conf_ant = freq_union/freq_ant
                    conf_cons = freq_union/freq_cons
                    lift = (freq_union/self.total_trans) / ((freq_ant/self.total_trans) * (freq_cons/self.total_trans))
                    if conf_ant >= confidence:
                        antecedentes.append(set(ant))
                        consecuentes.append(set(cons))
                        confianzas.append(conf_ant)
                        lifts.append(lift)
                        supports.append(freq_union/self.total_trans)

                    if conf_cons >= confidence:
                        antecedentes.append(set(cons))
                        consecuentes.append(set(ant))
                        confianzas.append(conf_cons)
                        lifts.append(lift)
                        supports.append(freq_union/self.total_trans)

        dict_reglas = {'antecedente': antecedentes,
                     'consecuente': consecuentes,
                     'confianza': confianzas,
                     'lift': lifts,
                      'support': supports}
        
        # Entregamos un DataFrame ordenado según valores de lift de mayor a menor
        rules = pd.DataFrame(dict_reglas).sort_values(by=['lift'], ascending=False)

        return rules


## Parte 3

Se selecciona un soporte de 0.15 para tener una cantidad aceptable de reglas de asociación (con soportes mayores disminuyen mucho).


In [7]:
fp_growth = FPGrowth()

tree = fp_growth.create_tree(ndarray_movies, 0.15)

mined = fp_growth.mine_tree(tree, 0.15)

rules = fp_growth.generate_association_rules(mined)

### Criterios de calidad

Fundamentado desde comparación de confianza y *lift* en los documentos [[1]](http://faculty.smu.edu/tfomby/eco5385_eco6380/lecture/Association%20Rules_v3.pdf) y [[2]](https://www.solver.com/xlminer/help/association-rules#:~:text=Lift%20is%20one%20more%20parameter,of%20Confidence%20to%20Expected%20Confidence.&text=A%20lift%20ratio%20larger%20than,the%20two%20sets%20were%20independent.).

Para la medida absoluta de confianza, le entregaremos un valor de umbral de 0.6, que nos indicará que un 60% de las veces que aparece el antecedente en un *itemset*, también aparecerá el consecuente.

Para la medida relativa del *lift*, indicaremos un valor de umbral de 1.2. Podemos decir que el *lift* es la razón entre confianza y confianza esperada, y que los valores de utilidad para las reglas de asociación son mayores a 1, ya que indicarán una dependencia mayor a la esperada con una relación de independencia entre el antecedente y consecuente. A medida que crezca el *lift*, mayor será la dependencia.



In [32]:
top_rules = fp_growth.generate_association_rules(mined, 0.6, 1.2).reset_index(drop=True).head(10)
top_rules

Unnamed: 0,antecedente,consecuente,confianza,lift,support
0,{1196},{1210},0.689237,2.980724,0.168438
1,{1210},{1196},0.728437,2.980724,0.168438
2,{260},{1196},0.662213,2.70974,0.198572
3,{1196},{260},0.812545,2.70974,0.198572
4,{260},{1210},0.618937,2.676698,0.185595
5,{1210},{260},0.802637,2.676698,0.185595
6,{1196},{1198},0.625089,2.67111,0.152761
7,{1198},{1196},0.652773,2.67111,0.152761
8,{1198},{260},0.668776,2.230288,0.156506
9,{47},{296},0.718677,1.967537,0.16086


## Parte 4

A las reglas obtenidas, les entregaremos los nombres y géneros de las películas que tienen asociadas.


Primero cargamos los datos de las películas y los dejamos en una estructura de datos cómoda:

In [9]:
movies_df = pd.read_csv('movies.csv')

# Sacado de https://stackoverflow.com/questions/26716616/convert-a-pandas-dataframe-to-a-dictionary/26716774
movies_dict = movies_df.set_index('movieId').T.to_dict('list')

Luego creamos nuevas columnas con nombres y géneros de películas según los ids presentes en las reglas:

In [33]:
ant_titles = []
cons_titles = []
ant_genres = []
cons_genres = []
for ant in top_rules['antecedente']:
    ant_title = set()
    ant_genre = set()
    for movie_id in ant:
        ant_title.add(movies_dict[movie_id][0])
        ant_genre.add(movies_dict[movie_id][1])
    ant_titles.append(list(ant_title))
    ant_genres.append(list(ant_genre))
    
for cons in top_rules['consecuente']:
    cons_title = set()
    cons_genre = set()
    for movie_id in cons:
        cons_title.add(movies_dict[movie_id][0])
        cons_genre.add(movies_dict[movie_id][1])
    cons_titles.append(list(cons_title))
    cons_genres.append(list(cons_genre))


new_columns = pd.DataFrame({'antecedente': ant_titles, 'consecuente': cons_titles,
                           'ant_genero': ant_genres, 'cons_genero': cons_genres})
new_top_rules = pd.concat([new_columns, top_rules[['confianza', 'lift', 'support']]], axis=1)
pd.options.display.max_colwidth = 200
new_top_rules

Unnamed: 0,antecedente,consecuente,ant_genero,cons_genero,confianza,lift,support
0,[Star Wars: Episode V - The Empire Strikes Back (1980)],[Star Wars: Episode VI - Return of the Jedi (1983)],[Action|Adventure|Sci-Fi],[Action|Adventure|Sci-Fi],0.689237,2.980724,0.168438
1,[Star Wars: Episode VI - Return of the Jedi (1983)],[Star Wars: Episode V - The Empire Strikes Back (1980)],[Action|Adventure|Sci-Fi],[Action|Adventure|Sci-Fi],0.728437,2.980724,0.168438
2,[Star Wars: Episode IV - A New Hope (1977)],[Star Wars: Episode V - The Empire Strikes Back (1980)],[Action|Adventure|Sci-Fi],[Action|Adventure|Sci-Fi],0.662213,2.70974,0.198572
3,[Star Wars: Episode V - The Empire Strikes Back (1980)],[Star Wars: Episode IV - A New Hope (1977)],[Action|Adventure|Sci-Fi],[Action|Adventure|Sci-Fi],0.812545,2.70974,0.198572
4,[Star Wars: Episode IV - A New Hope (1977)],[Star Wars: Episode VI - Return of the Jedi (1983)],[Action|Adventure|Sci-Fi],[Action|Adventure|Sci-Fi],0.618937,2.676698,0.185595
5,[Star Wars: Episode VI - Return of the Jedi (1983)],[Star Wars: Episode IV - A New Hope (1977)],[Action|Adventure|Sci-Fi],[Action|Adventure|Sci-Fi],0.802637,2.676698,0.185595
6,[Star Wars: Episode V - The Empire Strikes Back (1980)],[Raiders of the Lost Ark (Indiana Jones and the Raiders of the Lost Ark) (1981)],[Action|Adventure|Sci-Fi],[Action|Adventure],0.625089,2.67111,0.152761
7,[Raiders of the Lost Ark (Indiana Jones and the Raiders of the Lost Ark) (1981)],[Star Wars: Episode V - The Empire Strikes Back (1980)],[Action|Adventure],[Action|Adventure|Sci-Fi],0.652773,2.67111,0.152761
8,[Raiders of the Lost Ark (Indiana Jones and the Raiders of the Lost Ark) (1981)],[Star Wars: Episode IV - A New Hope (1977)],[Action|Adventure],[Action|Adventure|Sci-Fi],0.668776,2.230288,0.156506
9,[Seven (a.k.a. Se7en) (1995)],[Pulp Fiction (1994)],[Mystery|Thriller],[Comedy|Crime|Drama|Thriller],0.718677,1.967537,0.16086




A partir de lo anterior, seleccionaremos las siguientes cuatro reglas:

1. **{Star Wars: Episode VI - Return of the Jedi (1983)} => {Star Wars: Episode V - The Empire Strikes Back (1980)}**

    Esta regla posee alta confianza (0.72) y alto *lift* (2.98) y es la primera regla de la tabla. La alta confianza indica que en la mayoría de las veces que a un usuario le gustó *Star Wars: Episode VI* también le gustó *Star Wars: Episode V*. Notamos que la regla siguiente es la misma pero en orden invertido: esto nos indica que dentro de los usuarios que les gustó *Star Wars: Episode VI* hay **mayor** proporción de usuarios que les gustó *Star Wars: Episode V*, en comparación con esto mismo pero en orden inverso. En otras palabras, a mucha gente que le gustó la parte VI también le gustó la V, pero al revés disminuye esta proporción. 
    
    El alto *lift* indica un alto grado de dependencia, lo que es esperable dado que se trata de películas de una misma saga.
    
    El soporte de esta regla es 0.16, por lo que apenas supera el soporte mínimo seleccionado. Esto indica que el *itemset* {Star Wars: Episode VI - Return of the Jedi (1983), Star Wars: Episode V - The Empire Strikes Back (1980)} aparece aproximadamente en 16% de los *itemsets* del *dataset*.
    Notamos que, como son parte de la misma saga, se comparten los géneros (aunque esto no se da siempre).
    
    
2. **{Star Wars: Episode V - The Empire Strikes Back (1980)}	=> {Raiders of the Lost Ark (Indiana Jones and the Raiders of the Lost Ark) (1981)}**

    Esta regla posee una confianza más baja que la anterior (0.62) y un alto *lift* (2.67). La confianza indica que aproximadamente un 62% de las veces que a un usuario le gustó *Star Wars: Episode V* también le gustó *Raiders of the Lost Ark*. El alto *lift* indica una alta dependencia, lo que es interesante ya que no son películas de la misma saga.
    Notamos que estas películas comparten los géneros *Action* y *Adventure*, lo cual puede explicar el origen de esta regla de asociación.
    
    El soporte de esta regla es 0.15, por lo que apenas supera el soporte mínimo seleccionado. Esto indica que el *itemset* {Star Wars: Episode V - The Empire Strikes Back (1980), Raiders of the Lost Ark (Indiana Jones and the Raiders of the Lost Ark) (1981)} aparece aproximadamente en 15% de los *itemsets* del *dataset*.


3. **{Seven (a.k.a. Se7en) (1995)} => {Pulp Fiction (1994)}**

    Esta regla posee una confianza alta (0.71) y un alto *lift* (1.96). La confianza indica que aproximadamente un 71% de las veces que a un usuario le gustó *Seven* también le gustó *Pulp Fiction*. El alto *lift* indica una alta dependencia, lo que es interesante ya que no son películas de la misma saga. Este *lift* es el menor de las mejores reglas encontradas, lo que indica mayor independencia que el resto, pero de igual modo la dependencia es alta.
    
    Notamos que estas películas comparten el género *Thriller*, lo cual puede explicar el origen de esta regla de asociación.
    
    El soporte de esta regla es 0.16, por lo que apenas supera el soporte mínimo seleccionado. Esto indica que el *itemset* {Seven (a.k.a. Se7en) (1995), Pulp Fiction (1994)} aparece aproximadamente en 16% de los *itemsets* del *dataset*.
    

4. **{Raiders of the Lost Ark (Indiana Jones and the Raiders of the Lost Ark) (1981)} => {Star Wars: Episode IV - A New Hope (1977)}**

    Esta regla posee una confianza alta (0.66) y un alto *lift* (2.23). La confianza indica que aproximadamente un 66% de las veces que a un usuario le gustó *Raiders of the Lost Ark* también le gustó *Star Wars: Episode IV*. El alto *lift* indica una alta dependencia, lo que es interesante ya que no son películas de la misma saga.
    Notamos que estas películas comparten los géneros *Action* y *Adventure*, lo cual puede explicar el origen de esta regla de asociación.
    
    El soporte de esta regla es 0.15, por lo que apenas supera el soporte mínimo seleccionado. Esto indica que el *itemset* {Raiders of the Lost Ark (Indiana Jones and the Raiders of the Lost Ark) (1981), Star Wars: Episode IV - A New Hope (1977)} aparece aproximadamente en 15% de los *itemsets* del *dataset*.


## Parte 5

Para la visualización, se utilizará la librería `altair`. El código está basado en [este ejemplo](https://altair-viz.github.io/gallery/layered_heatmap_text.html) de la documentación.


In [11]:
import altair as alt

In [12]:
base = alt.Chart(new_top_rules).properties(
    width=300,
    height=300
)


heatmap = base.mark_rect().encode(
    y=alt.Y('antecedente:O', scale=alt.Scale(paddingInner=0)),
    x=alt.X('consecuente:O', scale=alt.Scale(paddingInner=0)),
    color=alt.Color('lift:Q',
        scale=alt.Scale(scheme='darkred'),
        legend=alt.Legend(direction='horizontal')
    )
)


text = base.mark_text(align='center', baseline='middle').encode(
    y=alt.Y('antecedente:O', scale=alt.Scale(paddingInner=0)),
    x=alt.X('consecuente:O', scale=alt.Scale(paddingInner=0)),
    text='lift:Q',
    color=alt.condition(
        alt.datum.lift > 2.5,
        alt.value('black'),
        alt.value('white')
    )
)

new_top_rules['lift'] = new_top_rules['lift'].apply(lambda x: round(x, 2))

heatmap + text

## Parte 6

Se procederá a comparar tiempos de ejecución con respecto al algoritmo de FP-Growth de la librería `mlxtend`. Por lo tanto, es necesario importar esta librería.

In [13]:
from mlxtend.frequent_patterns import fpgrowth
from mlxtend.preprocessing import TransactionEncoder

In [26]:
# Se transforman los datos (código tomado de la documentación de mlxtend)
te = TransactionEncoder()
te_ary = te.fit(ndarray_movies).transform(ndarray_movies)
df = pd.DataFrame(te_ary, columns=te.columns_)

In [27]:
%%time
mined_mlx = fpgrowth(df, min_support=0.15, use_colnames=True)

CPU times: user 1.32 s, sys: 35.3 ms, total: 1.36 s
Wall time: 1.43 s


In [28]:
%%time
fpgrowth_test = FPGrowth()
tree = fpgrowth_test.create_tree(ndarray_movies, 0.15)
mined = fpgrowth_test.mine_tree(tree, 0.15)

CPU times: user 4.17 s, sys: 84.6 ms, total: 4.26 s
Wall time: 4.53 s


Se observa que el algoritmo implementado por mí demora más tiempo en realizarse, lo que indica que el algoritmo creado en esta tarea no fue implementado eficientemente 😔 (en comparación al de `mlxtend`).

Se comparan los resultados:

In [29]:
df_mined = pd.DataFrame({'mined': mined})
mined_mlx['mined'] = df_mined['mined']
mined_mlx['itemsets'] = mined_mlx['itemsets'].apply(lambda x: list(x))
print(mined_mlx.head(12))
print(f"\nEn mi algoritmo se encontraron {len(mined)} itemsets frecuentes")
print(f"En el algoritmo de mlxtend se encontraron {len(mined_mlx['itemsets'])} itemsets frecuentes")

     support itemsets       mined
0   0.389131    [318]       [318]
1   0.365267    [296]       [296]
2   0.299861    [260]  [318, 296]
3   0.244383   [1196]       [593]
4   0.234018   [1198]  [318, 593]
5   0.215206   [2959]  [296, 593]
6   0.193869   [4993]       [356]
7   0.188295   [2762]  [318, 356]
8   0.172444   [5952]  [296, 356]
9   0.157986   [7153]  [593, 356]
10  0.150584    [541]       [260]
11  0.268856    [110]       [527]

En mi algoritmo se encontraron 59 itemsets frecuentes
En el algoritmo de mlxtend se encontraron 59 itemsets frecuentes


Se observa que los itemsets no se encuentran en el mismo orden, pues fueron minados de modo distinto. A primera vista pareciera que lo minado por `mlxtend` estuviera ordenado por soporte, pero al fijarse en los datos se tiene que esto no es así. Como las primeras dos filas tienen los mismos *itemsets*, se podría decir que los procesos de minado comenzaron igual, pero luego se separaron en funcionamiento.

Para saber si efectivamente coinciden los *itemsets* frecuentes, se compararán uno a uno los datos. Como ambos resultados tienen el mismo largo, solo basta comparar con que los elementos de una lista estén todos dentro de la otra. 

In [31]:
list_mlx = list(map(lambda x: sorted(x), mined_mlx['itemsets'].tolist()))
list_mined = list(map(lambda x: sorted(x), mined_mlx['mined'].tolist()))

coinciden = list(map(lambda x: x in list_mlx, list_mined))

print("¿Hay un itemset que no esté presente?", False in coinciden)

¿Hay un itemset que no esté presente? False


Finalmente, se obtuvo que el algoritmo resultó en los mismos *itemsets* frecuentes! 🥳🎉🎉 