                    O algoritmo de recomendação Apriori
-> É um algortimo de mineração de regras de associação, projetado para encontrar relações (ou associações) entre itens em grandes conjuntos
de dados transacionais.

-> Seu principal uso é a análise de cestas de compras (ou market basket
analysis), respondendo a perguntas como: "Se um cliente compra o item
A, qual é a probabilidade de ele também comprar o item B?"


                    O Conceito Central: Itens Frequentes
-> O apriori trabalha identificando o que chamamos de conjuntos de itens
frequentes (Frequentes Itemsets).

    Exemplo: Em um supermercado online, se o pão, o queijo e o presunto 
    são comprados juntos em 60% das transações, eles formam um conjunto
    de itens frequentes

-> O apriori usa uma propriedade de filtragem inteligente: se um conjunto de
itens é frequente, todos os seus subconjuntos também devem ser frequentes.

    Exemplo: Se {pão, queijo, presunto} é frequente, então {pão, queijo}
    também deve ser frequente. Isso ajuda a reduzir drasticamente o número
    de combinações que precisam ser testadas.

                    Três Métricas Chave para Recomendação
-> Uma vez que os conjuntos de itens frequentes são encontrados, o Apriori 
gera regras de associação usando três métricas principais:

        1.Suporte: Popularidade do conjunto. Mede a frequência com que
        os itens A e B aparecem juntos no dataset total.

        Exemplo: {pão, queijo} aparece em 60% de todas as transações.

        2. Confiança: Confiabilidade da regra. Mede a probabilidade de
        que B será comprado dado que A já foi comprado.

        Exemplo: 80% das vezes que alguém compra pão, ele também compra
        queijo.

        3. lift(elevação): Relevância da regra. Mede o quanto a regra é
        melhor do que se fosse por puro acaso. Se o lift > 1, a regra
        é útil.

        Exemplo: lift = 1.5 significa que comprar pão aumenta em 50%
        a probabilidade de comprar queijo, comparado a compra aleatória
        de queijo.

                Aplicação em Sistemas de Recomendação
-> O apriori é a base para regras do tipo "Clientes que compraram x também
compraram y". Ele é usado para:

    Organização de lojas (colocar itens relacionados próximos).

    Recomendação online (e-commerce)

    Sugestão de conteúdo (como videos, artigos ou noticias relacionados).


import das bibliotecas pandas e numpy

In [1]:
# Import da biblioteca numpy que tem como objetivo realizar
# cálculos matemáticos, manipular arrays e acessara valores Nan
# (valores nulos) 
import numpy as np

# Import da biblioteca pandas que tem como objetivo acessar o dataset
# e manipular os dados
import pandas as pd

Acessando a base de dados usando o pandas

In [2]:
# Como a função read_csv considera as primeiras linhas de um dataset
# como cabeçalhos (algo que o nosso csv não tem, pois, temos nesse arquivo
# apenas combinações de produtos), precisamos avisar a função que o 
# dataset não possui rótulos. Dessa maneira, a função irá criar
# rótulos núméricos para as combinações. Para realizar essa ação,
# iremos utilizar o argumento header que possui como valor o None
# (que indica que o dataset não contém rótulos)
base_de_dados = pd.read_csv('Dados/compras.csv', header = None)

Visualizando a base de dados

In [3]:
base_de_dados

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,22,23,24,25,26,27,28,29,30,31
0,citrus fruit,semi-finished bread,margarine,ready soups,,,,,,,...,,,,,,,,,,
1,tropical fruit,yogurt,coffee,,,,,,,,...,,,,,,,,,,
2,whole milk,,,,,,,,,,...,,,,,,,,,,
3,pip fruit,yogurt,cream cheese,meat spreads,,,,,,,...,,,,,,,,,,
4,other vegetables,whole milk,condensed milk,long life bakery product,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9830,sausage,chicken,beef,hamburger meat,citrus fruit,grapes,root vegetables,whole milk,butter,whipped/sour cream,...,,,,,,,,,,
9831,cooking chocolate,,,,,,,,,,...,,,,,,,,,,
9832,chicken,citrus fruit,other vegetables,butter,yogurt,frozen dessert,domestic eggs,rolls/buns,rum,cling film/bags,...,,,,,,,,,,
9833,semi-finished bread,bottled water,soda,bottled beer,,,,,,,...,,,,,,,,,,


Visualizando as informações gerais da base de dados

In [4]:
base_de_dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9835 entries, 0 to 9834
Data columns (total 32 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       9835 non-null   object
 1   1       7676 non-null   object
 2   2       6033 non-null   object
 3   3       4734 non-null   object
 4   4       3729 non-null   object
 5   5       2874 non-null   object
 6   6       2229 non-null   object
 7   7       1684 non-null   object
 8   8       1246 non-null   object
 9   9       896 non-null    object
 10  10      650 non-null    object
 11  11      468 non-null    object
 12  12      351 non-null    object
 13  13      273 non-null    object
 14  14      196 non-null    object
 15  15      141 non-null    object
 16  16      95 non-null     object
 17  17      66 non-null     object
 18  18      52 non-null     object
 19  19      38 non-null     object
 20  20      29 non-null     object
 21  21      18 non-null     object
 22  22      14 non-null     

Verificando a quantidade de valores nulos em cada combinação

In [5]:
base_de_dados.isnull().sum()

0        0
1     2159
2     3802
3     5101
4     6106
5     6961
6     7606
7     8151
8     8589
9     8939
10    9185
11    9367
12    9484
13    9562
14    9639
15    9694
16    9740
17    9769
18    9783
19    9797
20    9806
21    9817
22    9821
23    9827
24    9828
25    9828
26    9829
27    9830
28    9831
29    9834
30    9834
31    9834
dtype: int64

Lidando com valores nulos

In [None]:
# # Replace: Função que tem como objetivo substituir valores por outros valores.A função recebe como argumento: O valor que será substituido (np.nan) e o valor que irá substituir (o 0). O inplace = True tem como objetivo
# aplicar as alterações no dataset carregado na memória.
# Observação: Usamos o atributo nan da biblioteca numpy para referenciar
# os valores nulos
base_de_dados.replace(np.nan, 0, inplace=True)

Visualizando se os valores nulos foram eliminados (substituidos)

In [7]:
base_de_dados.isnull().sum()

0     0
1     0
2     0
3     0
4     0
5     0
6     0
7     0
8     0
9     0
10    0
11    0
12    0
13    0
14    0
15    0
16    0
17    0
18    0
19    0
20    0
21    0
22    0
23    0
24    0
25    0
26    0
27    0
28    0
29    0
30    0
31    0
dtype: int64

Função que irá remover os valores 0 dos conjuntos de combinações

In [None]:
# Função que tem como objetivo remover todos os 0 da lista de transações
# (combinações). A função recebe como argumento a lista que terá os valores
# 0 eliminados.
def remove_0_da_lista(lista):
    # List: Transforma o retorno da função em uma lista
    # filter: Tem como objetivo iterar (percorrer) a lista e filtrar
    # valores.
    # lambda: Cria uma pequena função anônima (sem nome)
    # x: O argumento que a função recebe (que será cada item da sua lista).
    # x != 0: A lógica de teste. Para cada item x, esta função retorna True
    # se x for diferente de 0, e False se x for igual a 0.  
    return list(filter(lambda x: x != 0, lista))

In [9]:
listar_todas_transacoes = []

for index, row in base_de_dados.iterrows():
    
    lista_de_transaçao = row.values.tolist()
    
    lista_de_transaçao = remove_0_da_lista(lista_de_transaçao)
    
    listar_todas_transacoes.append(lista_de_transaçao)   
    
print("Tamanho da lista de transações: ", len(listar_todas_transacoes))

print("Verificando a primeira transação: ", listar_todas_transacoes[0])

print("Verificando as 10 primeiras transações: ", listar_todas_transacoes[0:10])

Tamanho da lista de transações:  9835
Verificando a primeira transação:  ['citrus fruit', 'semi-finished bread', 'margarine', 'ready soups']
Verificando as 10 primeiras transações:  [['citrus fruit', 'semi-finished bread', 'margarine', 'ready soups'], ['tropical fruit', 'yogurt', 'coffee'], ['whole milk'], ['pip fruit', 'yogurt', 'cream cheese', 'meat spreads'], ['other vegetables', 'whole milk', 'condensed milk', 'long life bakery product'], ['whole milk', 'butter', 'yogurt', 'rice', 'abrasive cleaner'], ['rolls/buns'], ['other vegetables', 'UHT-milk', 'rolls/buns', 'bottled beer', 'liquor (appetizer)'], ['potted plants'], ['whole milk', 'cereals']]


In [10]:
from mlxtend.preprocessing import TransactionEncoder

te = TransactionEncoder()

te_ary = te.fit(listar_todas_transacoes).transform(listar_todas_transacoes)

te_ary

base_de_dados = pd.DataFrame(te_ary, columns = te.columns_)

base_de_dados


Unnamed: 0,Instant food products,UHT-milk,abrasive cleaner,artif. sweetener,baby cosmetics,baby food,bags,baking powder,bathroom cleaner,beef,...,turkey,vinegar,waffles,whipped/sour cream,whisky,white bread,white wine,whole milk,yogurt,zwieback
0,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,True,False
2,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,True,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,True,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,True,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9830,False,False,False,False,False,False,False,False,False,True,...,False,False,False,True,False,False,False,True,False,False
9831,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
9832,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,True,False
9833,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


In [11]:
from mlxtend.frequent_patterns import apriori

itens_frequentes = apriori(base_de_dados, min_support=0.01, use_colnames=True)

itens_frequentes.sort_values(by=['support'], ascending=False) 

Unnamed: 0,support,itemsets
86,0.255516,(whole milk)
55,0.193493,(other vegetables)
66,0.183935,(rolls/buns)
75,0.174377,(soda)
87,0.139502,(yogurt)
...,...,...
160,0.010066,"(curd, rolls/buns)"
236,0.010066,"(other vegetables, waffles)"
212,0.010066,"(tropical fruit, napkins)"
199,0.010066,"(whole milk, hard cheese)"


In [12]:
from mlxtend.frequent_patterns import association_rules

regras = association_rules(itens_frequentes, metric='confidence', min_threshold = 0.5)

regras.sort_values(by=['lift'], ascending=False).drop(['antecedent support', 'consequent support', 'leverage', 'conviction', 'representativity', 'zhangs_metric', 'jaccard', 'certainty', 'kulczynski'], axis = 1)

Unnamed: 0,antecedents,consequents,support,confidence,lift
1,"(root vegetables, citrus fruit)",(other vegetables),0.010371,0.586207,3.029608
6,"(root vegetables, tropical fruit)",(other vegetables),0.012303,0.584541,3.020999
5,"(root vegetables, rolls/buns)",(other vegetables),0.012201,0.502092,2.59489
7,"(root vegetables, yogurt)",(other vegetables),0.012913,0.5,2.584078
2,"(curd, yogurt)",(whole milk),0.010066,0.582353,2.279125
0,"(butter, other vegetables)",(whole milk),0.01149,0.573604,2.244885
11,"(root vegetables, tropical fruit)",(whole milk),0.011998,0.570048,2.230969
12,"(root vegetables, yogurt)",(whole milk),0.01454,0.562992,2.203354
3,"(domestic eggs, other vegetables)",(whole milk),0.012303,0.552511,2.162336
14,"(whipped/sour cream, yogurt)",(whole milk),0.01088,0.52451,2.052747
