# Basket Analysis


**Definição**

O "Basket Analysis" (ou Análise de Cestas) é uma técnica de análise de dados usada em sistemas de recomendação e marketing para identificar associações e padrões de co-ocorrência de itens em transações de compra, registros de navegação ou outras interações dos usuários. O objetivo é descobrir quais itens são frequentemente comprados ou usados juntos, de modo que essas informações possam ser usadas para fazer recomendações personalizadas e criar estratégias de vendas mais eficazes.

O conceito central da Basket Analysis é o "princípio da co-ocorrência", que sugere que certos itens são frequentemente adquiridos simultaneamente por muitos usuários. Por exemplo, se um cliente compra uma câmera digital, é provável que também compre um cartão de memória e uma bolsa de transporte para a câmera. Ao analisar grandes conjuntos de dados de transações ou interações de usuários, a Basket Analysis pode identificar esses padrões e usar as associações encontradas para recomendar itens adicionais.

**Regra de associação chamada - Apriori**

Um algoritmo comum usado na Basket Analysis é a regra de associação chamada "Apriori". O algoritmo Apriori busca por conjuntos frequentes de itens e gera regras de associação, como "se um cliente compra X e Y, então é provável que também compre Z". Essas regras podem ser usadas para fazer recomendações de itens relacionados quando um cliente adiciona um produto ao carrinho de compras ou faz uma compra online.

A Basket Analysis é amplamente aplicada em várias áreas, incluindo comércio eletrônico, varejo, marketing, análise de redes sociais e muito mais. Além das recomendações de produtos, também pode ser usada para otimizar a disposição de produtos em lojas físicas, criar ofertas especiais ou pacotes de produtos e melhorar a segmentação de público-alvo em campanhas de marketing.

Entretanto, é importante notar que a Basket Analysis tem suas limitações. Ela se baseia em padrões históricos e não considera mudanças nas preferências do cliente ao longo do tempo. Outras técnicas de sistemas de recomendação, como filtragem colaborativa e recomendação baseada em conteúdo, podem ser usadas em conjunto com a Basket Analysis para fornecer recomendações mais precisas e diversificadas aos usuários.

# **Regra de associação**

Regra de associação é uma técnica de análise de dados frequentemente usada em mineração de dados e sistemas de recomendação para identificar padrões de co-ocorrência entre itens em um conjunto de dados. Essas regras ajudam a descobrir associações interessantes e úteis entre diferentes itens, permitindo inferir quais itens são frequentemente adquiridos juntos.

As regras de associação são geralmente expressas na forma de "se X, então Y", indicando que se um conjunto de itens X (conhecido como "antecedente" ou "item antecedente") está presente, é provável que outro conjunto de itens Y (conhecido como "consequente" ou "item consequente") também esteja presente.

Existem duas métricas principais usadas para medir a força e relevância das regras de associação:

Suporte (Support): Mede a frequência absoluta de ocorrência de uma regra em todo o conjunto de dados. É a proporção de transações em que a regra é verdadeira. Um alto suporte indica que a regra é frequente e relevante para o conjunto de dados.

Confiança (Confidence): Mede a probabilidade condicional de que o consequente ocorra, dado que o antecedente está presente. A confiança é calculada como a proporção do suporte da regra pelo suporte do antecedente. Uma alta confiança indica que a regra é altamente confiável.

Além disso, as regras de associação também podem ser avaliadas em termos de lift (elevação) e outras métricas, que ajudam a determinar se a associação entre os itens é significativa ou apenas uma coincidência.

Por exemplo, considere o seguinte conjunto de dados de transações de compra:


**Transação  Itens Comprados**


**1          {Pão, Leite}**

**2          {Pão, Ovos}**

**3          {Leite, Ovos}**

**4          {Pão, Leite, Ovos}**

**5          {Pão, Leite}**

Com base nesses dados, podemos gerar as seguintes regras de associação:

**{Pão} => {Leite} (suporte: 0.4, confiança: 0.8)**

**{Leite} => {Pão} (suporte: 0.4, confiança: 0.8)**

**{Pão} => {Ovos} (suporte: 0.4, confiança: 0.8)**

**{Ovos} => {Pão} (suporte: 0.4, confiança: 0.8)**

**{Leite} => {Ovos} (suporte: 0.4, confiança: 0.8)**

**{Ovos} => {Leite} (suporte: 0.4, confiança: 0.8)**


Essas regras mostram que pães, leite e ovos são frequentemente comprados juntos, com um suporte de 0.4 e uma confiança de 0.8. Isso indica uma forte associação entre esses itens, e essa informação pode ser usada, por exemplo, para fazer recomendações de itens relacionados ou planejar estratégias de venda cruzada em uma loja.

In [1]:
# Instalação pacote - algoritmo Apriori para realizar a Basket Analysis usando bibliotecas como pandas e mlxtend. 
! pip install mlxtend



In [2]:
# Carregando pacotes
import pandas as pd
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules

In [3]:
# Exemplo de dados de compras
dados = {'Transação': [1, 1, 1, 2, 2, 3, 3, 4, 4, 4, 4, 5, 5],
         'Item': ['A', 'B', 'C', 'A', 'B', 'A', 'C', 'B', 'C', 'D', 'E', 'B', 'C']}

# Converter os dados em um DataFrame
df = pd.DataFrame(dados)
df

Unnamed: 0,Transação,Item
0,1,A
1,1,B
2,1,C
3,2,A
4,2,B
5,3,A
6,3,C
7,4,B
8,4,C
9,4,D


In [5]:
# Converter os dados para a matriz de cesta usando one-hot encoding
basket = (df.groupby(['Transação', 'Item'])['Item']
          .count().unstack().reset_index().fillna(0)
          .set_index('Transação'))
basket

Item,A,B,C,D,E
Transação,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,1.0,1.0,1.0,0.0,0.0
2,1.0,1.0,0.0,0.0,0.0
3,1.0,0.0,1.0,0.0,0.0
4,0.0,1.0,1.0,1.0,1.0
5,0.0,1.0,1.0,0.0,0.0


In [6]:
# Função para codificar os valores como 0 ou 1
def encode_units(x):
    if x <= 0:
        return 0
    if x >= 1:
        return 1

# Aplicar a função de codificação aos dados da cesta
basket_sets = basket.applymap(encode_units)
basket_sets

Item,A,B,C,D,E
Transação,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,1,1,1,0,0
2,1,1,0,0,0
3,1,0,1,0,0
4,0,1,1,1,1
5,0,1,1,0,0


In [7]:
# Executar o algoritmo Apriori para encontrar os itens frequentes com suporte mínimo de 0.2
frequent_itemsets = apriori(basket_sets, 
                            min_support=0.2, 
                            use_colnames=True)
frequent_itemsets



Unnamed: 0,support,itemsets
0,0.6,(A)
1,0.8,(B)
2,0.8,(C)
3,0.2,(D)
4,0.2,(E)
5,0.4,"(B, A)"
6,0.4,"(C, A)"
7,0.6,"(B, C)"
8,0.2,"(B, D)"
9,0.2,"(E, B)"


In [10]:
# Gerar as regras de associação com confiança mínima de 0.7
rules = association_rules(frequent_itemsets, 
                          metric="confidence", 
                          min_threshold=0.7)
rules.head(5)

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,zhangs_metric
0,(B),(C),0.8,0.8,0.6,0.75,0.9375,-0.04,0.8,-0.25
1,(C),(B),0.8,0.8,0.6,0.75,0.9375,-0.04,0.8,-0.25
2,(D),(B),0.2,0.8,0.2,1.0,1.25,0.04,inf,0.25
3,(E),(B),0.2,0.8,0.2,1.0,1.25,0.04,inf,0.25
4,(D),(C),0.2,0.8,0.2,1.0,1.25,0.04,inf,0.25


In [11]:
# Mostrar os itens frequentes
print("Itens frequentes:")
print(frequent_itemsets)

Itens frequentes:
    support      itemsets
0       0.6           (A)
1       0.8           (B)
2       0.8           (C)
3       0.2           (D)
4       0.2           (E)
5       0.4        (B, A)
6       0.4        (C, A)
7       0.6        (B, C)
8       0.2        (B, D)
9       0.2        (E, B)
10      0.2        (C, D)
11      0.2        (E, C)
12      0.2        (E, D)
13      0.2     (C, B, A)
14      0.2     (B, C, D)
15      0.2     (E, B, C)
16      0.2     (E, B, D)
17      0.2     (E, C, D)
18      0.2  (E, B, C, D)


In [12]:
# Mostrar as regras de associação
print("\nRegras de Associação:")
print(rules)


Regras de Associação:
   antecedents consequents  antecedent support  consequent support  support  \
0          (B)         (C)                 0.8                 0.8      0.6   
1          (C)         (B)                 0.8                 0.8      0.6   
2          (D)         (B)                 0.2                 0.8      0.2   
3          (E)         (B)                 0.2                 0.8      0.2   
4          (D)         (C)                 0.2                 0.8      0.2   
5          (E)         (C)                 0.2                 0.8      0.2   
6          (E)         (D)                 0.2                 0.2      0.2   
7          (D)         (E)                 0.2                 0.2      0.2   
8       (B, D)         (C)                 0.2                 0.8      0.2   
9       (C, D)         (B)                 0.2                 0.8      0.2   
10         (D)      (B, C)                 0.2                 0.6      0.2   
11      (E, B)         (C)   