<h1>Market Basket - Rule and Data Mining</h1>

APRESENTAÇÃO:

Nosso projeto vai analisar a base de dados das cestas de produtos compradas em uma empresa e apresentar, com base em seus padrões e regras, buscar oportunidades sugerindo técnicas e soluções para melhor desempenho da empresa. Futuramente, podemos focar neste nicho de mercado e oferecer este produto para outros varejistas no Brasl e talvez até no mundo todo.

Iniciamos com uma entrevista inicial com a empresa TAL, ONDE ... Entender a "dor" do cliente. E se tem DB. (Planejamento de tempo - resolver essa parte até 24 de abril de 2022),

Além disso, o grupo pesquisou na internet projetos e sites que oferecem soluções semelhantes (projetos de melhor uso de dados de cesta de compras, sistemas de recomendação e clusterização, criação de perfis de consumidor etc. - critérios e categorias de segmentação etc.)

A busca no Google Scholar por artigos científicos relacionados a "Market Basket" e "data mining" para iniciar o trabalho com fundamentação científica resultou em 146 mil artigos: https://scholar.google.com.br/scholar?hl=pt-BR&as_sdt=0%2C5&q=Market+Basket+Data+Mining&btnG=

Iniciamos o projeto analisando o "Association Rule Mining" ( https://courses.cs.duke.edu/compsci516/spring16/Papers/AssociationRuleMining.pdf ), que apresenta a técnica de mineração de regras de associação, que busca por padrões frequentes em grandes conjuntos de dados. Para isso, são utilizados os conceitos de regras de associação, confiança e suporte, além de serem apresentados os algoritmos Apriori e FP-Growth utilizados na mineração de regras.



RESUMO DO ARTIGO:

Um dos desafios na mineração de regras de associação é o problema da escalabilidade, que ocorre quando o tamanho dos conjuntos de dados aumenta, aumentando significativamente o tempo de execução dos algoritmos. Outro problema é a presença de outliers nos dados, que pode afetar a qualidade das regras encontradas.

Para lidar com esses problemas, o artigo propõe o uso de medidas como o suporte e a confiança na mineração de regras de associação. O suporte é uma medida de frequência que indica a proporção de transações em que um conjunto de itens aparece juntos. Já a confiança é uma medida que indica a probabilidade de que um item B apareça em uma transação que contém o item A.

As fórmulas para o cálculo do suporte e confiança são as seguintes:


Suporte (Support):

S(A → B) = (N(A ∪ B)) / N
onde N é o número total de transações, A e B são conjuntos de itens e N(A ∪ B) é o número de transações que contêm tanto A quanto B.


Confiança (Confidence):

C(A → B) = (N(A ∪ B)) / N(A)
onde N(A) é o número de transações que contêm A.


O suporte e a confiança são importantes na mineração de regras de associação, pois permitem avaliar a relevância de uma regra. Uma regra com alto suporte e confiança indica que é um padrão frequente nos dados e tem uma alta probabilidade de ser verdadeiro. Por outro lado, uma regra com baixo suporte e confiança pode ser irrelevante ou pouco confiável.

O algoritmo Apriori é utilizado para lidar com a escalabilidade dos dados, utilizando um método de geração de candidatos para construir uma estrutura de dados chamada árvore de itens frequentes. O algoritmo percorre a árvore e avalia a frequência de cada item, a fim de gerar as regras de associação com base nos valores de suporte e confiança estabelecidos.

Em resumo, o artigo apresenta as técnicas de mineração de regras de associação, os problemas da escalabilidade e presença de outliers nos dados, e a importância do suporte e confiança na avaliação da relevância das regras de associação encontradas, além de apresentar as fórmulas para o cálculo do suporte e confiança e o funcionamento do algoritmo Apriori.

Com base no artigo "Association Rule Mining with Apriori Algorithm: Implementation in Python", podemos implementar o algoritmo Apriori para mineração de regras de associação em Python. Abaixo está uma implementação básica com a versão atualizada e as bibliotecas necessárias:

In [None]:
# códigos iniciais do projeto em Python - planejamento de data - até 28/04/2023

raw_data_file = 'data/raw/olist_order_payments_dataset.csv' # atualizar dados aqui quando tivermos os dados

# Instalando bibliotecas necessárias
%pip install mlxtend

# Importando bibliotecas necessárias
import pandas as pd
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules

In [5]:


d = {'name': ['Braund', 'Cummings', 'Heikkinen', 'Allen'],
     'age': [22,38,26,35],
     'fare': [7.25, 71.83, 0 , 8.05], 
     'survived?': [False, True, True, False]}

df = pd.DataFrame(d)

# Lendo o conjunto de dados
df = pd.read_csv(raw_data_file, header=None) 

# Convertendo o conjunto de dados em uma matriz de transações
transactions_list = []
transactions = pd.DataFrame.from_records(transactions_list) 
for i in range(0, len(df)):
    transactions.pandas.concatend([str(df.values[i,j]) for j in range(0, len(df.columns))])

# Obtendo os itens frequentes # com suporte mínimo de 0.2 - add  min_support=0.2, mesmo sem isso tá dando erro
frequent_itemsets = apriori(transactions, use_colnames=True)

# Obtendo as regras de associação com confiança mínima de 0.7
rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.7)

# Mostrando as regras de associação
print(rules)



AttributeError: 'DataFrame' object has no attribute 'pandas'