# Análise de Dados

## Market Basket Analysis


A análise de cesta de mercado é amplamente utilizada no setor de varejo, onde os dados de vendas são processados e analisados para conseguir entender os padrões de compra dos clientes e assim, alcançar as melhores estratégias de venda.

Para o presente estudo, será utilizada uma base de dados do setor varejista, com aplicação do algoritmo Apriori, que consiste na mineração de conjuntos de itens frequentes, ou seja, ele agrupa os itens que mais são comprados juntos pelos clientes, indicando suas tendências e correlações.

Dataset: 

In [1]:
!pip install -q efficient_apriori

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import efficient_apriori
from platform import python_version

In [3]:
print("Versão do python: ",python_version())

Versão do python:  3.10.9


In [4]:
'''corredores = pd.read_csv(r"datasets\aisles.csv")
departamentos = pd.read_csv(r"datasets\departments.csv")
pedidos = pd.read_csv(r"datasets\orders.csv")
produtos = pd.read_csv(r"datasets\products.csv")
pedidos_anteriores = pd.read_csv(r"datasets\order_products__prior.csv")
pedidos_treino = pd.read_csv(r"datasets\order_products__train.csv")'''

'corredores = pd.read_csv(r"datasets\x07isles.csv")\ndepartamentos = pd.read_csv(r"datasets\\departments.csv")\npedidos = pd.read_csv(r"datasets\\orders.csv")\nprodutos = pd.read_csv(r"datasets\\products.csv")\npedidos_anteriores = pd.read_csv(r"datasets\\order_products__prior.csv")\npedidos_treino = pd.read_csv(r"datasets\\order_products__train.csv")'

In [5]:
'''tabelas = {'corredores':corredores, 
           'departamentos':departamentos, 
           'pedidos':pedidos, 
           'produtos':produtos, 
           'pedidos_anteriores':pedidos_anteriores, 
           'pedidos_treino':pedidos_treino}'''

"tabelas = {'corredores':corredores, \n           'departamentos':departamentos, \n           'pedidos':pedidos, \n           'produtos':produtos, \n           'pedidos_anteriores':pedidos_anteriores, \n           'pedidos_treino':pedidos_treino}"

In [6]:
tabelas = {'corredores':pd.read_csv(r"datasets\aisles.csv"), 
           'departamentos':pd.read_csv(r"datasets\departments.csv"), 
           'pedidos':pd.read_csv(r"datasets\orders.csv"), 
           'produtos':pd.read_csv(r"datasets\products.csv"), 
           'pedidos_anteriores':pd.read_csv(r"datasets\order_products__prior.csv"), 
           'pedidos_treino':pd.read_csv(r"datasets\order_products__train.csv")}

In [7]:
# Quantidade de registros em cada tabela
contagem_registros = np.array([])
contagem_registros = pd.DataFrame([np.append(contagem_registros,[tabela[0],len(tabela[1])]) for tabela in tabelas.items()], columns = ['Tabela', 'Quantidade de registros'])
contagem_registros

Unnamed: 0,Tabela,Quantidade de registros
0,corredores,134
1,departamentos,21
2,pedidos,3421083
3,produtos,49688
4,pedidos_anteriores,32434489
5,pedidos_treino,1384617


In [8]:
dados_nulos = [{tabela[0]: tabela[1].isna().sum()} for tabela in tabelas.items() if tabela[1].isna().sum().any()!=0]
dados_nulos

[{'pedidos': order_id                       0
  user_id                        0
  eval_set                       0
  order_number                   0
  order_dow                      0
  order_hour_of_day              0
  days_since_prior_order    206209
  dtype: int64}]

#### Vamos agrupar os produtos pedidos em cada ordem

In [9]:
%%time
pedidos_agrupados = pd.DataFrame(tabelas['pedidos_anteriores'].groupby('order_id')['product_id'])

CPU times: total: 2min 18s
Wall time: 2min 19s


In [10]:
pedidos_agrupados.head()

Unnamed: 0,0,1
0,2,0 33120 1 28985 2 9327 3 45918 4 ...
1,3,9 33754 10 24838 11 17704 12 2190...
2,4,17 46842 18 26434 19 39758 20 2776...
3,5,30 13176 31 15005 32 47329 33 2796...
4,6,56 40462 57 15873 58 41897 Name: prod...


In [11]:
produtos = []

In [12]:
%%time
for i in range(len(pedidos_agrupados[0])):
    produtos.append(list(pedidos_agrupados.iloc[i][1]))

CPU times: total: 6min 5s
Wall time: 6min 5s


In [16]:
transacoes = pd.DataFrame({'OrderID' : pedidos_agrupados[0], 'Products' : produtos})

In [17]:
transacoes

Unnamed: 0,OrderID,Products
0,2,"[33120, 28985, 9327, 45918, 30035, 17794, 4014..."
1,3,"[33754, 24838, 17704, 21903, 17668, 46667, 174..."
2,4,"[46842, 26434, 39758, 27761, 10054, 21351, 225..."
3,5,"[13176, 15005, 47329, 27966, 23909, 48370, 132..."
4,6,"[40462, 15873, 41897]"
...,...,...
3214869,3421079,[30136]
3214870,3421080,"[27845, 4932, 18811, 41950, 31717, 12935, 2512..."
3214871,3421081,"[38185, 12218, 32299, 3060, 20539, 35221, 12861]"
3214872,3421082,"[17279, 12738, 16797, 43352, 32700, 12023, 47941]"


In [19]:
transacoes.to_csv("transacoes.csv")