# Parte 1 – Analytics:
Utilize a base de dados fornecida e usando Python, faça os cruzamentos e tratativas necessárias
para ajudar o time comercial a entender a cesta de compra dos nossos sócios e a possibilidade
de criar combos promocionais.

O time comercial precisa saber quais foram os 10 itens de maior relevância no período e os top
15 itens que acompanham cada um deles.

Salve o resultado como você achar melhor e crie um relatório One Page (preferencialmente no
Looker Studio ou Tableau) que tenha a possibilidade de cada comprador visualizar seu
departamento e o gerente consiga ter uma visão macro do período.

O que deverá ser enviado:

- Breve resumo do raciocínio utilizado
- Arquivo com código Python utilizado
- Prints ou link do relatório

## Entendimento de negócio
O time comercial precisa saber quais são os itens mais relevantes, mas a relevância é bem relativa e depende muito da estratégia à ser aplicada.

#### Podemos medir relevância de 3 formas:
- **Itens mais populares (com mais tickets)**
  - Essa métrica é interessante para identificar os itens que são comprados com frequência por um grande número de clientes diferentes.
  
  - Itens com uma quantidade alta de tickets distintos podem indicar produtos populares ou de alta demanda entre os clientes
  
  
- **Itens com maior receita**
  - A receita bruta total é interessante para entender o desempenho financeiro dos produtos.
  
  - Itens com uma alta receita bruta contribuem para a geração de receita da empresa e podem ser considerados como um item chave para o sucesso financeiro do negócio.
  

- **Itens com maior margem de lucro**
  - A margem total é outra métrica financeira importante, pois representa a diferença entre a receita e os custos associados à venda dos produtos.
  
  - Itens com uma margem total alta contribuem mais para os lucros da empresa e podem ser prioritários para o time comercial, especialmente se estiverem associados a uma boa receita bruta.
  
Com a estratégia é criar combos promocionais a partir da relevância a seguindo a premissa que queremos aumentar o **volume de vendas** com esses combos, o mais sensato seria levar em conta então os **itens mais populares**, já que:

- Itens que são comprados por uma quantidade clientes diferentes possui uma ampla base de demanda.

- Ao criar combos promocionais com base nesses itens, é possível atrair uma variedade maior de clientes, aumentando as chances de sucesso da promoção.

- Itens com alta quantidade de ticket distintos têm uma demanda mais generalizada e com isso têm potencial para atrair mais clientes quando incluídos em promoções.

In [1]:
# bibliotecas
import pandas as pd

In [2]:
# importando a base
df = pd.read_csv('CASE_PRATICO_SAMS_CLUB.csv')

In [3]:
# descritivo da base
df.describe()

Unnamed: 0,id_clube,socio,item_id,item_unidade,receita_bruta,margem
count,878596.0,878596.0,878596.0,878596.0,878596.0,878596.0
mean,6308.761837,4.575835e+16,1232072.0,1.477983,32.646677,5.576704
std,665.253679,6793028000000.0,12980.08,3.228101,110.421399,26.760466
min,5235.0,4.574401e+16,1215153.0,-425.0,-16781.88,-9445.03
25%,6059.0,4.57521e+16,1222549.0,1.0,11.36,2.23
50%,6169.0,4.575222e+16,1230923.0,1.0,19.27,4.11
75%,6183.0,4.57651e+16,1236365.0,1.0,33.36,7.47
max,7780.0,4.57661e+16,1268287.0,1092.0,34006.25,6291.29


In [4]:
# colunas
df.columns

Index(['periodo', 'id_clube', 'socio', 'canal', 'ticket', 'departamento',
       'item_id', 'item_descricao', 'item_unidade', 'receita_bruta', 'margem'],
      dtype='object')

In [5]:
# amostra
df.head()

Unnamed: 0,periodo,id_clube,socio,canal,ticket,departamento,item_id,item_descricao,item_unidade,receita_bruta,margem
0,2022-01-10,5235,45765100809381908,PISO,4576510080938190820220110,BAZAR E TÊXTIL,1259475,CALCAO,2,81.17,22.43
1,2022-01-10,5235,45766100903265726,PISO,4576610090326572620220110,BAZAR E TÊXTIL,1259475,CALCAO,1,41.27,11.9
2,2022-01-10,5235,45765100815078019,PISO,4576510081507801920220110,BAZAR E TÊXTIL,1225017,CHAPEU PRAIA,1,51.27,11.1
3,2022-01-10,5235,45766100904345030,PISO,4576610090434503020220110,BAZAR E TÊXTIL,1216504,BANCO DOBRAVEL,1,81.34,22.93
4,2022-01-10,5235,45766100903286284,PISO,4576610090328628420220110,BAZAR E TÊXTIL,1259473,BERMUDA MOLETOM,2,201.17,46.37


In [6]:
# verificando registros vazios
registros_vazios = df[df.isna().any(axis=1)]
registros_vazios

Unnamed: 0,periodo,id_clube,socio,canal,ticket,departamento,item_id,item_descricao,item_unidade,receita_bruta,margem


## Itens mais populares

Quais itens possuem mais ticket

In [7]:
top_10_produtos_tickets = df.groupby('item_descricao')['ticket'].nunique().nlargest(10)
top_10_produtos_tickets

item_descricao
SACOLA PLASTICA MM BRANCA              13300
PAPEL TOALHA KITCHEN JUMB FD C360FL     5864
MM LAVA ROUPAS 5LTS ULTIMATE CLEAN      4285
PH NEVE FT 20M L32P28UN                 3859
PAO FRANCES MEMBERS MARK                3822
PH PERSONAL VIP FD 40 ROLOSX30M         3664
BANANA PRATA KG                         3601
REQUEIJ CREMOSO 500G MEMBERS MARK       3206
OMO LAVA ROUPAS LAVAG PERFEITA 5LT      3034
SACOLA PLASTICA MM CINZA                2981
Name: ticket, dtype: int64

## Itens que geraram mais receita

In [8]:

top_10_produtos_receita = df.groupby('item_descricao')['receita_bruta'].nunique().nlargest(10)
top_10_produtos_receita

item_descricao
BANANA PRATA KG                        1295
FILE MIGN S CORDAO KG                   998
BANANA NANICA KG                        928
MAMAO PAPAYA KG                         850
MAMAO FORMOSA KG                        727
ABACATE KG                              664
FILE DE PEITO FRANG MEMBERS MARK KG     664
PATINHO EXTRA MOIDO MEMBERS MARK KG     644
CONTRA FILE BOVINO RESF BOVINO KG       637
PAO FRANCES MEMBERS MARK                633
Name: receita_bruta, dtype: int64

## Itens que geraram mais margem

In [9]:

top_10_produtos_margem = df.groupby('item_descricao')['margem'].nunique().nlargest(10)
top_10_produtos_margem

item_descricao
FILE MIGN S CORDAO KG                  1012
BANANA PRATA KG                         784
PATINHO EXTRA MOIDO MEMBERS MARK KG     633
BANANA NANICA KG                        616
MAMAO PAPAYA KG                         614
FILE DE PEITO FRANG MEMBERS MARK KG     572
CONTRA FILE BOVINO RESF BOVINO KG       550
PAO FRANCES MEMBERS MARK                548
MAMAO FORMOSA KG                        521
PAO ITALIANO MEMBERS MARK               519
Name: margem, dtype: int64

## Ticket médio

Em cada compra/ticket, quando produtos em média são comprados

In [10]:
df['ticket'].count() / df['ticket'].nunique()

11.65586775982382

## Combos promocionais

Dentre os itens populares encontrados acima, quais são os produtos mais relacionados

In [11]:
top_10_produtos = df.groupby('item_descricao')['ticket'].nunique().nlargest(10).index.tolist()

resultados = []

for produto_referencia in top_10_produtos:
    tickets_produto_referencia = df[df['item_descricao'] == produto_referencia]['ticket'].unique()

    dados_combo = df[df['ticket'].isin(tickets_produto_referencia)]

    relacionados = dados_combo[dados_combo['item_descricao'] != produto_referencia].groupby('item_descricao')['ticket'].nunique().nlargest(15).index.tolist()

    for item in relacionados:
        resultados.append({'produto_referencia': produto_referencia, 'produto_relacionado': item})

combos = pd.DataFrame(resultados)
combos.to_csv('resultados_combos.csv', index=False)
combos


Unnamed: 0,produto_referencia,produto_relacionado
0,SACOLA PLASTICA MM BRANCA,PAPEL TOALHA KITCHEN JUMB FD C360FL
1,SACOLA PLASTICA MM BRANCA,PAO FRANCES MEMBERS MARK
2,SACOLA PLASTICA MM BRANCA,BANANA PRATA KG
3,SACOLA PLASTICA MM BRANCA,REQUEIJ CREMOSO 500G MEMBERS MARK
4,SACOLA PLASTICA MM BRANCA,MM LAVA ROUPAS 5LTS ULTIMATE CLEAN
...,...,...
145,SACOLA PLASTICA MM CINZA,REQUEIJAO TRADIC CATUPIRY 500G
146,SACOLA PLASTICA MM CINZA,MANTEIGA AVIACAO COM SAL POTE 500G
147,SACOLA PLASTICA MM CINZA,PAO FRANCES MEMBERS MARK
148,SACOLA PLASTICA MM CINZA,CENOURA KG


### Racional

- Encontrar o top 10 mais relevantes
- Para cada um desses itens, fazer as iterações:
  - Filtrar tickets onde hajam o item em questão, assim, tenho uma lista de tickets
  - Tendo essa lista de ticket onde o produto referência está, filtrar o dataframe selecionando apenas esses tickets
  - A partir do df filtrado, extrair o 10 top para o produto referência

# Parte 2 – Data Science:
O problema anterior limita-se a achar combos com apenas 2 itens. A partir da sua solução da
Parte 1, desenvolva uma nova solução com alguma técnica de Machine Learning que permita
achar combos maiores (p.ex. com 3 itens).

O que deverá ser enviado:
- Explicação sucinta da técnica utilizada
- Arquivo com código Python utilizado
- Print dos resultados

## Entendimento da solução
- Será usado o algoritmo Apriori para entender a associação entre os itens;
- Se fosse o caso de analisar quais produtos colocar perto na mesma prateleira de uma loja por exemplo, poderíamos usar a combinação de todos os produtos para encontrar os combos. Mas como o objetivo é identificar combos promocionais para impulsionar vendas (já que estamos falando do time comercial), segmentaremos essa análise pelo departamento. Além de que, temos vendas em lojas físicas e ecommerce.


In [35]:
produtos_por_departamento = df.groupby('departamento')['item_id'].nunique()

# Exibir o resultado
print(produtos_por_departamento)

departamento
BAZAR E TÊXTIL       1650
BEBIDAS              1697
COMMODITIES           919
ELETRO                408
HIGIENE E LIMPEZA     869
MERCEARIA            1526
PERECÍVEIS           3591
SERVICO DIGITAL         1
Name: item_id, dtype: int64


In [54]:
!conda intall pygpgrowth

'conda' n�o � reconhecido como um comando interno
ou externo, um programa oper�vel ou um arquivo em lotes.


In [51]:
import pandas as pd
import pyfpgrowth

# Supondo que 'item_descricao' seja uma coluna categórica que você deseja usar como itens para a mineração de regras de associação
transactions = df_filtro.groupby('ticket')['item_descricao'].apply(list).tolist()

# Definir o suporte mínimo desejado
min_support = 0.01  # Ajuste conforme necessário

# Executar o algoritmo FP-Growth para encontrar conjuntos frequentes
patterns = pyfpgrowth.find_frequent_patterns(transactions, int(len(transactions) * min_support))

# Gerar regras de associação a partir dos conjuntos frequentes
rules = pyfpgrowth.generate_association_rules(patterns, min_confidence=0.5)  # Ajuste a confiança mínima conforme necessário

# Visualizar as regras de associação
print(rules)


'pip' n�o � reconhecido como um comando interno
ou externo, um programa oper�vel ou um arquivo em lotes.


ModuleNotFoundError: No module named 'pyfpgrowth'