# Preparação do ambiente

## Bibliotecas

In [1]:
import pandas as pd
import re

## Constantes e funções auxiliares

In [2]:
# arquivos utilizados na rotulagem
# alguns nomes de arquivos foram alterados em relação à execução original para 
# conferir melhor coerência e entendimento

# arquivos brutos do Regulatron
# dados_regulatron_brutos
FILE_AMAZON = '../datasets/rotulagem_consolidada/regulatron/brutos/amazon.parquet.gzip'
FILE_MAGALU = '../datasets/rotulagem_consolidada/regulatron/brutos/magalu.parquet.gzip'
FILE_ML = '../datasets/rotulagem_consolidada/regulatron/brutos/ml.parquet.gzip'

# arquivo com dados consolidados do Regulatron
# anúncios de Amazon, Magalu e Mercado Livre em um único DataFrame
FILE_ANUNCIOS = '../datasets/rotulagem_consolidada/regulatron/consolidado/anuncios_regulatron.parquet'

# arquivo com amostra de anúncios utilizado para importação no Fiscaliza
FILE_ANUNCIOS_AMOSTRA = '../datasets/rotulagem_consolidada/fiscaliza/anuncios_amostra.parquet'

# arquivos com tarefas de rotulagem cadastradas no Fiscaliza
FILE_TAREFAS_FISCALIZA = '../datasets/rotulagem_consolidada/fiscaliza/tarefas_fiscaliza.parquet'

# arquivo com amostras rotuladas já tratadas
FILE_ANUNCIOS_ROTULADOS = '../datasets/rotulagem_consolidada/fiscaliza/anuncios_rotulados.parquet'

# arquivos com categorias dos anúncios 
# apenas link e categoria para eventual mesclagem
FILE_ANUNCIOS_CATEGORIA = '../datasets/rotulagem_consolidada/regulatron/tratados/anuncios_categoria.parquet'

# arquivo com amostras rotuladas já tratadas, com acréscimo das categorias extraídas 
FILE_ANUNCIOS_ROTULADOS_CATEGORIA = '../datasets/rotulagem_consolidada/regulatron/tratados/anuncios_rotulados_categoria.parquet'

# Carga e prepação dos dados

## Arquivos brutos do Regulatron

In [3]:
%%time
# todos os anúncios raspados pelo Regulatron
# um dataframe para cada pois há colunas diferentes
df_amazon = pd.read_parquet(FILE_AMAZON)
df_magalu = pd.read_parquet(FILE_MAGALU)
df_ml = pd.read_parquet(FILE_ML)

CPU times: total: 2.17 s
Wall time: 1.59 s


## Arquivo consolidado do Regulatron

In [4]:
%%time
df_anuncios = pd.read_parquet(FILE_ANUNCIOS)
df_anuncios

CPU times: total: 594 ms
Wall time: 657 ms


Unnamed: 0,marketplace,link,nome,desc,img0,img1,img2
0,amazon,https://www.amazon.com.br/Especiais-Cinematic-...,Filtro de Lente de Efeitos Especiais Blue Stre...,Especificações: Modelo aplicável: este filtro ...,https://m.media-amazon.com/images/I/61ZdffRDj2...,https://m.media-amazon.com/images/I/51DeP4IE2F...,https://m.media-amazon.com/images/I/41w7kz5r4P...
1,amazon,https://www.amazon.com.br/Motores-Escova-Conju...,"Motores Sem Escova, 4 Conjuntos de Motores Sem...",1. Modelo de uso: Este motor sem escova de dro...,https://m.media-amazon.com/images/I/51aZmDncic...,https://m.media-amazon.com/images/I/31mER3G37I...,https://m.media-amazon.com/images/I/31jk4g-fUt...
2,amazon,https://www.amazon.com.br/Armazenamento-Protet...,"Bolsa de Armazenamento Protetora para Drone, C...",1. Excelente proteção: o case rígido do drone ...,https://m.media-amazon.com/images/I/612uWGXrp7...,https://m.media-amazon.com/images/I/41JfSjIxxR...,https://m.media-amazon.com/images/I/41CVth1dqO...
3,amazon,https://www.amazon.com.br/EQUSS-V-strom-Motoci...,EQUSS Para DUCATI DL650 DL1000 V-strom DL 650 ...,1. Material: liga de alumínio [Super Grip] - D...,https://m.media-amazon.com/images/I/51-m8iNiuL...,https://m.media-amazon.com/images/I/31VLMQCsxU...,https://m.media-amazon.com/images/I/31WjqM+BqB...
4,amazon,https://www.amazon.com.br/remote-control-brush...,"remote control car brushless motor servo kit,r...",,https://m.media-amazon.com/images/I/61Hzfl2r75...,https://m.media-amazon.com/images/I/41P1kyyx1l...,https://m.media-amazon.com/images/I/41I9plec-T...
...,...,...,...,...,...,...,...
230161,mercadolivre,https://www.mercadolivre.com.br/xiaomi-smart-m...,"Xiaomi Smart Mi Band 8 Tela 1.62"" Amoled Caixa...",XIAOMI Smart Band 8 Versão Global\nLançamento ...,https://http2.mlstatic.com/D_NQ_NP_879773-MLU7...,,
230162,mercadolivre,https://www.mercadolivre.com.br/xiaomi-stick-4...,Xiaomi Stick 4k MDZ-27-AA controle de voz 4K 8...,Com o media player da Xiaomi você vai ser capa...,https://http2.mlstatic.com/D_NQ_NP_679763-MLU7...,,
230163,mercadolivre,https://www.mercadolivre.com.br/xiaomi-stick-4...,Xiaomi Stick 4k MDZ-27-AA de voz 4K 8GB preto ...,Com o media player da Xiaomi você vai ser capa...,https://http2.mlstatic.com/D_NQ_NP_679763-MLU7...,,
230164,mercadolivre,https://www.mercadolivre.com.br/y68-d20-smart-...,Y68 D20 Smart Watch Bluetooth Fitness Sports P...,"Tecnologia, qualidade e sofisticação definem o...",https://http2.mlstatic.com/D_NQ_NP_696771-MLA4...,,


## Tarefas de rotulagem no Fiscaliza (Redmine)

### Amostra de anúncios para rotulagem

In [5]:
%%time
# anúncios da amostra utilizada para rotulagem
df_anuncios_amostra = pd.read_parquet(FILE_ANUNCIOS_AMOSTRA)
df_anuncios_amostra

CPU times: total: 156 ms
Wall time: 179 ms


Unnamed: 0,marketplace,link,nome,desc,img0,img1,img2,Projeto,Título,Descrição,Tipo,Situação,Data de início,Data limite,Atribuído para,Login,Lotação
0,mercadolivre,https://produto.mercadolivre.com.br/MLB-299001...,Streaming Box S Tucson 2018 A 2022 Carplay 4g ...,STREAMING BOX S - 2GB RAM | 32GB ARMAZENAMENTO...,https://http2.mlstatic.com/D_NQ_NP_982375-MLB5...,,,Rotulagem de Dados,LABEL_PACP_2024_00000001,h1. Streaming Box S Tucson 2018 A 2022 Carplay...,Rotulagem de Dados,Responder pesquisa,29/04/2024,31/05/2024,aeciom,aeciom,UO071
1,magalu,https://www.magazineluiza.com.br/smartphone-mo...,Smartphone Motorola Moto G52 XT2221-1 Dual Sim...,Fotografia profissional no seu bolsoDescubra i...,https://a-static.mlcdn.com.br/90x90/smartphone...,,,Rotulagem de Dados,LABEL_PACP_2024_00000002,h1. Smartphone Motorola Moto G52 XT2221-1 Dual...,Rotulagem de Dados,Responder pesquisa,29/04/2024,31/05/2024,aeciom,aeciom,UO071
2,mercadolivre,https://www.mercadolivre.com.br/notebook-dell-...,Notebook Dell Latitude 7490 I5 8ª Ger Ddr4 16g...,Os produtos da Dell destacam-se por oferecer s...,https://http2.mlstatic.com/D_NQ_NP_754395-MLU7...,,,Rotulagem de Dados,LABEL_PACP_2024_00000003,h1. Notebook Dell Latitude 7490 I5 8ª Ger Ddr4...,Rotulagem de Dados,Responder pesquisa,29/04/2024,31/05/2024,aeciom,aeciom,UO071
3,amazon,https://www.amazon.com.br/adaptador-desktop-la...,"Mini rede sem fio, placa de rede sem fio USB 3...",,,,,Rotulagem de Dados,LABEL_PACP_2024_00000004,"h1. Mini rede sem fio, placa de rede sem fio U...",Rotulagem de Dados,Responder pesquisa,29/04/2024,31/05/2024,aeciom,aeciom,UO071
4,magalu,https://www.magazineluiza.com.br/fone-bluetoot...,"Fone Bluetooth TWS Kaidi KD-771 - 5.1, Touch, ...","Fone Bluetooth Tws, Kaidi Kd-771, Bluetooth 5....",https://a-static.mlcdn.com.br/280x210/fone-blu...,https://a-static.mlcdn.com.br/90x90/fone-bluet...,https://a-static.mlcdn.com.br/90x90/fone-bluet...,Rotulagem de Dados,LABEL_PACP_2024_00000005,"h1. Fone Bluetooth TWS Kaidi KD-771 - 5.1, Tou...",Rotulagem de Dados,Responder pesquisa,29/04/2024,31/05/2024,aeciom,aeciom,UO071
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21511,amazon,https://www.amazon.com.br/PHILCO-CAIXA-ACUSTIC...,CAIXA ACUSTICA PCX6500,,,,,Rotulagem de Dados,LABEL_PACP_2024_00021512,h1. CAIXA ACUSTICA PCX6500,Rotulagem de Dados,Responder pesquisa,29/04/2024,31/05/2024,maxwelfreitas,maxwelfreitas,UO021
21512,amazon,https://www.amazon.com.br/Conector-celular-car...,Conector de cauda de celular 10 pcs carregando...,"[De alta qualidade] 100% nova fábrica, segura...",https://m.media-amazon.com/images/I/51xUig2DG0...,https://m.media-amazon.com/images/I/41GU6KbF9z...,https://m.media-amazon.com/images/I/41xXBEXvlL...,Rotulagem de Dados,LABEL_PACP_2024_00021513,h1. Conector de cauda de celular 10 pcs carreg...,Rotulagem de Dados,Responder pesquisa,29/04/2024,31/05/2024,maxwelfreitas,maxwelfreitas,UO021
21513,amazon,https://www.amazon.com.br/Avantree-Medley-Clea...,Avantree Medley Clear - Fones de ouvido sem fi...,,https://m.media-amazon.com/images/I/41DzxMRdf6...,https://m.media-amazon.com/images/I/515IRHE-j8...,https://m.media-amazon.com/images/I/41yfxX3C-s...,Rotulagem de Dados,LABEL_PACP_2024_00021514,h1. Avantree Medley Clear - Fones de ouvido se...,Rotulagem de Dados,Responder pesquisa,29/04/2024,31/05/2024,maxwelfreitas,maxwelfreitas,UO021
21514,amazon,https://www.amazon.com.br/Hilitand-Adaptador-e...,"Hilitand Adaptador sem fio, placa de rede sem ...",,,,,Rotulagem de Dados,LABEL_PACP_2024_00021515,"h1. Hilitand Adaptador sem fio, placa de rede ...",Rotulagem de Dados,Responder pesquisa,29/04/2024,31/05/2024,maxwelfreitas,maxwelfreitas,UO021


### Tarefas de rotulagem cadastradas no Fiscaliza

In [6]:
%%time
df_tarefas_fiscaliza = pd.read_parquet(FILE_TAREFAS_FISCALIZA)
df_tarefas_fiscaliza

CPU times: total: 15.6 ms
Wall time: 51 ms


Unnamed: 0,id,tracker,status,closed_on,subject,assigned_to,Unidade de Lotação,Título bem elaborado?,Título identifica o produto?,Descrição bem elaborada?,...,Modelo do Produto,Valor,Existe campo código SCH?,Código SCH foi fornecido?,Qual código SCH fornecido?,Código SCH é o do produto?,Código EAN foi fornecido?,Qual código EAN fornecido?,Código EAN é o do produto?,Produto do anúncio homologado?
0,125707,Rotulagem de Dados,Concluída,2024-04-29 14:36:47,LABEL_PACP_2024_00021516,Maxwel de Souza Freitas,UO021,1,1,Sim,...,,,,,,,,,,
1,125708,Rotulagem de Dados,Responder pesquisa,NaT,LABEL_PACP_2024_00021505,Maxwel de Souza Freitas,UO021,,,,...,,,,,,,,,,
2,125709,Rotulagem de Dados,Responder pesquisa,NaT,LABEL_PACP_2024_00021506,Maxwel de Souza Freitas,UO021,,,,...,,,,,,,,,,
3,125710,Rotulagem de Dados,Responder pesquisa,NaT,LABEL_PACP_2024_00021507,Maxwel de Souza Freitas,UO021,,,,...,,,,,,,,,,
4,125711,Rotulagem de Dados,Responder pesquisa,NaT,LABEL_PACP_2024_00021508,Maxwel de Souza Freitas,UO021,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
23872,151907,Fiscalização de Marketplace,Concluída,2024-07-12 16:11:42,INSP_PACP_20240712_000429,Eduardo Renato Rocha Brandão,GR02,,,,...,Não fornecido,1199.0,0,0,0,Não,0,0,Não,Não é possível afirmar
23873,151908,Fiscalização de Marketplace,Concluída,2024-07-12 15:57:50,INSP_PACP_20240712_000430,Eduardo Renato Rocha Brandão,GR02,,,,...,Redmi 13C Global / 23100RN82L,889.99,1,1,175342314550,Sim,0,0,Não,Sim
23874,151909,Fiscalização de Marketplace,Concluída,2024-07-12 13:41:10,INSP_PACP_20240712_000431,Luiz Fernando Nunes Ribeiro,GR02,,,,...,2312DRAABG,1489.99,1,1,175602314550,Sim,0,0,Não é possível afirmar,Sim
23875,151910,Fiscalização de Marketplace,Concluída,2024-07-12 13:34:46,INSP_PACP_20240712_000432,Danilo Ferreira Paes de Lima,GR02,,,,...,Xiaomi Redmi 12C Celular Original 128GB 4GB RAM,684.0,1,1,217622209185,Sim,0,0,Não,Sim


### Anúncios rotulados

In [7]:
%%time
df_anuncios_rotulados = pd.read_parquet(FILE_ANUNCIOS_ROTULADOS)
df_anuncios_rotulados

CPU times: total: 0 ns
Wall time: 70.1 ms


Unnamed: 0,id,marketplace,titulo,desc,titulo_bem_elaborado,titulo_identifica_produto,desc_bem_elaborada,desc_identifica_produto,passivel_homologacao,transmissor_rf,tipo_produto
0,125728,mercadolivre,Streaming Box S Tucson 2018 A 2022 Carplay 4g ...,STREAMING BOX S - 2GB RAM | 32GB ARMAZENAMENTO...,1,1,1,1,1,1,TV Box/TV Stick
1,125729,magalu,Smartphone Motorola Moto G52 XT2221-1 Dual Sim...,Fotografia profissional no seu bolsoDescubra i...,1,1,1,1,1,1,Smartphones
2,125730,mercadolivre,Notebook Dell Latitude 7490 I5 8ª Ger Ddr4 16g...,Os produtos da Dell destacam-se por oferecer s...,1,1,1,1,1,1,Computador ou notebook
3,125731,amazon,"Mini rede sem fio, placa de rede sem fio USB 3...",,1,1,2,2,1,1,Transceptor de radiação restrita (2.4GHz/5.8GHz)
4,125732,magalu,"Fone Bluetooth TWS Kaidi KD-771 - 5.1, Touch, ...","Fone Bluetooth Tws, Kaidi Kd-771, Bluetooth 5....",1,1,1,1,1,1,Transceptor de radiação restrita (2.4GHz/5.8GHz)
...,...,...,...,...,...,...,...,...,...,...,...
18831,125715,amazon,CAIXA ACUSTICA PCX6500,,0,1,2,2,1,1,Transceptor de radiação restrita (2.4GHz/5.8GHz)
18832,125716,amazon,Conector de cauda de celular 10 pcs carregando...,"[De alta qualidade] 100% nova fábrica, segura...",1,1,1,1,0,0,Outro tipo/categoria (não listada acima)
18833,125717,amazon,Avantree Medley Clear - Fones de ouvido sem fi...,,1,1,2,2,1,1,Transceptor de radiação restrita (2.4GHz/5.8GHz)
18834,125718,amazon,"Hilitand Adaptador sem fio, placa de rede sem ...",,1,1,2,2,1,1,Transceptor de radiação restrita (2.4GHz/5.8GHz)


# Análise

## Extrair categoria dos anúncios

In [8]:
%%time

for i,df in enumerate((df_amazon,df_magalu,df_ml)):    
    
    columns_to_keep = [col for col in df.columns if 'cat' in col.lower()]
    columns_to_keep.sort()
    columns_to_keep = ['Link'] + columns_to_keep
    
    if i == 0:
        df_regulatron_categoria = df[columns_to_keep]
    else:
        df_regulatron_categoria = pd.concat([df_regulatron_categoria, df[columns_to_keep]])

df_regulatron_categoria = df_regulatron_categoria.reset_index(drop=True).astype('str')

df_regulatron_categoria['Categoria_Completa'] = df_regulatron_categoria.iloc[:,2:].apply(
    lambda categories: ' '.join(categories).replace('<NA>','nan').replace('nan','').strip(),axis=1
)

df_regulatron_categoria['Categoria'] = df_regulatron_categoria['Categoria'].replace('nan','')
df_regulatron_categoria['Categoria'] = df_regulatron_categoria['Categoria'].replace('<NA>','')

columns_to_keep = ['Link', 'Categoria', 'Categoria_Completa']
df_regulatron_categoria = df_regulatron_categoria[columns_to_keep]
df_regulatron_categoria.columns = [col.lower() for col in df_regulatron_categoria.columns]
df_regulatron_categoria.to_parquet(FILE_ANUNCIOS_CATEGORIA)

df_regulatron_categoria

CPU times: total: 2.03 s
Wall time: 3.15 s


Unnamed: 0,link,categoria,categoria_completa
0,https://www.amazon.com.br/Especiais-Cinematic-...,Filtros,Eletrônicos e Tecnologia Câmeras e Foto Acessó...
1,https://www.amazon.com.br/Motores-Escova-Conju...,Acessórios para Drones,Eletrônicos e Tecnologia Câmeras e Foto Acessó...
2,https://www.amazon.com.br/Armazenamento-Protet...,Brinquedos de Controle Remoto,Brinquedos e Jogos Brinquedos de Controle Remoto
3,https://www.amazon.com.br/EQUSS-V-strom-Motoci...,Acessórios para Drones,Eletrônicos e Tecnologia Câmeras e Foto Acessó...
4,https://www.amazon.com.br/remote-control-brush...,Acessórios para Drones,Eletrônicos e Tecnologia Câmeras e Foto Acessó...
...,...,...,...
290116,https://www.mercadolivre.com.br/xiaomi-stick-4...,,
290117,https://www.mercadolivre.com.br/xiaomi-stick-4...,"Eletrônicos, Áudio e Vídeo,Media Streaming,Sma...","Eletrônicos, Áudio e Vídeo,Media Streaming,Sma..."
290118,https://www.mercadolivre.com.br/xt9-mini-drone...,,
290119,https://www.mercadolivre.com.br/y68-d20-smart-...,"Celulares e Telefones,Smartwatches e Acessório...","Celulares e Telefones,Smartwatches e Acessório..."


## Relacionar link do anúncio com tarefa de rotulagem e obter categorias

In [9]:
%%time
# extrair link do anúncio e título da tarefa de rotulagem
columns_to_keep = ['link','Título']
df_link_tarefa_categoria = df_anuncios_amostra[columns_to_keep]
columns_to_keep = ['link','subject']
df_link_tarefa_categoria.columns = columns_to_keep

# relacionar e acrescentar título da tarefa de rotulagem com seu respectivo id
columns_to_keep = ['id','subject']
df_link_tarefa_categoria = df_link_tarefa_categoria.merge(df_tarefas_fiscaliza[columns_to_keep])

# relacionar e acrescentar categoria do anúncio
df_link_tarefa_categoria = df_link_tarefa_categoria.merge(df_regulatron_categoria)
# manter apenas as colunas necessárias para relacionar com os anúncios rotulados
columns_to_keep = ['id', 'categoria', 'categoria_completa']
df_link_tarefa_categoria = df_link_tarefa_categoria[columns_to_keep]

# relacionar e acrescentar as categorias aos anúncios rotulados
df_anuncios_rotulados_categoria = df_anuncios_rotulados.merge(df_link_tarefa_categoria)
df_anuncios_rotulados_categoria.to_parquet(FILE_ANUNCIOS_ROTULADOS_CATEGORIA)
df_anuncios_rotulados_categoria

CPU times: total: 141 ms
Wall time: 273 ms


Unnamed: 0,id,marketplace,titulo,desc,titulo_bem_elaborado,titulo_identifica_produto,desc_bem_elaborada,desc_identifica_produto,passivel_homologacao,transmissor_rf,tipo_produto,categoria,categoria_completa
0,125728,mercadolivre,Streaming Box S Tucson 2018 A 2022 Carplay 4g ...,STREAMING BOX S - 2GB RAM | 32GB ARMAZENAMENTO...,1,1,1,1,1,1,TV Box/TV Stick,Transmissores FM,Acessórios para Veículos Som Automotivo Reprod...
1,125729,magalu,Smartphone Motorola Moto G52 XT2221-1 Dual Sim...,Fotografia profissional no seu bolsoDescubra i...,1,1,1,1,1,1,Smartphones,Moto G52,Celulares e Smartphones Motorola Moto G52
2,125730,mercadolivre,Notebook Dell Latitude 7490 I5 8ª Ger Ddr4 16g...,Os produtos da Dell destacam-se por oferecer s...,1,1,1,1,1,1,Computador ou notebook,,
3,125731,amazon,"Mini rede sem fio, placa de rede sem fio USB 3...",,1,1,2,2,1,1,Transceptor de radiação restrita (2.4GHz/5.8GHz),,
4,125732,magalu,"Fone Bluetooth TWS Kaidi KD-771 - 5.1, Touch, ...","Fone Bluetooth Tws, Kaidi Kd-771, Bluetooth 5....",1,1,1,1,1,1,Transceptor de radiação restrita (2.4GHz/5.8GHz),Bluetooth,Áudio Fone de Ouvido Bluetooth
...,...,...,...,...,...,...,...,...,...,...,...,...,...
18831,125715,amazon,CAIXA ACUSTICA PCX6500,,0,1,2,2,1,1,Transceptor de radiação restrita (2.4GHz/5.8GHz),,
18832,125716,amazon,Conector de cauda de celular 10 pcs carregando...,"[De alta qualidade] 100% nova fábrica, segura...",1,1,1,1,0,0,Outro tipo/categoria (não listada acima),Peças de Reposição,Eletrônicos e Tecnologia Celulares e Comunicaç...
18833,125717,amazon,Avantree Medley Clear - Fones de ouvido sem fi...,,1,1,2,2,1,1,Transceptor de radiação restrita (2.4GHz/5.8GHz),,
18834,125718,amazon,"Hilitand Adaptador sem fio, placa de rede sem ...",,1,1,2,2,1,1,Transceptor de radiação restrita (2.4GHz/5.8GHz),,
