# Bibliotecas

In [2]:
import pandas as pd

# Limpeza dos dados

## Lendo os arquivos

In [3]:
df_americanas = pd.read_csv(f"Dados/produtos_americanas.csv", dtype = {'ean': str})
df_amazon = pd.read_csv(f"Dados/produtos_amazon.csv", dtype = {'ean': str})

In [4]:
df_amazon["ean"].value_counts()

0713477350430    57
9095247871972    51
7908414420304     2
7319625661149     1
7465214678507     1
                 ..
0708570152586     1
8263430934112     1
6973553520094     1
3041412361256     1
6934177770012     1
Name: ean, Length: 1017, dtype: int64

## Retirando títulos com palavras indesejadas

In [5]:
bad_words = ["acessório", "acessorio", "adaptador", "alargadores", "anel", "arduino", "atomiser", "avatar",
             "aparelho de som", "automotivo", "axiom",
             "bandeja", "biometria", "bike", "boroscópio", "box", 
             "cable", "cabo", "caixa", "campainha", "calculator", "calculadora", "capa", "capinha", "card",
             "case", "caso", "carregador", "carro"
             "chassi", "chaveiro", "chave seletora", "clip",
             "coletor", "collar", "conjunto", "comoda", "cômoda", "cordão", "cortador", "cosplay",
             "drone", "eon", "eixo", "eixos", "espelho", "filme", "franquia", "gancho", "grânulos", "gaveta",
             "handmade", "hemobblo", "hemobllo", "hd externo", "jbl", "junta", "kit",
             "lente", "lixa", "lurrose",
             "m-disc", "mágico", "magico", "mesa", "microsd", "monitor", "montagem", "moochy",
             "netcna", "óculos", "oculos", "ornament",
             "papel", "parede", "part", "partes", "pedal", "pen drive", "pendrive", "pneu", "pneus", "power bank",
             "prato", "prettyzoom", "pretyzoom", "proteção", "protetor", "pulseira",
             "raspberry", "radiador", "rank de memória", "realidade virtual", "refrigerador", "regeneradora",
             "relogio", "relógio", "remoção", "reparo", "reposição", "reposiçao", "resfriador", "retrovisor", "roda",
             "ronyme", "rv", "scanner", "sensor", "smart tv", "soquete", "stick", "streaming box", "suporte",
             "tablet", "tampa", "tomada", "tomadas", "tradutor", "turbopower",
             "ultra-sensível", "upgrade", "upgrades",
             "vador", "veado", "vedação", "verbatim", "vidro", "vr", "xilofone", "xylophone",
             "watch", "zawa", "zbox"
            ]

print(f"Amazon: {df_amazon.shape}\nAmericanas: {df_americanas.shape}")

df_amazon['titulo_cb'] = df_amazon['titulo'].str.lower()
df_americanas['titulo_cb'] = df_americanas['titulo'].str.lower()

df_amazon_ft = df_amazon[~df_amazon["titulo_cb"].str.contains('|'.join(bad_words))]
df_americanas_ft = df_americanas[~df_americanas["titulo_cb"].str.contains('|'.join(bad_words))]
print(f"\nFiltrado:\nAmazon: {df_amazon_ft.shape}\nAmericanas: {df_americanas_ft.shape}")

Amazon: (4333, 4)
Americanas: (1032, 4)

Filtrado:
Amazon: (1911, 5)
Americanas: (876, 5)


In [6]:
#df_amazon_ft['url'].loc[970]

In [7]:
#df_amazon_ft[350:].head(50)

## Encontrando EANs repetidos na mesma loja

Removendo produtos com o mesmo título

In [8]:
df_amazon_ft = df_amazon_ft.loc[~df_amazon_ft["titulo"].duplicated(keep = 'first')]
df_americanas_ft = df_americanas_ft.loc[~df_americanas_ft["titulo"].duplicated(keep = 'first')]

In [9]:
print(f"Amazon: {df_amazon_ft.shape}\nAmericanas: {df_americanas_ft.shape}")

Amazon: (1738, 5)
Americanas: (815, 5)


Verificando Títulos de EANs duplicados

In [10]:
ama_vc_ean = df_amazon_ft[df_amazon_ft["ean"].notnull()]["ean"].value_counts()
ama_duplicados = ama_vc_ean[ama_vc_ean > 1].index[0]
df_amazon_ft[df_amazon_ft['ean'] == ama_duplicados]

Unnamed: 0,url,titulo,ean,descricao,titulo_cb
262,https://www.amazon.com.br/Smartphone-Multilase...,Smartphone Multilaser G Max 2 2GB + 64GB Tela ...,7908414420304,Sobre este item Câmera Tripla 8MP + VGA + V...,smartphone multilaser g max 2 2gb + 64gb tela ...
2632,https://www.amazon.com.br/Smartphone-Multilase...,Smartphone Multilaser G Max 2 Dourado 64GB 2GB...,7908414420304,Sobre este item Câmera Tripla 8MP + VGA + V...,smartphone multilaser g max 2 dourado 64gb 2gb...


In [11]:
ame_vc_ean = df_americanas_ft[df_americanas_ft["ean"].notnull()]["ean"].value_counts()
ame_duplicados = ame_vc_ean[ame_vc_ean > 1].index
df_americanas_ft[df_americanas_ft["ean"].isin(ame_duplicados)].sort_values(by = ['ean']).head(1)

Unnamed: 0,descricao,ean,titulo,url,titulo_cb
459,Características gerais Redmi Modelo - Note 10 ...,6934177734519,Redmi Note 10 Pro Dual Sim 128 gb 6 Gb Azul,https://www.americanas.com.br/produto/4431267188,redmi note 10 pro dual sim 128 gb 6 gb azul


In [12]:
df_americanas_ft['loja'] = "americanas"
df_amazon_ft['loja'] = "amazon"

In [13]:
frames = [df_americanas_ft, df_amazon_ft]
df_final = pd.concat(frames, ignore_index = True)

In [14]:
vc_ean = df_final[df_final["ean"].notnull()]["ean"].value_counts()
duplicados = vc_ean[vc_ean > 1].index
df_final_dup = df_final[df_final["ean"].isin(duplicados)].sort_values(by = ['ean'])

## Fazendo matches

In [76]:
def criar_dicionario(descricao_1, ean_1, titulo_1, url_1, titulo_cb_1, loja_1,
                     descricao_2, ean_2, titulo_2, url_2, titulo_cb_2, loja_2,
                     match):
    
    return {'descricao_1' : descricao_1 , 'ean_1' : ean_1, 'titulo_1' : titulo_1,
            'url_1' : url_1, 'titulo_cb_1' : titulo_cb_1, 'loja_1' : loja_1,
            
            'descricao_2' : descricao_2 , 'ean_2' : ean_2, 'titulo_2' : titulo_2,
            'url_2' : url_2 , 'titulo_cb_2' : titulo_cb_2, 'loja_2' : loja_2,
            
            'match' : match
           }

In [78]:
def criar_pares(colunas, df_final_dup):

    df_pares = pd.DataFrame(columns = colunas)
    df_pares

    lista_ean = []

    for i in range(len(df_final_dup)):
        
        if df_final_dup.iloc[i]['ean'] not in lista_ean:
            
            lista_ean.append(df_final_dup.iloc[i]['ean'])
            
            indice = df_final_dup.index[df_final_dup['ean'] == df_final_dup.iloc[i]['ean']].tolist()
            
            for j in range(len(indice)-1):
                
                for k in range(j + 1, len(indice)):
                    
                    dicionario = criar_dicionario(descricao_1  = df_final_dup.loc[indice[j]]['descricao'] , ean_1 = df_final_dup.loc[indice[j]]['ean'],
                                                  titulo_1 = df_final_dup.loc[indice[j]]['titulo'], url_1 = df_final_dup.loc[indice[j]]['url'],
                                                  titulo_cb_1 = df_final_dup.loc[indice[j]]['titulo_cb'], loja_1 = df_final_dup.loc[indice[j]]['loja'],
                                                  
                                                  descricao_2 = df_final_dup.loc[indice[k]]['descricao'] , ean_2 = df_final_dup.loc[indice[k]]['ean'],
                                                  titulo_2 = df_final_dup.loc[indice[k]]['titulo'], url_2 = df_final_dup.loc[indice[k]]['url'],
                                                  titulo_cb_2 = df_final_dup.loc[indice[k]]['titulo_cb'], loja_2 = df_final_dup.loc[indice[k]]['loja'],
                                                  
                                                  match = 1
                                                  )
                
                    df_pares = df_pares.append(dicionario, ignore_index = True)

    return df_pares

In [79]:
colunas = ["descricao_1", "ean_1", "titulo_1", "url_1",	"titulo_cb_1", "loja_1",
           "descricao_2", "ean_2", "titulo_2", "url_2",	"titulo_cb_2", "loja_2",
           "match"]

In [80]:
df_pares = criar_pares(colunas, df_final_dup)

In [None]:
#df_pares[df_pares['ean_1']=="6934177738180"][['descricao_1', 'ean_1', 'titulo_1', 'descricao_2', 'ean_2', 'titulo_2', 'loja_1', 'loja_2', 'url_1', 'url_2']]
#df_pares[['descricao_1', 'ean_1', 'titulo_1', 'descricao_2', 'ean_2', 'titulo_2', 'loja_1', 'loja_2', 'url_1', 'url_2']]

Unnamed: 0,descricao_1,ean_1,titulo_1,descricao_2,ean_2,titulo_2,loja_1,loja_2,url_1,url_2
0,Todas as informações divulgadas são de respons...,0194252040485,"iPhone 12 Pro Apple (512GB) Prateado Tela 6,1""...",Sobre este item IPhone 12 pro 512GB D...,0194252040485,"Iphone 12 Pro Apple Prata, 512gb Desbloqueado ...",americanas,amazon,https://www.americanas.com.br/produto/2290962881,https://www.amazon.com.br/Iphone-Apple-Prata-5...
1,Características gerais Redmi Modelo - Note 10 ...,6934177734519,Redmi Note 10 Pro Dual Sim 128 Gb Cinza 6 Gb,Características gerais Redmi Modelo - Note 10 ...,6934177734519,Redmi Note 10 Pro Dual Sim 128 gb 6 Gb Azul,americanas,americanas,https://www.americanas.com.br/produto/4431295470,https://www.americanas.com.br/produto/4431267188
2,Desempenho superior com Snapdragon 860O que ve...,6934177738180,Poco X3 Pro Dual sim 256GB 8GB ram - Preto,Sistema operacional Nome do sistema operaciona...,6934177738180,Pocophone Poco X3 Pro Dual sim 256GB Preto 8GB...,americanas,americanas,https://www.americanas.com.br/produto/4540396296,https://www.americanas.com.br/produto/4511090415
3,Desempenho superior com Snapdragon 860O que ve...,6934177738180,Poco X3 Pro Dual sim 256GB 8GB ram - Preto,"Sobre este item ATENÇÃO: VERSÃO INDIANA, CO...",6934177738180,Smartphone Poco X3 PRO 256gb 8gb RAM – Phantom...,americanas,amazon,https://www.americanas.com.br/produto/4540396296,https://www.amazon.com.br/Smartphone-Poco-PRO-...
4,Sistema operacional Nome do sistema operaciona...,6934177738180,Pocophone Poco X3 Pro Dual sim 256GB Preto 8GB...,"Sobre este item ATENÇÃO: VERSÃO INDIANA, CO...",6934177738180,Smartphone Poco X3 PRO 256gb 8gb RAM – Phantom...,americanas,amazon,https://www.americanas.com.br/produto/4511090415,https://www.amazon.com.br/Smartphone-Poco-PRO-...
...,...,...,...,...,...,...,...,...,...,...
75,Multilaser G Max 2 com tela de 6.5 hd + u-notc...,7908414420304,Smartphone GMax 2 P9157 Tela 6.5 64GB 2GB ram ...,Sobre este item Câmera Tripla 8MP + VGA + V...,7908414420304,Smartphone Multilaser G Max 2 2GB + 64GB Tela ...,americanas,amazon,https://www.americanas.com.br/produto/4782017527,https://www.amazon.com.br/Smartphone-Multilase...
76,Multilaser G Max 2 com tela de 6.5 hd + u-notc...,7908414420304,Smartphone GMax 2 P9157 Tela 6.5 64GB 2GB ram ...,Sobre este item Câmera Tripla 8MP + VGA + V...,7908414420304,Smartphone Multilaser G Max 2 Dourado 64GB 2GB...,americanas,amazon,https://www.americanas.com.br/produto/4782017527,https://www.amazon.com.br/Smartphone-Multilase...
77,Sobre este item Câmera Tripla 8MP + VGA + V...,7908414420304,Smartphone Multilaser G Max 2 2GB + 64GB Tela ...,Sobre este item Câmera Tripla 8MP + VGA + V...,7908414420304,Smartphone Multilaser G Max 2 Dourado 64GB 2GB...,amazon,amazon,https://www.amazon.com.br/Smartphone-Multilase...,https://www.amazon.com.br/Smartphone-Multilase...
78,Sobre este item Função de hotspot móvel ...,8906129031876,Smartphone Xiaomi Redmi 9i Sport 64gb / 4gb Ra...,Sistema operacional Nome do sistema operaciona...,8906129031876,Xiaomi Redmi 9i Dual sim 64 gb midnight black ...,amazon,americanas,https://www.amazon.com.br/Smartphone-Xiaomi-Re...,https://www.americanas.com.br/produto/4820569930


## Salvando Pares

In [82]:
df_pares.to_csv(f"Dados/pares_smartphones.csv", index = False)

In [83]:
df_pares = pd.read_csv("Dados/pares_smartphones.csv")

## Criando pares que não são matches

In [84]:
df_final_ean = df_final[df_final["ean"].notnull()]
df_final_ean.shape

(975, 6)

In [86]:
n_matches = df_pares.shape[0]*5
df_nao_pares = pd.DataFrame(columns = colunas)

for i in range(n_matches):
    created_match = False
    
    while(not created_match):
        df_sorteado = df_final_ean.sample(n = 2)
        if(df_sorteado.iloc[0]['ean']!= df_sorteado.iloc[1]['ean']):
            
            dic = criar_dicionario(df_sorteado.iloc[0]['descricao'], df_sorteado.iloc[0]['ean'], df_sorteado.iloc[0]['titulo'], df_sorteado.iloc[0]['url'], df_sorteado.iloc[0]['titulo_cb'], df_sorteado.iloc[0]['loja'],
                                   df_sorteado.iloc[1]['descricao'], df_sorteado.iloc[1]['ean'], df_sorteado.iloc[1]['titulo'], df_sorteado.iloc[1]['url'], df_sorteado.iloc[1]['titulo_cb'], df_sorteado.iloc[1]['loja'],
                                   0)
            
            df_nao_pares = df_nao_pares.append(dic, ignore_index = True)
            created_match = True

Salvando pares não matches

In [88]:
df_nao_pares.to_csv(f"Dados/nao_pares_smartphones.csv", index = False)

## Gerando dataset final

In [89]:
df_pares = pd.read_csv("Dados/pares_smartphones.csv")
df_nao_pares = pd.read_csv("Dados/nao_pares_smartphones.csv")

df_pares_total = pd.concat([df_pares, df_nao_pares], ignore_index = True)

In [90]:
df_pares_total = df_pares_total.sample(frac = 1)
df_pares_total.to_csv(f"Dados/total_pares_smartphones.csv", index = False)

In [91]:
df_pares_total

Unnamed: 0,descricao_1,ean_1,titulo_1,url_1,titulo_cb_1,loja_1,descricao_2,ean_2,titulo_2,url_2,titulo_cb_2,loja_2,match
316,O smartphone Samsung Galaxy S22 Ultra chegou p...,7892509122382,Smartphone Samsung Galaxy S22 Ultra 256GB 5G W...,https://www.americanas.com.br/produto/4645251827,smartphone samsung galaxy s22 ultra 256gb 5g w...,americanas,O Smartphone bison X10 da umidigi é ultra-resi...,6973553520636,Smartphone umidigi bison X10 Dual Sim lte 6.53...,https://www.americanas.com.br/produto/4707302977,smartphone umidigi bison x10 dual sim lte 6.53...,americanas,0
376,,8908012587507,Smartphone Xiaomi Redmi 9 India 64GB 4GB RAM T...,https://www.amazon.com.br/Smartphone-Xiaomi-Re...,smartphone xiaomi redmi 9 india 64gb 4gb ram t...,amazon,O Moto E40 é um smartphone projetado para ofer...,7892597351367,Smartphone Motorola Moto E40 64GB 4G Wi-Fi Tel...,https://www.americanas.com.br/produto/4120059496,smartphone motorola moto e40 64gb 4g wi-fi tel...,americanas,0
25,Todas as informações divulgadas são de respons...,7892509117722,Smartphone Samsung Galaxy A32 128GB 4G Wi-Fi T...,https://www.americanas.com.br/produto/2969966651,smartphone samsung galaxy a32 128gb 4g wi-fi t...,americanas,,7892509117722,Smartphone Samsung Galaxy A32 128GB 6.4 Octa C...,https://www.amazon.com.br/Smartphone-Samsung-G...,smartphone samsung galaxy a32 128gb 6.4 octa c...,amazon,1
166,Todas as informações divulgadas são de respons...,7892509117746,Smartphone Samsung Galaxy A32 128GB 4G Wi-Fi T...,https://www.americanas.com.br/produto/2969966837,smartphone samsung galaxy a32 128gb 4g wi-fi t...,americanas,Mostre Seu Estilo O Xiaomi 11Lite 5G ne é o ma...,7908426302155,Smartphone Xiaomi 11 Lite 5G ne Tela amoled de...,https://www.americanas.com.br/produto/4423926761,smartphone xiaomi 11 lite 5g ne tela amoled de...,americanas,0
293,,6941059648536,"Xiaomi POCO Celular X3 NFC 6.67"" LCD, 6GB/128G...",https://www.amazon.com.br/Celular-Xiaomi-Poco-...,"xiaomi poco celular x3 nfc 6.67"" lcd, 6gb/128g...",amazon,SELFIES ATÉ NO ESCURO! Seu Positivo Twist 2 Fi...,7896904650969,Smartphone Positivo Twist 3 Fit S509C Dual Chi...,https://www.americanas.com.br/produto/1443253381,smartphone positivo twist 3 fit s509c dual chi...,americanas,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
101,,7893299910951,Smartphone LG G7 Thinq Dual Chip Android 8.0 T...,https://www.americanas.com.br/produto/133716651,smartphone lg g7 thinq dual chip android 8.0 t...,americanas,,6941059628217,Smartphone Xiaomi Mi 9T Pro Dual SIM 6GB/64GB ...,https://www.amazon.com.br/Smartphone-Xiaomi-Du...,smartphone xiaomi mi 9t pro dual sim 6gb/64gb ...,amazon,0
201,Sobre este item NOTA POR FAVOR: Este Redmi ...,6941059648444,Xiaomi Redmi 9A 4GB RAM 64GB ROM Telefone Móve...,https://www.amazon.com.br/Xiaomi-Redmi-Smartph...,xiaomi redmi 9a 4gb ram 64gb rom telefone móve...,amazon,Características: Marca: Xiaomi Modelo: Redmi 9...,7898567779100,Smartphone Xiaomi Redmi 9C 32GB 2GB ram Androi...,https://www.americanas.com.br/produto/3913687468,smartphone xiaomi redmi 9c 32gb 2gb ram androi...,americanas,0
360,Sobre este item ❤️ 【Tela de reconhecimento ...,4394085359075,Celular A60 Pro 4G com tela de gota d'água de ...,https://www.amazon.com.br/Celular-polegadas-Sm...,celular a60 pro 4g com tela de gota d'água de ...,amazon,Sobre este item Internet rápida: Navegue co...,7896904691795,Smartphone Positivo Twist 4 Pro S518 64GB Dual...,https://www.amazon.com.br/Smartphone-Positivo-...,smartphone positivo twist 4 pro s518 64gb dual...,amazon,0
429,Sobre este item Cabeça de substituição Mi E...,6934177717192,Xiaomi Cabeça de substituição Mi Electric Shav...,https://www.amazon.com.br/Xiaomi-Cabe%C3%A7a-s...,xiaomi cabeça de substituição mi electric shav...,amazon,"Sobre este item tela cheia de 5,5 polegadas...",715076306047,Telefone inteligente M11 ultra desbloqueado An...,https://www.amazon.com.br/dp/B09ZL9TFMX/ref=sr...,telefone inteligente m11 ultra desbloqueado an...,amazon,0
