## Similaridade Entre Produtos

Um script simples que permite a análise de similaridade entre 2 produtos diferentes.

#### 1 - Importação e Definição da função de Similaridade

In [2]:
import pandas as pd
from difflib import SequenceMatcher
import itertools

In [3]:
def similarity(row):
    str1 = row['Item 1']
    str2 = row['Item 2']
    matcher = SequenceMatcher(None, str1, str2)
    ratio = matcher.ratio()
    return ratio

In [4]:
df = pd.read_csv('data/items_titles_test.csv')
df.head(5)

Unnamed: 0,ITE_ITEM_TITLE
0,Tênis Olympikus Esporte Valente - Masculino Kids
1,Bicicleta Barra Forte Samy C/ 6 Marchas Cubo C...
2,Tênis Usthemp Slip-on Temático - Labrador 2
3,Tênis Casual Feminino Moleca Tecido Tie Dye
4,Tênis Star Baby Sapatinho Conforto + Brinde


#### 2 - Verificação dos Dados

In [5]:
print(len(df.loc[df.duplicated()]))


0


In [6]:
print(df.isna().sum())

ITE_ITEM_TITLE    0
dtype: int64


#### 3 - Modelagem e Adaptação para implementação do Script

Nesta etapa, utilizamos um exemplo de produto para ser comparado com os outros itens da lista

In [7]:
product = 'Tênis Olympikus Esporte Valente - Masculino Kids'
product_list = df['ITE_ITEM_TITLE'].tolist()

combinations = list(itertools.product([product], product_list))
df_report = pd.DataFrame(combinations, columns=['Item 1', 'Item 2'])
df_report.head(5)

Unnamed: 0,Item 1,Item 2
0,Tênis Olympikus Esporte Valente - Masculino Kids,Tênis Olympikus Esporte Valente - Masculino Kids
1,Tênis Olympikus Esporte Valente - Masculino Kids,Bicicleta Barra Forte Samy C/ 6 Marchas Cubo C...
2,Tênis Olympikus Esporte Valente - Masculino Kids,Tênis Usthemp Slip-on Temático - Labrador 2
3,Tênis Olympikus Esporte Valente - Masculino Kids,Tênis Casual Feminino Moleca Tecido Tie Dye
4,Tênis Olympikus Esporte Valente - Masculino Kids,Tênis Star Baby Sapatinho Conforto + Brinde


É necessário a remoção do mesmo produto entre ambos os itens

In [8]:
df_report= df_report.loc[df_report['Item 1'] != df_report['Item 2']]
df_report.head(5)

Unnamed: 0,Item 1,Item 2
1,Tênis Olympikus Esporte Valente - Masculino Kids,Bicicleta Barra Forte Samy C/ 6 Marchas Cubo C...
2,Tênis Olympikus Esporte Valente - Masculino Kids,Tênis Usthemp Slip-on Temático - Labrador 2
3,Tênis Olympikus Esporte Valente - Masculino Kids,Tênis Casual Feminino Moleca Tecido Tie Dye
4,Tênis Olympikus Esporte Valente - Masculino Kids,Tênis Star Baby Sapatinho Conforto + Brinde
5,Tênis Olympikus Esporte Valente - Masculino Kids,Tênis Oakley Frequency 3.0 Preto/marrom
...,...,...
9995,Tênis Olympikus Esporte Valente - Masculino Kids,Chuteira Futsal Oxn Velox 3 Infantil
9996,Tênis Olympikus Esporte Valente - Masculino Kids,Sapatenis Casual Masculino Estiloso 24horas Co...
9997,Tênis Olympikus Esporte Valente - Masculino Kids,Tênis Feminino Infantil Molekinha Tie Dye
9998,Tênis Olympikus Esporte Valente - Masculino Kids,Tênis Feminino Leve Barato Ganhe 1 Colchonete ...


#### 4 - Aplicação da Função de Similaridade

Aplica-se a função para comparar cada item da lista, ordenando os maiores scores de similaridade

In [9]:
df_report['Score Similitud (0,1)'] = df_report.apply(similarity, axis=1)
df_report.sort_values(by='Score Similitud (0,1)', ascending=False)

Unnamed: 0,Item 1,Item 2,"Score Similitud (0,1)"
4241,Tênis Olympikus Esporte Valente - Masculino Kids,Tênis Olympikus Esporte Valente - Masculino In...,0.871287
2892,Tênis Olympikus Esporte Valente - Masculino Kids,Tênis Olympikus Vortex - Masculino,0.780488
3271,Tênis Olympikus Esporte Valente - Masculino Kids,Tênis Olympikus Fourty - Masculino,0.756098
3590,Tênis Olympikus Esporte Valente - Masculino Kids,Tênis Olympikus Esportivo Combate Masculino Ad...,0.745098
9369,Tênis Olympikus Esporte Valente - Masculino Kids,Tênis Olympikus 195g Ultraleve - Masculino,0.733333
...,...,...,...
7247,Tênis Olympikus Esporte Valente - Masculino Kids,Catalogo Digital Bicicletas Brandani,0.047619
9504,Tênis Olympikus Esporte Valente - Masculino Kids,Bmx,0.039216
4423,Tênis Olympikus Esporte Valente - Masculino Kids,Bom,0.038462
3396,Tênis Olympikus Esporte Valente - Masculino Kids,Prophecy9,0.035088


#### 5 - Exportação dos Dados

In [10]:
df_report.to_excel('output/similaridades.xlsx', index=False)