In [1]:
import re
import nltk
import numpy as np
import pandas as pd 
import missingno as msno
from sklearn.preprocessing import Binarizer
from text_similarity import TextSimilarity

In [2]:
nltk.download('stopwords')
ts = TextSimilarity()

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/douglas/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


# Importar os dados

In [3]:
df = pd.read_csv("data/itens_cirurgicos.csv")
df

Unnamed: 0,cd_reg_fat,Descrição do Item
0,359694,HEPAMAX S 5000 UI/ML FA VD X 5 ML*
1,359694,ISORDIL SUBLINGUAL 5MG COMP *
2,359694,XYLESTESIN 2% S/A 5ML INJ *
3,359694,CLORETO DE SODIO 0 9% 250ML SISTEMA FECHADO -...
4,359694,CLORETO DE SODIO 0 9% 500ML SISTEMA FECHADO -...
...,...,...
133720,5642680,CAPA PARA MICROSCOPIO INTENSIFICADOR DE IMAGENS
133721,5642680,CURATIVO TEGADERM ADVANCED IV ADV 6 5X7CM REF:...
133722,5642680,SALA DE RECUPERACAO POS ANESTESICA
133723,5642680,EQUIPAMENTO DE HEMODINAMICA


-  Remover espaços desnecessarios e '*'

In [4]:
size = df['Descrição do Item'].shape[0]

df['Descrição do Item'] = [df['Descrição do Item'][i].replace('*', '').strip() for i in range(size)]

df['Descrição do Item'] = [re.sub(' +',' ', df['Descrição do Item'][i]) for i in range(size)]

In [5]:
df['Descrição do Item']

0                         HEPAMAX S 5000 UI/ML FA VD X 5 ML
1                               ISORDIL SUBLINGUAL 5MG COMP
2                                 XYLESTESIN 2% S/A 5ML INJ
3         CLORETO DE SODIO 0 9% 250ML SISTEMA FECHADO - ...
4         CLORETO DE SODIO 0 9% 500ML SISTEMA FECHADO - ...
                                ...                        
133720      CAPA PARA MICROSCOPIO INTENSIFICADOR DE IMAGENS
133721    CURATIVO TEGADERM ADVANCED IV ADV 6 5X7CM REF:...
133722                   SALA DE RECUPERACAO POS ANESTESICA
133723                          EQUIPAMENTO DE HEMODINAMICA
133724     MONITOR DE OXIMETRO DE PULSO (OXIMETRO DE PULSO)
Name: Descrição do Item, Length: 133725, dtype: object

- Pegar itens unicos

In [6]:
descricao_itens = df['Descrição do Item'].unique()

- Remover stopwords

In [7]:
itens = pd.Series(descricao_itens).apply(lambda item: ts.remove_stopwords(item))

# Matriz de similaridade

- Gernado a Matriz de similaridade

In [8]:
matriz_jaro_winkler = ts.similarity_matrix(np.array(itens), metric='jaro_winkler')

- Convertendo matriz de similaridade para Dataframe

In [9]:
matriz_similaridade = pd.DataFrame(matriz_jaro_winkler, index=descricao_itens, columns=descricao_itens) 
matriz_similaridade

Unnamed: 0,HEPAMAX S 5000 UI/ML FA VD X 5 ML,ISORDIL SUBLINGUAL 5MG COMP,XYLESTESIN 2% S/A 5ML INJ,CLORETO DE SODIO 0 9% 250ML SISTEMA FECHADO - B. BRAUN,CLORETO DE SODIO 0 9% 500ML SISTEMA FECHADO - B. BRAUN,TRIDIL 25MG/5ML INJ,HEXABRIX 320 50ML INJ,ATROFARMA 0 25MG/1ML INJ,CATETERISMO CARDIACO E E/OU D COM CINEANGIOCORONARIOG,TRANSDUTOR DE PRESSAO DESCARTAVEL PX260,...,CATETER BALAO 12X3.50MM NC TREK RX - REF: 101245112,TUNTA 300MG COMP,VIBRAMICINA 100MG COMP REVESTIDO,CATETER DUPLO LUMEN P/ HD. MAHURKAR 12FR/30CM REF 8888221230,DERMAZINE TB.50G CREME,DIARIA DE ENFERMARIA COM ISOLAMENTO,CEWIN 500MG COMP,CANULA DE TRAQUEOSTOMIA DE METAL No 4.0 - STYLLE,CANULA DE TRAQUEOSTOMIA 3.0 METAL -STYLLE,CATETER PARA HEMODIALISE DUPLO LUMEN 12FR X 20CM CHD1220
HEPAMAX S 5000 UI/ML FA VD X 5 ML,1.0,0.463805,0.535416,0.571598,0.578134,0.471159,0.568432,0.573954,0.431181,0.461520,...,0.555725,0.463594,0.497499,0.584091,0.486532,0.458514,0.509343,0.546898,0.489467,0.614534
ISORDIL SUBLINGUAL 5MG COMP,,1.000000,0.513314,0.525054,0.525054,0.632739,0.522527,0.520537,0.506915,0.524074,...,0.476230,0.577090,0.593364,0.473920,0.524411,0.529982,0.598457,0.512015,0.555078,0.586990
XYLESTESIN 2% S/A 5ML INJ,,,1.000000,0.570499,0.579869,0.606532,0.584811,0.584658,0.528605,0.437778,...,0.492456,0.437500,0.435972,0.454921,0.478586,0.497302,0.482778,0.496825,0.499950,0.505408
CLORETO DE SODIO 0 9% 250ML SISTEMA FECHADO - B. BRAUN,,,,1.000000,0.992157,0.543807,0.496445,0.452614,0.572064,0.587418,...,0.592204,0.431509,0.546481,0.584845,0.470291,0.525812,0.550654,0.615104,0.603133,0.640523
CLORETO DE SODIO 0 9% 500ML SISTEMA FECHADO - B. BRAUN,,,,,1.000000,0.511180,0.491130,0.445010,0.572064,0.551696,...,0.575163,0.431509,0.546481,0.589890,0.470291,0.525812,0.550654,0.615104,0.603133,0.623292
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
DIARIA DE ENFERMARIA COM ISOLAMENTO,,,,,,,,,,,...,,,,,,1.000000,0.511905,0.623016,0.630201,0.535481
CEWIN 500MG COMP,,,,,,,,,,,...,,,,,,,1.000000,0.481151,0.529386,0.468546
CANULA DE TRAQUEOSTOMIA DE METAL No 4.0 - STYLLE,,,,,,,,,,,...,,,,,,,,1.000000,0.949306,0.595705
CANULA DE TRAQUEOSTOMIA 3.0 METAL -STYLLE,,,,,,,,,,,...,,,,,,,,,1.000000,0.569364


- Converter Matriz para dataframe

In [10]:
df_similaridade = matriz_similaridade.unstack().reset_index().dropna()

df_similaridade.rename(columns = {'level_0': 'item_A', 'level_1': 'item_B', 0:'valor_similaridade'}, inplace = True)

df_similaridade

Unnamed: 0,item_A,item_B,valor_similaridade
0,HEPAMAX S 5000 UI/ML FA VD X 5 ML,HEPAMAX S 5000 UI/ML FA VD X 5 ML,1.000000
2214,ISORDIL SUBLINGUAL 5MG COMP,HEPAMAX S 5000 UI/ML FA VD X 5 ML,0.463805
2215,ISORDIL SUBLINGUAL 5MG COMP,ISORDIL SUBLINGUAL 5MG COMP,1.000000
4428,XYLESTESIN 2% S/A 5ML INJ,HEPAMAX S 5000 UI/ML FA VD X 5 ML,0.535416
4429,XYLESTESIN 2% S/A 5ML INJ,ISORDIL SUBLINGUAL 5MG COMP,0.513314
...,...,...,...
4901791,CATETER PARA HEMODIALISE DUPLO LUMEN 12FR X 20...,DIARIA DE ENFERMARIA COM ISOLAMENTO,0.535481
4901792,CATETER PARA HEMODIALISE DUPLO LUMEN 12FR X 20...,CEWIN 500MG COMP,0.468546
4901793,CATETER PARA HEMODIALISE DUPLO LUMEN 12FR X 20...,CANULA DE TRAQUEOSTOMIA DE METAL No 4.0 - STYLLE,0.595705
4901794,CATETER PARA HEMODIALISE DUPLO LUMEN 12FR X 20...,CANULA DE TRAQUEOSTOMIA 3.0 METAL -STYLLE,0.569364


## Binarizer

In [11]:
df_similaridade['similares'] = Binarizer(threshold=0.8).fit_transform(df_similaridade[['valor_similaridade']])

In [12]:
bins = [-1, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0]

labels = [
    "00 -| 10", "11 -| 20", "21 -| 30", "31 -| 40", "41 -| 50", 
    "51 -| 60", "61 -| 70", "71 -| 80", "81 -| 90", "91 -| 100"
]

df_similaridade['classe'] = ts.creat_class(df_similaridade['valor_similaridade'], bins, labels)

In [13]:
df_similaridade

Unnamed: 0,item_A,item_B,valor_similaridade,similares,classe
0,HEPAMAX S 5000 UI/ML FA VD X 5 ML,HEPAMAX S 5000 UI/ML FA VD X 5 ML,1.000000,1.0,91 -| 100
2214,ISORDIL SUBLINGUAL 5MG COMP,HEPAMAX S 5000 UI/ML FA VD X 5 ML,0.463805,0.0,41 -| 50
2215,ISORDIL SUBLINGUAL 5MG COMP,ISORDIL SUBLINGUAL 5MG COMP,1.000000,1.0,91 -| 100
4428,XYLESTESIN 2% S/A 5ML INJ,HEPAMAX S 5000 UI/ML FA VD X 5 ML,0.535416,0.0,51 -| 60
4429,XYLESTESIN 2% S/A 5ML INJ,ISORDIL SUBLINGUAL 5MG COMP,0.513314,0.0,51 -| 60
...,...,...,...,...,...
4901791,CATETER PARA HEMODIALISE DUPLO LUMEN 12FR X 20...,DIARIA DE ENFERMARIA COM ISOLAMENTO,0.535481,0.0,51 -| 60
4901792,CATETER PARA HEMODIALISE DUPLO LUMEN 12FR X 20...,CEWIN 500MG COMP,0.468546,0.0,41 -| 50
4901793,CATETER PARA HEMODIALISE DUPLO LUMEN 12FR X 20...,CANULA DE TRAQUEOSTOMIA DE METAL No 4.0 - STYLLE,0.595705,0.0,51 -| 60
4901794,CATETER PARA HEMODIALISE DUPLO LUMEN 12FR X 20...,CANULA DE TRAQUEOSTOMIA 3.0 METAL -STYLLE,0.569364,0.0,51 -| 60


# Explorando os Resultados

In [14]:
df_similaridade = df_similaridade.query('valor_similaridade > 0 and valor_similaridade < 1.0')

### Grupo de itens similares### Analisar por Grupos 

In [15]:
list_cateter_cetrofix = [
    'CATETER CERTOFIX DUO PAED S420 G22,22 20CM 4166949',
    'CATETER CERTOFIX MONO PAED S110 G22 10CM 4160177'
]

list_cateter_venoso = [
    'CATETER VENOSO PERIFERICO 22G - AUTOGUARD 381823 BD',
    'CATETER VENOSO PERIFERICO 24G - AUTOGUARD 381812 BD'
    'CATETER INTRAVASCULAR PERIFERICO JELCO 22GX25MM AZUL - SMITH'
]

list_fio_monolion = [
    'FIO CIRURGICO MONONYLON P1662 T 4-0 - JOHNSON & JOHNSON',
    'FIO CIRURGICO MONONYLON P1664 T 4-0 - JOHNSON & JOHNSON',
    'FIO CIRURGICO MONONYLON P1663 T 3-0 - JOHNSON E JOHNSON',
    'FIO CIRURGICO MONONYLON 1215 T 2-0 - JOHNSON & JOHNSON'
]

list_fio_prolene = [
    'FIO CIRURGICO PROLENE 8707 T 6-0 - JOHNSON & JOHNSON',
    'FIO CIRURGICO PROLENE 9556 T 5-0 - JOHNSON & JOHNSON',
    'FIO CIRURGICO PROLENE M8703 T 7-0 - JOHNSON & JOHNSON',
    'FIO CIRURGICO PROLENE 8704 T 7-0 - JOHNSON & JOHNSON',
    'FIO CIRURGICO PROLENE 8730 T 8-0'
]

list_fio_seda = [
    'FIO CIRURGICO SEDA G813 T 2-0 - JOHNSON & JOHNSON',
    'FIO CIRURGICO SEDA SSP15 T-0'
    'FIO CIRURGICO SEDA SSP13 T 3-0 - JOHNSON & JOHNSON'
    'FIO CIRURGICO SEDA SSP14 T 2-0 - JOHNSON E JOHNSON'
]

list_fio_vicryl = [
    'FIO CIRURGICO VICRYL VCP316 H - JOHNSON & JOHNSON',
    'FIO CIRURGICO VICRYL VCP340 H 0 - JOHNSON & JOHNSON'
]

list_bisturi = [
    'LAMINA DE BISTURI NR 11 ESTERIL - B. BRAUN',
    'LAMINA DE BISTURI NR 15 ESTERIL - B. BRAUN',
    'LAMINA DE BISTURI NR 21 ESTERIL - B. BRAUN'
]

list_perfursor =[
    'PERFUSOR SET 120CM - B. BRAUN',
    'PERFUSOR SET 20CM - B. BRAUN'
]

list_cauterio = [
    'PLACA DE CAUTERIO INFANTIL SEM CABO REF: 1146 - 3M', 
    'PLACA ELETROCIRURGICA PARA PACIENTE AUTOADESIVA RN'
]

list_frauda = [
    'FRALDA NEONATAL TAM. PP (0 A 3,5KG)',
    'FRALDA INFANTIL P (ATE 6KG)',
    'FRALDA INFANTIL EG (ACIMA DE 12KG)',
    'FRALDA INFANTIL M (DE 6 A 10KG)',
    'FRALDA PROTEK XXG 14 A 18 KG'
]

list_sonda = [
    'SONDA FOLEY 2 VIAS 06 SILICONE - RUSCH',
    'SONDA FOLEY 2 VIAS 08 BALAO 30 - RUSCH',
    'SONDA FOLEY 2 VIAS 08 SILICONE - RUSCH'
]

list_tubo_endotraqueal = [
    'TUBO ENDOTRAQUEAL S/BALAO 3.0 - MALLINCKRODT',
    'TUBO ENDOTRAQUEAL S/BALAO 4.0 - MALLINCKRODT',
    'TUBO ENDOTRAQUEAL S/BALAO 3.5 - MALLINCKRODT',
    'TUBO ENDOTRAQUEAL C/BALAO 4.0 - MALLINCKRODT'
]

list_sistema_drenagem = [
    'SISTEMA DRENAGEM MEDIASTINAL Nº 10 250ML',
    'SISTEMA DRENAGEM MEDIASTINAL Nº 12 250ML',
    'SISTEMA DRENAGEM MEDIASTINAL Nº 16 2000ML P.SIMON',
    'SISTEMA DRENAGEM MEDIASTINAL Nº 18 2000ML P.SIMON'
]

## Filtro cateter cetrofix

- Filtros de 90% e 80%

In [16]:
df_similaridade[df_similaridade['item_B'].isin(list_cateter_cetrofix)].query('valor_similaridade >= 0.9')

Unnamed: 0,item_A,item_B,valor_similaridade,similares,classe
1465907,CATETER CERTOFIX MONO PAED V220 G18 20CM 4160215,CATETER CERTOFIX MONO PAED S110 G22 10CM 4160177,0.930426,1.0,91 -| 100


In [17]:
df_cateter_cetrofix = df_similaridade[df_similaridade['item_B'].isin(list_cateter_cetrofix)].query('valor_similaridade >= 0.8')

In [18]:
df_cateter_cetrofix

Unnamed: 0,item_A,item_B,valor_similaridade,similares,classe
757427,CATETER ANGIOGRAFICO SITESEER JR4 6FR 100CM RE...,CATETER CERTOFIX MONO PAED S110 G22 10CM 4160177,0.822222,1.0,81 -| 90
1206869,CATETER CERTOFIX DUO PAED S420 G22 22 20CM 416...,CATETER CERTOFIX MONO PAED S110 G22 10CM 4160177,0.889281,1.0,81 -| 90
1335281,CATETER DIAGNOSTICO JL4 5F MERIT REF:7521-21,CATETER CERTOFIX MONO PAED S110 G22 10CM 4160177,0.820833,1.0,81 -| 90
1337495,CATETER DIAGNOSTICO PIGTAIL RETO 5FRX110CM REF...,CATETER CERTOFIX MONO PAED S110 G22 10CM 4160177,0.82539,1.0,81 -| 90
1357421,CATETER BALAO CORONARIO NC TREK 2.50X15 REF 10...,CATETER CERTOFIX MONO PAED S110 G22 10CM 4160177,0.83715,1.0,81 -| 90
1465907,CATETER CERTOFIX MONO PAED V220 G18 20CM 4160215,CATETER CERTOFIX MONO PAED S110 G22 10CM 4160177,0.930426,1.0,91 -| 100
1527899,CATETER ANGOGRAFICO SITESEER MPA-1 100CM REF 6...,CATETER CERTOFIX MONO PAED S110 G22 10CM 4160177,0.828994,1.0,81 -| 90
1609817,CATETER TRIPLO LUMEN PARA HEMODIALISE 11 5FX20...,CATETER CERTOFIX MONO PAED S110 G22 10CM 4160177,0.828094,1.0,81 -| 90
1740443,CATETER CERTOFIX MONO JUG V320 G16 20CM 4160266,CATETER CERTOFIX MONO PAED S110 G22 10CM 4160177,0.898983,1.0,81 -| 90
2347079,CATETER BALAO CORONARIO RX TREK NC 2.5X12 REF ...,CATETER CERTOFIX MONO PAED S110 G22 10CM 4160177,0.823016,1.0,81 -| 90


- Agrupando itens das colunas itens_A e itens_B

In [19]:
group_cateter_cetrofix = ts.group_similarity(df_cateter_cetrofix, 'item_A', 'item_B')

In [20]:
group_cateter_cetrofix

Unnamed: 0,itens,predito
757427,CATETER ANGIOGRAFICO SITESEER JR4 6FR 100CM RE...,1
1206869,CATETER CERTOFIX DUO PAED S420 G22 22 20CM 416...,1
1335281,CATETER DIAGNOSTICO JL4 5F MERIT REF:7521-21,1
1337495,CATETER DIAGNOSTICO PIGTAIL RETO 5FRX110CM REF...,1
1357421,CATETER BALAO CORONARIO NC TREK 2.50X15 REF 10...,1
1465907,CATETER CERTOFIX MONO PAED V220 G18 20CM 4160215,1
1527899,CATETER ANGOGRAFICO SITESEER MPA-1 100CM REF 6...,1
1609817,CATETER TRIPLO LUMEN PARA HEMODIALISE 11 5FX20...,1
1740443,CATETER CERTOFIX MONO JUG V320 G16 20CM 4160266,1
2347079,CATETER BALAO CORONARIO RX TREK NC 2.5X12 REF ...,1


- Refinando o modelo com regex

In [21]:
regex = re.compile(r'\b(\w+\s+\w+)\b')
cateter_cetrofix = ts.regex_prefix('CATETER CERTOFIX', regex, group_cateter_cetrofix['itens'])

In [22]:
cateter_cetrofix

['CATETER CERTOFIX DUO PAED S420 G22 22 20CM 4166949',
 'CATETER CERTOFIX MONO PAED V220 G18 20CM 4160215',
 'CATETER CERTOFIX MONO JUG V320 G16 20CM 4160266',
 'CATETER CERTOFIX MONO PAED S110 G22 10CM 4160177']

In [23]:
group_cateter_cetrofix = group_cateter_cetrofix[group_cateter_cetrofix['itens'].isin(cateter_cetrofix)]
group_cateter_cetrofix

Unnamed: 0,itens,predito
1206869,CATETER CERTOFIX DUO PAED S420 G22 22 20CM 416...,1
1465907,CATETER CERTOFIX MONO PAED V220 G18 20CM 4160215,1
1740443,CATETER CERTOFIX MONO JUG V320 G16 20CM 4160266,1
757427,CATETER CERTOFIX MONO PAED S110 G22 10CM 4160177,1


## Filtro cateter venoso

- Filtros de 90% e 80%

In [24]:
df_similaridade[df_similaridade['item_B'].isin(list_cateter_venoso)].query('valor_similaridade >= 0.9')

Unnamed: 0,item_A,item_B,valor_similaridade,similares,classe
560366,CATETER VENOSO PERIFERICO 24G - AUTOGUARD 3818...,CATETER VENOSO PERIFERICO 22G - AUTOGUARD 3818...,0.947579,1.0,91 -| 100
1414970,CATETER VENOSO PERIFERICO 18G - AUTOGUARD 3818...,CATETER VENOSO PERIFERICO 22G - AUTOGUARD 3818...,0.934585,1.0,91 -| 100


In [25]:
df_cateter_venoso = df_similaridade[df_similaridade['item_B'].isin(list_cateter_venoso)].query('valor_similaridade >= 0.8')

In [26]:
df_cateter_venoso

Unnamed: 0,item_A,item_B,valor_similaridade,similares,classe
560366,CATETER VENOSO PERIFERICO 24G - AUTOGUARD 3818...,CATETER VENOSO PERIFERICO 22G - AUTOGUARD 3818...,0.947579,1.0,91 -| 100
1414970,CATETER VENOSO PERIFERICO 18G - AUTOGUARD 3818...,CATETER VENOSO PERIFERICO 22G - AUTOGUARD 3818...,0.934585,1.0,91 -| 100
1465892,CATETER CERTOFIX MONO PAED V220 G18 20CM 4160215,CATETER VENOSO PERIFERICO 22G - AUTOGUARD 3818...,0.820231,1.0,81 -| 90
1527884,CATETER ANGOGRAFICO SITESEER MPA-1 100CM REF 6...,CATETER VENOSO PERIFERICO 22G - AUTOGUARD 3818...,0.825331,1.0,81 -| 90
1609802,CATETER TRIPLO LUMEN PARA HEMODIALISE 11 5FX20...,CATETER VENOSO PERIFERICO 22G - AUTOGUARD 3818...,0.820184,1.0,81 -| 90
2185442,CATETER POWER PICC SV 3FR MONO LUMEN REF 8173118,CATETER VENOSO PERIFERICO 22G - AUTOGUARD 3818...,0.830065,1.0,81 -| 90
2499830,CATETER INTRAVASCULAR PERIFERICO JELCO 22GX25M...,CATETER VENOSO PERIFERICO 22G - AUTOGUARD 3818...,0.820196,1.0,81 -| 90
2577320,CATETER DUPLO LUMEN P/ HEMODIALISE PEDIATRICO ...,CATETER VENOSO PERIFERICO 22G - AUTOGUARD 3818...,0.830888,1.0,81 -| 90
2694662,CATETER ANGIOGRAFICO PRO FLO SOFT TIP AL2 6FR ...,CATETER VENOSO PERIFERICO 22G - AUTOGUARD 3818...,0.822159,1.0,81 -| 90
3053330,CATETER ANGIOGRAFICO MULTIPURPOSE MPA2 REF 753...,CATETER VENOSO PERIFERICO 22G - AUTOGUARD 3818...,0.842275,1.0,81 -| 90


- Agrupando itens das colunas itens_A e itens_B

In [27]:
group_cateter_venoso = ts.group_similarity(df_cateter_venoso, 'item_A', 'item_B')
group_cateter_venoso

Unnamed: 0,itens,predito
560366,CATETER VENOSO PERIFERICO 24G - AUTOGUARD 3818...,1
1414970,CATETER VENOSO PERIFERICO 18G - AUTOGUARD 3818...,1
1465892,CATETER CERTOFIX MONO PAED V220 G18 20CM 4160215,1
1527884,CATETER ANGOGRAFICO SITESEER MPA-1 100CM REF 6...,1
1609802,CATETER TRIPLO LUMEN PARA HEMODIALISE 11 5FX20...,1
2185442,CATETER POWER PICC SV 3FR MONO LUMEN REF 8173118,1
2499830,CATETER INTRAVASCULAR PERIFERICO JELCO 22GX25M...,1
2577320,CATETER DUPLO LUMEN P/ HEMODIALISE PEDIATRICO ...,1
2694662,CATETER ANGIOGRAFICO PRO FLO SOFT TIP AL2 6FR ...,1
3053330,CATETER ANGIOGRAFICO MULTIPURPOSE MPA2 REF 753...,1


- Refinando o modelo com regex

In [28]:
regex = re.compile(r'\b(\w+\s+\w+)\b')
cateter_venoso = ts.regex_prefix('CATETER VENOSO', regex, group_cateter_venoso['itens'])

In [29]:
cateter_venoso

['CATETER VENOSO PERIFERICO 24G - AUTOGUARD 381812 BD',
 'CATETER VENOSO PERIFERICO 18G - AUTOGUARD 381844 BD',
 'CATETER VENOSO PERIFERICO 14G - C DISP. DE SEG. (4251717-04)',
 'CATETER VENOSO PERIFERICO 16G - C DISP. DE SEG. (4251695-04)',
 'CATETER VENOSO PERIFERICO 22G - AUTOGUARD 381823 BD']

In [30]:
group_cateter_venoso = group_cateter_venoso[group_cateter_venoso['itens'].isin(cateter_venoso)]
group_cateter_venoso

Unnamed: 0,itens,predito
560366,CATETER VENOSO PERIFERICO 24G - AUTOGUARD 3818...,1
1414970,CATETER VENOSO PERIFERICO 18G - AUTOGUARD 3818...,1
3493916,CATETER VENOSO PERIFERICO 14G - C DISP. DE SEG...,1
4822316,CATETER VENOSO PERIFERICO 16G - C DISP. DE SEG...,1
560366,CATETER VENOSO PERIFERICO 22G - AUTOGUARD 3818...,1


## Filtro fio Prolene

In [31]:
df_similaridade[df_similaridade['item_B'].isin(list_fio_prolene)].query('valor_similaridade >= 0.9')

Unnamed: 0,item_A,item_B,valor_similaridade,similares,classe
1687829,FIO CIRURGICO PROLENE 9556 T 5-0 - JOHNSON & J...,FIO CIRURGICO PROLENE 8707 T 6-0 - JOHNSON & J...,0.965064,1.0,91 -| 100
1743179,FIO CIRURGICO MERSILENE SMV73 T 3-0 - JOHNSON ...,FIO CIRURGICO PROLENE 8707 T 6-0 - JOHNSON & J...,0.909413,1.0,91 -| 100
1745393,FIO CIRURGICO PROLENE M8703 T 7-0 - JOHNSON & ...,FIO CIRURGICO PROLENE 8707 T 6-0 - JOHNSON & J...,0.980764,1.0,91 -| 100
1745394,FIO CIRURGICO PROLENE M8703 T 7-0 - JOHNSON & ...,FIO CIRURGICO PROLENE 9556 T 5-0 - JOHNSON & J...,0.949617,1.0,91 -| 100
1763105,FIO CIRURGICO PROLENE 9521 T 4-0 - JOHNSON & J...,FIO CIRURGICO PROLENE 8707 T 6-0 - JOHNSON & J...,0.953028,1.0,91 -| 100
1763106,FIO CIRURGICO PROLENE 9521 T 4-0 - JOHNSON & J...,FIO CIRURGICO PROLENE 9556 T 5-0 - JOHNSON & J...,0.976923,1.0,91 -| 100
1763132,FIO CIRURGICO PROLENE 9521 T 4-0 - JOHNSON & J...,FIO CIRURGICO PROLENE M8703 T 7-0 - JOHNSON & ...,0.949617,1.0,91 -| 100
2655347,FIO CIRURGICO PROLENE 8512 T 3-0 - JOHNSON & J...,FIO CIRURGICO PROLENE 8707 T 6-0 - JOHNSON & J...,0.960897,1.0,91 -| 100
2655348,FIO CIRURGICO PROLENE 8512 T 3-0 - JOHNSON & J...,FIO CIRURGICO PROLENE 9556 T 5-0 - JOHNSON & J...,0.969231,1.0,91 -| 100
2655374,FIO CIRURGICO PROLENE 8512 T 3-0 - JOHNSON & J...,FIO CIRURGICO PROLENE M8703 T 7-0 - JOHNSON & ...,0.965204,1.0,91 -| 100


In [32]:
df_fio_prolene = df_similaridade[df_similaridade['item_B'].isin(list_fio_prolene)].query('valor_similaridade >= 0.8')

- Agrupando itens das colunas itens_A e itens_B

In [33]:
group_fio_prolene = ts.group_similarity(df_fio_prolene, 'item_A', 'item_B')
group_fio_prolene

Unnamed: 0,itens,predito
1687829,FIO CIRURGICO PROLENE 9556 T 5-0 - JOHNSON & J...,1
1743179,FIO CIRURGICO MERSILENE SMV73 T 3-0 - JOHNSON ...,1
1745393,FIO CIRURGICO PROLENE M8703 T 7-0 - JOHNSON & ...,1
1747607,FIO CIRURGICO SEDA SSP14 T 2-0 - JOHNSON E JOH...,1
1763105,FIO CIRURGICO PROLENE 9521 T 4-0 - JOHNSON & J...,1
2250185,FIO CIRURGICO VICRYL VCP353 H 1-0 - JOHNSON E ...,1
2367527,FIO CIRURGICO VICRYL J183 G 3-0 - JOHNSON & JO...,1
2464943,FIO CIRURGICO VICRYL VCP168 H 1-0 - JOHNSON & ...,1
2520293,FIO CIRURGICO VICRYL VCP406 H 3-0 - JOHNSON & ...,1
2644277,FIO CIRURGICO CERA PARA OSSO W31G 2.5G ESTERIL...,1


- Refinando o modelo com regex

In [34]:
regex = re.compile(r'\b(\w+\s+\w+\s+\w+)\b')

fio_prolene = ts.regex_prefix('FIO CIRURGICO PROLENE', regex, group_fio_prolene['itens'])

In [35]:
fio_prolene

['FIO CIRURGICO PROLENE 9556 T 5-0 - JOHNSON & JOHNSON',
 'FIO CIRURGICO PROLENE M8703 T 7-0 - JOHNSON & JOHNSON',
 'FIO CIRURGICO PROLENE 9521 T 4-0 - JOHNSON & JOHNSON',
 'FIO CIRURGICO PROLENE 8512 T 3-0 - JOHNSON & JOHNSON',
 'FIO CIRURGICO PROLENE 9557 T 4-0 - JOHNSON & JOHNSON',
 'FIO CIRURGICO PROLENE 8424 T 0 - JOHNSON & JOHNSON',
 'FIO CIRURGICO PROLENE AZUL 8513T 2-0',
 'FIO CIRURGICO PROLENE AZUL 8411 T 2-0 CT-2 PLUS 26MM',
 'FIO CIRURGICO PROLENE 8704 T 7-0 - JOHNSON & JOHNSON',
 'FIO CIRURGICO PROLENE 8730 T 8-0',
 'FIO CIRURGICO PROLENE 8707 T 6-0 - JOHNSON & JOHNSON']

In [36]:
group_fio_prolene = group_fio_prolene[group_fio_prolene['itens'].isin(fio_prolene)]
group_fio_prolene

Unnamed: 0,itens,predito
1687829,FIO CIRURGICO PROLENE 9556 T 5-0 - JOHNSON & J...,1
1745393,FIO CIRURGICO PROLENE M8703 T 7-0 - JOHNSON & ...,1
1763105,FIO CIRURGICO PROLENE 9521 T 4-0 - JOHNSON & J...,1
2655347,FIO CIRURGICO PROLENE 8512 T 3-0 - JOHNSON & J...,1
2723981,FIO CIRURGICO PROLENE 9557 T 4-0 - JOHNSON & J...,1
3578585,FIO CIRURGICO PROLENE 8424 T 0 - JOHNSON & JOH...,1
3609581,FIO CIRURGICO PROLENE AZUL 8513T 2-0,1
3693713,FIO CIRURGICO PROLENE AZUL 8411 T 2-0 CT-2 PLU...,1
4388909,FIO CIRURGICO PROLENE 8704 T 7-0 - JOHNSON & J...,1
4543889,FIO CIRURGICO PROLENE 8730 T 8-0,1


## Filtro Fio seda

In [37]:
df_similaridade[df_similaridade['item_B'].isin(list_fio_seda)].query('valor_similaridade >= 0.9')

Unnamed: 0,item_A,item_B,valor_similaridade,similares,classe
1747259,FIO CIRURGICO SEDA SSP14 T 2-0 - JOHNSON E JOH...,FIO CIRURGICO SEDA G813 T 2-0 - JOHNSON & JOHNSON,0.912925,1.0,91 -| 100
2367179,FIO CIRURGICO VICRYL J183 G 3-0 - JOHNSON & JO...,FIO CIRURGICO SEDA G813 T 2-0 - JOHNSON & JOHNSON,0.920882,1.0,91 -| 100
3866057,FIO CIRURGICO PDS Z352 H 0 - JOHNSON & JOHNSON,FIO CIRURGICO SEDA G813 T 2-0 - JOHNSON & JOHNSON,0.91118,1.0,91 -| 100
4140593,FIO CIRURGICO PDP 880 G 1 - JOHNSON & JOHNSON,FIO CIRURGICO SEDA G813 T 2-0 - JOHNSON & JOHNSON,0.900952,1.0,91 -| 100
4142807,FIO CIRURGICO SEDA SSP13 T 3-0 - JOHNSON & JOH...,FIO CIRURGICO SEDA G813 T 2-0 - JOHNSON & JOHNSON,0.919581,1.0,91 -| 100
4335425,FIO CIRURGICO SEDA G812 T 3-0 - JOHNSON & JOHNSON,FIO CIRURGICO SEDA G813 T 2-0 - JOHNSON & JOHNSON,0.995918,1.0,91 -| 100
4570109,FIO CIRURGICO PDS II Z339 2-0- JOHNSON & JOHNSON,FIO CIRURGICO SEDA G813 T 2-0 - JOHNSON & JOHNSON,0.908333,1.0,91 -| 100


In [38]:
df_fio_seda = df_similaridade[df_similaridade['item_B'].isin(list_fio_seda)].query('valor_similaridade >= 0.8')
df_fio_seda

Unnamed: 0,item_A,item_B,valor_similaridade,similares,classe
917009,FIO CIRURGICO SEDA SSP15 T-0,FIO CIRURGICO SEDA G813 T 2-0 - JOHNSON & JOHNSON,0.856612,1.0,81 -| 90
919223,FIO CIRURGICO VICRYL VCP333 H 2-0 - JOHNSON & ...,FIO CIRURGICO SEDA G813 T 2-0 - JOHNSON & JOHNSON,0.873283,1.0,81 -| 90
950219,FIO CIRURGICO PROLENE P8682 T 4-0 - JOHNSON & ...,FIO CIRURGICO SEDA G813 T 2-0 - JOHNSON & JOHNSON,0.877309,1.0,81 -| 90
961289,FIO CIRURGICO VICRYL VCP351 H 2-0 - JOHNSON & ...,FIO CIRURGICO SEDA G813 T 2-0 - JOHNSON & JOHNSON,0.877538,1.0,81 -| 90
1060919,FIO CIRURGICO PROLENE 8822 T 3-0 - JOHNSON & J...,FIO CIRURGICO SEDA G813 T 2-0 - JOHNSON & JOHNSON,0.885186,1.0,81 -| 90
1229183,FIO CIRURGICO PDS Z304 H 4-0 - JOHNSON & JOHNSON,FIO CIRURGICO SEDA G813 T 2-0 - JOHNSON & JOHNSON,0.89881,1.0,81 -| 90
1282319,FIO CIRURGICO VICRYL VCP316 H - JOHNSON & JOHNSON,FIO CIRURGICO SEDA G813 T 2-0 - JOHNSON & JOHNSON,0.868099,1.0,81 -| 90
1284533,FIO CIRURGICO VICRYL VCP374 H 3-0 - JOHNSON & ...,FIO CIRURGICO SEDA G813 T 2-0 - JOHNSON & JOHNSON,0.869209,1.0,81 -| 90
1286747,FIO CIRURGICO PROLENE 9523 T 2-0 - JOHNSON & J...,FIO CIRURGICO SEDA G813 T 2-0 - JOHNSON & JOHNSON,0.88043,1.0,81 -| 90
1412945,FIO CIRURGICO VICRYL VCP375 H 2-0 - JOHNSON & ...,FIO CIRURGICO SEDA G813 T 2-0 - JOHNSON & JOHNSON,0.873283,1.0,81 -| 90


- Agrupando itens das colunas itens_A e itens_B

In [39]:
group_fio_seda = ts.group_similarity(df_fio_seda, 'item_A', 'item_B')
group_fio_seda

Unnamed: 0,itens,predito
917009,FIO CIRURGICO SEDA SSP15 T-0,1
919223,FIO CIRURGICO VICRYL VCP333 H 2-0 - JOHNSON & ...,1
950219,FIO CIRURGICO PROLENE P8682 T 4-0 - JOHNSON & ...,1
961289,FIO CIRURGICO VICRYL VCP351 H 2-0 - JOHNSON & ...,1
1060919,FIO CIRURGICO PROLENE 8822 T 3-0 - JOHNSON & J...,1
1229183,FIO CIRURGICO PDS Z304 H 4-0 - JOHNSON & JOHNSON,1
1282319,FIO CIRURGICO VICRYL VCP316 H - JOHNSON & JOHNSON,1
1284533,FIO CIRURGICO VICRYL VCP374 H 3-0 - JOHNSON & ...,1
1286747,FIO CIRURGICO PROLENE 9523 T 2-0 - JOHNSON & J...,1
1412945,FIO CIRURGICO VICRYL VCP375 H 2-0 - JOHNSON & ...,1


- Refinando o modelo com regex

In [40]:
regex = re.compile(r'\b(\w+\s+\w+\s+\w+)\b')

fio_seda = ts.regex_prefix('FIO CIRURGICO SEDA', regex, group_fio_seda['itens'])

In [41]:
group_fio_prolene = group_fio_prolene[group_fio_prolene['itens'].isin(fio_prolene)]
group_fio_prolene

Unnamed: 0,itens,predito
1687829,FIO CIRURGICO PROLENE 9556 T 5-0 - JOHNSON & J...,1
1745393,FIO CIRURGICO PROLENE M8703 T 7-0 - JOHNSON & ...,1
1763105,FIO CIRURGICO PROLENE 9521 T 4-0 - JOHNSON & J...,1
2655347,FIO CIRURGICO PROLENE 8512 T 3-0 - JOHNSON & J...,1
2723981,FIO CIRURGICO PROLENE 9557 T 4-0 - JOHNSON & J...,1
3578585,FIO CIRURGICO PROLENE 8424 T 0 - JOHNSON & JOH...,1
3609581,FIO CIRURGICO PROLENE AZUL 8513T 2-0,1
3693713,FIO CIRURGICO PROLENE AZUL 8411 T 2-0 CT-2 PLU...,1
4388909,FIO CIRURGICO PROLENE 8704 T 7-0 - JOHNSON & J...,1
4543889,FIO CIRURGICO PROLENE 8730 T 8-0,1


In [42]:
group_fio_seda = group_fio_seda[group_fio_seda['itens'].isin(fio_seda)]
group_fio_seda

Unnamed: 0,itens,predito
917009,FIO CIRURGICO SEDA SSP15 T-0,1
1747259,FIO CIRURGICO SEDA SSP14 T 2-0 - JOHNSON E JOH...,1
4142807,FIO CIRURGICO SEDA SSP13 T 3-0 - JOHNSON & JOH...,1
4335425,FIO CIRURGICO SEDA G812 T 3-0 - JOHNSON & JOHNSON,1
917009,FIO CIRURGICO SEDA G813 T 2-0 - JOHNSON & JOHNSON,1


## Filtro Fio Vicryl

In [43]:
df_similaridade[df_similaridade['item_B'].isin(list_fio_vicryl)].query('valor_similaridade >= 0.9')

Unnamed: 0,item_A,item_B,valor_similaridade,similares,classe
1284699,FIO CIRURGICO VICRYL VCP374 H 3-0 - JOHNSON & ...,FIO CIRURGICO VICRYL VCP316 H - JOHNSON & JOHNSON,0.947919,1.0,91 -| 100
1413111,FIO CIRURGICO VICRYL VCP375 H 2-0 - JOHNSON & ...,FIO CIRURGICO VICRYL VCP316 H - JOHNSON & JOHNSON,0.947919,1.0,91 -| 100
2250003,FIO CIRURGICO VICRYL VCP353 H 1-0 - JOHNSON E ...,FIO CIRURGICO VICRYL VCP316 H - JOHNSON & JOHNSON,0.950619,1.0,91 -| 100
2367345,FIO CIRURGICO VICRYL J183 G 3-0 - JOHNSON & JO...,FIO CIRURGICO VICRYL VCP316 H - JOHNSON & JOHNSON,0.920323,1.0,91 -| 100
2464761,FIO CIRURGICO VICRYL VCP168 H 1-0 - JOHNSON & ...,FIO CIRURGICO VICRYL VCP316 H - JOHNSON & JOHNSON,0.956217,1.0,91 -| 100
2520111,FIO CIRURGICO VICRYL VCP406 H 3-0 - JOHNSON & ...,FIO CIRURGICO VICRYL VCP316 H - JOHNSON & JOHNSON,0.947884,1.0,91 -| 100
2646309,FIO CIRURGICO VICRYL J122 H 4-0 - JOHNSON E JO...,FIO CIRURGICO VICRYL VCP316 H - JOHNSON & JOHNSON,0.913811,1.0,91 -| 100
2765865,FIO CIRURGICO VICRYL VCP310 H 4-0 - JOHNSON & ...,FIO CIRURGICO VICRYL VCP316 H - JOHNSON & JOHNSON,0.956217,1.0,91 -| 100
2858853,FIO CIRURGICO VICRYL VCP376 H 0 - JOHNSON & JO...,FIO CIRURGICO VICRYL VCP316 H - JOHNSON & JOHNSON,0.959154,1.0,91 -| 100
4140759,FIO CIRURGICO PDP 880 G 1 - JOHNSON & JOHNSON,FIO CIRURGICO VICRYL VCP316 H - JOHNSON & JOHNSON,0.908201,1.0,91 -| 100


In [44]:
df_fio_vicryl = df_similaridade[df_similaridade['item_B'].isin(list_fio_vicryl)].query('valor_similaridade >= 0.8')
df_fio_vicryl

Unnamed: 0,item_A,item_B,valor_similaridade,similares,classe
1284699,FIO CIRURGICO VICRYL VCP374 H 3-0 - JOHNSON & ...,FIO CIRURGICO VICRYL VCP316 H - JOHNSON & JOHNSON,0.947919,1.0,91 -| 100
1286913,FIO CIRURGICO PROLENE 9523 T 2-0 - JOHNSON & J...,FIO CIRURGICO VICRYL VCP316 H - JOHNSON & JOHNSON,0.862111,1.0,81 -| 90
1413111,FIO CIRURGICO VICRYL VCP375 H 2-0 - JOHNSON & ...,FIO CIRURGICO VICRYL VCP316 H - JOHNSON & JOHNSON,0.947919,1.0,91 -| 100
1470675,FIO CIRURGICO MONOCRYL Y427 H 3-0 - JOHNSON & ...,FIO CIRURGICO VICRYL VCP316 H - JOHNSON & JOHNSON,0.872776,1.0,81 -| 90
1492815,FIO CIRURGICO MONONYLON 1215 T 2-0 - JOHNSON &...,FIO CIRURGICO VICRYL VCP316 H - JOHNSON & JOHNSON,0.84209,1.0,81 -| 90
1683219,FIO CIRURGICO FITA CARDIACA FAB46 T BC 7-0 - J...,FIO CIRURGICO VICRYL VCP316 H - JOHNSON & JOHNSON,0.84303,1.0,81 -| 90
1685433,FIO CIRURGICO PROLENE 8707 T 6-0 - JOHNSON & J...,FIO CIRURGICO VICRYL VCP316 H - JOHNSON & JOHNSON,0.862111,1.0,81 -| 90
1687647,FIO CIRURGICO PROLENE 9556 T 5-0 - JOHNSON & J...,FIO CIRURGICO VICRYL VCP316 H - JOHNSON & JOHNSON,0.862111,1.0,81 -| 90
1742997,FIO CIRURGICO MERSILENE SMV73 T 3-0 - JOHNSON ...,FIO CIRURGICO VICRYL VCP316 H - JOHNSON & JOHNSON,0.862779,1.0,81 -| 90
1745211,FIO CIRURGICO PROLENE M8703 T 7-0 - JOHNSON & ...,FIO CIRURGICO VICRYL VCP316 H - JOHNSON & JOHNSON,0.859209,1.0,81 -| 90


- Agrupando itens das colunas itens_A e itens_B

In [45]:
group_fio_vicryl = ts.group_similarity(df_fio_vicryl, 'item_A', 'item_B')
group_fio_vicryl

Unnamed: 0,itens,predito
1284699,FIO CIRURGICO VICRYL VCP374 H 3-0 - JOHNSON & ...,1
1286913,FIO CIRURGICO PROLENE 9523 T 2-0 - JOHNSON & J...,1
1413111,FIO CIRURGICO VICRYL VCP375 H 2-0 - JOHNSON & ...,1
1470675,FIO CIRURGICO MONOCRYL Y427 H 3-0 - JOHNSON & ...,1
1492815,FIO CIRURGICO MONONYLON 1215 T 2-0 - JOHNSON &...,1
1683219,FIO CIRURGICO FITA CARDIACA FAB46 T BC 7-0 - J...,1
1685433,FIO CIRURGICO PROLENE 8707 T 6-0 - JOHNSON & J...,1
1687647,FIO CIRURGICO PROLENE 9556 T 5-0 - JOHNSON & J...,1
1742997,FIO CIRURGICO MERSILENE SMV73 T 3-0 - JOHNSON ...,1
1745211,FIO CIRURGICO PROLENE M8703 T 7-0 - JOHNSON & ...,1


- Refinando o modelo com regex

In [46]:
regex = re.compile(r'\b(\w+\s+\w+\s+\w+)\b')

fio_vicry = ts.regex_prefix('FIO CIRURGICO VICRYL', regex, group_fio_vicryl['itens'])
fio_vicry

['FIO CIRURGICO VICRYL VCP374 H 3-0 - JOHNSON & JOHNSON',
 'FIO CIRURGICO VICRYL VCP375 H 2-0 - JOHNSON & JOHNSON',
 'FIO CIRURGICO VICRYL VCP353 H 1-0 - JOHNSON E JOHNSON',
 'FIO CIRURGICO VICRYL J183 G 3-0 - JOHNSON & JOHNSON',
 'FIO CIRURGICO VICRYL VCP168 H 1-0 - JOHNSON & JOHNSON',
 'FIO CIRURGICO VICRYL VCP406 H 3-0 - JOHNSON & JOHNSON',
 'FIO CIRURGICO VICRYL J122 H 4-0 - JOHNSON E JOHNSON',
 'FIO CIRURGICO VICRYL VCP310 H 4-0 - JOHNSON & JOHNSON',
 'FIO CIRURGICO VICRYL VCP376 H 0 - JOHNSON & JOHNSON',
 'FIO CIRURGICO VICRYL J 535H 1-0',
 'FIO CIRURGICO VICRYL J 316 H 3-0',
 'FIO CIRURGICO VICRYL VCP340 H 0 - JOHNSON & JOHNSON',
 'FIO CIRURGICO VICRYL PLUS 2-0 REF:XYJ375H',
 'FIO CIRURGICO VICRYL PLUS 0 REF:XYJ376H',
 'FIO CIRURGICO VICRYL XYJ316H 3-0',
 'FIO CIRURGICO VICRYL XYJ304H 4-0',
 'FIO CIRURGICO VICRYL VCP316 H - JOHNSON & JOHNSON']

In [47]:
group_fio_vicryl = group_fio_vicryl[group_fio_vicryl['itens'].isin(fio_vicry)]
group_fio_vicryl

Unnamed: 0,itens,predito
1284699,FIO CIRURGICO VICRYL VCP374 H 3-0 - JOHNSON & ...,1
1413111,FIO CIRURGICO VICRYL VCP375 H 2-0 - JOHNSON & ...,1
2250003,FIO CIRURGICO VICRYL VCP353 H 1-0 - JOHNSON E ...,1
2367345,FIO CIRURGICO VICRYL J183 G 3-0 - JOHNSON & JO...,1
2464761,FIO CIRURGICO VICRYL VCP168 H 1-0 - JOHNSON & ...,1
2520111,FIO CIRURGICO VICRYL VCP406 H 3-0 - JOHNSON & ...,1
2646309,FIO CIRURGICO VICRYL J122 H 4-0 - JOHNSON E JO...,1
2765865,FIO CIRURGICO VICRYL VCP310 H 4-0 - JOHNSON & ...,1
2858853,FIO CIRURGICO VICRYL VCP376 H 0 - JOHNSON & JO...,1
3082467,FIO CIRURGICO VICRYL J 535H 1-0,1


## Filtro bisturi

In [48]:
df_similaridade[df_similaridade['item_B'].isin(list_bisturi)].query('valor_similaridade >= 0.9')

Unnamed: 0,item_A,item_B,valor_similaridade,similares,classe
283410,LAMINA DE BISTURI NR 15 ESTERIL - B. BRAUN,LAMINA DE BISTURI NR 11 ESTERIL - B. BRAUN,0.989744,1.0,91 -| 100
670860,LAMINA DE BISTURI NR 21 ESTERIL - B. BRAUN,LAMINA DE BISTURI NR 11 ESTERIL - B. BRAUN,0.989744,1.0,91 -| 100
670970,LAMINA DE BISTURI NR 21 ESTERIL - B. BRAUN,LAMINA DE BISTURI NR 15 ESTERIL - B. BRAUN,0.989744,1.0,91 -| 100


In [49]:
df_bisturi = df_similaridade[df_similaridade['item_B'].isin(list_bisturi)].query('valor_similaridade >= 0.8')
df_bisturi

Unnamed: 0,item_A,item_B,valor_similaridade,similares,classe
283410,LAMINA DE BISTURI NR 15 ESTERIL - B. BRAUN,LAMINA DE BISTURI NR 11 ESTERIL - B. BRAUN,0.989744,1.0,91 -| 100
670860,LAMINA DE BISTURI NR 21 ESTERIL - B. BRAUN,LAMINA DE BISTURI NR 11 ESTERIL - B. BRAUN,0.989744,1.0,91 -| 100
670970,LAMINA DE BISTURI NR 21 ESTERIL - B. BRAUN,LAMINA DE BISTURI NR 15 ESTERIL - B. BRAUN,0.989744,1.0,91 -| 100
3642048,LAMINA PARA BISTURI Ndeg 11 - FEATHER,LAMINA DE BISTURI NR 11 ESTERIL - B. BRAUN,0.870175,1.0,81 -| 90
3642158,LAMINA PARA BISTURI Ndeg 11 - FEATHER,LAMINA DE BISTURI NR 15 ESTERIL - B. BRAUN,0.857372,1.0,81 -| 90
3642333,LAMINA PARA BISTURI Ndeg 11 - FEATHER,LAMINA DE BISTURI NR 21 ESTERIL - B. BRAUN,0.857372,1.0,81 -| 90
4115844,LAMINA PARA BISTURI Ndeg 15 - FEATHER,LAMINA DE BISTURI NR 11 ESTERIL - B. BRAUN,0.857372,1.0,81 -| 90
4115954,LAMINA PARA BISTURI Ndeg 15 - FEATHER,LAMINA DE BISTURI NR 15 ESTERIL - B. BRAUN,0.870175,1.0,81 -| 90
4116129,LAMINA PARA BISTURI Ndeg 15 - FEATHER,LAMINA DE BISTURI NR 21 ESTERIL - B. BRAUN,0.857372,1.0,81 -| 90
4622850,LAMINA PARA BISTURI Ndeg 21 - FEATHER,LAMINA DE BISTURI NR 11 ESTERIL - B. BRAUN,0.857372,1.0,81 -| 90


- Agrupando itens das colunas itens_A e itens_B

In [50]:
group_bisturi = ts.group_similarity(df_bisturi, 'item_A', 'item_B')
group_bisturi

Unnamed: 0,itens,predito
283410,LAMINA DE BISTURI NR 15 ESTERIL - B. BRAUN,1
670860,LAMINA DE BISTURI NR 21 ESTERIL - B. BRAUN,1
3642048,LAMINA PARA BISTURI Ndeg 11 - FEATHER,1
4115844,LAMINA PARA BISTURI Ndeg 15 - FEATHER,1
4622850,LAMINA PARA BISTURI Ndeg 21 - FEATHER,1
283410,LAMINA DE BISTURI NR 11 ESTERIL - B. BRAUN,1


## Filtro Perfursor

In [51]:
df_similaridade[df_similaridade['item_B'].isin(list_perfursor)].query('valor_similaridade >= 0.9')

Unnamed: 0,item_A,item_B,valor_similaridade,similares,classe
1213401,PERFUSOR SET 20CM - B. BRAUN,PERFUSOR SET 120CM - B. BRAUN,0.993103,1.0,91 -| 100
1611921,PERFUSOR SET 60CM - B. BRAUN,PERFUSOR SET 120CM - B. BRAUN,0.979064,1.0,91 -| 100
1612340,PERFUSOR SET 60CM - B. BRAUN,PERFUSOR SET 20CM - B. BRAUN,0.985714,1.0,91 -| 100


In [52]:
df_perfursor = df_similaridade[df_similaridade['item_B'].isin(list_perfursor)].query('valor_similaridade >= 0.8')

- Agrupando itens das colunas itens_A e itens_B

In [53]:
group_bisturi = ts.group_similarity(df_perfursor, 'item_A', 'item_B')
group_bisturi

Unnamed: 0,itens,predito
1213401,PERFUSOR SET 20CM - B. BRAUN,1
1611921,PERFUSOR SET 60CM - B. BRAUN,1
1213401,PERFUSOR SET 120CM - B. BRAUN,1


## Filtro tubo endotraqueal

In [54]:
tb_endotraqueal = df_similaridade[df_similaridade['item_B'].isin(list_tubo_endotraqueal)].query('valor_similaridade >= 0.9')
tb_endotraqueal

Unnamed: 0,item_A,item_B,valor_similaridade,similares,classe
1490649,TUBO ENDOTRAQUEAL C/BALAO 4.0 - MALLINCKRODT,TUBO ENDOTRAQUEAL S/BALAO 3.5 - MALLINCKRODT,0.933703,1.0,91 -| 100
2112829,TUBO ENDOTRAQUEAL TAPERGUARD C/BALAO 6.0 - MAL...,TUBO ENDOTRAQUEAL C/BALAO 4.0 - MALLINCKRODT,0.900655,1.0,91 -| 100
2506875,TUBO ENDOTRAQUEAL C/BALAO 3.5 - MALLINCKRODT,TUBO ENDOTRAQUEAL S/BALAO 3.5 - MALLINCKRODT,0.949049,1.0,91 -| 100
2506921,TUBO ENDOTRAQUEAL C/BALAO 3.5 - MALLINCKRODT,TUBO ENDOTRAQUEAL C/BALAO 4.0 - MALLINCKRODT,0.981818,1.0,91 -| 100
2579937,TUBO ENDOTRAQUEAL C/BALAO 4.5 - MALLINCKRODT,TUBO ENDOTRAQUEAL S/BALAO 3.5 - MALLINCKRODT,0.938961,1.0,91 -| 100
2579983,TUBO ENDOTRAQUEAL C/BALAO 4.5 - MALLINCKRODT,TUBO ENDOTRAQUEAL C/BALAO 4.0 - MALLINCKRODT,0.990909,1.0,91 -| 100
2763745,TUBO ENDOTRAQUEAL TAPERGUARD C/BALAO 5.0 - MAL...,TUBO ENDOTRAQUEAL C/BALAO 4.0 - MALLINCKRODT,0.900655,1.0,91 -| 100
2785885,TUBO ENDOTRAQUEAL TAPERGUARD C/BALAO 9.0 - MAL...,TUBO ENDOTRAQUEAL C/BALAO 4.0 - MALLINCKRODT,0.900655,1.0,91 -| 100
2934223,TUBO ENDOTRAQUEAL ARAMADO C/BALAO - 7.0 - MALL...,TUBO ENDOTRAQUEAL C/BALAO 4.0 - MALLINCKRODT,0.903551,1.0,91 -| 100
3086943,TUBO ENDOTRAQUEAL S/BALAO 3.0 - MALLINCKRODT,TUBO ENDOTRAQUEAL S/BALAO 3.5 - MALLINCKRODT,0.990909,1.0,91 -| 100


In [55]:
group_endotraqueal = ts.group_similarity(tb_endotraqueal, 'item_A', 'item_B')
group_endotraqueal

Unnamed: 0,itens,predito
1490649,TUBO ENDOTRAQUEAL C/BALAO 4.0 - MALLINCKRODT,1
2112829,TUBO ENDOTRAQUEAL TAPERGUARD C/BALAO 6.0 - MAL...,1
2506875,TUBO ENDOTRAQUEAL C/BALAO 3.5 - MALLINCKRODT,1
2579937,TUBO ENDOTRAQUEAL C/BALAO 4.5 - MALLINCKRODT,1
2763745,TUBO ENDOTRAQUEAL TAPERGUARD C/BALAO 5.0 - MAL...,1
2785885,TUBO ENDOTRAQUEAL TAPERGUARD C/BALAO 9.0 - MAL...,1
2934223,TUBO ENDOTRAQUEAL ARAMADO C/BALAO - 7.0 - MALL...,1
3086943,TUBO ENDOTRAQUEAL S/BALAO 3.0 - MALLINCKRODT,1
3392475,TUBO ENDOTRAQUEAL C/BALAO 3.0 - MALLINCKRODT,1
3897267,TUBO ENDOTRAQUEAL S/BALAO 2.5 - MALLINCKRODT,1


- Refinando o modelo com regex

In [56]:
regex = re.compile(r'\b(\w+\s+\w+)\b')

tubo_endotraqueal = ts.regex_prefix('TUBO ENDOTRAQUEAL', regex, group_endotraqueal['itens'])

tubo_endotraqueal

['TUBO ENDOTRAQUEAL C/BALAO 4.0 - MALLINCKRODT',
 'TUBO ENDOTRAQUEAL TAPERGUARD C/BALAO 6.0 - MALLINCKRODT',
 'TUBO ENDOTRAQUEAL C/BALAO 3.5 - MALLINCKRODT',
 'TUBO ENDOTRAQUEAL C/BALAO 4.5 - MALLINCKRODT',
 'TUBO ENDOTRAQUEAL TAPERGUARD C/BALAO 5.0 - MALLINCKRODT',
 'TUBO ENDOTRAQUEAL TAPERGUARD C/BALAO 9.0 - MALLINCKRODT',
 'TUBO ENDOTRAQUEAL ARAMADO C/BALAO - 7.0 - MALLINCKRODT',
 'TUBO ENDOTRAQUEAL S/BALAO 3.0 - MALLINCKRODT',
 'TUBO ENDOTRAQUEAL C/BALAO 3.0 - MALLINCKRODT',
 'TUBO ENDOTRAQUEAL S/BALAO 2.5 - MALLINCKRODT',
 'TUBO ENDOTRAQUEAL ARAMADO S/BALAO - 3.5',
 'TUBO ENDOTRAQUEAL ARAMADO S/ BALAO - 3.0',
 'TUBO ENDOTRAQUEAL S/BALAO 3.5 - MALLINCKRODT']

In [57]:
group_endotraqueal = group_endotraqueal[group_endotraqueal['itens'].isin(tubo_endotraqueal)]
group_endotraqueal

Unnamed: 0,itens,predito
1490649,TUBO ENDOTRAQUEAL C/BALAO 4.0 - MALLINCKRODT,1
2112829,TUBO ENDOTRAQUEAL TAPERGUARD C/BALAO 6.0 - MAL...,1
2506875,TUBO ENDOTRAQUEAL C/BALAO 3.5 - MALLINCKRODT,1
2579937,TUBO ENDOTRAQUEAL C/BALAO 4.5 - MALLINCKRODT,1
2763745,TUBO ENDOTRAQUEAL TAPERGUARD C/BALAO 5.0 - MAL...,1
2785885,TUBO ENDOTRAQUEAL TAPERGUARD C/BALAO 9.0 - MAL...,1
2934223,TUBO ENDOTRAQUEAL ARAMADO C/BALAO - 7.0 - MALL...,1
3086943,TUBO ENDOTRAQUEAL S/BALAO 3.0 - MALLINCKRODT,1
3392475,TUBO ENDOTRAQUEAL C/BALAO 3.0 - MALLINCKRODT,1
3897267,TUBO ENDOTRAQUEAL S/BALAO 2.5 - MALLINCKRODT,1


## Filtrando fio monolion

In [58]:
df_fio_monolion= df_similaridade[df_similaridade['item_B'].isin(list_fio_monolion)].query('valor_similaridade >= 0.9')

In [59]:
df_fio_monolion = ts.group_similarity(df_fio_monolion, 'item_A', 'item_B')
df_fio_monolion

Unnamed: 0,itens,predito
524941,FIO CIRURGICO MONONYLON P1662 T 4-0 - JOHNSON ...,1
706489,FIO CIRURGICO MONONYLON P1664 T 4-0 - JOHNSON ...,1
803905,FIO CIRURGICO MONONYLON 1163 T 3-0,1
1492459,FIO CIRURGICO MONONYLON 1215 T 2-0 - JOHNSON &...,1
3487273,FIO CIRURGICO MONONYLON P1602 T 5-0 - JOHNSON ...,1
3489487,FIO CIRURGICO MONONYLON P1611 T 4-0 - JOHNSON ...,1
3498343,FIO CIRURGICO MONONYLON P1661 T 5-0 - JOHNSON ...,1
3912361,FIO CIRURGICO MONONYLON P1666 T 5-0 - JOHNSON ...,1
524941,FIO CIRURGICO MONONYLON P1663 T 3-0 - JOHNSON ...,1


In [60]:
df_fio_monolion = df_similaridade[df_similaridade['item_B'].isin(list_fio_monolion)].query('valor_similaridade >= 0.8')
df_fio_monolion

Unnamed: 0,item_A,item_B,valor_similaridade,similares,classe
524941,FIO CIRURGICO MONONYLON P1662 T 4-0 - JOHNSON ...,FIO CIRURGICO MONONYLON P1663 T 3-0 - JOHNSON ...,0.977907,1.0,91 -| 100
706489,FIO CIRURGICO MONONYLON P1664 T 4-0 - JOHNSON ...,FIO CIRURGICO MONONYLON P1663 T 3-0 - JOHNSON ...,0.977907,1.0,91 -| 100
706503,FIO CIRURGICO MONONYLON P1664 T 4-0 - JOHNSON ...,FIO CIRURGICO MONONYLON P1662 T 4-0 - JOHNSON ...,0.985320,1.0,91 -| 100
761839,FIO CIRURGICO CATGUT SIMPLES 853 T 2-0 - JOHNS...,FIO CIRURGICO MONONYLON P1663 T 3-0 - JOHNSON ...,0.841413,1.0,81 -| 90
761853,FIO CIRURGICO CATGUT SIMPLES 853 T 2-0 - JOHNS...,FIO CIRURGICO MONONYLON P1662 T 4-0 - JOHNSON ...,0.848088,1.0,81 -| 90
...,...,...,...,...,...
4569919,FIO CIRURGICO PDS II Z339 2-0- JOHNSON & JOHNSON,FIO CIRURGICO MONONYLON P1663 T 3-0 - JOHNSON ...,0.857610,1.0,81 -| 90
4569933,FIO CIRURGICO PDS II Z339 2-0- JOHNSON & JOHNSON,FIO CIRURGICO MONONYLON P1662 T 4-0 - JOHNSON ...,0.852121,1.0,81 -| 90
4570015,FIO CIRURGICO PDS II Z339 2-0- JOHNSON & JOHNSON,FIO CIRURGICO MONONYLON P1664 T 4-0 - JOHNSON ...,0.842780,1.0,81 -| 90
4570370,FIO CIRURGICO PDS II Z339 2-0- JOHNSON & JOHNSON,FIO CIRURGICO MONONYLON 1215 T 2-0 - JOHNSON &...,0.845406,1.0,81 -| 90


- Agrupando itens das colunas itens_A e itens_B

In [61]:
group_fio_mono = ts.group_similarity(df_fio_monolion, 'item_A', 'item_B')
group_fio_mono

Unnamed: 0,itens,predito
524941,FIO CIRURGICO MONONYLON P1662 T 4-0 - JOHNSON ...,1
706489,FIO CIRURGICO MONONYLON P1664 T 4-0 - JOHNSON ...,1
761839,FIO CIRURGICO CATGUT SIMPLES 853 T 2-0 - JOHNS...,1
803905,FIO CIRURGICO MONONYLON 1163 T 3-0,1
845971,FIO CIRURGICO MONOCRYL Y495 H5-0 - JOHNSON E J...,1
848185,FIO CIRURGICO VICRYL VCP304 H 4-0 - JOHNSON & ...,1
914605,FIO CIRURGICO SEDA G813 T 2-0 - JOHNSON & JOHNSON,1
919033,FIO CIRURGICO VICRYL VCP333 H 2-0 - JOHNSON & ...,1
950029,FIO CIRURGICO PROLENE P8682 T 4-0 - JOHNSON & ...,1
961099,FIO CIRURGICO VICRYL VCP351 H 2-0 - JOHNSON & ...,1


In [62]:
group_fio_mono.shape

(59, 2)

- Refinando o modelo com regex

In [63]:
regex = re.compile(r'\b(\w+\s+\w+\s+\w+)\b')

fio_monolion = ts.regex_prefix('FIO CIRURGICO MONONYLON', regex, group_fio_mono['itens'])

In [64]:
group_fio_mono = group_fio_mono[group_fio_mono['itens'].isin(fio_monolion)]
group_fio_mono

Unnamed: 0,itens,predito
524941,FIO CIRURGICO MONONYLON P1662 T 4-0 - JOHNSON ...,1
706489,FIO CIRURGICO MONONYLON P1664 T 4-0 - JOHNSON ...,1
803905,FIO CIRURGICO MONONYLON 1163 T 3-0,1
1492459,FIO CIRURGICO MONONYLON 1215 T 2-0 - JOHNSON &...,1
3104251,FIO CIRURGICO MONONYLON 14503T T 3-0,1
3487273,FIO CIRURGICO MONONYLON P1602 T 5-0 - JOHNSON ...,1
3489487,FIO CIRURGICO MONONYLON P1611 T 4-0 - JOHNSON ...,1
3498343,FIO CIRURGICO MONONYLON P1661 T 5-0 - JOHNSON ...,1
3912361,FIO CIRURGICO MONONYLON P1666 T 5-0 - JOHNSON ...,1
524941,FIO CIRURGICO MONONYLON P1663 T 3-0 - JOHNSON ...,1


## Filtrando frauda

In [65]:
df_similaridade[df_similaridade['item_B'].isin(list_frauda)].query('valor_similaridade >= 0.9')

Unnamed: 0,item_A,item_B,valor_similaridade,similares,classe
744155,FRALDA INFANTIL G (DE 9 A 13KG),FRALDA INFANTIL EG (ACIMA DE 12KG),0.917704,1.0,91 -| 100
1693961,FRALDA INFANTIL M (DE 6 A 10KG),FRALDA INFANTIL EG (ACIMA DE 12KG),0.901704,1.0,91 -| 100
2198753,FRALDA INFANTIL P (ATE 6KG),FRALDA INFANTIL EG (ACIMA DE 12KG),0.907616,1.0,91 -| 100
2199267,FRALDA INFANTIL P (ATE 6KG),FRALDA INFANTIL M (DE 6 A 10KG),0.943295,1.0,91 -| 100


In [66]:
group_frauda = df_similaridade[df_similaridade['item_B'].isin(list_frauda)].query('valor_similaridade >= 0.8')
group_frauda

Unnamed: 0,item_A,item_B,valor_similaridade,similares,classe
744155,FRALDA INFANTIL G (DE 9 A 13KG),FRALDA INFANTIL EG (ACIMA DE 12KG),0.917704,1.0,91 -| 100
1693961,FRALDA INFANTIL M (DE 6 A 10KG),FRALDA INFANTIL EG (ACIMA DE 12KG),0.901704,1.0,91 -| 100
2198753,FRALDA INFANTIL P (ATE 6KG),FRALDA INFANTIL EG (ACIMA DE 12KG),0.907616,1.0,91 -| 100
2199267,FRALDA INFANTIL P (ATE 6KG),FRALDA INFANTIL M (DE 6 A 10KG),0.943295,1.0,91 -| 100
2300597,FRALDA NEONATAL TAM. PP (0 A 3 5KG),FRALDA INFANTIL EG (ACIMA DE 12KG),0.835607,1.0,81 -| 90
2301111,FRALDA NEONATAL TAM. PP (0 A 3 5KG),FRALDA INFANTIL M (DE 6 A 10KG),0.854536,1.0,81 -| 90
2301339,FRALDA NEONATAL TAM. PP (0 A 3 5KG),FRALDA INFANTIL P (ATE 6KG),0.866286,1.0,81 -| 90


- Agrupando itens das colunas itens_A e itens_B

In [67]:
group_frauda = ts.group_similarity(group_frauda, 'item_A', 'item_B')
group_frauda

Unnamed: 0,itens,predito
744155,FRALDA INFANTIL G (DE 9 A 13KG),1
1693961,FRALDA INFANTIL M (DE 6 A 10KG),1
2198753,FRALDA INFANTIL P (ATE 6KG),1
2300597,FRALDA NEONATAL TAM. PP (0 A 3 5KG),1
744155,FRALDA INFANTIL EG (ACIMA DE 12KG),1


## Filtro Sonda

In [68]:
df_similaridade[df_similaridade['item_B'].isin(list_sonda)].query('valor_similaridade >= 0.9')

Unnamed: 0,item_A,item_B,valor_similaridade,similares,classe
3187376,SONDA FOLEY 2 VIAS 08 BALAO 30 - RUSCH,SONDA FOLEY 2 VIAS 08 SILICONE - RUSCH,0.911842,1.0,91 -| 100
3273731,SONDA FOLEY 2 VIAS 24 BALAO 30 - RUSCH,SONDA FOLEY 2 VIAS 08 BALAO 30 - RUSCH,0.956725,1.0,91 -| 100
3532760,SONDA FOLEY 2 VIAS 06 SILICONE - RUSCH,SONDA FOLEY 2 VIAS 08 SILICONE - RUSCH,0.989474,1.0,91 -| 100
3532769,SONDA FOLEY 2 VIAS 06 SILICONE - RUSCH,SONDA FOLEY 2 VIAS 08 BALAO 30 - RUSCH,0.900509,1.0,91 -| 100
3906935,SONDA FOLEY 2 VIAS 16 BALAO 30 SILKOMED - RUSCH,SONDA FOLEY 2 VIAS 08 BALAO 30 - RUSCH,0.909332,1.0,91 -| 100
3999923,SONDA FOLEY 2 VIAS 12 BALAO 30 - RUSCH,SONDA FOLEY 2 VIAS 08 BALAO 30 - RUSCH,0.956725,1.0,91 -| 100
4429430,SONDA FOLEY 2 VIAS 20 BALAO 30 - RUSCH,SONDA FOLEY 2 VIAS 08 SILICONE - RUSCH,0.900509,1.0,91 -| 100
4429439,SONDA FOLEY 2 VIAS 20 BALAO 30 - RUSCH,SONDA FOLEY 2 VIAS 08 BALAO 30 - RUSCH,0.989474,1.0,91 -| 100
4429595,SONDA FOLEY 2 VIAS 20 BALAO 30 - RUSCH,SONDA FOLEY 2 VIAS 06 SILICONE - RUSCH,0.900509,1.0,91 -| 100
4801382,SONDA FOLEY 2 VIAS 18 SILICONE - RUSCH,SONDA FOLEY 2 VIAS 08 SILICONE - RUSCH,0.989474,1.0,91 -| 100


In [69]:
group_sonda_foley = df_similaridade[df_similaridade['item_B'].isin(list_sonda)].query('valor_similaridade >= 0.8')
group_sonda_foley

Unnamed: 0,item_A,item_B,valor_similaridade,similares,classe
3187376,SONDA FOLEY 2 VIAS 08 BALAO 30 - RUSCH,SONDA FOLEY 2 VIAS 08 SILICONE - RUSCH,0.911842,1.0,91 -| 100
3273722,SONDA FOLEY 2 VIAS 24 BALAO 30 - RUSCH,SONDA FOLEY 2 VIAS 08 SILICONE - RUSCH,0.894058,1.0,81 -| 90
3273731,SONDA FOLEY 2 VIAS 24 BALAO 30 - RUSCH,SONDA FOLEY 2 VIAS 08 BALAO 30 - RUSCH,0.956725,1.0,91 -| 100
3532760,SONDA FOLEY 2 VIAS 06 SILICONE - RUSCH,SONDA FOLEY 2 VIAS 08 SILICONE - RUSCH,0.989474,1.0,91 -| 100
3532769,SONDA FOLEY 2 VIAS 06 SILICONE - RUSCH,SONDA FOLEY 2 VIAS 08 BALAO 30 - RUSCH,0.900509,1.0,91 -| 100
3906926,SONDA FOLEY 2 VIAS 16 BALAO 30 SILKOMED - RUSCH,SONDA FOLEY 2 VIAS 08 SILICONE - RUSCH,0.888334,1.0,81 -| 90
3906935,SONDA FOLEY 2 VIAS 16 BALAO 30 SILKOMED - RUSCH,SONDA FOLEY 2 VIAS 08 BALAO 30 - RUSCH,0.909332,1.0,91 -| 100
3907091,SONDA FOLEY 2 VIAS 16 BALAO 30 SILKOMED - RUSCH,SONDA FOLEY 2 VIAS 06 SILICONE - RUSCH,0.893147,1.0,81 -| 90
3999914,SONDA FOLEY 2 VIAS 12 BALAO 30 - RUSCH,SONDA FOLEY 2 VIAS 08 SILICONE - RUSCH,0.894058,1.0,81 -| 90
3999923,SONDA FOLEY 2 VIAS 12 BALAO 30 - RUSCH,SONDA FOLEY 2 VIAS 08 BALAO 30 - RUSCH,0.956725,1.0,91 -| 100


- Agrupando itens das colunas itens_A e itens_B

In [70]:
group_sonda_foley = ts.group_similarity(group_sonda_foley, 'item_A', 'item_B')
group_sonda_foley

Unnamed: 0,itens,predito
3187376,SONDA FOLEY 2 VIAS 08 BALAO 30 - RUSCH,1
3273722,SONDA FOLEY 2 VIAS 24 BALAO 30 - RUSCH,1
3532760,SONDA FOLEY 2 VIAS 06 SILICONE - RUSCH,1
3906926,SONDA FOLEY 2 VIAS 16 BALAO 30 SILKOMED - RUSCH,1
3999914,SONDA FOLEY 2 VIAS 12 BALAO 30 - RUSCH,1
4429430,SONDA FOLEY 2 VIAS 20 BALAO 30 - RUSCH,1
4801382,SONDA FOLEY 2 VIAS 18 SILICONE - RUSCH,1
3187376,SONDA FOLEY 2 VIAS 08 SILICONE - RUSCH,1
