In [1]:
import pandas as pd
import numpy as np

In [2]:
data = pd.read_csv('../3.feature_extraction/features.tsv', sep='\t')
data.set_index('ID', inplace=True)
data = data.where(pd.notnull(data), None)
data.head()

Unnamed: 0_level_0,TITLE,BRAND,MODEL,RAM,STORAGE,PLUS,COLOR,SCREEN_SIZE
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
7923488,Smartphone ASUS Zenfone II ZE551 16GB 4G Tela ...,asus,,,16.0,False,,
8105618,"Smartphone Asus Zenfone 2 ZE551ML, 4G Android ...",asus,zenfone 2,,16.0,False,gold,
10026591,Caminhão Super Bombeiro Resgate Som E Luz - Ma...,,,,,False,,
10027542,Transformers 4 Power Battlers Dinobot Strafe -...,,,,,False,,
10111398,Memoria 4gb Ddr3 1333 Kvr13n9s8/4 Kingston,,,,4.0,False,,


In [3]:
# True se algum dos dois valores for None OU os valores forem diferentes.
# Usados para comparação de campos "obrigatórios" para o match, como BRAND.
def either_absent_or_different(entry_1, entry_2, columns):
    for col in columns:
        col_e1 = entry_1[col]
        col_e2 = entry_2[col]
        if col_e1 is None or col_e2 is None:
            yield True
        else:
            yield col_e1 != col_e2


# True se ambos os valores estiverem presentes e forem o mesmo.
# Usado para comparação de specs como memória e armazenamento.
def both_present_and_same(entry_1, entry_2, columns):
    for col in columns:
        col_e1 = entry_1[col]
        col_e2 = entry_2[col]
        if col_e1 is None or col_e2 is None:
            yield False
        else:
            yield col_e1 == col_e2


# True se ambos os valores estiverem presentes e não forem o mesmo.
# Usado para encontrar diferenças de specs conhecidos.
def both_present_and_different(entry_1, entry_2, columns):
    for col in columns:
        col_e1 = entry_1[col]
        col_e2 = entry_2[col]
        if col_e1 is None or col_e2 is None:
            yield False
        else:
            yield col_e1 != col_e2

Medida de incerteza do match. Definida como o número de campos
None em pelo menos uma das instâncias.  
Mesmo que o resultado seja um match, pode ser que as informações
disponíveis apenas não tenham sido suficientes para detectar uma diferença
com certeza.  
Um valor maior dessa incerteza implica numa maior probabilidade de que
o match seja devido a falta de informações e, portanto, um match falso.

Dessa forma, um outro algoritmo mais adiante no processo pode considerar
apenas matches com nível mais baixo de incerteza.

In [4]:
def null_distance(entry_1, entry_2):
    relevant_cols = ['BRAND', 'MODEL', 'RAM', 'STORAGE', 'SCREEN_SIZE']
    entry_1 = entry_1[relevant_cols]
    entry_2 = entry_2[relevant_cols]
    
    e1_nulls = entry_1.isnull()
    e2_nulls = entry_2.isnull()
    
    either_nulls = e1_nulls | e2_nulls
    
    return np.sum(either_nulls)

In [5]:
def match(entry_1, entry_2):
    spec_cols = ['RAM', 'STORAGE', 'SCREEN_SIZE']
    null_dist = null_distance(entry_1, entry_2)
    specs_in_common = both_present_and_same(entry_1, entry_2, spec_cols)
    
    if entry_1.PLUS != entry_2.PLUS:
        return False, null_dist
    elif any(either_absent_or_different(entry_1, entry_2, ['BRAND'])):
        return False, null_dist
    elif entry_1.MODEL is None or entry_2.MODEL is None:
        # Se o modelo não foi identificado, assumir que são o mesmo se e somente se
        # todos os specs existirem e forem os mesmos
        return all(specs_in_common), null_dist
    elif entry_1.MODEL != entry_2.MODEL:
        return False, null_dist
    elif any(both_present_and_different(entry_1, entry_2, spec_cols)):
        return False, null_dist
    else:
        return True, null_dist


def match_ids(id_1, id_2):
    return match(data.loc[id_1], data.loc[id_2])

In [6]:
from itertools import combinations

In [7]:
# Biblioteca para barra de progresso.
# O algorítmo é O(n^2), então pode demorar algum tempo.
# Se não quiserem ou não puderem instalar a biblioteca, basta remover este import
# e trocar o for por:
#    for pair in pairs:
from tqdm.autonotebook import tqdm

def find_matches():
    pairs = combinations(data.index, 2)
    n_items = len(data)
    n_pairs = (n_items * (n_items - 1)) // 2
    for pair in tqdm(pairs, total=n_pairs, desc='Finding matches...'):
        pair_match, dist = match_ids(*pair)
        if pair_match:
            yield pair, dist



In [8]:
matches = pd.DataFrame(find_matches(), columns=['PAIR', 'UNCERTAINTY'])

HBox(children=(IntProgress(value=0, description='Finding matches...', max=123753, style=ProgressStyle(descript…




In [9]:
from operator import itemgetter

ids = matches.PAIR.apply([
    itemgetter(0),
    itemgetter(1)
])
matches.insert(0, 'ID1', ids.iloc[:, 0])
matches.insert(1, 'ID2', ids.iloc[:, 1])
matches.drop('PAIR', inplace=True, axis=1)
matches.head()

Unnamed: 0,ID1,ID2,UNCERTAINTY
0,8105618,10443427,3
1,8105618,10443622,3
2,10223260,10392630,3
3,10223260,10392657,3
4,10223260,10392663,3


In [10]:
matches.to_csv('matches.tsv', sep='\t', index=False)