In [12]:
import pandas as pd
import collections
from collections import Counter
from item.item_list import (
    ItemList,
    Item
)
from item.clustering.utils import (
    load_clustering_results_pickle,
    load_clustering_results
)

# Load items

In [13]:
itemlist = ItemList()
itemlist.load_items_from_file('../data/items_preprocessed_complete_druid_v2.csv.zip')

In [14]:
itemlist.items_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10902496 entries, 0 to 10902495
Data columns (total 15 columns):
 #   Column              Dtype  
---  ------              -----  
 0   palavras            object 
 1   unidades_medida     object 
 2   numeros             object 
 3   cores               object 
 4   materiais           object 
 5   tamanho             object 
 6   quantidade          object 
 7   preco               float64
 8   dsc_unidade_medida  object 
 9   original            object 
 10  original_prep       object 
 11  ano                 int64  
 12  licitacao           int64  
 13  licitacao_item      int64  
 14  item_id             int64  
dtypes: float64(1), int64(4), object(10)
memory usage: 1.2+ GB


In [15]:
itemlist.items_df.head()

Unnamed: 0,palavras,unidades_medida,numeros,cores,materiais,tamanho,quantidade,preco,dsc_unidade_medida,original,original_prep,ano,licitacao,licitacao_item,item_id
0,"['encunhamento', 'aperto', 'alvenaria', 'tijol...","['x', 'cm', 'c']","['2.00e+00', '4.00e+00', '1.00e+01', '2.00e+01...",[],[],[],[],15.87,metro,5.2.4 ENCUNHAMENTO (APERTO DE ALVENARIA) EM TI...,"['2', '4', 'encunhamento', 'aperto', 'alvenari...",2017,297095,10000108,0
1,"['piso', 'cimentado', 'desempenar', 'com', 'ac...","['cm', 'm']","['1.00e+00', '3.00e+00', '0.00e+00', '2.00e+00...",[],[],[],[],42.78,metro quadrado,10.1.3 PISO CIMENTADO DESEMPENADO COM ACABAMEN...,"['1', '3', 'piso', 'cimentado', 'desempenar', ...",2017,297095,10000172,1
2,"['chuveiro', 'maxi', 'ducha', 'lorenzetti', 'c...",[],"['8.01e+03', '1.51e+01']",[],['plastico'],[],[],58.78,unidade,"15.12 CHUVEIRO MAXI DUCHA, LORENZETTI,COM MANG...","['chuveiro', 'maxi', 'ducha', 'lorenzetti', 'c...",2017,297095,10000304,2
3,"['tubo', 'soldavel', 'inclusive', 'conexao']",['mm'],"['2.50e+01', '1.91e+01']",[],['pvc'],[],[],3.42,metro,"19.1 TUBO PVC SOLDAVEL 25MM, INCLUSIVE CONEXOES","['tubo', 'pvc', 'soldavel', '25', 'mm', 'inclu...",2017,297095,10000454,3
4,"['tomado', 'modular', 'rj', 'categoria', 'comp...",[],"['4.00e+00', '1.00e+00', '4.50e+01', '6.00e+00...",[],[],[],[],12.37,unidade,20.4.1 TOMADA MODULAR RJ-45 CATEGORIA 6 (COMPL...,"['4', '1', 'tomado', 'modular', 'rj', '45', 'c...",2017,297095,10000472,4


# Count unit metrics

In [16]:
unidades_medida = list(itemlist.items_df['unidades_medida'])

In [17]:
unidades_medida[:10]

["['x', 'cm', 'c']",
 "['cm', 'm']",
 '[]',
 "['mm']",
 '[]',
 "['mm']",
 '[]',
 '[]',
 '[]',
 "['c', '%']"]

In [18]:
unit_count = collections.defaultdict(int)

for units in unidades_medida:
    units = eval(units)
    for u in units:
        unit_count[u] += 1

In [19]:
list(unit_count.items())[:10]

[('x', 1288622),
 ('cm', 612087),
 ('c', 580355),
 ('m', 382450),
 ('mm', 880424),
 ('%', 191068),
 ('g', 360705),
 ('mg', 581404),
 ('p', 384381),
 ('ml', 557664)]

In [20]:
unit_ranking = sorted(list(unit_count.items()), key=lambda x: x[1], reverse=True)

In [21]:
unit_ranking[:100]

[('x', 1288622),
 ('mm', 880424),
 ('cm', 612087),
 ('mg', 581404),
 ('c', 580355),
 ('ml', 557664),
 ('p', 384381),
 ('m', 382450),
 ('g', 360705),
 ('n', 318918),
 ('kg', 230951),
 ('litro', 224606),
 ('%', 191068),
 ('ano', 188152),
 ('v', 161774),
 ('l', 150914),
 ('w', 145822),
 ('gr', 119534),
 ('grama', 108388),
 ('metro', 101109),
 ('.', 96161),
 ('a', 92337),
 ('d', 91867),
 ('s', 74892),
 ('mes', 74866),
 ('r', 68312),
 ('hp', 59704),
 ('b', 58832),
 ('lt', 51145),
 ('grs', 49184),
 ('f', 44440),
 ('mb', 41550),
 ('mt', 41396),
 ('lts', 40374),
 ('t', 38110),
 ('k', 30485),
 ('i', 29640),
 ('h', 28209),
 ('gb', 28086),
 ('km', 26033),
 ('m2', 21959),
 ('u', 21387),
 ('galao', 20786),
 ('gota', 19978),
 ('ui', 17395),
 ('ampere', 17345),
 ('e', 16823),
 ('volt', 16442),
 ('cal', 12088),
 ('segundo', 11556),
 ('min', 10661),
 ('hz', 9757),
 ('abs', 9313),
 ('rpm', 8521),
 ('minuto', 8151),
 ('tb', 7757),
 ('mhz', 7583),
 ('q', 7553),
 ('z', 6917),
 ('ag', 6796),
 ('ghz', 6662),

In [49]:
def count_description(unit):

    items_sample = itemlist.items_df[itemlist.items_df['original_prep'].str.contains(unit)]
    descriptions = list(items_sample['original'])
    desc_count = Counter(descriptions)
    desc_ranking = sorted(list(desc_count.items()), key=lambda x: x[1], reverse=True)
    
    return desc_ranking

In [56]:
desc_ranking = count_description("hertz")

In [57]:
desc_ranking[:100]

[('MICROMOTOR ELETRICO  PARA PROTESE DENTARIA MICROMOTOR ELETRICO  PARA PROTESE DENTARIA  ESPECIFICACOES: ROTACAO QUE VAI DE 0 A 30 000 RPM  BOTAO D/E  127/220 VOLTS CHAVEADO  CONSUMO DE ENERGIA: 40 WATTS - 50/60 HERTZ  SISTEMA INTRA UNIVERSAR  PODENDO SER ACOPLADO CONTRA ANGULOS E PECAS RETAS DE UTRAS MARCAS  E/OU PECAS RETAS E CONTRA ANGULOS DE ENCAIXE INTRA UNIVERSAL  DISPENSA LUBRIFICACAO  ACOMPANHA PEDAL L/D  E POSSUI REGISTRO NA ANVISA  REFERENCIA: BELTEC',
  4),
 ('APARELHO TENS/FES (2 CANAIS ) PORTATIL  APARELHO DE ELETROESTIMULACAO  BIVOLT 127 E 220 VOLTS 50/60 HERTZ',
  3),
 ('APARELHO DE ULTRASSOM PARA FISIOTERAPIA DE 1 MEGAHERTZ', 2),
 ('CONTRATACAO DE SERVICO DE LOCACAO, MONTAGEM E DESMONTAGEM DE: GERADORES TRIFASICO 220/380, MOTOR DE 60 HERTZ A DIESEL, 1 DE 180 KWA E 1 DE 260 KWA, COM CHAVE REVERSORA, BLINDADO, SILENCIOSO E ESTABILIZADO COM ABASTECIMENTO COM OLEO DIESEL, UTILIZACAODE 12 HORAS DIARIAS, COM CABOS DE 100 METROS CADA.',
  2),
 ('SELADORA, APLICACAO GRAU CIRUR