## Loading dataset from .csv

In [48]:
import pandas as pd

data_folder = 'data/'
itens_file_name = 'valor_unitario_aprovado_sample.csv'

itens_file_path = data_folder + itens_file_name

dt = pd.read_csv(itens_file_path)
dt.head()

Unnamed: 0.1,Unnamed: 0,Item,ValorUnitarioAprovado,Data,idPRONAC
0,1894129,Material de consumo,7000.0,2014-07-31 07:27:29,179966
1,2003098,Locação de teatro,465.39,2015-05-05 16:38:24,185736
2,925488,Banheiro químico,250.0,2012-03-16 00:00:00,143223
3,1326505,Técnico de som,3500.0,2013-01-07 00:00:00,155368
4,136947,Cartaz,300.0,2010-01-01 00:00:00,114412


## Selecting a random item

When selecting a random item, it's important to make sure that we have enough occurences of that item, for example 100 or more. Let's also make a set (all itens are discinct) of random itens.

In [49]:
import numpy as np

def get_random_item():
    while True:
        item = np.random.choice(dt['Item'].values)
        if len(dt.loc[dt['Item'] == item]) >= 100:
            return item

def get_set_of_random_itens(n = 20):
    itens = set()
    while len(itens) < n:
        itens.add(get_random_item())
    return itens

print(get_set_of_random_itens())

{'Locação de teatro', 'Material de consumo', 'Registro videográfico', 'Banner/faixa adesiva/faixa de lona/saia de palco/testeira/pórtico\r\n', 'Produtor', 'INSS', 'Diretor de produção', 'Designer gráfico', 'Material de escritório', 'Folders', 'Assessor de imprensa', 'Mídia impressa', 'Contador', 'Direitos Autorais', 'Cartaz', 'Telefone', 'Correios', 'Coordenação geral', 'Hospedagem com Alimentação', 'Mídia radiofônica'}


### Getting the most frequent items


In [50]:
top_frequent = dt['Item'].value_counts().head(10)
display(top_frequent)

Transporte Local / Locação de Automóvel / Combustível               354
Passagens Aéreas (Descrever os trechos na tela de deslocamentos)    326
Refeição                                                            325
Assessor de imprensa                                                324
Assistente de produção                                              291
Produtor Executivo                                                  279
Contador                                                            261
Hospedagem sem Alimentação                                          243
Cartaz                                                              232
Remuneração para captação de recursos                               225
Name: Item, dtype: int64

### Number of distinct items

In [51]:
print(len(dt['Item'].unique()))

1106


**Lots of distinct items**

There 1106 distinct items in that sample. It will be hard to plot them one by one, so it's a good idea to plot some sample of those items

In [52]:
items_sample = dt['Item'].sample(10)
data_sample = dt[dt['Item'].isin(items_sample)]
data_sample_count = data_sample['Item'].value_counts()
display(data_sample.head(10))

Unnamed: 0.1,Unnamed: 0,Item,ValorUnitarioAprovado,Data,idPRONAC
18,1316054,"Fotografia Artística (Fotógrafo, Tratamento, R...",1500.0,2013-04-01 00:00:00,156618
19,823295,Produtor,800.0,2012-01-10 00:00:00,135716
31,353983,Elenco Principal,9100.0,2010-05-17 00:00:00,121581
34,605160,Assessor de imprensa,3500.0,2012-01-01 00:00:00,131173
42,309400,Assessor de imprensa,12000.0,2010-05-30 00:00:00,119919
94,1028230,Assessor de imprensa,4000.0,2011-12-12 00:00:00,145132
111,122064,Produtor,4000.0,2010-10-01 00:00:00,117277
136,2315055,Assessor de imprensa,3000.0,2016-03-01 00:00:00,199885
157,1690854,Caixa de Produção,600.0,2014-03-15 00:00:00,164527
172,78906,"Folder formato até A5(15,5x21cm)\r\n",1800.0,2009-07-01 00:00:00,111811
