# KneDle: Licitações e Contratos
## Data Exploration: "AVISO DE VENCEDOR"

In [1]:
import re
import docx
from sklearn.feature_extraction.text import CountVectorizer
import operator

In [2]:
def getText(filename):
    doc = docx.Document(filename)
    fullText = []
    for para in doc.paragraphs:
        fullText.append(para.text)
    return '\n'.join(fullText)

### Exploring collected data from: <https://www.dodf.df.gov.br/>

In [3]:
texto = [getText('vencedorALL.docx').lower()]
texto

['aviso de declaração de vencedor\ncomunicamos aos interessados no procedimento licitatório eletrônico nº 010/2020 –\ndecomp/da - processo nº 00112-00017750/2020-32, após verificada a aceitabilidade\nda proposta de preços e documentação, na forma do instrumento convocatório, fica\ndeclarada vencedora do certame a empresa climática engenharia eireli -\ncnpj 02.604.476/0001-67, com o valor total de r$ 619.500,00. fica aberto o prazo\nrecursal de 05 (cinco) dias úteis, contados a partir do primeiro dia útil após a\npublicação. contatos: (061) 3403-2321 ou (061) 3403- 2322 e email\ndilic@novacap.df.gov.br.\nbrasília/df, 04 de dezembro de 2020\nshirley de faria soares de carvalho\nchefe\n\ndiretoria administrativa departamento de compras \xa0\naviso de declaração de vencedor comunicamos aos interessados no procedimento licitatório eletrônico nº 016/2020 – decomp/da - processo nº 00112-00023131/2019-43, após verificada a aceitabilidade da proposta de preços e documentação, na forma do instru

### BoW: 1-Gram and n-Gram Analysis

In [4]:
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texto)
words = vectorizer.get_feature_names() #Words
countX = X.toarray()[0]
counting = {}
for pind in range(0, len(countX)):
    counting[words[pind]] = countX[pind]
counting = sorted(counting.items(), key=operator.itemgetter(1),reverse=True) 

In [5]:
bigram_vectorizer = CountVectorizer(ngram_range=(5, 5),token_pattern=r'\b\w+\b', min_df=1)
X2 = bigram_vectorizer.fit_transform(texto)
words2 = bigram_vectorizer.get_feature_names() #Words
countX2 = X.toarray()[0]
counting2 = {}
for pind in range(0, len(countX2)):
    counting2[words2[pind]] = countX2[pind]
counting2 = sorted(counting2.items(), key=operator.itemgetter(1),reverse=True) 

### Visually Selection of Key terms 

In [6]:
counting

[('de', 107),
 ('do', 46),
 ('da', 34),
 ('nº', 33),
 ('após', 24),
 ('na', 24),
 ('no', 24),
 ('aceitabilidade', 23),
 ('aos', 23),
 ('aviso', 23),
 ('comunicamos', 23),
 ('convocatório', 23),
 ('declaração', 23),
 ('documentação', 23),
 ('forma', 23),
 ('instrumento', 23),
 ('interessados', 23),
 ('licitatório', 23),
 ('preços', 23),
 ('procedimento', 23),
 ('proposta', 23),
 ('vencedor', 23),
 ('verificada', 23),
 ('eletrônico', 22),
 ('cnpj', 20),
 ('declarada', 20),
 ('fica', 20),
 ('vencedora', 20),
 ('empresa', 19),
 ('2020', 16),
 ('com', 16),
 ('exame', 16),
 ('finalizado', 16),
 ('que', 16),
 ('2019', 15),
 ('ascal', 15),
 ('certame', 15),
 ('pres', 15),
 ('valor', 15),
 ('0001', 14),
 ('assessoria', 10),
 ('cadastro', 10),
 ('engenharia', 10),
 ('licitações', 10),
 ('total', 10),
 ('ltda', 9),
 ('processo', 9),
 ('decomp', 8),
 ('eireli', 8),
 ('00112', 7),
 ('administrativa', 7),
 ('compras', 7),
 ('departamento', 7),
 ('diretoria', 7),
 ('lote', 7),
 ('01', 5),
 ('007', 4)

In [7]:
counting2

[('791 724 assessoria de cadastro', 107),
 ('a empresa civil engenharia ltda', 46),
 ('754 237 0001 47 com', 34),
 ('carvalho chefe diretoria administrativa departamento', 33),
 ('2322 e email dilic novacap', 24),
 ('brasília df 10 de março', 24),
 ('c q o construtora queiroz', 24),
 ('2020 delcimar pires martins chefe', 23),
 ('2321 ou 061 3403 2322', 23),
 ('29 após verificada a aceitabilidade', 23),
 ('588 0001 40 com o', 23),
 ('724 assessoria de cadastro e', 23),
 ('84 com valor da nova', 23),
 ('a empresa climática engenharia eireli', 23),
 ('ambiental eireli cnpj aviso de', 23),
 ('após a publicação contatos 061', 23),
 ('após finalizado o exame e', 23),
 ('assessoria de cadastro e licitações', 23),
 ('cinco dias úteis contados a', 23),
 ('climática engenharia eireli cnpj 02', 23),
 ('cnpj 01 710 170 0001', 23),
 ('com o valor total 277', 23),
 ('com o valor total diretoria', 23),
 ('a empresa jmd engenharia eirli', 22),
 ('516 0001 50 dos lotes', 20),
 ('830 895 0001 07 com', 2

In [19]:
termosimportantes = ['aviso de declaração de vencedor', 'após verificada a aceitabilidade', 'aceitabilidade', 'aviso', 'convocatório', 'licitatório', 'vencedor', 'vencedora']