# Demonstrando o Uso do Modelo

In [1]:
from gensim.corpora.wikicorpus import WikiCorpus
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
from gensim.utils import simple_preprocess
from pprint import pprint
import multiprocessing

Primeiro carregamos o modelo treinado e definimos algumas frases

In [2]:
model = Doc2Vec.load('../model/Doc2Vec(dbow+w,d200,n5,w8,mc2,s0.001,t8)')

In [3]:
docs = [
    "Acrescenta dispositivos ao Código de Processo Penal para determinar a especificação de gênero no inquérito policial, processo penal e estatísticas correspondentes e dá outras providências.",
    "Dá nova redação ao § 1º do art. 7º da Lei nº 8.666, de 21 de junho de 1993, para estabelecer a obrigatoriedade do sistema de modelagem da informação da construção, identificado pela sigla inglesa BIM - Building Information Model, na confecção de projetos executivos de obras e serviços de engenharia contratados pelos órgãos e entidades da administração pública, e dá outras providências.",
    "Determina a inclusão de quadras poliesportivas nos projetos de construção de novos estabelecimentos públicos de ensino fundamental e de ensino médio.",
    "Torna obrigatória a presença de profissional da área de Fonoaudiologia em todas escolas públicas e privadas de ensino fundamental."
]

No resultado abaixo devemos esperar que:

- a primeira frase está distante
- a segunda frase está muito próxima
- a terceira frase está próxima
- a quarta frase está muito distante

Isso porque elas tratam, pela minha interpretação, respectivamente de: Processo Penal; Contratação de Projetos de Engenharia; Construção de Quadras em Escolas; e Fonoaudiologia nas Escolas.

In [4]:
for doc in docs:
    print(str(model))
    sims = model.docvecs.similarity_unseen_docs(model, doc, 'Engenharia',
                                                alpha=0.1, min_alpha=0.0001,
                                                steps=5)
    pprint(sims)

Doc2Vec(dbow+w,d200,n5,w8,mc2,s0.001,t8)
-0.06117547686036443
Doc2Vec(dbow+w,d200,n5,w8,mc2,s0.001,t8)
-0.010969762869635845
Doc2Vec(dbow+w,d200,n5,w8,mc2,s0.001,t8)
0.06586819624443717
Doc2Vec(dbow+w,d200,n5,w8,mc2,s0.001,t8)
-0.1250135915294394


Observamos que:

- A segunda frase está bem próxima como previsto;
- A quarta frase está com distancia negativa como previsto
- a terceira frase está com distância positiva, porém não tão perto como previsto
- a primeira frase está com distância similar a primeira, o que pode ser interpretado como falso positivo.

Vamos calcular então a acurácia do modelo, considerando 1 para resultado correto e 0 para incorreto

In [5]:
from sklearn.metrics import f1_score

In [6]:
y_true = [0,1,1,0]
y_pred = [1,1,1,0]

f1_score(y_true, y_pred, average='micro')

0.75

Este resultado foi calculado com base em

https://pt.wikipedia.org/wiki/Precisão_e_revocação 

A função **most_similar** retorna uma lista de artigos similares ao artigo informado no parâmetro positive

In [7]:
print(str(model))
pprint(model.docvecs.most_similar(positive=["Inteligência"], topn=10))

Doc2Vec(dbow+w,d200,n5,w8,mc2,s0.001,t8)
[('Quociente de inteligência', 0.702828586101532),
 ('Pensamento divergente', 0.6468408107757568),
 ('Teoria g', 0.6415136456489563),
 ('Matrizes Progressivas de Raven', 0.6334096789360046),
 ('Competência (psicologia)', 0.6279304027557373),
 ('Autismo altamente-funcional', 0.6241010427474976),
 ('Lógica e racionalidade', 0.6216001510620117),
 ('Modelo científico', 0.616083025932312),
 ('Psicologia comportamental', 0.6154487133026123),
 ('Inteligência emocional', 0.6144423484802246)]


É possível fazer operações com os vetores de palavras treinados nos modelos e assim calcular uma analogia. No exemplo abaixo temos:

> rei - homem + mulher = rainha

In [8]:
print(str(model))
vec = [model["rei"] - model["homem"] + model["mulher"]]
pprint([m for m in model.most_similar(vec, topn=11) if m[0] != "rei"])

Doc2Vec(dbow+w,d200,n5,w8,mc2,s0.001,t8)


  from ipykernel import kernelapp as app
  app.launch_new_instance()


[('rainha', 0.7577492594718933),
 ('consorte', 0.6718885898590088),
 ('filha', 0.6586146354675293),
 ('esposa', 0.6581082344055176),
 ('princesa', 0.6393976211547852),
 ('herdeira', 0.6299619674682617),
 ('sujarinee', 0.6268012523651123),
 ('somanat', 0.6259405016899109),
 ('mahendradatta', 0.6246206760406494),
 ('jonsdotter', 0.6238503456115723)]


Eis outro exemplo, usando palavras para o cálculo de analogia e em seguida usando os vetores dos artigos:

In [10]:
print(str(model))
vec = [model["xbox"] - model["microsoft"] + model["sony"]]
pprint([m for m in model.most_similar(vec, topn=11) if m[0] != "xbox"])

Doc2Vec(dbow+w,d200,n5,w8,mc2,s0.001,t8)
[('sony', 0.8137068748474121),
 ('playstation', 0.7307587265968323),
 ('gamecube', 0.6744678616523743),
 ('wii', 0.6617552042007446),
 ('replublic', 0.6347378492355347),
 ('nintendo', 0.6324748992919922),
 ('antigrav', 0.6239467859268188),
 ('epic', 0.6141138672828674),
 ('winkysoft', 0.6139131784439087),
 ('indieszero', 0.6108818054199219)]


  from ipykernel import kernelapp as app
  app.launch_new_instance()


In [11]:
print(str(model))
vec = [model.docvecs["Xbox"] - model.docvecs["Microsoft"] + model.docvecs["Sony"]]
pprint([m for m in model.docvecs.most_similar(vec, topn=11) if m[0] != "Xbox"])

Doc2Vec(dbow+w,d200,n5,w8,mc2,s0.001,t8)
[('Sony', 0.726809024810791),
 ('Spectravideo SVI-838', 0.5651353001594543),
 ('PSX', 0.5608147382736206),
 ('Acessórios para PlayStation 3', 0.5441511869430542),
 ('Moto G4', 0.5418250560760498),
 ('Consoles de videogame de oitava geração', 0.5379625558853149),
 ('Disco óptico', 0.5374898910522461),
 ('Colour Genie', 0.5367162823677063),
 ('PlayStation Portable', 0.5325834155082703),
 ('Itautec I-7000', 0.532156229019165)]


In [12]:
print(str(model))
vec = [model.docvecs["Xbox"] - model.docvecs["Microsoft"] + model.docvecs["Nintendo"]]
pprint([m for m in model.docvecs.most_similar(vec, topn=11) if m[0] != "Xbox"])

Doc2Vec(dbow+w,d200,n5,w8,mc2,s0.001,t8)
[('Nintendo', 0.7459478378295898),
 ('Consoles de videogame de oitava geração', 0.6578929424285889),
 ('Super Nintendo Entertainment System', 0.6534451842308044),
 ('Controle do GameCube', 0.6331572532653809),
 ('Wii U', 0.6293379068374634),
 ('Wii', 0.6288516521453857),
 ('Nintendo 3DS XL', 0.6240283250808716),
 ('Nintendo Switch', 0.6239873170852661),
 ('Game Boy Advance', 0.6214669942855835),
 ('Nintendo GameCube', 0.6196582317352295)]


Podemos calcular a similaridade entre os vetores dos documentos e um artigo específico da Wikipedia qualquer. Quanto maior, o resultado, maior a similaridade.

In [13]:
for doc in docs:
    print(str(model))
    sims = model.docvecs.similarity_unseen_docs(model, doc, 'Fonoaudiologia',
                                                alpha=0.1, min_alpha=0.0001,
                                                steps=5)
    pprint(sims)

Doc2Vec(dbow+w,d200,n5,w8,mc2,s0.001,t8)
-0.04531780138289209
Doc2Vec(dbow+w,d200,n5,w8,mc2,s0.001,t8)
0.05330065415289484
Doc2Vec(dbow+w,d200,n5,w8,mc2,s0.001,t8)
0.07625238059580261
Doc2Vec(dbow+w,d200,n5,w8,mc2,s0.001,t8)
-0.19200435490881385


In [15]:
for doc in docs:
    print(str(model))
    sims = model.docvecs.similarity_unseen_docs(model, doc, 'Educação',
                                                alpha=0.1, min_alpha=0.0001,
                                                steps=5)
    pprint(sims)

Doc2Vec(dbow+w,d200,n5,w8,mc2,s0.001,t8)
-0.05768097779545102
Doc2Vec(dbow+w,d200,n5,w8,mc2,s0.001,t8)
0.05595415864148422
Doc2Vec(dbow+w,d200,n5,w8,mc2,s0.001,t8)
-0.011922696188172904
Doc2Vec(dbow+w,d200,n5,w8,mc2,s0.001,t8)
0.09334278036371157


## Calculando a similaridade em massa

Usaremos o pandas para manipulação básica do nosso CSV e depois vamos calcular a similaridade de cada item com o artigo desejado.

In [17]:
import pandas as pd

In [18]:
leis = pd.read_csv('../data/chamber_of_deputies_propositions.csv')

  interactivity=interactivity, compiler=compiler, result=result)


É preciso eliminar os campos nulos...

In [19]:
resumos = leis.summary.dropna(axis=0,how='all').tolist()

In [21]:
%%time
similaridade_engenharia= []
for resumo in resumos:
    sims = model.docvecs.similarity_unseen_docs(model, resumo, 'Engenharia',
                                                alpha=0.1, min_alpha=0.0001,
                                                steps=5)
    similaridade_engenharia.append([resumo, sims])

CPU times: user 14.1 s, sys: 0 ns, total: 14.1 s
Wall time: 14.1 s


O resultado virá em forma de um array de arrays com a frase de input e o resultado de similaridade.

In [22]:
similaridade_engenharia[0]

['TRANSFERE PARA O TESOURO NACIONAL PARTE DAS EMISSÕES FEITAS PARA ATENDER ÀS OPERAÇÕES DA CARTEIRA DE REDESCONTO DO BANCO DO BRASIL, MEDIANTE RESGATE DE DÉBITOS DO TESOURO NACIONAL AO BANCO DO BRASIL.',
 0.05248803924017777]

In [40]:
similares_engenharia = pd.DataFrame(data=similaridade_engenharia, 
                                    columns=['resumo','similaridade'])

In [41]:
similares_engenharia = similares_engenharia.sort_values(by='similaridade', 
                                 ascending=False)

Podemos agora salvar os resultados em um arquivo CSV para analisar com mais detalhes

In [42]:
similares_engenharia.to_csv('similares_engenharia.csv', index=False)

In [44]:
similares_engenharia[similares_engenharia['resumo'].str.contains('engenharia')]

Unnamed: 0,resumo,similaridade
64989,Institui normas gerais sobre licitações e cont...,0.095111
67796,Institui normas gerais sobre licitações e cont...,0.095111
76356,Dispõe sobre o acesso à informação de valor di...,0.094677
106973,"Altera a Lei nº 8.666, de 21 de junho de 1993,...",0.090872
105413,"Altera a Lei Complementar Nº 97, de 9 de junho...",0.072909
75323,Dispõe sobre a obrigatoriedade da realização d...,0.066743
95107,Estabelece regras e critérios para elaboração ...,0.052782
99275,Autoriza a aplicação do Regime Diferenciado de...,0.031135
80700,Regulamenta o uso de produtos e sub-produtos d...,0.028844
65646,Dispõe sobre pesquisas envolvendo seres humano...,0.022535


In [45]:
similares_engenharia[similares_engenharia['resumo'].str.contains('construção')]

Unnamed: 0,resumo,similaridade
101417,"Estabelece diretrizes, critérios e procediment...",0.182045
66874,Dispõe sobre o contrato especial de trabalho n...,0.180283
92064,"Altera a Lei nº 6.189, de 16 de dezembro de 19...",0.160372
97334,Dispõe sobre projeto e construção de área de a...,0.124524
73726,"Altera a Lei nº 6.001, de 19 de dezembro de 19...",0.124076
78348,Dispõe sobre a construção obrigatória de faixa...,0.112454
78934,"Altera o art. 60 da Lei nº 9.605, de 1998, dis...",0.103725
68321,Autoriza a movimentação das contas do Fundo de...,0.102296
63585,Autoriza a utilização de recursos das contas n...,0.102125
64740,Faculta às empresas de construção civil a opçã...,0.097451


In [46]:
similares_engenharia[similares_engenharia['resumo'].str.contains('química')]

Unnamed: 0,resumo,similaridade
91846,Dispõe sobre o controle de substâncias química...,0.222266
72305,Dispõe sobre a autorização e o funcionamento d...,0.122185
88079,Altera o inciso II do art. 226 do Decreto-Lei ...,0.099126
73944,Fica o Poder Executivo autorizado a criar o Fu...,0.09643
97378,"Acrescenta dispositivo a Lei nº 6.368, de 21 d...",0.088158
57638,"Institui, em todo o território nacional, a not...",0.084465
86557,Dispõe sobre a obrigação de o Sistema Único de...,0.083084
72919,"Torna obrigatória a inclusão, no programa de d...",0.074502
95137,Acrescenta o inciso IV e o § 8º ao art. 28 da ...,0.065059
106493,Proíbe a castração química de cães.,0.064237


In [47]:
similares_engenharia[similares_engenharia['resumo'].str.contains('engenheiro')]

Unnamed: 0,resumo,similaridade
66423,Cria o fundo nacional de reciclagem do conheci...,0.089428
57384,Inclui a categoria de engenheiro-geólogo dentr...,0.040416
73233,Torna crime o fato de exercer a profissão de e...,0.03008
63968,"Projeto de lei que altera a Lei nº 5.194, de 2...",0.021894
68825,Institui o dia do engenheiro de segurança do t...,0.016883
133,Eleva o salário de engenheiro da Tabela Suplem...,0.008461
78099,Dispõe sobre a especialização do engenheiro de...,-0.082305
64522,Estabelece benefício tributário para o aperfei...,-0.128487
