# Carregar as perguntas

In [1]:
import pandas as pd

In [2]:
questions = pd.read_csv('../data/corpus.csv', usecols=['Perguntas'])

In [3]:
questions[:10]

Unnamed: 0,Perguntas
0,Qual a profissão de Arnold Schwarznegger?
1,Onde Arnold Schwarznegger nasceu?
2,Arnold Schwarznegger tem filhos?
3,Quem é Neymar?
4,Neymar é casado?
5,Onde Neymar vive?
6,Mahatma Gandhi é de que pais?
7,Mahatma Gandhi se formou em que?
8,Quando nasceu Mahatma Gandhi?
9,O que é Nárnia?


In [4]:
import nltk

# Tokenizar cada pergunta

In [5]:
questions[:20]

Unnamed: 0,Perguntas
0,Qual a profissão de Arnold Schwarznegger?
1,Onde Arnold Schwarznegger nasceu?
2,Arnold Schwarznegger tem filhos?
3,Quem é Neymar?
4,Neymar é casado?
5,Onde Neymar vive?
6,Mahatma Gandhi é de que pais?
7,Mahatma Gandhi se formou em que?
8,Quando nasceu Mahatma Gandhi?
9,O que é Nárnia?


# Normalizar o texto

In [6]:
from nlp import lexical

In [7]:
normalizer = lexical.Preprocessing()

In [8]:
def normalizar(question):
    line = normalizer.lowercase(question)
    line = normalizer.tokenize_sentences(line)
    return line

In [9]:
questions = questions['Perguntas'].apply(normalizar)

In [10]:
questions[:20]

0       [qual a profissão de arnold schwarznegger?]
1               [onde arnold schwarznegger nasceu?]
2                [arnold schwarznegger tem filhos?]
3                                  [quem é neymar?]
4                                [neymar é casado?]
5                               [onde neymar vive?]
6                   [mahatma gandhi é de que pais?]
7                [mahatma gandhi se formou em que?]
8                   [quando nasceu mahatma gandhi?]
9                                 [o que é nárnia?]
10                      [qual a capital de nárnia?]
11                          [quem vive em nárnia ?]
12                     [o que é o arco do triunfo?]
13        [onde fica localizado o arco do triunfo?]
14            [onde fica localizado o afeganistão?]
15    [qual o número de habitantes do afeganistão?]
16          [qual a língua oficial do afeganistão?]
17                             [o que é a lexcorp?]
18                        [quem comanda a lexcorp?]
19          

# Tagger
- using spacy

In [11]:
from nlp import morphosyntax

In [12]:
morpho = morphosyntax.Morpho()

In [13]:
docs = []

In [14]:
for question in questions:
    doc = morpho.tag(question[0])
    docs.append(doc)

In [15]:
docs

[[('Qual', 'Qual', 'SCONJ', 'KS|@SUB', 'ROOT', '', 'O'),
  ('a', 'o', 'DET', '<artd>|ART|F|S|@>N', 'det', '', 'O'),
  ('profissão', 'profissão', 'NOUN', '<np-def>|N|F|S|@<SC', 'nsubj', '', 'O'),
  ('de', 'de', 'ADP', 'PRP|@N<', 'case', '', 'O'),
  ('Arnold', 'Arnold', 'PROPN', 'PROPN', 'nmod', 'PER', 'B'),
  ('Schwarznegger',
   'Schwarznegger',
   'PROPN',
   'PROPN',
   'flat:name',
   'PER',
   'I'),
  ('?', '?', 'PUNCT', 'PU|@PU', 'punct', '', 'O')],
 [('Onde', 'Onde', 'ADV', '<rel>|ADV|@ADVL>', 'advmod', '', 'O'),
  ('Arnold', 'Arnold', 'PROPN', 'PROPN', 'nsubj', 'PER', 'B'),
  ('Schwarznegger',
   'Schwarznegger',
   'PROPN',
   'PROPN',
   'flat:name',
   'PER',
   'I'),
  ('nasceu', 'nascer', 'VERB', '<mv>|V|PS|3S|IND|@FS-STA', 'ROOT', '', 'O'),
  ('?', '?', 'PUNCT', 'PU|@PU', 'punct', '', 'O')],
 [('Arnold', 'Arnold', 'PROPN', 'PROPN', 'nsubj', 'PER', 'B'),
  ('Schwarznegger',
   'Schwarznegger',
   'PROPN',
   'PROPN',
   'flat:name',
   'PER',
   'I'),
  ('tem', 'ter', 'VERB

### Extrair partes principais da pergunta:
- entidade
- acao/propriedade: **lema
- indicativo da pergunta: Ex.: Onde, Qual, Em que.

In [33]:
def getEntidade(question):
    propn = []
    for tupla in question:
        if tupla[2] == 'PROPN':
            propn.append(tupla[1])
    if propn == []:
        print('entrou B')
        for tupla in question:
            if tupla[6] == 'B':
                propn.append(tupla[1])
    if propn == []:
        print('entrou', question)
        for tupla in question:
            if tupla[4] == "ROOT":
                print('entrou', tupla[0])
                propn.append(tupla[1])
    return propn

def getProperty(question):
    props = []
    for tupla in question:
        if tupla[2] == 'VERB' or tupla[2] == "NOUN":
            props.append(tupla[1])
    return props
#pergunta do tipo quem, onde, quando
def getINI(question):
    ini = []
    for tupla in question:
        if tupla[2] == 'SCONJ' or tupla[2] == 'PRON' or tupla[2] == 'ADV' or tupla[2] == "ADP" or tupla[2]=='X':
            ini.append(tupla[1])
    return ini

In [34]:
question = docs[0]
print(question)

[('Qual', 'Qual', 'SCONJ', 'KS|@SUB', 'ROOT', '', 'O'), ('a', 'o', 'DET', '<artd>|ART|F|S|@>N', 'det', '', 'O'), ('profissão', 'profissão', 'NOUN', '<np-def>|N|F|S|@<SC', 'nsubj', '', 'O'), ('de', 'de', 'ADP', 'PRP|@N<', 'case', '', 'O'), ('Arnold', 'Arnold', 'PROPN', 'PROPN', 'nmod', 'PER', 'B'), ('Schwarznegger', 'Schwarznegger', 'PROPN', 'PROPN', 'flat:name', 'PER', 'I'), ('?', '?', 'PUNCT', 'PU|@PU', 'punct', '', 'O')]


In [35]:
querys = []
questionsNotEntitie = []
for question in docs:
    query = []
    text = []
    tags = []
    tags2 = []
    tags3 = []
    tags4 = []
    tags5 = []
    #para cada tupla 
    for tupla in question:
        #texto lematizado
        text.append(tupla[1])
        #token pos
        tags.append(tupla[2])
        #
        tags2.append(tupla[3])
        #
        tags3.append(tupla[4])
        #
        tags4.append(tupla[5])
        #
        tags5.append(tupla[6])
        
    print(text)
    print(tags)
    print(tags2)
    print(tags3)
    print(tags4)
    print(tags5, '\n')
    entidade = getEntidade(question)
    if entidade == []:
        questionsNotEntitie.append(question)
    property = getProperty(question)
    ini = getINI(question)
    print(ini, property, entidade, '\n')
    query = [ini,property, entidade]
    querys.append(query)
    

['Qual', 'o', 'profissão', 'de', 'Arnold', 'Schwarznegger', '?']
['SCONJ', 'DET', 'NOUN', 'ADP', 'PROPN', 'PROPN', 'PUNCT']
['KS|@SUB', '<artd>|ART|F|S|@>N', '<np-def>|N|F|S|@<SC', 'PRP|@N<', 'PROPN', 'PROPN', 'PU|@PU']
['ROOT', 'det', 'nsubj', 'case', 'nmod', 'flat:name', 'punct']
['', '', '', '', 'PER', 'PER', '']
['O', 'O', 'O', 'O', 'B', 'I', 'O'] 

['Qual', 'de'] ['profissão'] ['Arnold', 'Schwarznegger'] 

['Onde', 'Arnold', 'Schwarznegger', 'nascer', '?']
['ADV', 'PROPN', 'PROPN', 'VERB', 'PUNCT']
['<rel>|ADV|@ADVL>', 'PROPN', 'PROPN', '<mv>|V|PS|3S|IND|@FS-STA', 'PU|@PU']
['advmod', 'nsubj', 'flat:name', 'ROOT', 'punct']
['', 'PER', 'PER', '', '']
['O', 'B', 'I', 'O', 'O'] 

['Onde'] ['nascer'] ['Arnold', 'Schwarznegger'] 

['Arnold', 'Schwarznegger', 'ter', 'filho', '?']
['PROPN', 'PROPN', 'VERB', 'NOUN', 'PUNCT']
['PROPN', 'PROPN', '<mv>|V|PR|3S|IND|@FS-STA', '<np-idf>|N|M|P|@<ACC', 'PU|@PU']
['nsubj', 'flat:name', 'ROOT', 'obj', 'punct']
['PER', 'PER', '', '', '']
['B', 'I', 

['', '', '', '', '', '', 'MISC', '']
['O', 'O', 'O', 'O', 'O', 'O', 'B', 'O'] 

['Quem', 'da'] ['ser'] ['CEO', 'LexCorp'] 

['Para', 'que', 'servir', 'o', 'LexCorp', '?']
['ADP', 'SCONJ', 'VERB', 'DET', 'PROPN', 'PUNCT']
['PRP|@ADVL>', 'KS|@SUB', '<mv>|V|PR|3S|IND|@FS-N<', '<artd>|ART|F|S|@>N', 'PROP|F|S|@<SUBJ', 'PU|@PU']
['mark', 'mark', 'ROOT', 'det', 'obj', 'punct']
['', '', '', '', 'MISC', '']
['O', 'O', 'O', 'O', 'B', 'O'] 

['Para', 'que'] ['servir'] ['LexCorp'] 

['Quem', 'ser', 'o', 'atual', 'reitor', 'da', 'UFLA', '?']
['PRON', 'VERB', 'DET', 'ADJ', 'NOUN', 'ADP', 'PROPN', 'PUNCT']
['<rel>|INDP|M/F|S|@SUBJ>', '<mv>|V|PR|3S|IND|@FS-STA', '<artd>|ART|M|S|@>N', 'ADJ|M|S|@>N', '<np-def>|N|M|S|@<SC', 'PRP|@N<', 'PROP|M|S|@P<', 'PU|@PU']
['nsubj', 'cop', 'det', 'amod', 'ROOT', 'case', 'nmod', 'punct']
['', '', '', '', '', '', 'ORG', '']
['O', 'O', 'O', 'O', 'O', 'O', 'B', 'O'] 

['Quem', 'da'] ['ser', 'reitor'] ['UFLA'] 

['Qual', 'o', 'nome', 'antigo', 'da', 'UFLA', '?']
['VERB', 

entrou [('O', 'O', 'X', 'PRON', 'det', '', 'O'), ('que', 'que', 'PRON', '<rel>|INDP|M|S|@SUBJ>', 'nsubj:pass', '', 'O'), ('tem', 'ter', 'AUX', '<aux>|V|PR|3S|IND|@FS-N<', 'aux', '', 'O'), ('sido', 'ser', 'AUX', '<aux>|<pc-ind>|V|PCP|@ICL-AUX<', 'aux:pass', '', 'O'), ('feito', 'fazer', 'VERB', '<pass>|<mv>|V|PCP|M|S|@ICL-AUX<', 'ROOT', '', 'O'), ('com', 'com', 'ADP', 'PRP|@<ADVL', 'case', '', 'O'), ('nanotecnologia', 'nanotecnologia', 'NOUN', '<np-idf>|N|F|S|@P<', 'obl', '', 'O'), ('?', '?', 'PUNCT', 'PU|@PU', 'punct', '', 'O')]
entrou feito
['O', 'que', 'com'] ['fazer', 'nanotecnologia'] ['fazer'] 



In [36]:
questionsNotEntitie

[]

In [37]:
for query in querys:
    print(query[1], '(', query[2], ', X)')

['profissão'] ( ['Arnold', 'Schwarznegger'] , X)
['nascer'] ( ['Arnold', 'Schwarznegger'] , X)
['ter', 'filho'] ( ['Arnold', 'Schwarznegger'] , X)
['ser'] ( ['Neymar'] , X)
['ser', 'casar'] ( ['Neymar'] , X)
['viver'] ( ['Neymar'] , X)
['ser'] ( ['Mahatma', 'Gandhi'] , X)
['formar'] ( ['Mahatma', 'Gandhi'] , X)
['nascer'] ( ['Mahatma', 'Gandhi'] , X)
['ser'] ( ['Nárnia'] , X)
['capital'] ( ['Nárnia'] , X)
['viver'] ( ['Nárnia'] , X)
['ser'] ( ['Arco', 'do', 'Triunfo'] , X)
['ficar', 'localizar'] ( ['Arco', 'do', 'Triunfo'] , X)
['ficar', 'localizar'] ( ['Afeganistão'] , X)
['Qual', 'número', 'habitante'] ( ['Afeganistão'] , X)
['língua'] ( ['Afeganistão'] , X)
['ser'] ( ['LexCorp'] , X)
['comandar'] ( ['LexCorp'] , X)
['ficar', 'ser'] ( ['LexCorp'] , X)
['estudante', 'haver'] ( ['Quantos', 'UFLA'] , X)
['ser', 'reitor'] ( ['UFLA'] , X)
['ofertar'] ( ['curso', 'UFLA'] , X)
['ano', 'fundar'] ( ['Oracle'] , X)
['desenvolver'] ( ['Oracle'] , X)
['ficar', 'sediar'] ( ['Oracle'] , X)
['ser',

## Desambiguação

#### Estratégia de sinonimos
- Tep 2

In [38]:
def preprocessar(line):
    lixos = '{}, <>1234567890\n'
    lista = []
    for elemento in line:
        for lixo in lixos:
            elemento = elemento.replace(lixo, '')
        lista.append(elemento)
    return lista

In [39]:
arquivo = open('base_tep2.txt', 'r', encoding='iso-8859-1')

In [40]:
lines = []
for line in arquivo:
    print(line)
    lines.append(line.split(','))

{exagerar, exceder, quinta-essenciar, rebuscar, refinar, requintar}

{ababalhar, babar, escumar, espumar}

{ababalhar, sujar}

{aclarar, alumiar, clarear, iluminar}

{enegrecer, escurecer} <4>

{limpar, purgar, purificar}

{impurificar, sujar} <6>

{apurar, clarificar, limpar, purgar, purificar}

{purgar} <7>

{coar, destilar, insinuar-se}

{animar} <1746>

{açalmar, fornecer-se, prover-se}

{acamaradar, amigar, amistar}

{embarricar, embarrilar}

{bastar, satisfazer}

{depravar-se}

{armar-se, munir-se}

{abceder, absceder, aporismar, supurar}

{abecar, abotoar, abufelar}

{abençoar-se, benzer-se}

{conformar-se, sujeitar-se}

{abater-se, acamar-se}

{abater, acamar}

{abalar, destruir, gastar}

{esconder, fingir}

{disfarçar-se, esconder-se}

{calar, esconder, guardar} <3716>

{absolver, desculpar, inocentar, isentar, perdoar}

{culpar-se} <2624>

{concordar, harmonizar} <1854>

{apaixonar, arrebatar, enlevar, entusiasmar}

{privar}

{manter-se, sustentar-se, suster-se}

{opor-se}

{


{desdoirar, desdourar} <1042>

{deseliminar, restabelecer, restaurar} <1261>

{eliminar} <1260>

{bainhar, embainhar} <1971>

{desembalsar} <1264>

{embalsar} <1263>

{desembaraçar-se, desinntricar-se, desintrincrar-se, facilitar-se, simplificar-se} <1830>

{desembaralhar} <1874>

{desembebedar, desemborrachar, desembriagar} <3288>

{desembebedar-se, desemborrachar-se, desembriagar-se} <3430>

{afluir, desembocar}

{desemaranhar-se, desembaraçar-se, desembolar-se, desenlear-se, desenredar-se, imbramar-se, soltar-se} <3379>

{desdobar, desembramar, desenovelar, desenrolar, desnovelar} <1818>

{desdobrar, desembrulhar, desenrolar, estender} <1678>

{desamuar-se, desemburrar-se} <1887>

{emburrar, emburricar} <1195>

{desamuar, desembezerrar, desemburrar, desemburricar} <1682>

{desemparceirar, desirmanar} <322>

{absolver, decidir, desempatar, deslindar, determinar, resolver, traçar}

{ajudar, desabafar, desembaraçar, desembargar, desempecilhar, desimpedir, facilitar, favorecer, propici


{aligeirar-se, alijar-se, desembaraçar-se, desempachar-se, livrar-se, quitar-se, sair-se}

{desaparecer, desparecer, esfumaçar-se, evaporar, evaporizar, evolar-se, sair, sumir}

{desaferrar-se, desamarrar-se, desapertar-se, desatracar-se, desprender-se, sair, soltar-se}

{abstrair-se, afastar-se, apartar-se, derivar, derrotar, descair, desviar-se, sair}

{findar, sair, terminar}

{extrapolar, sair}

{consagrar, sacramentar, sagrar, ungir}

{aflechar, assetear, desfrechar, flechar, frechar, sagitar, setear}

{cevar, encarnar, engordar, enxundiar, nutrir, saginar} <3476>

{acordar, arriçar, assanhar, ativar, despertar, encarniçar, eriçar, erriçar, espertar, excitar, promover, provocar, sacudir, suscitar}

{imolar, oferecer, sacrificar}

{afetar, ferir, lesar, machucar, ofender, prejudicar, sacrificar, traumatizar}

{agitar-se, sacolejar-se, sacudir-se}

{capinar, carpar, carpir, sachar}

{minar, sabotar}

{sabadear, sabatizar}

{decorar, saber}

{indagar, perguntar, saber}

{dar, desata

{abrasar, comer, delapidar, derreter, desacumular, desbaratar, desfazer, desgovernar, desperdiçar, destroçar, devorar, dilapidar, dissipar, engolir, entornar, esbanjar, esfazer, esperdiçar, estragar, estroçar, estruir, extinguir, extravaganciar, fundir, gastar, malbaratar, malbaratear, malgastar, perder, prodigalizar, prodigar, queimar, tresgastar} <3817>

{abortar, malparir, perder}

{atrapalhar-se, confundir-se, embrulhar-se, enlinhar-se, enovelar-se, enrolar-se, equivocar-se, perder-se}

{concentrar-se, ensimesmar-se, fechar-se, introverter-se, perder-se, recolher-se, retrair-se} <714>

{falhar, faltar, perder} <2055>

{acabar, aperfeiçoar, perfeiçoar, rematar}

{aprumar, desinclinar, empertigar, endireitar, engrilar, perfilar} <2802>

{aprumar-se, empertigar-se, endireitar-se, engravitar-se, engrilar-se, perfilar-se} <1159>

{alinhar, encarreirar, enfieirar, enfileirar, enrenquear, perfilar} <1127>

{alinhar-se, enfieirar-se, enfileirar-se, estender-se, perfilar-se} <1778>

{afolhe


{apertado, difícil, dificultoso, duro}

{agarrado, apertado}

{apetecedor, apetecível, apetitoso, convidativo, convidoso}

{apetitivo, apetitoso}

{atraente, convidativo, convidoso, provocador, provocante, tentador}

{acumeado, apicado}

{apical, apicilar}

{apícola, apicultural}

{apiedado, comiserado, compadecido, compassivo, condoído, condolente, misericordioso, piedoso, pio} <5111>

{apigmentado, pigmentado} <5110>

{despigmentado} <5109>

{desapiedado, desmisericordioso, despiedado, despiedoso, desumano, imisericordioso, impiedoso} <5108>

{apipiado, pipiado}

{alisado, aparado, aplainado, igualado}

{aplaudente, aplaudidor}

{aclamado, aplaudido, elogiado}

{aplaudível, aplausível}

{aplicador, aplicante}

{aplicável} <7718>

{ápode, ápodo}

{apogético, apogístico}

{apologético, apológico}

{apoltronado, refestelado, repimpado}

{desfarelado, esfarelado, esfarinhado}

{apontado, designado, indicado}

{apontado, aventado, lembrado, proposto, sugerido}

{desalinhavado} <8858>

{a


{difusível, difusivo} <10192>

{pleonástico, redundante}

{digerido, digesto} <10193>

{assimilado, compreendido, digerido, digesto, entendido}

{digerível, digestível}

{digestivo, digestor}

{digno, merecedor} <6545>

{digressionista, divagador, divagante}

{dilatador, dilatante}

{dilatório, moratório}

{demérito, desmerecedor, indigno} <6541>

{digno, exemplar}

{acomodado, adequado, apropriado, digno}

{amplo, dilatado, extenso, largo} <6549>

{compresso, comprimido} <6548>

{desfeito, diluído, diluto, dissoluto, dissolvido}

{diluvial, diluviano}

{ampliativo, amplificativo, aumentativo} <6553>

{diminutivo} <6552>

{dinamitador, dinamiteiro}

{dioramático, diorâmico}

{diretivo, diretor}

{discorde, incompatível, incongruente, incôngruo} <10042>

{díscolo, dissidente}

{disciforme, discoidal, discóide}

{diretor, dirigente}

{discernente, discernidor, discretivo}

{discriminador, discriminante, discriminativo}

{discursante, discursista}

{disfarçado, transvestido}

{disforme, 

{amovível, provisório, transitório}

{provisional, provisório}

{laical, leigal}

{laical, laico, leigo}

{interrompido, interrupto, suspenso, sustado}

{interceptador, interceptante, interceptor}

{interceptado, intercepto, interrompido}

{importante, interessante}

{calculista, interesseiro}

{egoísta, interesseiro}

{interestelar, interstelar}

{interjacente, interposto}

{intermediário, intermédio, interposto}

{internado, interno}

{interpelador, interpelante}

{interpretador, interpretante}

{interrogador, interrogante}

{interruptivo, interruptor}

{interseccional, intersecional}

{interveniente, interventor}

{intervocal, intervocálico}

{intimidador, intimidante, intimidativo}

{intacto, intato, intocado}

{desapropositado, desassazonado, desoportuno, desorado, despropositado, extemporâneo, importuno, inoportuno, intempestivo} <9647>

{interior, interno} <7933>

{exterior} <7932>

{interno} <7935>

{exterior, externo} <7934>

{entremeado, intercalado, intermeado, interposto}




{antilógico, ilógico} <4271>

{racional} <9089>

{irracional} <9088>

{absurdo, ilógico, incoerente} <8967>

{racional, racionável, razoável} <7972>

{raptado, seqüestrado}

{reabilitativo, reabilitatório}

{reacionário, retrógrado} <5361>

{atual, efetivo, imediato, real}

{real, realengo, regalengo, régio, reguengo}

{banido, corrido, excluído, excluso, expulso, repelido, repulso}

{reboante, retumbante}

{rebolante, saracoteante}

{esbandalhado, esfarrapado, esfrangalhado, espadongado, espandongado, rasgado, roto}

{acafelado, estucado, rebocado}

{embuçado, rebuçado}

{rebuscado, requintado}

{recapado, recauchutado}

{prescrito, receitado}

{recém-chegado, recém-vindo}

{nuper-falecido, recém-falecido, recém-finado, recém-morto}

{recém-nado, recém-nascido}

{recebedor, receptor}

{encobridor, escondedor, receptador, receptor}

{gordote, gorducho, rechonchudo}

{declamado, recitado}

{declamador, recitador, recitante, recitista}

{reclamador, reclamante}

{quesível, reclamável} <


{apurado, liquidado, líquido, líqüido, verificado} <10666>

{confuso, embrulhado, ilíquido, ilíqüido} <10665>

{cismático, cismativo, imaginativo, sonhador}

{imperativo, imperatório, peremptório, terminante}

{desigual, impermanente, inconstante, instável, mudadiço, mudável, mutável, variável, vário, volátil, voltário, voltívolo, volúvel}

{complexo, complicado, difícil, dificultoso, embaraçado, enredado, enredoso, envencilhado, implexo, intricado, intrincado} <9472>

{emaranhado, entrelaçado, entretecido, implexo}

{abrupto, acidental, acidentário, adventício, aleatório, brusco, casual, eventual, fortuito, impensado, imprevisto, improviso, inesperado, inopinado, ocasional, ocasionário, repentino, subitâneo, súbito} <4378>

{inconseqüente, inconsiderado}

{buliçoso, espevitado, inquieto, irrequieto, lampeiro, serelepe, turbulento}

{divertido, lúdicro, lúdrico, ridículo}

{luzido, pomposo, vistoso}

{astroso, cimério, feral, fúnebre, funesto, lôbrego, lúgubre, lutuoso, macabro, negro

{algarismo, símbolo}

{algibe, cacimba, cisterna, poço}

{algibeira, bolso}

{friagem, frialdade}

{algodoaria, cotonaria, cotonifício}

{alheabilidade, alienabilidade} <17018>

{alheador, alienador}

{aliado, associado, coligado, confederado}

{aliado, cúmplice, sequaz, sócio}

{alegação, álibi, justificativa}

{alibilidade, assimilabilidade}

{alicantinador, alicantineiro, trapaceiro}

{alicerçador, assentador, fundamentador}

{alicerce, base, fundação, fundamento}

{aliciação, aliciamento, incitação, incitamento, instigação}

{aliciador, aliciante}

{alicorne, licorne, monoceronte, unicorne, unicórnio}

{alijamento, descarga, descarregamento}

{descarga, detonação, disparo}

{alimária, animália, besta}

{alimentação, nutrição} <17021>

{abastamento, abastecimento, alimentação, fornecimento, provimento}

{alimento, estímulo, fomento, sustento}

{alínea, inciso, parágrafo}

{alinhamento, enfileiramento} <14171>

{alinhamento, alinho, fileira}

{endireitamento}

{alinhamento, alinho, a

{comprometimento, responsabilização}

{compromisso, obrigação, responsabilidade}

{comprometimento, compromisso}

{comprometimento, enredamento, envolvimento, implicação}

{dever, dívida, obrigação}

{afazeres, compromisso, obrigação}

{arremessamento, arremesso, compulsão, impulsão, impulso}

{coação, compulsão, forçamento}

{comunalismo, municipalismo}

{compartilhamento, partilha, repartição}

{compartilha, comunhão, partilha}

{aliança, comunhão}

{comunhão, comunicação, ligação} <17107>

{comunhão, convívio, união}

{comunhão, comunidade}

{acessibilidade, comunicabilidade, transitabilidade} <17104>

{comunicabilidade, difusibilidade, transmissibilidade} <17416>

{comunicação, difusão, divulgação, transmissão} <17107>

{comunicação, contato, diálogo} <17107>

{comunidade, sociedade}

{coletivização, comunização}

{comunização, socialização}

{conceito, concepção, idéia}

{conceito, definição, siginificado, significação}

{conceito, pensamento}

{conceito, entendimento, juízo, opin


{virtuose, virtuoso}

{virtuosidade, virtuosismo}

{virologista, virólogo}

{candura, castidade, donzelice, pureza, virgindade}

{virada, viradela, viramento}

{apóstrofo, viracento}

{aramista, funâmbulo, ventoinha, vira-casaca}

{roxo, violeta}

{irascibilidade, violência} <14961>

{brandura, doçura, dulçor} <14960>

{afastamento, distância, distanciamento, espaçamento, espacejamento}

{espaguete, macarronete}

{espanador, espanejador}

{espantalho, estafermo, paspalho}

{corta-papel, espátula}

{espécia, especiaria, espécie}

{especificação, item}

{especificidade, exclusividade}

{amostra, espécime, espécimen, exemplar, modelo}

{cena, escândalo, escarcéu, espetáculo}

{espetaculosidade, grandiloqüência, pomposidade}

{alfinetadela, espetadela, picadela}

{espevitadeira, espevitador}

{abantesma, aparição, assombração, avantesma, avejão, espectro, espetro, fantasma, fantasmagoria, visagem}

{agente secreto, espião}

{antologia, crestomatia, espicilégio, florilégio, seleta}

{acúle

{sumpção, sunção}

{exercício, exercitação, ginástica}

{gingação, gingada, gingo}

{circuito, giro, revolução, viravolta, volta}

{circuito, circunlóquio, perífrase, rodeio}

{glória, grandeza, honra}

{fama, glória, renome}

{brilhantismo, esplendor, glória, majestade}

{comentário, explicação, glosa, interpretação}

{elucidário, glossário}

{aforismo, apotegma, axioma, brocardo, gnoma, máxima, provérbio, sentença, verdade}

{caroço, godilhão, grumo}

{bicada, gole, goleta, sorvo, trago}

{golpada, golpázio}

{engomadura, engomagem, gomagem}

{glutinosidade, gomosidade, viscosidade}

{gonete, trado, verrumão}

{borbotão, borbulhão, cachão, chorro, golfada, gorgolão, gorgolhão, jacto, jato, jorro}

{gosma, muco, viscosidade}

{gosto, paladar, sabor}

{baga, camarinha, gota, gotícula}

{dirigibilidade, governabilidade}

{administração, governança, governo, regência}

{fruição, usufruição, usufruto}

{deleitação, deleite, delícia, gozo, volúpia, voluptuosidade, volutuosidade}

{deleitaç

{cartada, jogada, lance, lanço}

{jogata, jogatina}

{joguete, peteca}

{frescor, jovialidade, vivacidade, viveza}

{cabeleira, coma, juba}

{jovialidade, jucundidade}

{israelita, judeu}

{judicatura, magistratura}

{árbitro, juiz, julgador}

{juízo, julgamento}

{juízo, opinião, parecer, voto}

{ajuizamento, apreciação, avaliação, julgamento}

{chibata, chicote, junco, tabica, verdasca, vergasta}

{judiação, judiaria, malvadez, malvadeza}

{exatidão, justeza, perfeição, precisão} <16916>

{injustiça, parcialidade} <18399>

{fundamentação, justificação}

{juvenescimento, rejuvenescimento} <14734>

{adolescência, juventa, juventude}

{carapinha, lã, pixaim}

{fatura, feitura, labor, lavor, trabalho}

{arduidade, laboriosidade}

{atuosidade, diligência, laboriosidade} <12809>

{laçada, laço}

{alactamento, aleitamento, amamentação, lactação}

{falta, lacuna, omissão}

{incompletude, lacunosidade} <19096>

{ladeirame, ladeiramento}

{resfriadoiro, resfriadouro}

{resfôlego, resfolgo}

{a


{membrana, pele}

{associado, membro}

{memento, memorando, memória, memorial}

{evocação, memoração, recordação, rememoração, revocação}

{memorando, memorândum}

{memorial, memórias}

{menecma, retrato, sósia}

{balanço, meneamento, meneio, oscilação}

{garota, namorada, pequena, xodó}

{camote, derriço, namorado, pequeno, xodó}

{meninota, mocinha, moçoila}

{meninote, mocinho}

{bói, boy, mensageiro, office-boy}

{medição, mensuração}

{mentalidade, mente}

{mentirada, mentiraria, petalhada}

{carapeta, mentirola}

{empório, mercado}

{mercantilagem, mercantilismo}

{comercialidade, mercantilidade}

{lanche, merenda}

{lansquenê, mereré}

{ebulidor, mergulhão}

{imersão, mergulho}

{merinaque, saia-balão}

{amálgama, mescla, misto, mistura}

{imutabilidade, inalterabilidade, invariabilidade, mesmice} <18566>

{acanhamento, cautela, desconfiança, estreiteza, mesquinharia, mesquinhez, mesquinheza, reserva}

{desdita, infelicidade, mesquinhez, mesquinheza}

{insignificância, mesquinh

{bagana, beata, bituca, chica, guimba, ponta, prisca}

{agrestia, agrestice, agrestidade, bagualada, boçalidade, bronquice, brutalidade, chavasquice, estupidez, grossaria, grosseria, grossura, impolidez, incivilidade, rudez, rudeza, rusticaria, rusticidade, rustiqueza} <19537>

{baderna, bagunça, bagunçada, desarranjo, desarrumo, desordem, desorganização} <14309>

{arruaceiro, arruador, bagunceiro, desordeiro}

{baia, boxe}

{baianidade, baianismo}

{bailéu, palanque, tablado, tribuna}

{bairrismo, regionalismo}

{baixadão, baixão}

{afrontação, afrontamento}

{afobação, afogo, atrapalhação, atropelação, atropelo, azáfama, torniquete} <12105>

{inchação, inchaço, inchamento, tumefação}

{instigação, sugestão, suscitação}



In [41]:
lines

[['{exagerar',
  ' exceder',
  ' quinta-essenciar',
  ' rebuscar',
  ' refinar',
  ' requintar}\n'],
 ['{ababalhar', ' babar', ' escumar', ' espumar}\n'],
 ['{ababalhar', ' sujar}\n'],
 ['{aclarar', ' alumiar', ' clarear', ' iluminar}\n'],
 ['{enegrecer', ' escurecer} <4>\n'],
 ['{limpar', ' purgar', ' purificar}\n'],
 ['{impurificar', ' sujar} <6>\n'],
 ['{apurar', ' clarificar', ' limpar', ' purgar', ' purificar}\n'],
 ['{purgar} <7>\n'],
 ['{coar', ' destilar', ' insinuar-se}\n'],
 ['{animar} <1746>\n'],
 ['{açalmar', ' fornecer-se', ' prover-se}\n'],
 ['{acamaradar', ' amigar', ' amistar}\n'],
 ['{embarricar', ' embarrilar}\n'],
 ['{bastar', ' satisfazer}\n'],
 ['{depravar-se}\n'],
 ['{armar-se', ' munir-se}\n'],
 ['{abceder', ' absceder', ' aporismar', ' supurar}\n'],
 ['{abecar', ' abotoar', ' abufelar}\n'],
 ['{abençoar-se', ' benzer-se}\n'],
 ['{conformar-se', ' sujeitar-se}\n'],
 ['{abater-se', ' acamar-se}\n'],
 ['{abater', ' acamar}\n'],
 ['{abalar', ' destruir', ' gastar}\n

In [42]:
sinonimos = [preprocessar(line) for line in lines]

In [43]:
sinonimos

[['exagerar',
  'exceder',
  'quinta-essenciar',
  'rebuscar',
  'refinar',
  'requintar'],
 ['ababalhar', 'babar', 'escumar', 'espumar'],
 ['ababalhar', 'sujar'],
 ['aclarar', 'alumiar', 'clarear', 'iluminar'],
 ['enegrecer', 'escurecer'],
 ['limpar', 'purgar', 'purificar'],
 ['impurificar', 'sujar'],
 ['apurar', 'clarificar', 'limpar', 'purgar', 'purificar'],
 ['purgar'],
 ['coar', 'destilar', 'insinuar-se'],
 ['animar'],
 ['açalmar', 'fornecer-se', 'prover-se'],
 ['acamaradar', 'amigar', 'amistar'],
 ['embarricar', 'embarrilar'],
 ['bastar', 'satisfazer'],
 ['depravar-se'],
 ['armar-se', 'munir-se'],
 ['abceder', 'absceder', 'aporismar', 'supurar'],
 ['abecar', 'abotoar', 'abufelar'],
 ['abençoar-se', 'benzer-se'],
 ['conformar-se', 'sujeitar-se'],
 ['abater-se', 'acamar-se'],
 ['abater', 'acamar'],
 ['abalar', 'destruir', 'gastar'],
 ['esconder', 'fingir'],
 ['disfarçar-se', 'esconder-se'],
 ['calar', 'esconder', 'guardar'],
 ['absolver', 'desculpar', 'inocentar', 'isentar', 'perdo

In [44]:
def listarSinonimos(palavra):
    for lista in sinonimos:
        if palavra in lista:
            return lista
    return []

In [45]:
consultas = []
for query in querys:
    listaSinonimos = []
    listaQuerys = []
    listaQuerys.extend(query)
    for propriedade in query[1]:
        print(propriedade)
        listaSinonimos.append(listarSinonimos(propriedade))
    listaQuerys.append(listaSinonimos)
    consultas.append(listaQuerys)

profissão
nascer
ter
filho
ser
ser
casar
viver
ser
formar
nascer
ser
capital
viver
ser
ficar
localizar
ficar
localizar
Qual
número
habitante
língua
ser
comandar
ficar
ser
estudante
haver
ser
reitor
ofertar
ano
fundar
desenvolver
ficar
sediar
ser
raposar
eleito
estar
Quantas
vezar
ser
campeão
fisiculturismo
fazer
quantum
vender
gols
fazer
seleção
quanto
ser
morrer
nascer
ser
fazer
chegar
ficar
série
livro
das
composto
quanto
livro
ficar
construir
altura
ter
ficar
moeda
usar
habitante
possuir
ser
dono
empresar
ser
fundar
Qual
número
aluno
matricular
ano
tornar
cursar
graduaçao
possuir
ser
empresar
voltar
tipo
tecnologia
ficar
ser
fundar
Qual
habit
raposar
tipo
raposar
existir
alimentação
raposar
basear
donut
ser
comido
país
custar
donut
fazer
donut
casar
servir
nanotecnologia
área
nanotecnologia
usar
nanotecnologia
ajudar
sociedade
ser
trabalhar
Quantos
possuir
ser
time
jogar
idade
ser
idade
nacionalidade
ficar
existir
ter
construir
construido
país
localizar
religião
predominar
Qual
nume

In [46]:
for query in consultas:
    print (query)

[['Qual', 'de'], ['profissão'], ['Arnold', 'Schwarznegger'], [['arte', 'ocupação', 'ofício', 'profissão', 'trabalho']]]
[['Onde'], ['nascer'], ['Arnold', 'Schwarznegger'], [['gerar-se', 'nascer', 'vir']]]
[[], ['ter', 'filho'], ['Arnold', 'Schwarznegger'], [['hospedar', 'receber', 'ter'], ['descendente', 'filho', 'produto', 'rebentão', 'rebento']]]
[['Quem'], ['ser'], ['Neymar'], [['estar', 'existir', 'haver', 'ser']]]
[[], ['ser', 'casar'], ['Neymar'], [['estar', 'existir', 'haver', 'ser'], ['casar', 'esposar', 'matrimoniar']]]
[['Onde'], ['viver'], ['Neymar'], [['laborar', 'labutar', 'levar', 'suportar', 'viver']]]
[['de', 'que'], ['ser'], ['Mahatma', 'Gandhi'], [['estar', 'existir', 'haver', 'ser']]]
[['se', 'em', 'que'], ['formar'], ['Mahatma', 'Gandhi'], [['compor', 'constituir', 'formar']]]
[['Quando'], ['nascer'], ['Mahatma', 'Gandhi'], [['gerar-se', 'nascer', 'vir']]]
[['O', 'que'], ['ser'], ['Nárnia'], [['estar', 'existir', 'haver', 'ser']]]
[['Qual', 'de'], ['capital'], ['Nár

#### Tentar um matching direto entre os sinonimos das propriedades extraidos nas perguntas e as propriedades no banco de dados

In [47]:
from database import database 

In [48]:
db = database.Database()
propertys = db.getAllProperty()

In [49]:
propriedades = []
for property in propertys:
    propriedades.append(property[1])

In [50]:
propriedades

['Austrian Parliament ID',
 'Emporis building complex ID',
 'Personnel de ladministration préfectorale ID',
 'Krugosvet article',
 'RGALI ID',
 'Sambafoot player ID',
 'Partis dArcadie ID',
 'KMDb documentary film ID',
 'território reivindicado por',
 'catholic.ru ID',
 'National Library Board Singapore ID',
 'Russiancinema.ru film ID',
 'Fussballdaten.de team ID',
 'motivo representa',
 'designado por',
 'Czech Registration ID',
 'PeakFinder ID',
 'Rom Galil settlement ID',
 'Oorlogsmonument ID',
 'frequência cardíaca',
 'pathogen transmission process',
 'CBSE Affiliation No.',
 'WikiCFP event ID',
 'Lithuanian National Olympic Committee athlete ID',
 'Estonian Research Portal person ID',
 'GujLit Book ID',
 'lar ancestral',
 'AnimeClick manga ID',
 'Calflora ID',
 'comentário DESCONTINUADA',
 'condenação',
 'Goibibo Hotel ID',
 'GSMArena phone ID',
 'Film Indonesia ID',
 'IUF member ID',
 'tem ingrediente ativo',
 'matrícula do veículo',
 'identificador LCCN',
 'DynamoMania.com playe

In [51]:
cont = 0
contPalavras = 0
for query in consultas:
    for palavra in querys[3]:
        contPalavras+=1
        if palavra in propriedades:
            cont+=1

In [52]:
print(cont, contPalavras)

0 468


### Usando o wordnet para desambiguar as propriedades

In [53]:
from nltk.corpus import wordnet as wn

In [55]:
def listarSinonimosWordnet(palavra):
    synonyms = []
    for syn in wn.synsets(palavra, lang='por'):
        for l in syn.lemma_names('por'):
            synonyms.append(l)
    return synonyms

In [56]:
consultas2 = []
for query in querys:
    listaSinonimos = []
    listaQuerys = []
    listaQuerys.extend(query)
    for propriedade in query[1]:
        listaSinonimos.append(listarSinonimosWordnet(propriedade))
    listaQuerys.append(listaSinonimos)
    consultas2.append(listaQuerys)

In [58]:
consultas2

[[['Qual', 'de'],
  ['profissão'],
  ['Arnold', 'Schwarznegger'],
  [['emprego',
    'função',
    'lugar',
    'ocupação',
    'ofício',
    'profissão',
    'serviço',
    'trabalho',
    'ocupação',
    'profissão',
    'vocação',
    'arte',
    'ofício',
    'profissão',
    'profissão',
    'profissão']]],
 [['Onde'],
  ['nascer'],
  ['Arnold', 'Schwarznegger'],
  [['nascer', 'vir_ao_mundo']]],
 [[],
  ['ter', 'filho'],
  ['Arnold', 'Schwarznegger'],
  [['dar_a_luz',
    'dar_à_luz',
    'parir',
    'pôr_no_mundo',
    'ter',
    'padecer',
    'ter',
    'contrair',
    'sofrer',
    'ter',
    'fruir',
    'possuir',
    'ter',
    'possuir',
    'ter',
    'aguentar',
    'compreender',
    'conter',
    'incluir',
    'possuir',
    'segurar',
    'ter'],
   ['filho',
    'garoto',
    'menino',
    'moço',
    'rapaz',
    'criança',
    'filha',
    'filho',
    'menino',
    'filho',
    'criança',
    'filha',
    'filho',
    'menino',
    'Descendência',
    'filho',
 

In [59]:
cont = 0
contPalavras = 0
for query in consultas2:
    for palavra in query[3]:
        contPalavras+=1
        if palavra in propriedades:
            cont+=1

In [64]:
print(cont, contPalavras)

0 468


In [63]:
size = len(consultas2)
for i in range(0, size):
    print("tep2:")
    print(consultas[i])
    print("wordnet:")
    print(consultas2[i])

tep2:
[['Qual', 'de'], ['profissão'], ['Arnold', 'Schwarznegger'], [['arte', 'ocupação', 'ofício', 'profissão', 'trabalho']]]
wordnet:
[['Qual', 'de'], ['profissão'], ['Arnold', 'Schwarznegger'], [['emprego', 'função', 'lugar', 'ocupação', 'ofício', 'profissão', 'serviço', 'trabalho', 'ocupação', 'profissão', 'vocação', 'arte', 'ofício', 'profissão', 'profissão', 'profissão']]]
tep2:
[['Onde'], ['nascer'], ['Arnold', 'Schwarznegger'], [['gerar-se', 'nascer', 'vir']]]
wordnet:
[['Onde'], ['nascer'], ['Arnold', 'Schwarznegger'], [['nascer', 'vir_ao_mundo']]]
tep2:
[[], ['ter', 'filho'], ['Arnold', 'Schwarznegger'], [['hospedar', 'receber', 'ter'], ['descendente', 'filho', 'produto', 'rebentão', 'rebento']]]
wordnet:
[[], ['ter', 'filho'], ['Arnold', 'Schwarznegger'], [['dar_a_luz', 'dar_à_luz', 'parir', 'pôr_no_mundo', 'ter', 'padecer', 'ter', 'contrair', 'sofrer', 'ter', 'fruir', 'possuir', 'ter', 'possuir', 'ter', 'aguentar', 'compreender', 'conter', 'incluir', 'possuir', 'segurar', 't

# Tipos de pergunta:
- qual
- onde
- o que
- quem
- em qual
- para que
- com quem
- quantos
- quando
- por que
- como


In [46]:
questionsQuais = []
for question in docs:
    if 'qual' in question[0]:
        questionsQuais.append(question)

In [47]:
for question in questionsQuais[:10]:
    print(question)

#Extração de padrão: desconsiderando stopwords
- qual + substantivo + substantivo
- qual + substantivo + verbo + substantivo
- qual + verbo + substantivo + substantivo

In [48]:
questionsOnde = []
for question in docs:
    if 'onde' in question[0]:
        questionsOnde.append(question)

In [49]:
for question in questionsOnde:
    print(question)

In [50]:
import nltk

In [51]:
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

In [52]:
from nltk.examples.pt import *

ImportError: No module named 'nltk.examples'

In [None]:
from nltk.corpus import wordnet

In [None]:
wordnet.synsets("program")

In [None]:
synonyms = []
antonyms = []
for syn in wordnet.synsets("summer"):
    for l in syn.lemmas():
        synonyms.append(l.name())
        if l.antonyms():
            antonyms.append(l.antonyms()[0].name())

In [None]:
synonyms