# Carregar as perguntas

In [1]:
import pandas as pd

In [2]:
questions = pd.read_csv('../data/corpus.csv', usecols=['Perguntas'])

In [3]:
questions[:10]

Unnamed: 0,Perguntas
0,Qual a profissão de Arnold Schwarznegger?
1,Onde Arnold Schwarznegger nasceu?
2,Arnold Schwarznegger tem filhos?
3,Quem é Neymar?
4,Neymar é casado?
5,Onde Neymar vive?
6,Mahatma Gandhi é de que pais?
7,Mahatma Gandhi se formou em que?
8,Quando nasceu Mahatma Gandhi?
9,O que é Nárnia?


In [4]:
import nltk

# Tokenizar cada pergunta

In [5]:
questions[:20]

Unnamed: 0,Perguntas
0,Qual a profissão de Arnold Schwarznegger?
1,Onde Arnold Schwarznegger nasceu?
2,Arnold Schwarznegger tem filhos?
3,Quem é Neymar?
4,Neymar é casado?
5,Onde Neymar vive?
6,Mahatma Gandhi é de que pais?
7,Mahatma Gandhi se formou em que?
8,Quando nasceu Mahatma Gandhi?
9,O que é Nárnia?


# Normalizar o texto

In [6]:
from nlp import lexical

In [7]:
normalizer = lexical.Preprocessing()

In [8]:
def normalizar(question):
    #line = normalizer.lowercase(question)
    line = normalizer.tokenize_sentences(question)
    return line

In [9]:
questions = questions['Perguntas'].apply(normalizar)

In [10]:
questions[:20]

0       [Qual a profissão de Arnold Schwarznegger?]
1               [Onde Arnold Schwarznegger nasceu?]
2                [Arnold Schwarznegger tem filhos?]
3                                  [Quem é Neymar?]
4                                [Neymar é casado?]
5                               [Onde Neymar vive?]
6                   [Mahatma Gandhi é de que pais?]
7                [Mahatma Gandhi se formou em que?]
8                   [Quando nasceu Mahatma Gandhi?]
9                                 [O que é Nárnia?]
10                      [Qual a capital de Nárnia?]
11                          [Quem vive em Nárnia ?]
12                     [O que é o Arco do Triunfo?]
13        [Onde fica localizado o Arco do Triunfo?]
14            [Onde fica localizado o Afeganistão?]
15    [Qual o número de habitantes do Afeganistão?]
16          [Qual a língua oficial do Afeganistão?]
17                             [O que é a LexCorp?]
18                        [Quem comanda a LexCorp?]
19          

# Tagger
- using spacy

In [11]:
from nlp import morphosyntax

In [12]:
morpho = morphosyntax.Morpho()

In [13]:
docs = []

In [15]:
perguntas = []
for question in questions:
    perguntas.append(question[0])
    doc = morpho.tag(question[0])
    docs.append(doc)

In [16]:
docs

[[('Qual', 'Qual', 'SCONJ', 'KS|@SUB', 'ROOT', '', 'O'),
  ('a', 'o', 'DET', '<artd>|ART|F|S|@>N', 'det', '', 'O'),
  ('profissão', 'profissão', 'NOUN', '<np-def>|N|F|S|@<SC', 'nsubj', '', 'O'),
  ('de', 'de', 'ADP', 'PRP|@N<', 'case', '', 'O'),
  ('Arnold', 'Arnold', 'PROPN', 'PROPN', 'nmod', 'PER', 'B'),
  ('Schwarznegger',
   'Schwarznegger',
   'PROPN',
   'PROPN',
   'flat:name',
   'PER',
   'I'),
  ('?', '?', 'PUNCT', 'PU|@PU', 'punct', '', 'O')],
 [('Onde', 'Onde', 'ADV', '<rel>|ADV|@ADVL>', 'advmod', '', 'O'),
  ('Arnold', 'Arnold', 'PROPN', 'PROPN', 'nsubj', 'PER', 'B'),
  ('Schwarznegger',
   'Schwarznegger',
   'PROPN',
   'PROPN',
   'flat:name',
   'PER',
   'I'),
  ('nasceu', 'nascer', 'VERB', '<mv>|V|PS|3S|IND|@FS-STA', 'ROOT', '', 'O'),
  ('?', '?', 'PUNCT', 'PU|@PU', 'punct', '', 'O')],
 [('Arnold', 'Arnold', 'PROPN', 'PROPN', 'nsubj', 'PER', 'B'),
  ('Schwarznegger',
   'Schwarznegger',
   'PROPN',
   'PROPN',
   'flat:name',
   'PER',
   'I'),
  ('tem', 'ter', 'VERB

### Extrair partes principais da pergunta:
- entidade
- acao/propriedade: **lema
- indicativo da pergunta: Ex.: Onde, Qual, Em que.

In [17]:
def getEntidade(question):
    propn = []
    for tupla in question:
        if tupla[2] == 'PROPN':
            propn.append(tupla[1])
    if propn == []:
        print('entrou B')
        for tupla in question:
            if tupla[6] == 'B':
                propn.append(tupla[1])
    if propn == []:
        print('entrou', question)
        for tupla in question:
            if tupla[4] == "ROOT":
                print('entrou', tupla[0])
                propn.append(tupla[1])
    return propn

def getProperty(question):
    props = []
    for tupla in question:
        if tupla[2] == 'VERB' or tupla[2] == "NOUN":
            props.append(tupla[1])
    return props
#pergunta do tipo quem, onde, quando
def getINI(question):
    ini = []
    for tupla in question:
        if tupla[2] == 'SCONJ' or tupla[2] == 'PRON' or tupla[2] == 'ADV' or tupla[2] == "ADP" or tupla[2]=='X':
            ini.append(tupla[1])
    return ini

In [17]:
question = docs[0]
print(question)

[('Qual', 'Qual', 'SCONJ', 'KS|@SUB', 'ROOT', '', 'O'), ('a', 'o', 'DET', '<artd>|ART|F|S|@>N', 'det', '', 'O'), ('profissão', 'profissão', 'NOUN', '<np-def>|N|F|S|@<SC', 'nsubj', '', 'O'), ('de', 'de', 'ADP', 'PRP|@N<', 'case', '', 'O'), ('Arnold', 'Arnold', 'PROPN', 'PROPN', 'nmod', 'PER', 'B'), ('Schwarznegger', 'Schwarznegger', 'PROPN', 'PROPN', 'flat:name', 'PER', 'I'), ('?', '?', 'PUNCT', 'PU|@PU', 'punct', '', 'O')]


In [18]:
querys = []
questionsNotEntitie = []
for question in docs:
    query = []
    text = []
    tags = []
    tags2 = []
    tags3 = []
    tags4 = []
    tags5 = []
    #para cada tupla 
    for tupla in question:
        #texto lematizado
        text.append(tupla[1])
        #token pos
        tags.append(tupla[2])
        #
        tags2.append(tupla[3])
        #
        tags3.append(tupla[4])
        #
        tags4.append(tupla[5])
        #
        tags5.append(tupla[6])
        
    print(text)
    print(tags)
    print(tags2)
    print(tags3)
    print(tags4)
    print(tags5, '\n')
    entidade = getEntidade(question)
    if entidade == []:
        questionsNotEntitie.append(question)
    property = getProperty(question)
    ini = getINI(question)
    print(ini, property, entidade, '\n')
    query = [ini,property, entidade]
    querys.append(query)
    

['Qual', 'o', 'profissão', 'de', 'Arnold', 'Schwarznegger', '?']
['SCONJ', 'DET', 'NOUN', 'ADP', 'PROPN', 'PROPN', 'PUNCT']
['KS|@SUB', '<artd>|ART|F|S|@>N', '<np-def>|N|F|S|@<SC', 'PRP|@N<', 'PROPN', 'PROPN', 'PU|@PU']
['ROOT', 'det', 'nsubj', 'case', 'nmod', 'flat:name', 'punct']
['', '', '', '', 'PER', 'PER', '']
['O', 'O', 'O', 'O', 'B', 'I', 'O'] 

['Qual', 'de'] ['profissão'] ['Arnold', 'Schwarznegger'] 

['Onde', 'Arnold', 'Schwarznegger', 'nascer', '?']
['ADV', 'PROPN', 'PROPN', 'VERB', 'PUNCT']
['<rel>|ADV|@ADVL>', 'PROPN', 'PROPN', '<mv>|V|PS|3S|IND|@FS-STA', 'PU|@PU']
['advmod', 'nsubj', 'flat:name', 'ROOT', 'punct']
['', 'PER', 'PER', '', '']
['O', 'B', 'I', 'O', 'O'] 

['Onde'] ['nascer'] ['Arnold', 'Schwarznegger'] 

['Arnold', 'Schwarznegger', 'ter', 'filho', '?']
['PROPN', 'PROPN', 'VERB', 'NOUN', 'PUNCT']
['PROPN', 'PROPN', '<mv>|V|PR|3S|IND|@FS-STA', '<np-idf>|N|M|P|@<ACC', 'PU|@PU']
['nsubj', 'flat:name', 'ROOT', 'obj', 'punct']
['PER', 'PER', '', '', '']
['B', 'I', 

['Quem', 'de'] ['ser', 'filho'] ['Mahatma', 'Gandhi'] 

['Quem', 'ser', 'o', 'redentor', 'de', 'Nárnia', '?']
['PRON', 'VERB', 'DET', 'NOUN', 'ADP', 'PROPN', 'PUNCT']
['<rel>|INDP|M/F|S|@SUBJ>', '<mv>|V|PR|3S|IND|@FS-STA', '<artd>|ART|M|S|@>N', '<np-def>|N|M|S|@<SC', 'PRP|@N<', 'PROP|M|S|@P<', 'PU|@PU']
['nsubj', 'cop', 'det', 'ROOT', 'case', 'nmod', 'punct']
['', '', '', '', '', 'LOC', '']
['O', 'O', 'O', 'O', 'O', 'B', 'O'] 

['Quem', 'de'] ['ser', 'redentor'] ['Nárnia'] 

['Por', 'quantum', 'tempo', 'Nárnia', 'permanecer', 'sob', 'domínio', 'da', 'Feiticeira', 'Branca', '?']
['ADP', 'DET', 'NOUN', 'PROPN', 'VERB', 'ADP', 'NOUN', 'ADP', 'PROPN', 'PROPN', 'PUNCT']
['PRP|@ADVL>', '<diff>|DET|M|S|@>N', 'N|M|S|@P<', 'PROP|M|S|@SUBJ>', '<mv>|V|PS|3S|IND|@FS-STA', 'PRP|@<ADVL', '<np-idf>|N|M|S|@P<', 'PRP|@N<', 'PROPN', 'PROPN', 'PU|@PU']
['case', 'det', 'obl', 'nsubj', 'ROOT', 'case', 'obl', 'case', 'nmod', 'flat:name', 'punct']
['', '', '', 'LOC', '', '', '', '', 'LOC', 'LOC', '']
['O', '

['O', 'que'] ['ser'] ['Oracle'] 

['Em', 'qual', 'empresar', 'o', 'Oracle', 'ser', 'usar', '?']
['ADP', 'DET', 'NOUN', 'DET', 'PROPN', 'AUX', 'VERB', 'PUNCT']
['<sam->|PRP|@ADVL>', '<-sam>|<artd>|ART|F|P|@>N', '<np-def>|N|F|P|@P<', '<artd>|ART|M|S|@>N', 'PROP|M|S|@SUBJ>', '<aux>|V|PR|3S|IND|@FS-STA', '<pass>|<mv>|V|PCP|M|S|@ICL-AUX<', 'PU|@PU']
['case', 'det', 'obl', 'det', 'nsubj:pass', 'aux:pass', 'ROOT', 'punct']
['', '', '', '', 'MISC', '', '', '']
['O', 'O', 'O', 'O', 'B', 'O', 'O', 'O'] 

['Em'] ['empresar', 'usar'] ['Oracle'] 

['Qual', 'o', 'nome', 'científico', 'da', 'raposar', '?']
['VERB', 'DET', 'NOUN', 'ADJ', 'ADP', 'ADJ', 'PUNCT']
['<mv>|V|PR|3P|IND|@FS-STA', '<artd>|ART|M|S|@>N', '<np-def>|N|M|S|@<SUBJ', 'ADJ|M|S|@N<', 'PRP|@N<', 'ADJ|F|S|@<SC', 'PU|@PU']
['ROOT', 'det', 'nsubj', 'amod', 'nmod:npmod', 'amod', 'punct']
['', '', '', '', '', '', '']
['O', 'O', 'O', 'O', 'O', 'O', 'O'] 

entrou B
entrou [('Qual', 'Qual', 'VERB', '<mv>|V|PR|3P|IND|@FS-STA', 'ROOT', '', 'O'), 

['PRON', 'VERB', 'DET', 'PROPN', 'PROPN', 'PROPN', 'PUNCT']
['<rel>|INDP|M/F|S|@SUBJ>', '<mv>|V|PS|3S|IND|@FS-STA', '<artd>|ART|M|S|@>N', 'PROP|M|S|@<ACC', 'PROP|@N<', 'PROPN', 'PU|@PU']
['nsubj', 'ROOT', 'det', 'obj', 'flat:name', 'flat:name', 'punct']
['', '', '', 'LOC', 'LOC', 'LOC', '']
['O', 'O', 'O', 'B', 'I', 'I', 'O'] 

['Quem'] ['construir'] ['Arco', 'do', 'Triunfo'] 

['Quando', 'ser', 'construido', 'o', 'Arco', 'do', 'Triunfo', '?']
['ADV', 'AUX', 'VERB', 'DET', 'PROPN', 'PROPN', 'PROPN', 'PUNCT']
['<rel>|ADV|@ADVL>', '<aux>|V|PS|3S|IND|@FS-STA', '<pass>|<mv>|V|PCP|M|S|@ICL-AUX<', '<artd>|ART|M|S|@>N', 'PROP|M|S|@<SUBJ', 'PROP|@N<', 'PROPN', 'PU|@PU']
['advmod', 'aux:pass', 'ROOT', 'det', 'nsubj:pass', 'flat:name', 'flat:name', 'punct']
['', '', '', '', 'LOC', 'LOC', 'LOC', '']
['O', 'O', 'O', 'O', 'B', 'I', 'I', 'O'] 

['Quando'] ['construido'] ['Arco', 'do', 'Triunfo'] 

['Em', 'qual', 'país', 'este', 'localizar', 'o', 'Arco', 'do', 'Triunfo', '?']
['ADP', 'DET', 'NOUN', '

['Quais', 'da'] ['nanotecnologia'] ['Quais'] 

['Quantos', 'titulos', 'Mr', '.', 'Olympia', 'Arnold', 'Schwarzenegger', 'possuir', '?']
['PROPN', 'ADJ', 'PROPN', 'PUNCT', 'PROPN', 'PROPN', 'PROPN', 'VERB', 'PUNCT']
['<np-idf>|N|M|P|@SUBJ>', 'ADJ|M|P|@N<', 'PROP|M|S|@N<', 'PU|@PU', 'PROPN', 'PROPN', 'PROPN', '<mv>|V|PR|3S|IND|@FS-STA', 'PU|@PU']
['det', 'ROOT', 'ROOT', 'punct', 'ROOT', 'nsubj', 'flat:name', 'ROOT', 'punct']
['MISC', '', 'MISC', '', '', '', '', '', '']
['B', 'O', 'B', 'O', 'O', 'O', 'O', 'O', 'O'] 

[] ['possuir'] ['Quantos', 'Mr', 'Olympia', 'Arnold', 'Schwarzenegger'] 

['Qual', 'o', 'ultimar', 'filmar', 'que', 'ele', 'atuou', '?']
['VERB', 'DET', 'ADJ', 'NOUN', 'PRON', 'PRON', 'VERB', 'PUNCT']
['<mv>|V|PR|3P|IND|@FS-STA', '<artd>|ART|M|S|@>N', 'ADJ|M|S|@>N', '<np-def>|N|M|S|@<SC', '<rel>|INDP|M|S|@ACC>', 'PERS|M|3S|NOM|@SUBJ>', '<mv>|V|PS|3S|IND|@FS-N<', 'PU|@PU']
['ROOT', 'det', 'amod', 'nsubj', 'obj', 'nsubj', 'acl:relcl', 'punct']
['', '', '', '', '', '', '', '']
[

In [19]:
questionsNotEntitie

[]

In [20]:
for query in querys:
    print(query[1], '(', query[2], ', X)')

['profissão'] ( ['Arnold', 'Schwarznegger'] , X)
['nascer'] ( ['Arnold', 'Schwarznegger'] , X)
['ter', 'filho'] ( ['Arnold', 'Schwarznegger'] , X)
['ser'] ( ['Neymar'] , X)
['ser', 'casar'] ( ['Neymar'] , X)
['viver'] ( ['Neymar'] , X)
['ser'] ( ['Mahatma', 'Gandhi'] , X)
['formar'] ( ['Mahatma', 'Gandhi'] , X)
['nascer'] ( ['Mahatma', 'Gandhi'] , X)
['ser'] ( ['Nárnia'] , X)
['capital'] ( ['Nárnia'] , X)
['viver'] ( ['Nárnia'] , X)
['ser'] ( ['Arco', 'do', 'Triunfo'] , X)
['ficar', 'localizar'] ( ['Arco', 'do', 'Triunfo'] , X)
['ficar', 'localizar'] ( ['Afeganistão'] , X)
['Qual', 'número', 'habitante'] ( ['Afeganistão'] , X)
['língua'] ( ['Afeganistão'] , X)
['ser'] ( ['LexCorp'] , X)
['comandar'] ( ['LexCorp'] , X)
['ficar', 'ser'] ( ['LexCorp'] , X)
['estudante', 'haver'] ( ['Quantos', 'UFLA'] , X)
['ser', 'reitor'] ( ['UFLA'] , X)
['ofertar'] ( ['curso', 'UFLA'] , X)
['ano', 'fundar'] ( ['Oracle'] , X)
['desenvolver'] ( ['Oracle'] , X)
['ficar', 'sediar'] ( ['Oracle'] , X)
['ser',

['donut', 'ser', 'comido', 'país'] ( ['comido'] , X)
['custar', 'donut'] ( ['custar'] , X)
['fazer', 'donut', 'casar'] ( ['fazer'] , X)
['servir', 'nanotecnologia'] ( ['servir'] , X)
['área', 'nanotecnologia', 'usar'] ( ['usar'] , X)
['nanotecnologia', 'ajudar', 'sociedade'] ( ['ajudar'] , X)
['ser'] ( ['Arnold', 'Schwarzenegger'] , X)
['trabalhar'] ( ['Arnold', 'Schwarzenegger'] , X)
['Quantos', 'possuir'] ( ['Arnold', 'Schwarzenegger'] , X)
['ser'] ( ['Neymar'] , X)
['time', 'jogar'] ( ['Neymar'] , X)
['idade'] ( ['Neymar'] , X)
['ser'] ( ['Mahatma', 'Gandhi'] , X)
['idade'] ( ['Mahatma', 'Gandhi'] , X)
['nacionalidade'] ( ['Mahatma', 'Gandhi'] , X)
['ficar'] ( ['Nárnia'] , X)
['existir'] ( ['Nárnia'] , X)
['ter'] ( ['Quantos', 'Nárnia'] , X)
['construir'] ( ['Arco', 'do', 'Triunfo'] , X)
['construido'] ( ['Arco', 'do', 'Triunfo'] , X)
['país', 'localizar'] ( ['Arco', 'do', 'Triunfo'] , X)
['religião', 'predominar'] ( ['Afeganistão'] , X)
['Qual', 'numerar', 'habitante'] ( ['Afeganis

## Desambiguação

#### Estratégia de sinonimos
- Tep 2

In [21]:
def preprocessar(line):
    lixos = '{}, <>1234567890\n'
    lista = []
    for elemento in line:
        for lixo in lixos:
            elemento = elemento.replace(lixo, '')
        lista.append(elemento)
    return lista

In [22]:
arquivo = open('base_tep2.txt', 'r', encoding='iso-8859-1')

In [23]:
lines = []
for line in arquivo:
    lines.append(line.split(','))

In [24]:
lines

[['{exagerar',
  ' exceder',
  ' quinta-essenciar',
  ' rebuscar',
  ' refinar',
  ' requintar}\n'],
 ['{ababalhar', ' babar', ' escumar', ' espumar}\n'],
 ['{ababalhar', ' sujar}\n'],
 ['{aclarar', ' alumiar', ' clarear', ' iluminar}\n'],
 ['{enegrecer', ' escurecer} <4>\n'],
 ['{limpar', ' purgar', ' purificar}\n'],
 ['{impurificar', ' sujar} <6>\n'],
 ['{apurar', ' clarificar', ' limpar', ' purgar', ' purificar}\n'],
 ['{purgar} <7>\n'],
 ['{coar', ' destilar', ' insinuar-se}\n'],
 ['{animar} <1746>\n'],
 ['{açalmar', ' fornecer-se', ' prover-se}\n'],
 ['{acamaradar', ' amigar', ' amistar}\n'],
 ['{embarricar', ' embarrilar}\n'],
 ['{bastar', ' satisfazer}\n'],
 ['{depravar-se}\n'],
 ['{armar-se', ' munir-se}\n'],
 ['{abceder', ' absceder', ' aporismar', ' supurar}\n'],
 ['{abecar', ' abotoar', ' abufelar}\n'],
 ['{abençoar-se', ' benzer-se}\n'],
 ['{conformar-se', ' sujeitar-se}\n'],
 ['{abater-se', ' acamar-se}\n'],
 ['{abater', ' acamar}\n'],
 ['{abalar', ' destruir', ' gastar}\n

In [25]:
sinonimos = [preprocessar(line) for line in lines]

In [26]:
sinonimos

[['exagerar',
  'exceder',
  'quinta-essenciar',
  'rebuscar',
  'refinar',
  'requintar'],
 ['ababalhar', 'babar', 'escumar', 'espumar'],
 ['ababalhar', 'sujar'],
 ['aclarar', 'alumiar', 'clarear', 'iluminar'],
 ['enegrecer', 'escurecer'],
 ['limpar', 'purgar', 'purificar'],
 ['impurificar', 'sujar'],
 ['apurar', 'clarificar', 'limpar', 'purgar', 'purificar'],
 ['purgar'],
 ['coar', 'destilar', 'insinuar-se'],
 ['animar'],
 ['açalmar', 'fornecer-se', 'prover-se'],
 ['acamaradar', 'amigar', 'amistar'],
 ['embarricar', 'embarrilar'],
 ['bastar', 'satisfazer'],
 ['depravar-se'],
 ['armar-se', 'munir-se'],
 ['abceder', 'absceder', 'aporismar', 'supurar'],
 ['abecar', 'abotoar', 'abufelar'],
 ['abençoar-se', 'benzer-se'],
 ['conformar-se', 'sujeitar-se'],
 ['abater-se', 'acamar-se'],
 ['abater', 'acamar'],
 ['abalar', 'destruir', 'gastar'],
 ['esconder', 'fingir'],
 ['disfarçar-se', 'esconder-se'],
 ['calar', 'esconder', 'guardar'],
 ['absolver', 'desculpar', 'inocentar', 'isentar', 'perdo

In [27]:
def listarSinonimos(palavra):
    for lista in sinonimos:
        if palavra in lista:
            return lista
    return []

In [28]:
consultas = []
for query in querys:
    listaSinonimos = []
    listaQuerys = []
    listaQuerys.extend(query)
    for propriedade in query[1]:
        listaSinonimos.append(listarSinonimos(propriedade))
    listaQuerys.append(listaSinonimos)
    consultas.append(listaQuerys)

In [29]:
for query in consultas:
    print(query)

[['Qual', 'de'], ['profissão'], ['Arnold', 'Schwarznegger'], [['arte', 'ocupação', 'ofício', 'profissão', 'trabalho']]]
[['Onde'], ['nascer'], ['Arnold', 'Schwarznegger'], [['gerar-se', 'nascer', 'vir']]]
[[], ['ter', 'filho'], ['Arnold', 'Schwarznegger'], [['hospedar', 'receber', 'ter'], ['descendente', 'filho', 'produto', 'rebentão', 'rebento']]]
[['Quem'], ['ser'], ['Neymar'], [['estar', 'existir', 'haver', 'ser']]]
[[], ['ser', 'casar'], ['Neymar'], [['estar', 'existir', 'haver', 'ser'], ['casar', 'esposar', 'matrimoniar']]]
[['Onde'], ['viver'], ['Neymar'], [['laborar', 'labutar', 'levar', 'suportar', 'viver']]]
[['de', 'que'], ['ser'], ['Mahatma', 'Gandhi'], [['estar', 'existir', 'haver', 'ser']]]
[['se', 'em', 'que'], ['formar'], ['Mahatma', 'Gandhi'], [['compor', 'constituir', 'formar']]]
[['Quando'], ['nascer'], ['Mahatma', 'Gandhi'], [['gerar-se', 'nascer', 'vir']]]
[['O', 'que'], ['ser'], ['Nárnia'], [['estar', 'existir', 'haver', 'ser']]]
[['Qual', 'de'], ['capital'], ['Nár

#### Tentar um matching direto entre os sinonimos das propriedades extraidos nas perguntas e as propriedades no banco de dados

In [37]:
from database import database 

In [38]:
db = database.Database()
propertys = db.getAllProperty()

In [39]:
propriedades = []
for property in propertys:
    propriedades.append(property[1])

In [40]:
propriedades

['Austrian Parliament ID',
 'Emporis building complex ID',
 'Personnel de ladministration préfectorale ID',
 'Krugosvet article',
 'RGALI ID',
 'Sambafoot player ID',
 'Partis dArcadie ID',
 'KMDb documentary film ID',
 'território reivindicado por',
 'catholic.ru ID',
 'National Library Board Singapore ID',
 'Russiancinema.ru film ID',
 'Fussballdaten.de team ID',
 'motivo representa',
 'designado por',
 'Czech Registration ID',
 'PeakFinder ID',
 'Rom Galil settlement ID',
 'Oorlogsmonument ID',
 'frequência cardíaca',
 'pathogen transmission process',
 'CBSE Affiliation No.',
 'WikiCFP event ID',
 'Lithuanian National Olympic Committee athlete ID',
 'Estonian Research Portal person ID',
 'GujLit Book ID',
 'lar ancestral',
 'AnimeClick manga ID',
 'Calflora ID',
 'comentário DESCONTINUADA',
 'condenação',
 'Goibibo Hotel ID',
 'GSMArena phone ID',
 'Film Indonesia ID',
 'IUF member ID',
 'tem ingrediente ativo',
 'matrícula do veículo',
 'identificador LCCN',
 'DynamoMania.com playe

In [50]:
#cont = numero de matchs totais
#contPalavras = numero de palavras testadas
#contPerguntas
#contMatchPraPergunta
cont = 0
contPalavras = 0
contPerguntas = len(consultas)
contMatchPraPergunta = 0
dicionarioDeConsulta = {}
for query in consultas:
    contMatchPraPergunta = 0
    for lista in query[3]:
        for palavra in lista:
            contPalavras+=1
            print(palavra)
            if palavra in propriedades:
                cont+=1
                contMatchPraPergunta

arte
ocupação
ofício
profissão
trabalho
gerar-se
nascer
vir
hospedar
receber
ter
descendente
filho
produto
rebentão
rebento
estar
existir
haver
ser
estar
existir
haver
ser
casar
esposar
matrimoniar
laborar
labutar
levar
suportar
viver
estar
existir
haver
ser
compor
constituir
formar
gerar-se
nascer
vir
estar
existir
haver
ser
capital
mortal
laborar
labutar
levar
suportar
viver
estar
existir
haver
ser
cair
ficar
tornar-se
achar
deparar
descobrir
desencantar
desentesoirar
desentesourar
encontrar
localizar
topar
cair
ficar
tornar-se
achar
deparar
descobrir
desencantar
desentesoirar
desentesourar
encontrar
localizar
topar
habitador
habitante
idioma
língua
estar
existir
haver
ser
comandar
conduzir
dirigir
reger
cair
ficar
tornar-se
estar
existir
haver
ser
aluno
colegial
escolar
estudante
avezar
contar
haver
possuir
ter
vezar
estar
existir
haver
ser
regedor
regente
reitor
doar
ofertar
alicerçar
ancorar
apoiar
arrimar
assentar
basear
cimentar
consolidar
estear
firmar
fundamentar
fundar
motiva

dominar
possuir
ter
animatografar
cinegrafar
cinematografar
filmar
rodar
estar
existir
haver
ser
copar
frondar
instigar
jogar
instigar
jogar
crédito
nome
renome
reputação
título
adotar
filhar
filiar
perfilhar
estar
existir
haver
ser
nação
país
território
gerar-se
nascer
vir
laborar
labutar
levar
suportar
viver
estar
existir
haver
ser
apossuir
dispor
dominar
possuir
ter
batalha
conflito
guerra
andar
estar
achar
deparar
descobrir
desencantar
desentesoirar
desentesourar
encontrar
localizar
topar
executar
fazer
perfazer
dividido
diviso
nação
país
território
capital
mortal
fuso
torcedor
estar
existir
haver
ser
estar
existir
haver
ser
estar
existir
haver
ser
galho
ramo
ação
ato
atuação
feito
obra
dizer
significar
acrografia
acrograma
monograma
sigla
apossuir
dispor
dominar
possuir
ter
comprimento
extensão
tamanho
desembalar
desembrulhar
desempacotar
desencapar
desenfardar
desentroixar
desentrouxar
desenvolver
custo
preço
ação
atividade
energia
funcionamento
movimento
alicerçar
ancorar
apoiar

executar
fazer
perfazer
estar
existir
haver
ser
estar
existir
haver
ser
apossuir
dispor
dominar
possuir
ter
animatografar
cinegrafar
cinematografar
filmar
rodar
estar
existir
haver
ser
copar
frondar
instigar
jogar
instigar
jogar
crédito
nome
renome
reputação
título
adotar
filhar
filiar
perfilhar
estar
existir
haver
ser
nação
país
território
gerar-se
nascer
vir
laborar
labutar
levar
suportar
viver
estar
existir
haver
ser
apossuir
dispor
dominar
possuir
ter
batalha
conflito
guerra
andar
estar
achar
deparar
descobrir
desencantar
desentesoirar
desentesourar
encontrar
localizar
topar
executar
fazer
perfazer
dividido
diviso
nação
país
território
capital
mortal
fuso
torcedor
estar
existir
haver
ser
estar
existir
haver
ser
estar
existir
haver
ser
galho
ramo
ação
ato
atuação
feito
obra
dizer
significar
acrografia
acrograma
monograma
sigla
apossuir
dispor
dominar
possuir
ter
comprimento
extensão
tamanho
desembalar
desembrulhar
desempacotar
desencapar
desenfardar
desentroixar
desentrouxar
desenvo

In [51]:
print(cont, contPerguntas,contPalavras)

142 482 2946


### Usando o wordnet para desambiguar as propriedades

In [52]:
from nltk.corpus import wordnet as wn

In [53]:
def listarSinonimosWordnet(palavra):
    synonyms = []
    for syn in wn.synsets(palavra, lang='por'):
        for l in syn.lemma_names('por'):
            synonyms.append(l)
    return synonyms

In [54]:
consultas2 = []
for query in querys:
    listaSinonimos = []
    listaQuerys = []
    listaQuerys.extend(query)
    for propriedade in query[1]:
        listaSinonimos.append(listarSinonimosWordnet(propriedade))
    listaQuerys.append(listaSinonimos)
    consultas2.append(listaQuerys)

In [55]:
consultas2

[[['Qual', 'de'],
  ['profissão'],
  ['Arnold', 'Schwarznegger'],
  [['emprego',
    'função',
    'lugar',
    'ocupação',
    'ofício',
    'profissão',
    'serviço',
    'trabalho',
    'ocupação',
    'profissão',
    'vocação',
    'arte',
    'ofício',
    'profissão',
    'profissão',
    'profissão']]],
 [['Onde'],
  ['nascer'],
  ['Arnold', 'Schwarznegger'],
  [['nascer', 'vir_ao_mundo']]],
 [[],
  ['ter', 'filho'],
  ['Arnold', 'Schwarznegger'],
  [['dar_a_luz',
    'dar_à_luz',
    'parir',
    'pôr_no_mundo',
    'ter',
    'padecer',
    'ter',
    'contrair',
    'sofrer',
    'ter',
    'fruir',
    'possuir',
    'ter',
    'possuir',
    'ter',
    'aguentar',
    'compreender',
    'conter',
    'incluir',
    'possuir',
    'segurar',
    'ter'],
   ['filho',
    'garoto',
    'menino',
    'moço',
    'rapaz',
    'criança',
    'filha',
    'filho',
    'menino',
    'filho',
    'criança',
    'filha',
    'filho',
    'menino',
    'Descendência',
    'filho',
 

In [56]:
cont = 0
contPalavras = 0
for query in consultas2:
    for lista in query[3]:
        for palavra in lista:
            contPalavras+=1
            print(contPalavras,palavra)
            if palavra in propriedades:
                cont+=1

1 emprego
2 função
3 lugar
4 ocupação
5 ofício
6 profissão
7 serviço
8 trabalho
9 ocupação
10 profissão
11 vocação
12 arte
13 ofício
14 profissão
15 profissão
16 profissão
17 nascer
18 vir_ao_mundo
19 dar_a_luz
20 dar_à_luz
21 parir
22 pôr_no_mundo
23 ter
24 padecer
25 ter
26 contrair
27 sofrer
28 ter
29 fruir
30 possuir
31 ter
32 possuir
33 ter
34 aguentar
35 compreender
36 conter
37 incluir
38 possuir
39 segurar
40 ter
41 filho
42 garoto
43 menino
44 moço
45 rapaz
46 criança
47 filha
48 filho
49 menino
50 filho
51 criança
52 filha
53 filho
54 menino
55 Descendência
56 filho
57 criança
58 filho
59 menino
60 ente
61 entidade
62 ser
63 criatura
64 organismo
65 ser
66 ser_vivo
67 animal
68 besta
69 bicho
70 criatura
71 ser
72 lançado
73 ser
74 existir
75 ser
76 estar
77 ser
78 criança
79 criatura
80 ser
81 existência
82 Existência
83 forma_de_vida
84 ser
85 ente
86 entidade
87 ser
88 criatura
89 organismo
90 ser
91 ser_vivo
92 animal
93 besta
94 bicho
95 criatura
96 ser
97 lançado
98 ser

902 ser
903 existir
904 ser
905 estar
906 ser
907 criança
908 criatura
909 ser
910 existência
911 Existência
912 forma_de_vida
913 ser
914 adquirir
915 conquistar
916 fazer
917 deixar
918 fazer
919 colocar
920 construir
921 deitar
922 delinear
923 fazer
924 por
925 pôr
926 causar
927 fazer
928 produzir
929 provocar
930 construir
931 criar
932 fazer
933 produzir
934 engendrar
935 fazer
936 gerar
937 procriar
938 fazer
939 fazer
940 gerar
941 criar
942 fazer
943 instituir
944 causar
945 efetuar
946 fazer
947 ocasionar
948 produzir
949 provocar
950 causar
951 fazer
952 provocar
953 desovar
954 fazer
955 fazer
956 criar
957 fazer
958 executar
959 fazer
960 apresentar
961 efetuar
962 executar
963 fazer
964 atuar
965 fazer
966 representar
967 criar
968 desenvolver
969 fazer
970 fazer
971 produzir
972 fazer
973 parir
974 causar
975 fazer
976 produzir
977 provocar
978 fazer
979 recortar
980 executar
981 fazer
982 apresentar
983 efetuar
984 executar
985 fazer
986 adquirir
987 atingir
988 chegar

1622 forma_de_vida
1623 ser
1624 nação
1625 pais
1626 país
1627 países
1628 república
1629 união
1630 nação
1631 país
1632 terra
1633 bairro
1634 circunscrição
1635 circunscrição_administriva
1636 colónia
1637 comarca
1638 condado
1639 districto
1640 distrito
1641 domínio
1642 país
1643 província
1644 região
1645 terra
1646 território
1647 custar
1648 custar
1649 custar
1650 valer
1651 donut
1652 rosca
1653 rosquinha
1654 sonho
1655 adquirir
1656 conquistar
1657 fazer
1658 deixar
1659 fazer
1660 colocar
1661 construir
1662 deitar
1663 delinear
1664 fazer
1665 por
1666 pôr
1667 causar
1668 fazer
1669 produzir
1670 provocar
1671 construir
1672 criar
1673 fazer
1674 produzir
1675 engendrar
1676 fazer
1677 gerar
1678 procriar
1679 fazer
1680 fazer
1681 gerar
1682 criar
1683 fazer
1684 instituir
1685 causar
1686 efetuar
1687 fazer
1688 ocasionar
1689 produzir
1690 provocar
1691 causar
1692 fazer
1693 provocar
1694 desovar
1695 fazer
1696 fazer
1697 criar
1698 fazer
1699 executar
1700 fazer


2301 bicho
2302 criatura
2303 ser
2304 lançado
2305 ser
2306 existir
2307 ser
2308 estar
2309 ser
2310 criança
2311 criatura
2312 ser
2313 existência
2314 Existência
2315 forma_de_vida
2316 ser
2317 fundador
2318 ente
2319 entidade
2320 ser
2321 criatura
2322 organismo
2323 ser
2324 ser_vivo
2325 animal
2326 besta
2327 bicho
2328 criatura
2329 ser
2330 lançado
2331 ser
2332 existir
2333 ser
2334 estar
2335 ser
2336 criança
2337 criatura
2338 ser
2339 existência
2340 Existência
2341 forma_de_vida
2342 ser
2343 broto
2344 ramo
2345 galho
2346 Galho
2347 ramo
2348 galho
2349 raminho
2350 ramo
2351 ramo
2352 atuação
2353 interpretação
2354 representação
2355 atuação
2356 ente
2357 entidade
2358 ser
2359 criatura
2360 organismo
2361 ser
2362 ser_vivo
2363 animal
2364 besta
2365 bicho
2366 criatura
2367 ser
2368 lançado
2369 ser
2370 existir
2371 ser
2372 estar
2373 ser
2374 criança
2375 criatura
2376 ser
2377 existência
2378 Existência
2379 forma_de_vida
2380 ser
2381 categoria
2382 classe


2975 disciplina
2976 domínio
2977 terreno
2978 Dominio
2979 domínio
2980 domínio
2981 domínio
2982 bairro
2983 circunscrição
2984 circunscrição_administriva
2985 colónia
2986 comarca
2987 condado
2988 districto
2989 distrito
2990 domínio
2991 país
2992 província
2993 região
2994 terra
2995 território
2996 domínio
2997 domínio
2998 superioridade
2999 âmbito
3000 domínio
3001 esfera
3002 domínio
3003 esfera
3004 domínio
3005 descobrir
3006 encontrar
3007 acertar
3008 dar_no_alvo
3009 encontrar
3010 achar
3011 encontrar
3012 achar
3013 encontrar
3014 achar
3015 encontrar
3016 dimensão
3017 extensão
3018 magnitude
3019 proporção
3020 tamanho
3021 amplidão
3022 amplitude
3023 dimensão
3024 extensão
3025 magnitude
3026 medida
3027 dimensão
3028 magnitude
3029 medida
3030 tamanho
3031 dimensão
3032 colocar
3033 construir
3034 deitar
3035 delinear
3036 fazer
3037 por
3038 pôr
3039 causar
3040 construir
3041 criar
3042 provocar
3043 realizar
3044 construir
3045 criar
3046 fazer
3047 produzir
30

3599 ficar
3600 tornar
3601 de
3602 esfomear
3603 estar
3604 faminto
3605 fome
3606 morrendo
3607 estar
3608 permanecer
3609 estar
3610 ficar
3611 permanecer
3612 estar
3613 ser
3614 estar
3615 estar
3616 estar
3617 estar
3618 ficar
3619 elegido
3620 eleito
3621 eleito
3622 ente
3623 entidade
3624 ser
3625 criatura
3626 organismo
3627 ser
3628 ser_vivo
3629 animal
3630 besta
3631 bicho
3632 criatura
3633 ser
3634 lançado
3635 ser
3636 existir
3637 ser
3638 estar
3639 ser
3640 criança
3641 criatura
3642 ser
3643 existência
3644 Existência
3645 forma_de_vida
3646 ser
3647 apelido
3648 cognome
3649 nome_de_família
3650 sobrenome
3651 último_nome
3652 antenome
3653 apelido
3654 nome
3655 Nome
3656 nome_de_batismo
3657 nome_próprio
3658 prenome
3659 primeiro_nome
3660 alcunha
3661 apelido
3662 cognome
3663 sobrenome
3664 alcunha
3665 apelido
3666 alias
3667 apelido
3668 nome_falso
3669 pseudónimo
3670 pseudônimo
3671 conhecer
3672 conhecer
3673 entender
3674 saber
3675 conhecer
3676 saber
3

4212 dividir
4213 putrefazer
4214 dividir
4215 cortar
4216 dividir
4217 cortar
4218 dividir
4219 cortar
4220 dividir
4221 dividir
4222 separar
4223 dividir
4224 dividir
4225 dividir
4226 ejetar
4227 separar
4228 dividir
4229 dividir_ao_meio
4230 cortar
4231 dividir
4232 dividir
4233 separar
4234 dividir
4235 separar
4236 cortar
4237 dividir
4238 podar
4239 separar
4240 apartar-se
4241 cortar
4242 dividir
4243 separar
4244 separar-se
4245 terminar
4246 dividir
4247 segmentar
4248 dividir
4249 partilhar
4250 cindir
4251 dividir
4252 rasgar
4253 dividir
4254 separar
4255 compartilhar
4256 dividir
4257 partilhar
4258 articular-se
4259 dividir
4260 dividir-se
4261 esmigalhar
4262 repartir
4263 dividir
4264 separar
4265 estabelecer
4266 fundar
4267 ao_longo_de
4268 daquela_maneira
4269 de_acordo_de
4270 de_que_modo
4271 desta_maneira
4272 enquanto
4273 ídem
4274 ingualmente
4275 na_qualidade_de
4276 pois_que
4277 qual
4278 quão
4279 relativamente_a
4280 segundo
4281 tão
4282 nome
4283 substa

5124 fundo
5125 ao_longo_de
5126 daquela_maneira
5127 de_acordo_de
5128 de_que_modo
5129 desta_maneira
5130 enquanto
5131 ídem
5132 ingualmente
5133 na_qualidade_de
5134 pois_que
5135 qual
5136 quão
5137 relativamente_a
5138 segundo
5139 tão
5140 fuso
5141 ente
5142 entidade
5143 ser
5144 criatura
5145 organismo
5146 ser
5147 ser_vivo
5148 animal
5149 besta
5150 bicho
5151 criatura
5152 ser
5153 lançado
5154 ser
5155 existir
5156 ser
5157 estar
5158 ser
5159 criança
5160 criatura
5161 ser
5162 existência
5163 Existência
5164 forma_de_vida
5165 ser
5166 ente
5167 entidade
5168 ser
5169 criatura
5170 organismo
5171 ser
5172 ser_vivo
5173 animal
5174 besta
5175 bicho
5176 criatura
5177 ser
5178 lançado
5179 ser
5180 existir
5181 ser
5182 estar
5183 ser
5184 criança
5185 criatura
5186 ser
5187 existência
5188 Existência
5189 forma_de_vida
5190 ser
5191 ente
5192 entidade
5193 ser
5194 criatura
5195 organismo
5196 ser
5197 ser_vivo
5198 animal
5199 besta
5200 bicho
5201 criatura
5202 ser
52

5777 idade
5778 velhice
5779 idade
5780 época
5781 era
5782 Escala_de_tempo_geológico
5783 idade
5784 período
5785 século
5786 tempo
5787 época
5788 era
5789 idade
5790 período
5791 habitar
5792 morar
5793 residir
5794 viver
5795 habitar
5796 morar
5797 povoar
5798 viver
5799 domiciliar
5800 habitar
5801 morar
5802 alojar
5803 morar
5804 convicção
5805 crença
5806 Crença
5807 Crenças
5808 fé
5809 opinião
5810 religião
5811 Crença_religiosa
5812 fé
5813 religião
5814 igreja
5815 igrejas
5816 religião
5817 nação
5818 pais
5819 país
5820 países
5821 república
5822 união
5823 nação
5824 país
5825 terra
5826 bairro
5827 circunscrição
5828 circunscrição_administriva
5829 colónia
5830 comarca
5831 condado
5832 districto
5833 distrito
5834 domínio
5835 país
5836 província
5837 região
5838 terra
5839 território
5840 ente
5841 entidade
5842 ser
5843 criatura
5844 organismo
5845 ser
5846 ser_vivo
5847 animal
5848 besta
5849 bicho
5850 criatura
5851 ser
5852 lançado
5853 ser
5854 existir
5855 ser


6405 Prenomes
6406 substantivo_próprio
6407 antenome
6408 nome
6409 nome_de_batismo
6410 nome_próprio
6411 prenome
6412 primeiro_nome
6413 antenome
6414 apelido
6415 nome
6416 Nome
6417 nome_de_batismo
6418 nome_próprio
6419 prenome
6420 primeiro_nome
6421 antenome
6422 apelido
6423 nome
6424 Nome
6425 nome_de_batismo
6426 nome_próprio
6427 prenome
6428 primeiro_nome
6429 antenome
6430 denominação
6431 nome
6432 nome_de_batismo
6433 nome_próprio
6434 prenome
6435 primeiro_nome
6436 título
6437 epíteto
6438 nome
6439 Nomes
6440 médio
6441 médio
6442 média
6443 médio
6444 viver
6445 habitar
6446 morar
6447 residir
6448 viver
6449 habitar
6450 morar
6451 povoar
6452 viver
6453 ao_longo_de
6454 daquela_maneira
6455 de_acordo_de
6456 de_que_modo
6457 desta_maneira
6458 enquanto
6459 ídem
6460 ingualmente
6461 na_qualidade_de
6462 pois_que
6463 qual
6464 quão
6465 relativamente_a
6466 segundo
6467 tão
6468 animal
6469 besta
6470 bicho
6471 criatura
6472 ser
6473 animal
6474 brutal
6475 pecuá

7339 lançado
7340 ser
7341 existir
7342 ser
7343 estar
7344 ser
7345 criança
7346 criatura
7347 ser
7348 existência
7349 Existência
7350 forma_de_vida
7351 ser
7352 elegido
7353 eleito
7354 eleito
7355 estar
7356 ficar
7357 tornar
7358 de
7359 esfomear
7360 estar
7361 faminto
7362 fome
7363 morrendo
7364 estar
7365 permanecer
7366 estar
7367 ficar
7368 permanecer
7369 estar
7370 ser
7371 estar
7372 estar
7373 estar
7374 estar
7375 ficar
7376 ente
7377 entidade
7378 ser
7379 criatura
7380 organismo
7381 ser
7382 ser_vivo
7383 animal
7384 besta
7385 bicho
7386 criatura
7387 ser
7388 lançado
7389 ser
7390 existir
7391 ser
7392 estar
7393 ser
7394 criança
7395 criatura
7396 ser
7397 existência
7398 Existência
7399 forma_de_vida
7400 ser
7401 campeão
7402 campeão
7403 colocado
7404 segundo
7405 vice
7406 culturismo
7407 fisiculturismo
7408 Fisiculturismo
7409 fisioculturismo
7410 culturismo
7411 fisiculturismo
7412 Fisiculturismo
7413 fisioculturismo
7414 adquirir
7415 conquistar
7416 fazer

8001 ser
8002 existir
8003 ser
8004 estar
8005 ser
8006 criança
8007 criatura
8008 ser
8009 existência
8010 Existência
8011 forma_de_vida
8012 ser
8013 dono
8014 proprietário
8015 senhorio
8016 dono
8017 proprietário
8018 amo
8019 dono
8020 possuidor
8021 proprietário
8022 ente
8023 entidade
8024 ser
8025 criatura
8026 organismo
8027 ser
8028 ser_vivo
8029 animal
8030 besta
8031 bicho
8032 criatura
8033 ser
8034 lançado
8035 ser
8036 existir
8037 ser
8038 estar
8039 ser
8040 criança
8041 criatura
8042 ser
8043 existência
8044 Existência
8045 forma_de_vida
8046 ser
8047 estabelecer
8048 fundar
8049 ao_longo_de
8050 daquela_maneira
8051 de_acordo_de
8052 de_que_modo
8053 desta_maneira
8054 enquanto
8055 ídem
8056 ingualmente
8057 na_qualidade_de
8058 pois_que
8059 qual
8060 quão
8061 relativamente_a
8062 segundo
8063 tão
8064 magnitude
8065 medida
8066 número
8067 quantia
8068 quantidade
8069 grandeza
8070 magnitude
8071 número
8072 número
8073 quantidade
8074 Quantidade
8075 número
8076

8667 criança
8668 criatura
8669 ser
8670 existência
8671 Existência
8672 forma_de_vida
8673 ser
8674 companhia
8675 equipa
8676 equipe
8677 time
8678 jogar
8679 jogar
8680 jogar
8681 apostar
8682 jogar
8683 jogar
8684 lançar
8685 jogar
8686 idade
8687 idade
8688 ano
8689 idade
8690 velhice
8691 idade
8692 época
8693 era
8694 Escala_de_tempo_geológico
8695 idade
8696 período
8697 século
8698 tempo
8699 época
8700 era
8701 idade
8702 período
8703 ente
8704 entidade
8705 ser
8706 criatura
8707 organismo
8708 ser
8709 ser_vivo
8710 animal
8711 besta
8712 bicho
8713 criatura
8714 ser
8715 lançado
8716 ser
8717 existir
8718 ser
8719 estar
8720 ser
8721 criança
8722 criatura
8723 ser
8724 existência
8725 Existência
8726 forma_de_vida
8727 ser
8728 idade
8729 idade
8730 ano
8731 idade
8732 velhice
8733 idade
8734 época
8735 era
8736 Escala_de_tempo_geológico
8737 idade
8738 período
8739 século
8740 tempo
8741 época
8742 era
8743 idade
8744 período
8745 nacionalidade
8746 Nacionalidade
8747 nac

9313 bicho
9314 criatura
9315 ser
9316 lançado
9317 ser
9318 existir
9319 ser
9320 estar
9321 ser
9322 criança
9323 criatura
9324 ser
9325 existência
9326 Existência
9327 forma_de_vida
9328 ser
9329 donut
9330 rosca
9331 rosquinha
9332 sonho
9333 equilíbrio
9334 proporção
9335 dimensão
9336 extensão
9337 magnitude
9338 proporção
9339 tamanho
9340 proporção
9341 proporção
9342 razão
9343 Taxa
9344 proporção
9345 simetria
9346 Simetria
9347 aprender
9348 atingir
9349 estudar
9350 obter
9351 aprender
9352 estudar
9353 estudar
9354 marrar
9355 estudar
9356 ente
9357 entidade
9358 ser
9359 criatura
9360 organismo
9361 ser
9362 ser_vivo
9363 animal
9364 besta
9365 bicho
9366 criatura
9367 ser
9368 lançado
9369 ser
9370 existir
9371 ser
9372 estar
9373 ser
9374 criança
9375 criatura
9376 ser
9377 existência
9378 Existência
9379 forma_de_vida
9380 ser
9381 conceber
9382 gerar
9383 procriar
9384 ter_filho
9385 gerar
9386 procriar
9387 reproduzir
9388 gerar
9389 procriar
9390 engendrar
9391 faze

10038 nome
10039 nome_de_batismo
10040 nome_próprio
10041 prenome
10042 primeiro_nome
10043 título
10044 epíteto
10045 nome
10046 Nomes
10047 dar
10048 dar_de_presente
10049 entregar
10050 oferecer
10051 regalar
10052 brindar
10053 dar
10054 doar
10055 fazer_doação_de
10056 oferecer
10057 presentear
10058 oferecer
10059 oferecer
10060 oferecer
10061 ente
10062 entidade
10063 ser
10064 criatura
10065 organismo
10066 ser
10067 ser_vivo
10068 animal
10069 besta
10070 bicho
10071 criatura
10072 ser
10073 lançado
10074 ser
10075 existir
10076 ser
10077 estar
10078 ser
10079 criança
10080 criatura
10081 ser
10082 existência
10083 Existência
10084 forma_de_vida
10085 ser
10086 dono
10087 proprietário
10088 senhorio
10089 dono
10090 proprietário
10091 amo
10092 dono
10093 possuidor
10094 proprietário
10095 câmbio
10096 cotação
10097 taxa_de_câmbio
10098 ano
10099 classe
10100 curso
10101 ano
10102 idade
10103 velhice
10104 ano
10105 ano
10106 ano
10107 ano_trópico
10108 ano
10109 ano
10110 ano

10687 denotar
10688 evidenciar
10689 indicar
10690 sinalizar
10691 sugerir
10692 apontar
10693 indicar
10694 mostrar
10695 assinalar
10696 indicar
10697 indicar
10698 querer_dizer
10699 significar
10700 indicar
10701 marcar
10702 comentar
10703 fazer_comentários
10704 indicar
10705 mencionar
10706 galardão
10707 prémio
10708 Prémio
10709 prêmio
10710 Prêmios
10711 galardão
10712 prémio
10713 prêmio
10714 prémios
10715 paz
10716 paz
10717 Tratado_de_paz
10718 Tratados_de_paz
10719 paz
10720 quietude
10721 silêncio
10722 paz
10723 Paz
10724 repouso
10725 serenidade
10726 paz
10727 Paz
10728 repouso
10729 serenidade
10730 paz
10731 acordo
10732 concórdia
10733 conformidade
10734 harmonia
10735 paz
10736 paz
10737 paz
10738 paz
10739 aderir
10740 colar
10741 aderir
10742 castidade
10743 celibato
10744 pudicícia
10745 recato
10746 celibato
10747 autor
10748 artífice
10749 autor
10750 escritor
10751 autor
10752 autora
10753 autoras
10754 autores
10755 escritor
10756 escritora
10757 criar
107

11390 cumprir
11391 desempenhar
11392 efectivar
11393 efectuar
11394 efetuar
11395 executar
11396 fazer
11397 obter
11398 realizar
11399 efectivar
11400 efectuar
11401 executar
11402 fazer
11403 realizar
11404 executar
11405 fazer
11406 fazer
11407 donut
11408 rosca
11409 rosquinha
11410 sonho
11411 ente
11412 entidade
11413 ser
11414 criatura
11415 organismo
11416 ser
11417 ser_vivo
11418 animal
11419 besta
11420 bicho
11421 criatura
11422 ser
11423 lançado
11424 ser
11425 existir
11426 ser
11427 estar
11428 ser
11429 criança
11430 criatura
11431 ser
11432 existência
11433 Existência
11434 forma_de_vida
11435 ser
11436 donut
11437 rosca
11438 rosquinha
11439 sonho
11440 ente
11441 entidade
11442 ser
11443 criatura
11444 organismo
11445 ser
11446 ser_vivo
11447 animal
11448 besta
11449 bicho
11450 criatura
11451 ser
11452 lançado
11453 ser
11454 existir
11455 ser
11456 estar
11457 ser
11458 criança
11459 criatura
11460 ser
11461 existência
11462 Existência
11463 forma_de_vida
11464 ser

12072 Software
12073 suporte_lógico
12074 ao_longo_de
12075 daquela_maneira
12076 de_acordo_de
12077 de_que_modo
12078 desta_maneira
12079 enquanto
12080 ídem
12081 ingualmente
12082 na_qualidade_de
12083 pois_que
12084 qual
12085 quão
12086 relativamente_a
12087 segundo
12088 tão
12089 preço
12090 preços
12091 qualidade
12092 preço
12093 custo
12094 custos
12095 preço
12096 preços
12097 custo
12098 preço
12099 custo
12100 custos
12101 gastos
12102 preço
12103 custo
12104 preço
12105 preços
12106 preço
12107 custo
12108 preço
12109 preços
12110 ação
12111 ato
12112 feito
12113 ação
12114 atividade
12115 ato
12116 ação
12117 ação
12118 ação
12119 actividade
12120 atividade
12121 estabelecer
12122 fundar
12123 ao_longo_de
12124 daquela_maneira
12125 de_acordo_de
12126 de_que_modo
12127 desta_maneira
12128 enquanto
12129 ídem
12130 ingualmente
12131 na_qualidade_de
12132 pois_que
12133 qual
12134 quão
12135 relativamente_a
12136 segundo
12137 tão
12138 gerir
12139 governar
12140 reger
121

12715 mentira
12716 mentirinha
12717 conto
12718 história
12719 narração
12720 história
12721 Modo_narrativo
12722 Narração
12723 narrativa
12724 história
12725 histórico
12726 história
12727 cidade
12728 cidade-estado
12729 cidade-Estado
12730 Cidade-estado
12731 cidadelivre
12732 Cidades-Estado
12733 cidade
12734 metrópole
12735 metrópoles
12736 aldeia
12737 aldeias
12738 cidade
12739 povoado
12740 vila
12741 centro_urbano
12742 cidade
12743 metrópole
12744 município
12745 urbe
12746 autarquias
12747 cidade
12748 comuna
12749 concelho
12750 município
12751 aldeia
12752 arraial
12753 burgo
12754 cidade
12755 povoado
12756 vila
12757 aldeia
12758 aldeias
12759 cidade
12760 vila
12761 estar
12762 ficar
12763 tornar
12764 de
12765 esfomear
12766 estar
12767 faminto
12768 fome
12769 morrendo
12770 estar
12771 permanecer
12772 estar
12773 ficar
12774 permanecer
12775 estar
12776 ser
12777 estar
12778 estar
12779 estar
12780 estar
12781 ficar
12782 altura
12783 tom
12784 altura
12785 estatu

13357 palavra-chave
13358 palavra
13359 termo
13360 vocábulo
13361 palavra
13362 vocábulo
13363 palavra
13364 palavra_da_honra
13365 palavra_de_Deus
13366 palavra_divina
13367 palavra_do_Senhor
13368 verbo
13369 ente
13370 entidade
13371 ser
13372 criatura
13373 organismo
13374 ser
13375 ser_vivo
13376 animal
13377 besta
13378 bicho
13379 criatura
13380 ser
13381 lançado
13382 ser
13383 existir
13384 ser
13385 estar
13386 ser
13387 criança
13388 criatura
13389 ser
13390 existência
13391 Existência
13392 forma_de_vida
13393 ser
13394 caber
13395 colocar
13396 pôr
13397 trazer
13398 usar
13399 vestir
13400 empregar
13401 usar
13402 utilizar
13403 consumir
13404 usar
13405 usar
13406 utilizar
13407 nanotecnologia
13408 Nanotecnologia
13409 Nanotécnologia
13410 nanotecnologia
13411 Nanotecnologia
13412 Nanotécnologia
13413 adquirir
13414 conquistar
13415 fazer
13416 deixar
13417 fazer
13418 colocar
13419 construir
13420 deitar
13421 delinear
13422 fazer
13423 por
13424 pôr
13425 causar
134

In [48]:
print(cont, contPalavras)

848 13510


In [42]:
size = len(consultas2)
for i in range(0, size):
    print("tep2:")
    print(consultas[i])
    print("wordnet:")
    print(consultas2[i])

tep2:
[['Qual', 'de'], ['profissão'], ['Arnold', 'Schwarznegger'], [['arte', 'ocupação', 'ofício', 'profissão', 'trabalho']]]
wordnet:
[['Qual', 'de'], ['profissão'], ['Arnold', 'Schwarznegger'], [['emprego', 'função', 'lugar', 'ocupação', 'ofício', 'profissão', 'serviço', 'trabalho', 'ocupação', 'profissão', 'vocação', 'arte', 'ofício', 'profissão', 'profissão', 'profissão']]]
tep2:
[['Onde'], ['nascer'], ['Arnold', 'Schwarznegger'], [['gerar-se', 'nascer', 'vir']]]
wordnet:
[['Onde'], ['nascer'], ['Arnold', 'Schwarznegger'], [['nascer', 'vir_ao_mundo']]]
tep2:
[[], ['ter', 'filho'], ['Arnold', 'Schwarznegger'], [['hospedar', 'receber', 'ter'], ['descendente', 'filho', 'produto', 'rebentão', 'rebento']]]
wordnet:
[[], ['ter', 'filho'], ['Arnold', 'Schwarznegger'], [['dar_a_luz', 'dar_à_luz', 'parir', 'pôr_no_mundo', 'ter', 'padecer', 'ter', 'contrair', 'sofrer', 'ter', 'fruir', 'possuir', 'ter', 'possuir', 'ter', 'aguentar', 'compreender', 'conter', 'incluir', 'possuir', 'segurar', 't

[[], ['Quantas', 'copar', 'jogar'], ['Neymar'], [[], ['copar', 'frondar'], ['instigar', 'jogar']]]
wordnet:
[[], ['Quantas', 'copar', 'jogar'], ['Neymar'], [[], [], ['jogar', 'jogar', 'jogar', 'apostar', 'jogar', 'jogar', 'lançar', 'jogar']]]
tep2:
[['Em', 'que', 'o'], ['ano', 'jogar'], ['Neymar', 'Barcelona'], [[], ['instigar', 'jogar']]]
wordnet:
[['Em', 'que', 'o'], ['ano', 'jogar'], ['Neymar', 'Barcelona'], [['ano', 'classe', 'curso', 'ano', 'idade', 'velhice', 'ano', 'ano', 'ano', 'ano_trópico', 'ano', 'ano', 'ano', 'ano', 'ano', 'sesta', 'sono'], ['jogar', 'jogar', 'jogar', 'apostar', 'jogar', 'jogar', 'lançar', 'jogar']]]
tep2:
[['do'], ['Qual', 'nome', 'filhar'], ['Neymar'], [[], ['crédito', 'nome', 'renome', 'reputação', 'título'], ['adotar', 'filhar', 'filiar', 'perfilhar']]]
wordnet:
[['do'], ['Qual', 'nome', 'filhar'], ['Neymar'], [['ao_longo_de', 'daquela_maneira', 'de_acordo_de', 'de_que_modo', 'desta_maneira', 'enquanto', 'ídem', 'ingualmente', 'na_qualidade_de', 'pois_q

In [59]:
size = len(consultas2)
listaPropriedades = []
for i in range(0, size):
    propriedades = consultas[1]
    listaSinonimos = []
    listaSinonimos.extend(consultas[i][3])
    listaSinonimos.extend(consultas2[i][3])
    propriedades.append(listaSinonimos)
    listaPropriedades.append(propriedades)
    

In [65]:
entidades = []
cont = 0
for query in querys:
    entidades.append(query[2])
    cont+=1

### Definir a consulta

In [68]:
dicionarioDeConsulta = {
    'pergunta':perguntas,
    'propriedades':listaPropriedades,
    'entidade':entidades
}

In [None]:
dicionarioDeConsulta

In [3]:
import RotinaBD

In [4]:
rotinas = RotinaBD.RotinaBD()

In [5]:
rotinas.buscarIdEntidade('Neymar')

['Q142794']

In [8]:
rotinas.buscarInformacao({'entidade':'Neymar', 'propriedade':'instância de'})

verificando se há correspondencia da entidade na Base de Dados...
buscando o id da entidade...
['Q142794']
buscando o id da propriedade...
SELECT idProp FROM property WHERE property.desc = 'instância de'
['P31']
buscando relacao...
buscando a entidade resposta ...
buscando Q142794 P31
SELECT R.idEnt2 From relation R WHERE R.idEnt1 = 'Q142794' AND R.idProp = 'P31'
imprime tupla ('Q5',)
imprime string Q5
entidade encontrada:
Q5 Q5 http://www.wikidata.org/entity/Q5
extraindo informações...


['ser humano']

In [9]:
del rotinass

In [21]:
from database import database

In [22]:
db = database.Database()

In [3]:
db.insertRelation(['Q142794', 'Q2584065', 'P54'])

Não foi possivel inserir UNIQUE constraint failed: relation.idEnt1, relation.idEnt2, relation.idProp


In [23]:
relacoes = db.getAllRelation()

In [11]:
relacoes = db.getEntitie('Q339772')

In [25]:
relacoes = db.getRelation('Q142794')

In [26]:
for relacao in relacoes:
    print(relacao)

('Neymar', 'nacionalidade esportiva', 'Q155')
('Neymar', 'país de cidadania', 'Q155')
('Neymar', 'local de nascimento', 'Q194332')
('Neymar', 'sobrenome', 'Q23781436')
('Neymar', 'membro do time esportivo', 'Q2584065')
('Neymar', 'esporte', 'Q2736')
('Neymar', 'prêmios recebidos', 'Q339772')
('Neymar', 'instância de', 'Q5')
('Neymar', 'patrocinador', 'Q51482')
('Neymar', 'primeiro nome', 'Q61901279')
('Neymar', 'sexo ou gênero', 'Q6581097')
('Neymar', 'descrito pela fonte', 'Q67311526')
('Neymar', 'indicado a', 'Q680221')
('Neymar', 'língua materna', 'Q750553')
('Neymar', 'línguas faladas', 'Q750553')
('Neymar', 'posição', 'Q8025128')
('Neymar', 'participou de', 'Q8577')
('Neymar', 'ocupação', 'Q937857')


In [15]:
db.finalizarConnection()

# Tipos de pergunta:
- qual
- onde
- o que
- quem
- em qual
- para que
- com quem
- quantos
- quando
- por que
- como


In [46]:
questionsQuais = []
for question in docs:
    if 'qual' in question[0]:
        questionsQuais.append(question)

In [47]:
for question in questionsQuais[:10]:
    print(question)

#Extração de padrão: desconsiderando stopwords
- qual + substantivo + substantivo
- qual + substantivo + verbo + substantivo
- qual + verbo + substantivo + substantivo