# Carregar as perguntas

In [1]:
with open('../data/questions.txt', 'r') as file:
    lines = file.readlines()

In [2]:
lines[:10]

['Qual a profissão de Arnold Schwarznegger?\n',
 'Onde Arnold Schwarznegger nasceu?\n',
 'Arnold Schwarznegger tem filhos?\n',
 'Quem é Neymar?\n',
 'Neymar é casado?\n',
 'Onde Neymar vive?\n',
 'Mahatma Gandhi é de que pais?\n',
 'Mahatma Gandhi se formou em que?\n',
 'Quando nasceu Mahatma Gandhi?\n',
 'O que é Nárnia?\n']

In [3]:
import nltk

# Tokenizar cada pergunta

In [4]:
lines[:20]

['Qual a profissão de Arnold Schwarznegger?\n',
 'Onde Arnold Schwarznegger nasceu?\n',
 'Arnold Schwarznegger tem filhos?\n',
 'Quem é Neymar?\n',
 'Neymar é casado?\n',
 'Onde Neymar vive?\n',
 'Mahatma Gandhi é de que pais?\n',
 'Mahatma Gandhi se formou em que?\n',
 'Quando nasceu Mahatma Gandhi?\n',
 'O que é Nárnia?\n',
 'Qual a capital de Nárnia?\n',
 'Quem vive em Nárnia ?\n',
 'O que é o Arco do Triunfo?\n',
 'Onde fica localizado?\n',
 'O que é o Arco do Triunfo?\n',
 'Onde fica localizado o Afeganistão?\n',
 'Qual o número de habitantes do Afeganistão?\n',
 'Qual a língua oficial do Afeganistão?\n',
 'O que é a LexCorp?\n',
 'Quem comanda a LexCorp?\n']

# Normalizar o texto

In [5]:
from nlp import lexical

In [6]:
normalizer = lexical.Preprocessing()

In [7]:
questions = []
for line in lines:
    line = normalizer.remove_accents(line)
    line = normalizer.remove_punctuation(line)
    line = normalizer.tokenize_sentences(line)
    line = normalizer.tokenize_words(line[0])
    line = normalizer.lowercase(line)
    #line = normalizer.remove_stopwords(line)
    questions.append(line)

In [8]:
questions[:20]

[['qual', 'a', 'profissao', 'de', 'arnold', 'schwarznegger'],
 ['onde', 'arnold', 'schwarznegger', 'nasceu'],
 ['arnold', 'schwarznegger', 'tem', 'filhos'],
 ['quem', 'e', 'neymar'],
 ['neymar', 'e', 'casado'],
 ['onde', 'neymar', 'vive'],
 ['mahatma', 'gandhi', 'e', 'de', 'que', 'pais'],
 ['mahatma', 'gandhi', 'se', 'formou', 'em', 'que'],
 ['quando', 'nasceu', 'mahatma', 'gandhi'],
 ['o', 'que', 'e', 'narnia'],
 ['qual', 'a', 'capital', 'de', 'narnia'],
 ['quem', 'vive', 'em', 'narnia'],
 ['o', 'que', 'e', 'o', 'arco', 'do', 'triunfo'],
 ['onde', 'fica', 'localizado'],
 ['o', 'que', 'e', 'o', 'arco', 'do', 'triunfo'],
 ['onde', 'fica', 'localizado', 'o', 'afeganistao'],
 ['qual', 'o', 'numero', 'de', 'habitantes', 'do', 'afeganistao'],
 ['qual', 'a', 'lingua', 'oficial', 'do', 'afeganistao'],
 ['o', 'que', 'e', 'a', 'lexcorp'],
 ['quem', 'comanda', 'a', 'lexcorp']]

# Tagger
- using spacy

In [28]:
from nlp import morphosyntax

In [29]:
morpho = morphosyntax.Morpho()

In [30]:
docs = []

In [31]:
for question in questions:
    doc = morpho.tag(question)
    docs.append(doc)

In [32]:
docs[:20]

[[('qual', 'ADV', '', 'O'),
  ('a', 'DET', '', 'O'),
  ('profissao', 'NOUN', '', 'O'),
  ('de', 'ADP', '', 'O'),
  ('arnold', 'NOUN', '', 'O'),
  ('schwarznegger', 'VERB', '', 'O')],
 [('onde', 'ADV', '', 'O'),
  ('arnold', 'NOUN', '', 'O'),
  ('schwarznegger', 'VERB', '', 'O'),
  ('nasceu', 'VERB', '', 'O')],
 [('arnold', 'NOUN', '', 'O'),
  ('schwarznegger', 'VERB', '', 'O'),
  ('tem', 'VERB', '', 'O'),
  ('filhos', 'NOUN', '', 'O')],
 [('quem', 'PRON', '', 'O'),
  ('e', 'PUNCT', '', 'O'),
  ('neymar', 'VERB', '', 'O')],
 [('neymar', 'VERB', '', 'O'),
  ('e', 'PUNCT', '', 'O'),
  ('casado', 'ADJ', '', 'O')],
 [('onde', 'ADV', '', 'O'),
  ('neymar', 'NOUN', '', 'O'),
  ('vive', 'NOUN', '', 'O')],
 [('mahatma', 'VERB', '', 'O'),
  ('gandhi', 'ADJ', '', 'O'),
  ('e', 'CCONJ', '', 'O'),
  ('de', 'ADP', '', 'O'),
  ('que', 'SCONJ', '', 'O'),
  ('pais', 'NOUN', '', 'O')],
 [('mahatma', 'VERB', '', 'O'),
  ('gandhi', 'ADJ', '', 'O'),
  ('se', 'PRON', '', 'O'),
  ('formou', 'VERB', '', 'O'),

# Tipos de pergunta:
- qual
- onde
- o que
- quem
- em qual
- para que
- com quem
- quantos
- quando
- por que
- como


In [33]:
questionsQuais = []
for question in docs:
    if 'qual' in question[0]:
        questionsQuais.append(question)

In [37]:
for question in questionsQuais[:10]:
    print(question)

[('qual', 'ADV', '', 'O'), ('a', 'DET', '', 'O'), ('profissao', 'NOUN', '', 'O'), ('de', 'ADP', '', 'O'), ('arnold', 'NOUN', '', 'O'), ('schwarznegger', 'VERB', '', 'O')]
[('qual', 'ADV', '', 'O'), ('a', 'DET', '', 'O'), ('capital', 'NOUN', '', 'O'), ('de', 'ADP', '', 'O'), ('narnia', 'NOUN', '', 'O')]
[('qual', 'VERB', '', 'O'), ('o', 'DET', '', 'O'), ('numero', 'NOUN', '', 'O'), ('de', 'ADP', '', 'O'), ('habitantes', 'NOUN', '', 'O'), ('do', 'DET', '', 'O'), ('afeganistao', 'SYM', '', 'O')]
[('qual', 'SCONJ', '', 'O'), ('a', 'DET', '', 'O'), ('lingua', 'NOUN', '', 'O'), ('oficial', 'ADJ', '', 'O'), ('do', 'ADP', '', 'O'), ('afeganistao', 'SYM', '', 'O')]
[('qual', 'SCONJ', '', 'O'), ('a', 'DET', '', 'O'), ('moeda', 'NOUN', '', 'O'), ('usada', 'VERB', '', 'O'), ('no', 'ADP', '', 'O'), ('afeganistao', 'NOUN', '', 'O')]
[('qual', 'VERB', '', 'O'), ('o', 'DET', '', 'O'), ('numero', 'NOUN', '', 'O'), ('de', 'ADP', '', 'O'), ('alunos', 'NOUN', '', 'O'), ('matriculados', 'VERB', '', 'O'), (

#Extração de padrão: desconsiderando stopwords
- qual + substantivo + substantivo
- qual + substantivo + verbo + substantivo
- qual + verbo + substantivo + substantivo

In [16]:
questionsOnde = []
for question in docs:
    if 'onde' in question[0]:
        questionsOnde.append(question)

In [17]:
for question in questionsOnde:
    print(question)

[('onde', 'ADV', '', 'O'), ('arnold', 'NOUN', '', 'O'), ('schwarznegger', 'VERB', '', 'O'), ('nasceu', 'VERB', '', 'O')]
[('onde', 'ADV', '', 'O'), ('neymar', 'NOUN', '', 'O'), ('vive', 'NOUN', '', 'O')]
[('onde', 'ADV', '', 'O'), ('fica', 'VERB', '', 'O'), ('localizado', 'VERB', '', 'O')]
[('onde', 'ADV', '', 'O'), ('fica', 'VERB', '', 'O'), ('localizado', 'VERB', '', 'O'), ('o', 'DET', '', 'O'), ('afeganistao', 'NOUN', '', 'O')]
[('onde', 'ADV', '', 'O'), ('fica', 'VERB', '', 'O'), ('a', 'DET', '', 'O'), ('sede', 'NOUN', '', 'O'), ('da', 'ADP', '', 'O'), ('lexcorp', 'NOUN', '', 'O')]
[('onde', 'ADV', '', 'O'), ('fica', 'VERB', '', 'O'), ('sediada', 'VERB', '', 'O'), ('a', 'ADP', '', 'O'), ('oracle', 'NOUN', '', 'O')]
[('onde', 'ADV', '', 'O'), ('nasceu', 'VERB', '', 'O'), ('mahatma', 'NOUN', '', 'O'), ('gandhi', 'ADJ', '', 'O')]
[('onde', 'ADV', '', 'O'), ('fica', 'VERB', '', 'O'), ('narnia', 'ADJ', '', 'O')]
[('onde', 'ADV', '', 'O'), ('fica', 'VERB', '', 'O'), ('o', 'DET', '', 'O')