# Semana Acadêmica Feevale - set/2019

### Carregando os dados

In [1]:
from pandas_ods_reader import read_ods

df = read_ods("Perguntas+Respostas.ods",1).astype(str)
all_columns = list(df)
df[all_columns] = df[all_columns].astype(str)

In [2]:
df[:15]

Unnamed: 0,Categoria,Pergunta,Resposta
0,Compra e pagamento,Onde posso comprar ingressos para shows e espe...,Ingressos podem ser adquiridos nos canais de v...
1,Compra e pagamento,Posso comprar ingressos no dia do evento?,"Sim! É possível comprar no dia do evento, poré..."
2,Compra e pagamento,É possível que familiares ou amigos comprem in...,"Sim, para a compra de ingressos no valor integ..."
3,Compra e pagamento,Quais as formas de pagamento disponíveis?,"Uhuu: são aceitos na bilheteria do teatro, pel..."
4,Compra e pagamento,É possível parcelar no cartão de crédito?,"Via de regra, não é possível. Em casos especia..."
5,Compra e pagamento,Tenho receio de informar meus dados pessoais. ...,"Seus dados estão seguros, fique tranquilo! As ..."
6,Compra e pagamento,Como sei que a compra online foi efetuada? Não...,Compras efetuadas pela internet estarão sujeit...
7,Compra e pagamento,É fornecida nota fiscal na venda de ingresso?,O ingresso é o próprio comprovante fiscal do c...
8,Compra e pagamento,É possível conseguir uma nota fiscal apenas na...,"Infelizmente não é possível, pois cada ingress..."
9,Compra e pagamento,Como devo conservar meu ingresso?,A guarda e conservação dos ingressos são de in...


### Removendo maiúsculas

In [3]:
df = df.applymap(lambda s:s.lower() if isinstance(s, str) else s)
df[:5]

Unnamed: 0,Categoria,Pergunta,Resposta
0,compra e pagamento,onde posso comprar ingressos para shows e espe...,ingressos podem ser adquiridos nos canais de v...
1,compra e pagamento,posso comprar ingressos no dia do evento?,"sim! é possível comprar no dia do evento, poré..."
2,compra e pagamento,é possível que familiares ou amigos comprem in...,"sim, para a compra de ingressos no valor integ..."
3,compra e pagamento,quais as formas de pagamento disponíveis?,"uhuu: são aceitos na bilheteria do teatro, pel..."
4,compra e pagamento,é possível parcelar no cartão de crédito?,"via de regra, não é possível. em casos especia..."


### Definindo a pesquisa

In [4]:
pesquisa = 'Onde comprar ingressos para shows e espetáculos?'.replace(' ','|').lower()
pesquisa

'onde|comprar|ingressos|para|shows|e|espetáculos?'

### Pesquisando com OR

In [8]:
pesquisa = 'Onde compro ingressos para shows e espetáculos?'.replace(' ','|').lower()
result = df.Pergunta[df.Pergunta.str.contains(pesquisa)]
print(len(result))
result

28


0     onde posso comprar ingressos para shows e espe...
1             posso comprar ingressos no dia do evento?
2     é possível que familiares ou amigos comprem in...
3             quais as formas de pagamento disponíveis?
4             é possível parcelar no cartão de crédito?
5     tenho receio de informar meus dados pessoais. ...
6     como sei que a compra online foi efetuada? não...
7         é fornecida nota fiscal na venda de ingresso?
8     é possível conseguir uma nota fiscal apenas na...
9                     como devo conservar meu ingresso?
10    o que é a taxa de conveniência? por que ela é ...
11    há possibilidade de devolução de taxas em caso...
12    é possível trocar de sessão ou de espetáculo? ...
13    é possível trocar o assento do meu ingresso no...
14    é permitido fotografar ou filmar durante o sho...
15         é permitido fumar em algum espaço do teatro?
16    é permitida a entrada de alimentos e bebidas n...
17    vou me atrasar para o início do evento. po

### Pesquisando com AND

In [7]:
pesquisa = 'Onde compro ingressos para shows e espetáculos?'.replace(' ','|').lower()
print(pesquisa)
expr = '(?=.*{})'
words = pesquisa.split('|')
base = r'^{}'.format(''.join(expr.format(w) for w in words))
df[df.Pergunta.str.contains(base)]

onde|compro|ingressos|para|shows|e|espetáculos?


Unnamed: 0,Categoria,Pergunta,Resposta




# Uso de PLN para seleção de Palavras Chaves

## Extraindo palavras chaves com TF-IDF

Adaptado de:
1. https://kavita-ganesan.com/extracting-keywords-from-text-tfidf
2. https://kavita-ganesan.com/tfidftransformer-tfidfvectorizer-usage-differences/#.XVbOe_x7mV4

In [20]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vectorizer=TfidfVectorizer(max_df=0.85, use_idf=True)

docs = df['Resposta'].tolist()

docs

['ingressos podem ser adquiridos nos canais de venda oficiais: pela internet, via uhuu; na bilheteria do teatro ou demais pontos de vendas físicos. consulte os horários e endereços dos canais de venda oficiais aqui.\natenção:\xa0compras que não forem realizadas na bilheteria do teatro\xa0estão sujeitas à cobrança de taxa de conveniência.\xa0',
 'sim! é possível comprar no dia do evento, porém a compra estará sujeita à disponibilidade de ingressos no momento. consulte os horários e endereços dos canais de venda oficiais aqui.\nos ingressos adquiridos pela internet, via uhuu.com, são enviados por e-mail e podem também ser acessados através do site ou do app da uhuu em "meus pedidos", podendo apresentar impresso ou no celular.',
 'sim, para a compra de ingressos no valor integral, é possível! para ingressos com descontos ou benefícios de meia-entrada, consulte a bilheteria e verifique quais as condições e documentos exigidos para compra de terceiros. algumas modalidades de descontos e ben

In [21]:
# Calculando TF-IDF com base nos documentos do corpus
tfidf_corpus=tfidf_vectorizer.fit_transform(docs)

palavras_corpus = tfidf_vectorizer.get_feature_names()

In [23]:
pergunta = df['Pergunta'].tolist()[0]
pergunta

'onde posso comprar ingressos para shows e espetáculos?'

In [24]:
tfidf_pergunta = tfidf_vectorizer.transform([pergunta])
tuplas = zip(tfidf_pergunta.tocoo().col, tfidf_pergunta.tocoo().data)
tuplas_ordenadas = sorted(tuplas, key=lambda x: (x[1], x[0]),reverse=True)

for indice,score in tuplas_ordenadas :
    print(score,palavras_corpus[indice])

0.4963882172857802 shows
0.4963882172857802 onde
0.4416086965342688 comprar
0.3725946622859065 espetáculos
0.30909579876672033 ingressos
0.27894845302637655 para


#### Removendo STOP WORDS

In [25]:
from nltk.corpus import stopwords
stopwords.words('portuguese')

['de',
 'a',
 'o',
 'que',
 'e',
 'do',
 'da',
 'em',
 'um',
 'para',
 'com',
 'não',
 'uma',
 'os',
 'no',
 'se',
 'na',
 'por',
 'mais',
 'as',
 'dos',
 'como',
 'mas',
 'ao',
 'ele',
 'das',
 'à',
 'seu',
 'sua',
 'ou',
 'quando',
 'muito',
 'nos',
 'já',
 'eu',
 'também',
 'só',
 'pelo',
 'pela',
 'até',
 'isso',
 'ela',
 'entre',
 'depois',
 'sem',
 'mesmo',
 'aos',
 'seus',
 'quem',
 'nas',
 'me',
 'esse',
 'eles',
 'você',
 'essa',
 'num',
 'nem',
 'suas',
 'meu',
 'às',
 'minha',
 'numa',
 'pelos',
 'elas',
 'qual',
 'nós',
 'lhe',
 'deles',
 'essas',
 'esses',
 'pelas',
 'este',
 'dele',
 'tu',
 'te',
 'vocês',
 'vos',
 'lhes',
 'meus',
 'minhas',
 'teu',
 'tua',
 'teus',
 'tuas',
 'nosso',
 'nossa',
 'nossos',
 'nossas',
 'dela',
 'delas',
 'esta',
 'estes',
 'estas',
 'aquele',
 'aquela',
 'aqueles',
 'aquelas',
 'isto',
 'aquilo',
 'estou',
 'está',
 'estamos',
 'estão',
 'estive',
 'esteve',
 'estivemos',
 'estiveram',
 'estava',
 'estávamos',
 'estavam',
 'estivera',
 'es

In [26]:
docs = df['Pergunta'].tolist()
tfidf_vectorizer=TfidfVectorizer(max_df=0.85, stop_words=stopwords.words('portuguese'), use_idf=True)
tfidf_corpus=tfidf_vectorizer.fit_transform(docs)

In [27]:
pergunta = df['Pergunta'].tolist()[0]
pergunta

'onde posso comprar ingressos para shows e espetáculos?'

In [28]:
tfidf_pergunta = tfidf_vectorizer.transform([pergunta])
palavras = tfidf_vectorizer.get_feature_names()
tuplas = zip(tfidf_pergunta.tocoo().col, tfidf_pergunta.tocoo().data)
tuplas_ordenadas = sorted(tuplas, key=lambda x: (x[1], x[0]),reverse=True)

for i,score in tuplas_ordenadas :
    print(score,palavras[i])

0.4784717713138658 onde
0.4256694415788503 shows
0.4256694415788503 comprar
0.3882055924221941 espetáculos
0.3591463734188364 posso
0.3591463734188364 ingressos


In [29]:
tfidf_pergunta = tfidf_vectorizer.transform([pergunta])
palavras = tfidf_vectorizer.get_feature_names()
tuplas = zip(tfidf_pergunta.tocoo().col, tfidf_pergunta.tocoo().data)
tuplas_ordenadas = sorted(tuplas, key=lambda x: (x[1], x[0]),reverse=True)

palavras_chaves = []
for i,score in tuplas_ordenadas :
    palavras_chaves.append(palavras[i])
palavras_chaves

['onde', 'shows', 'comprar', 'espetáculos', 'posso', 'ingressos']

#### Pesquisando com OR + PALAVRAS CHAVES TF-IDF

In [30]:
pesquisa = '|'.join(palavras_chaves)
print(pesquisa)
result = df.Pergunta[df.Pergunta.str.contains(pesquisa)]
print(len(result))
result

onde|shows|comprar|espetáculos|posso|ingressos
8


0     onde posso comprar ingressos para shows e espe...
1             posso comprar ingressos no dia do evento?
2     é possível que familiares ou amigos comprem in...
8     é possível conseguir uma nota fiscal apenas na...
13    é possível trocar o assento do meu ingresso no...
18    há alguma restrição em relação a menores de id...
19    nos espetáculos infantis, são permitidas crian...
21    posso levar meu animal de estimação para o tea...
Name: Pergunta, dtype: object

#### Juntando tudo (abordagem ESTATÍSTICA)

In [31]:
# carregando as bibliotecas
from pandas_ods_reader import read_ods
from sklearn.feature_extraction.text import TfidfVectorizer
# carregando o corpus de perguntas
df = read_ods("Perguntas+Respostas.ods",1)
df = df.applymap(lambda s:s.lower() if isinstance(s, str) else s)
# calculando o TF-IDF do corpus
tfidf_vectorizer=TfidfVectorizer(max_df=0.85, stop_words=stopwords.words('portuguese'), use_idf=True)
docs = df['Pergunta'].tolist()
tfidf_corpus=tfidf_vectorizer.fit_transform(docs)
# definindo a pergunta
pergunta = ["Onde posso comprar ingressos para shows e espetáculos?".lower()]
# calculando TF-IDF da pergunta
tfidf_pergunta = tfidf_vectorizer.transform(pergunta)
# vocabulário da pergunta
palavras = tfidf_vectorizer.get_feature_names()
# selecionando palavras chaves
palavras_chaves = [ palavras[i] for i in tfidf_pergunta.tocoo().col ]
# pesquisando
pesquisa = '|'.join([palavra for palavra in palavras_chaves])
result = df.Pergunta[df.Pergunta.str.contains(pesquisa)]
# apresentando o resultado
print(len(result))
result

8


0     onde posso comprar ingressos para shows e espe...
1             posso comprar ingressos no dia do evento?
2     é possível que familiares ou amigos comprem in...
8     é possível conseguir uma nota fiscal apenas na...
13    é possível trocar o assento do meu ingresso no...
18    há alguma restrição em relação a menores de id...
19    nos espetáculos infantis, são permitidas crian...
21    posso levar meu animal de estimação para o tea...
Name: Pergunta, dtype: object

# Abordagem baseada em linguística

In [32]:
import spacy
nlp = spacy.load("pt_core_news_sm")
frase = ("Onde posso comprar ingressos para shows e espetáculos?".lower())
frase = nlp(frase)

In [33]:
frase = [palavra for palavra in frase]

In [34]:
for palavra in frase :
    print(palavra.pos_,'\t',palavra.text)

ADV 	 onde
AUX 	 posso
VERB 	 comprar
NOUN 	 ingressos
ADP 	 para
NOUN 	 shows
CCONJ 	 e
NOUN 	 espetáculos
PUNCT 	 ?


In [35]:
palavras_chaves = [palavra for palavra in frase if palavra.pos_ in ['VERB','NOUN','ADJ']]

In [36]:
for palavra in palavras_chaves :
    print(palavra.pos_,'\t',palavra.text)

VERB 	 comprar
NOUN 	 ingressos
NOUN 	 shows
NOUN 	 espetáculos


#### Selecionando as PALAVRAS CHAVES pela sua função sintática

In [37]:
pesquisa = '|'.join([palavra.text for palavra in palavras_chaves])
pesquisa

'comprar|ingressos|shows|espetáculos'

#### Pesquisando com OR + PALAVRAS CHAVES LINGUÍSTICA

In [38]:
result = df.Pergunta[df.Pergunta.str.contains(pesquisa)]
print(len(result))
result

6


0     onde posso comprar ingressos para shows e espe...
1             posso comprar ingressos no dia do evento?
2     é possível que familiares ou amigos comprem in...
8     é possível conseguir uma nota fiscal apenas na...
18    há alguma restrição em relação a menores de id...
19    nos espetáculos infantis, são permitidas crian...
Name: Pergunta, dtype: object

#### Juntando tudo (abordagem LINGUÍSTICA)

In [39]:
# carregando as bibliotecas
import spacy
from pandas_ods_reader import read_ods
# carregando o corpus de perguntas
df = read_ods("Perguntas+Respostas.ods",1)
df = df.applymap(lambda s:s.lower() if isinstance(s, str) else s)
# inicializando o parser
nlp = spacy.load("pt_core_news_sm")
# definindo a pergunta
pergunta = "Onde posso comprar ingressos para shows e espetáculos?".lower()
# analisando a pergunta
pergunta = nlp(pergunta)
# selecionando as palavras chaves
palavras_chaves = [palavra for palavra in pergunta if palavra.pos_ in ['VERB','NOUN','ADJ']]
# pesquisando
pesquisa = '|'.join([palavra.text for palavra in palavras_chaves])
resultado = df.Pergunta[df.Pergunta.str.contains(pesquisa)]
# apresentando o resultado
print('Número de respostas encontradas:',len(resultado))
resultado

Número de respostas encontradas: 6


0     onde posso comprar ingressos para shows e espe...
1             posso comprar ingressos no dia do evento?
2     é possível que familiares ou amigos comprem in...
8     é possível conseguir uma nota fiscal apenas na...
18    há alguma restrição em relação a menores de id...
19    nos espetáculos infantis, são permitidas crian...
Name: Pergunta, dtype: object