# Chatbot com Python e NLTK para pesquisar documentos

## Etapa 1: Importação das bibliotecas

In [1]:
import bs4 as bs
# pip install bs4
import urllib.request
import re
import nltk
import numpy as np
import random
import string

In [2]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/richard/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [3]:
pip install spacy --upgrade

Requirement already up-to-date: spacy in /home/richard/anaconda3/lib/python3.8/site-packages (2.3.5)
Note: you may need to restart the kernel to use updated packages.


In [4]:
import spacy

In [5]:
spacy.__version__

'2.3.5'

In [6]:
nltk.__version__

'3.5'

In [7]:
!python3 -m spacy download pt

[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('pt_core_news_sm')
[38;5;2m✔ Linking successful[0m
/home/richard/anaconda3/lib/python3.8/site-packages/pt_core_news_sm -->
/home/richard/anaconda3/lib/python3.8/site-packages/spacy/data/pt
You can now load the model via spacy.load('pt')


## Etapa 2: Carregamento e pré-processamento da base de dados

### Carregamento da base de dados

In [8]:
dados = urllib.request.urlopen('https://pt.wikipedia.org/wiki/Intelig%C3%AAncia_artificial')

In [9]:
dados = dados.read()

In [10]:
dados

b'<!DOCTYPE html>\n<html class="client-nojs" lang="pt" dir="ltr">\n<head>\n<meta charset="UTF-8"/>\n<title>Intelig\xc3\xaancia artificial \xe2\x80\x93 Wikip\xc3\xa9dia, a enciclop\xc3\xa9dia livre</title>\n<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":!1,"wgSeparatorTransformTable":[",\\t.","\xc2\xa0\\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","janeiro","fevereiro","mar\xc3\xa7o","abril","maio","junho","julho","agosto","setembro","outubro","novembro","dezembro"],"wgRequestId":"X-Y9OQpAMNUAA-TifQAAAAAF","wgCSPNonce":!1,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":!1,"wgNamespaceNumber":0,"wgPageName":"Intelig\xc3\xaancia_artificial","wgTitle":"Intelig\xc3\xaancia artificial","wgCurRevisionId":59975375,"wgRevisionId":59975375,"wgArticleId":12722,"wgIsArticle":!0,"wgIsRedirect":!1,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["!CS1 manut: Nomes m\xc3\xbaltiplos: lista de autores"

In [11]:
dados_html = bs.BeautifulSoup(dados, 'lxml')

In [12]:
dados_html

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="pt">
<head>
<meta charset="utf-8"/>
<title>Inteligência artificial – Wikipédia, a enciclopédia livre</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":!1,"wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","janeiro","fevereiro","março","abril","maio","junho","julho","agosto","setembro","outubro","novembro","dezembro"],"wgRequestId":"X-Y9OQpAMNUAA-TifQAAAAAF","wgCSPNonce":!1,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":!1,"wgNamespaceNumber":0,"wgPageName":"Inteligência_artificial","wgTitle":"Inteligência artificial","wgCurRevisionId":59975375,"wgRevisionId":59975375,"wgArticleId":12722,"wgIsArticle":!0,"wgIsRedirect":!1,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["!CS1 manut: Nomes múltiplos: lista de autores","!CS1 inglês-fontes em língua (en)","!Artigos destacados na Wikipédia em tá

In [13]:
paragrafos = dados_html.find_all('p')

In [14]:
len(paragrafos)

65

In [15]:
paragrafos[0]

<p><b>Inteligência artificial</b> (por vezes mencionada pela sigla em português <b>IA</b> ou pela sigla em inglês <b>AI</b> - <i>artificial intelligence</i>) é a <a href="/wiki/Intelig%C3%AAncia" title="Inteligência">inteligência</a> similar à humana exibida por sistemas de software, além de também ser um campo de estudo acadêmico. Os principais pesquisadores e livros didáticos definem o campo como "o estudo e projeto de agentes inteligentes", onde um <a href="/wiki/Agente_inteligente" title="Agente inteligente">agente inteligente</a> é um sistema que percebe seu ambiente e toma atitudes que maximizam suas chances de sucesso. <a href="/wiki/Andreas_Kaplan" title="Andreas Kaplan">Andreas Kaplan</a> e Michael Haenlein definem a inteligência artificial como “uma capacidade do sistema para interpretar corretamente dados externos, aprender a partir desses dados e utilizar essas aprendizagens para atingir objetivos e tarefas específicos através de adaptação flexível”.<sup class="reference" i

In [16]:
paragrafos[0].text

'Inteligência artificial (por vezes mencionada pela sigla em português IA ou pela sigla em inglês AI - artificial intelligence) é a inteligência similar à humana exibida por sistemas de software, além de também ser um campo de estudo acadêmico. Os principais pesquisadores e livros didáticos definem o campo como "o estudo e projeto de agentes inteligentes", onde um agente inteligente é um sistema que percebe seu ambiente e toma atitudes que maximizam suas chances de sucesso. Andreas Kaplan e Michael Haenlein definem a inteligência artificial como “uma capacidade do sistema para interpretar corretamente dados externos, aprender a partir desses dados e utilizar essas aprendizagens para atingir objetivos e tarefas específicos através de adaptação flexível”.[1] John McCarthy, quem cunhou o termo em 1956 ("numa conferência de especialistas celebrada em Darmouth Colege" Gubern, Román: O Eros Eletrónico), a define como "a ciência e engenharia de produzir máquinas inteligentes". É uma área de p

In [17]:
conteudo = ''
for p in paragrafos:
    conteudo += p.text

In [18]:
conteudo

'Inteligência artificial (por vezes mencionada pela sigla em português IA ou pela sigla em inglês AI - artificial intelligence) é a inteligência similar à humana exibida por sistemas de software, além de também ser um campo de estudo acadêmico. Os principais pesquisadores e livros didáticos definem o campo como "o estudo e projeto de agentes inteligentes", onde um agente inteligente é um sistema que percebe seu ambiente e toma atitudes que maximizam suas chances de sucesso. Andreas Kaplan e Michael Haenlein definem a inteligência artificial como “uma capacidade do sistema para interpretar corretamente dados externos, aprender a partir desses dados e utilizar essas aprendizagens para atingir objetivos e tarefas específicos através de adaptação flexível”.[1] John McCarthy, quem cunhou o termo em 1956 ("numa conferência de especialistas celebrada em Darmouth Colege" Gubern, Román: O Eros Eletrónico), a define como "a ciência e engenharia de produzir máquinas inteligentes". É uma área de p

### Pré-processamento da base de dados

In [19]:
conteudo = conteudo.lower()
conteudo

'inteligência artificial (por vezes mencionada pela sigla em português ia ou pela sigla em inglês ai - artificial intelligence) é a inteligência similar à humana exibida por sistemas de software, além de também ser um campo de estudo acadêmico. os principais pesquisadores e livros didáticos definem o campo como "o estudo e projeto de agentes inteligentes", onde um agente inteligente é um sistema que percebe seu ambiente e toma atitudes que maximizam suas chances de sucesso. andreas kaplan e michael haenlein definem a inteligência artificial como “uma capacidade do sistema para interpretar corretamente dados externos, aprender a partir desses dados e utilizar essas aprendizagens para atingir objetivos e tarefas específicos através de adaptação flexível”.[1] john mccarthy, quem cunhou o termo em 1956 ("numa conferência de especialistas celebrada em darmouth colege" gubern, román: o eros eletrónico), a define como "a ciência e engenharia de produzir máquinas inteligentes". é uma área de p

In [20]:
lista_sentencas = nltk.sent_tokenize(conteudo)

In [21]:
lista_sentencas

['inteligência artificial (por vezes mencionada pela sigla em português ia ou pela sigla em inglês ai - artificial intelligence) é a inteligência similar à humana exibida por sistemas de software, além de também ser um campo de estudo acadêmico.',
 'os principais pesquisadores e livros didáticos definem o campo como "o estudo e projeto de agentes inteligentes", onde um agente inteligente é um sistema que percebe seu ambiente e toma atitudes que maximizam suas chances de sucesso.',
 'andreas kaplan e michael haenlein definem a inteligência artificial como “uma capacidade do sistema para interpretar corretamente dados externos, aprender a partir desses dados e utilizar essas aprendizagens para atingir objetivos e tarefas específicos através de adaptação flexível”.',
 '[1] john mccarthy, quem cunhou o termo em 1956 ("numa conferência de especialistas celebrada em darmouth colege" gubern, román: o eros eletrónico), a define como "a ciência e engenharia de produzir máquinas inteligentes".',

In [22]:
len(lista_sentencas)

229

In [23]:
type(lista_sentencas)

list

In [24]:
lista_sentencas[0]

'inteligência artificial (por vezes mencionada pela sigla em português ia ou pela sigla em inglês ai - artificial intelligence) é a inteligência similar à humana exibida por sistemas de software, além de também ser um campo de estudo acadêmico.'

In [25]:
pln = spacy.load('pt')
pln

<spacy.lang.pt.Portuguese at 0x7f674a5ea730>

In [26]:
stop_words = spacy.lang.pt.stop_words.STOP_WORDS

In [27]:
print(stop_words)

{'povo', 'quem', 'inclusive', 'vens', 'quieta', 'já', 'primeiro', 'devem', 'deste', 'tentar', 'quatro', 'nas', 'porém', 'aquilo', 'adeus', 'vão', 'estivestes', 'grupo', 'contra', 'cá', 'podem', 'primeira', 'desta', 'boa', 'tão', 'próxima', 'além', 'longe', 'onde', 'tipo', 'eles', 'tenho', 'foste', 'próprio', 'aquele', 'pôde', 'vinte', 'tua', 'exemplo', 'algo', 'dentro', 'zero', 'muito', 'nesta', 'novas', 'mês', 'local', 'sob', 'conselho', 'dos', 'veja', 'talvez', 'as', 'quais', 'ir', 'cedo', 'menor', 'seis', 'somos', 'direita', 'parece', 'dezasseis', 'têm', 'oitava', 'embora', 'nos', 'te', 'uns', 'estas', 'sempre', 'está', 'ora', 'no', 'perto', 'teve', 'elas', 'poder', 'pelos', 'partir', 'eu', 'lá', 'sétimo', 'tens', 'deverá', 'conhecida', 'quê', 'esta', 'iniciar', 'quer', 'tais', 'ambos', 'nossas', 'posição', 'tudo', 'usa', 'bom', 'vossa', 'números', 'ter', 'lhe', 'nenhuma', 'treze', 'cima', 'pois', 'questão', 'teu', 'momento', 'maiorias', 'apenas', 'dessa', 'tivestes', 'fazeis', 'naq

In [28]:
type(stop_words)

set

In [29]:
len(stop_words)

413

In [30]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

Dica para testar expressoes regulares : regexr.com

In [31]:
def preprocessamento(texto):
  # URLs
  texto = re.sub(r"https?://[A-Za-z0-9./]+", ' ', texto)

  # Espaços em branco
  texto = re.sub(r" +", ' ', texto)

  documento = pln(texto) #converter para o formato do spacy
  lista = []
  for token in documento:
    lista.append(token.lemma_) #lematizacao para extrair somente o radical das palavras

  lista = [palavra for palavra in lista if palavra not in stop_words and palavra not in string.punctuation]
  # remocao das stop words e das pontuacoes
    
  lista = ' '.join([str(elemento) for elemento in lista if not elemento.isdigit()])
  # remocao das digitos, numeros e etc
    
  return lista

In [32]:
texto_teste = 'https://richardnixon.dev ' + lista_sentencas[0]
texto_teste

'https://richardnixon.dev inteligência artificial (por vezes mencionada pela sigla em português ia ou pela sigla em inglês ai - artificial intelligence) é a inteligência similar à humana exibida por sistemas de software, além de também ser um campo de estudo acadêmico.'

In [33]:
resultado = preprocessamento(texto_teste) # teste de remocao de url
resultado

'  inteligência artificial vezar mencionar pelar sigla português pelar sigla inglês ai artificial intelligence o inteligência similar humano exibir software campar estudar acadêmico'

In [34]:
lista_sentencas_preprocessada = []
for i in range(len(lista_sentencas)):
  lista_sentencas_preprocessada.append(preprocessamento(lista_sentencas[i]))

In [35]:
for _ in range(5):
  i = random.randint(0, len(lista_sentencas) - 1)
  print(lista_sentencas[i])
  print(lista_sentencas_preprocessada[i])
  print('-----')
# retorna de forma aleatoria as listas de sentencas antes e apos o pre-processamento(remocao de stop words, acentos, numeros e etc)

os principais pesquisadores e livros didáticos definem o campo como "o estudo e projeto de agentes inteligentes", onde um agente inteligente é um sistema que percebe seu ambiente e toma atitudes que maximizam suas chances de sucesso.
o principal pesquisador e livro didáticos definir o campar comer o estudar e projeto agente inteligente agente inteligente perceber ambientar e tomar atitude maximizar suar chance sucesso
-----
por outro lado, o mesmo asimov reduz os robôs a servos dos seres humanos ao propor as três leis da robótica.
outro o asimov reduzir o robô o servo humano propor o lei robótico
-----
outros filósofos sustentam visões diferentes.
outro filósofo sustentar visão diferente
-----
as críticas sobre a impossibilidade de criar uma inteligência em um composto artificial podem ser encontradas em jean-françois lyotard (o pós-humano) e lucien sfez (crítica da comunicação); uma contextualização didática do debate encontra-se em sherry turkle (o segundo eu: os computadores e o esp

## Etapa 3: Frases de boas-vindas

In [36]:
textos_boas_vindas_entrada = ('hey', 'olá', 'opa', 'oi', 'eae')
textos_boas_vindas_respostas = ('hey', 'olá', 'opa', 'oi', 'bem-vindo', 'como você está?')

In [37]:
def responder_saudacao(texto):
  for palavra in texto.split():
    if palavra.lower() in textos_boas_vindas_entrada: #transforma tudo em minisculo
      return random.choice(textos_boas_vindas_respostas) # escolhe uma resposta aleatoria dentro dos textos de textos_boas_vindas_respostas

In [38]:
responder_saudacao('olá tudo bem?')

'bem-vindo'

## Etapa 4: Entendimento TF-IDF (Term frequency - inverse document frequency)

### Bag of words

- *Este é o primeiro documento*
- *Este documento é o segundo documento*

**- este é o primeiro segundo documento**
- 1 1 1 1 0 1
- 1 1 1 0 1 2

- Palavras muito frequentes "dominam" o documento e podem não representar tanta informação sobre o contexto
- Maiores "pesos" para documentos longos do que para documentos pequenos

### TF-IDF (Term frequency - inverse document frequency)

- Redimensionar a frequência das palavras pela frequência com que aparecem em todos os documentos
- **Term frequency (TF)**: frequência da palavra no documento atual - TF = (número de vezes que o termo **t** aparece no documento) / (número de termos no documento)
- **Inverse document frequency (IDF)**: quão rara é a palavra nos documentos - IDF = log(N/n), **N** é o número de documentos e **n** é o número de documentos que o termo **t** apareceu
- **TF-IDF**: importância de uma palavra para um documento em uma coleção ou corpus

- Considerando um documento com 100 palavras no qual a palavra cachorro aparece 5 vezes
- TF = 5 / 100 = 0.05
- Temos 100 documentos no total (N) e a palavra cachorro aparece aparece em 20 desses documentos (n)
- IDF = log(100 / 20) = 0.69
- TF-IDF = 0.05 * 0.69 = 0.034

- Quanto maior o valor do peso, mais raro é o termo. Quanto menor o peso, mais comum é o termo

In [39]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [40]:
frases_teste = lista_sentencas_preprocessada[:3]
frases_teste

['inteligência artificial vezar mencionar pelar sigla português pelar sigla inglês ai artificial intelligence o inteligência similar humano exibir software campar estudar acadêmico',
 'o principal pesquisador e livro didáticos definir o campar comer o estudar e projeto agente inteligente agente inteligente perceber ambientar e tomar atitude maximizar suar chance sucesso',
 'andreas kaplan e michael haenlein definir o inteligência artificial comer “ umar capacidade parir interpretar corretamente externo aprender o dessar e utilizar aprendizagem parir atingir objetivos e tarefar específico adaptação flexível ”']

In [41]:
frases_teste.append(frases_teste[0])
frases_teste
# fizemos um append para repetir a primeira frase, afim de utilizar posteriormente em um calculo de similaridade

['inteligência artificial vezar mencionar pelar sigla português pelar sigla inglês ai artificial intelligence o inteligência similar humano exibir software campar estudar acadêmico',
 'o principal pesquisador e livro didáticos definir o campar comer o estudar e projeto agente inteligente agente inteligente perceber ambientar e tomar atitude maximizar suar chance sucesso',
 'andreas kaplan e michael haenlein definir o inteligência artificial comer “ umar capacidade parir interpretar corretamente externo aprender o dessar e utilizar aprendizagem parir atingir objetivos e tarefar específico adaptação flexível ”',
 'inteligência artificial vezar mencionar pelar sigla português pelar sigla inglês ai artificial intelligence o inteligência similar humano exibir software campar estudar acadêmico']

In [42]:
vetores_palavras = TfidfVectorizer()
palavras_vetorizadas = vetores_palavras.fit_transform(frases_teste)

In [43]:
type(palavras_vetorizadas)

scipy.sparse.csr.csr_matrix

In [44]:
palavras_vetorizadas

<4x54 sparse matrix of type '<class 'numpy.float64'>'
	with 77 stored elements in Compressed Sparse Row format>

In [45]:
print(vetores_palavras.get_feature_names())
# mostra qual são as palavras unicas que existem nestas frases.

['acadêmico', 'adaptação', 'agente', 'ai', 'ambientar', 'andreas', 'aprender', 'aprendizagem', 'artificial', 'atingir', 'atitude', 'campar', 'capacidade', 'chance', 'comer', 'corretamente', 'definir', 'dessar', 'didáticos', 'específico', 'estudar', 'exibir', 'externo', 'flexível', 'haenlein', 'humano', 'inglês', 'inteligente', 'inteligência', 'intelligence', 'interpretar', 'kaplan', 'livro', 'maximizar', 'mencionar', 'michael', 'objetivos', 'parir', 'pelar', 'perceber', 'pesquisador', 'português', 'principal', 'projeto', 'sigla', 'similar', 'software', 'suar', 'sucesso', 'tarefar', 'tomar', 'umar', 'utilizar', 'vezar']


In [46]:
len(vetores_palavras.get_feature_names())

54

In [47]:
print(vetores_palavras.vocabulary_)
# cada palavra vai receber um ID unico, feito pelo sklearn

{'inteligência': 28, 'artificial': 8, 'vezar': 53, 'mencionar': 34, 'pelar': 38, 'sigla': 44, 'português': 41, 'inglês': 26, 'ai': 3, 'intelligence': 29, 'similar': 45, 'humano': 25, 'exibir': 21, 'software': 46, 'campar': 11, 'estudar': 20, 'acadêmico': 0, 'principal': 42, 'pesquisador': 40, 'livro': 32, 'didáticos': 18, 'definir': 16, 'comer': 14, 'projeto': 43, 'agente': 2, 'inteligente': 27, 'perceber': 39, 'ambientar': 4, 'tomar': 50, 'atitude': 10, 'maximizar': 33, 'suar': 47, 'chance': 13, 'sucesso': 48, 'andreas': 5, 'kaplan': 31, 'michael': 35, 'haenlein': 24, 'umar': 51, 'capacidade': 12, 'parir': 37, 'interpretar': 30, 'corretamente': 15, 'externo': 22, 'aprender': 6, 'dessar': 17, 'utilizar': 52, 'aprendizagem': 7, 'atingir': 9, 'objetivos': 36, 'tarefar': 49, 'específico': 19, 'adaptação': 1, 'flexível': 23}


In [48]:
print(vetores_palavras.idf_)
# mostra somente a primeira parte do calculo relacionado ao IDF = log(N/n)

[1.51082562 1.91629073 1.91629073 1.51082562 1.91629073 1.91629073
 1.91629073 1.91629073 1.22314355 1.91629073 1.91629073 1.22314355
 1.91629073 1.91629073 1.51082562 1.91629073 1.51082562 1.91629073
 1.91629073 1.91629073 1.22314355 1.51082562 1.91629073 1.91629073
 1.91629073 1.51082562 1.51082562 1.91629073 1.22314355 1.51082562
 1.91629073 1.91629073 1.91629073 1.91629073 1.51082562 1.91629073
 1.91629073 1.91629073 1.51082562 1.91629073 1.91629073 1.51082562
 1.91629073 1.91629073 1.51082562 1.51082562 1.51082562 1.91629073
 1.91629073 1.91629073 1.91629073 1.91629073 1.91629073 1.51082562]


In [49]:
palavras_vetorizadas.todense()
# comando todense() mostra o conteudo da matriz, já com os calculos completos de TF-IDF de cada uma das palavras..

matrix([[0.19781901, 0.        , 0.        , 0.19781901, 0.        ,
         0.        , 0.        , 0.        , 0.32030307, 0.        ,
         0.        , 0.16015154, 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.16015154, 0.19781901, 0.        , 0.        , 0.        ,
         0.19781901, 0.19781901, 0.        , 0.32030307, 0.19781901,
         0.        , 0.        , 0.        , 0.        , 0.19781901,
         0.        , 0.        , 0.        , 0.39563802, 0.        ,
         0.        , 0.19781901, 0.        , 0.        , 0.39563802,
         0.19781901, 0.19781901, 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.19781901],
        [0.        , 0.        , 0.41650395, 0.        , 0.20825197,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.20825197, 0.13292454, 0.        , 0.20825197, 0.16418825,
         0.        , 0.16418825, 0.        , 

In [50]:
palavras_vetorizadas.todense().shape

(4, 54)

## Etapa 5: Entendimento similaridade cosseno

- Link: https://en.wikipedia.org/wiki/Cosine_similarity
- Cálculos passo a passo: https://janav.wordpress.com/2013/10/27/tf-idf-and-cosine-similarity/
- Temos duas matrizes: TF e IDF
- Cosine Similarity (d1, d2) =  Dot product(d1, d2) / ||d1|| * ||d2||

In [51]:
from sklearn.metrics.pairwise import cosine_similarity

In [52]:
palavras_vetorizadas[0].todense()

matrix([[0.19781901, 0.        , 0.        , 0.19781901, 0.        ,
         0.        , 0.        , 0.        , 0.32030307, 0.        ,
         0.        , 0.16015154, 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.16015154, 0.19781901, 0.        , 0.        , 0.        ,
         0.19781901, 0.19781901, 0.        , 0.32030307, 0.19781901,
         0.        , 0.        , 0.        , 0.        , 0.19781901,
         0.        , 0.        , 0.        , 0.39563802, 0.        ,
         0.        , 0.19781901, 0.        , 0.        , 0.39563802,
         0.19781901, 0.19781901, 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.19781901]])

In [53]:
cosine_similarity(palavras_vetorizadas[0], palavras_vetorizadas[1])
# função de comparação de similaridade dos cosenos, das palavras da 
# posição [ 0 ] com as palavras da posição [ 1 ] das Palavras Vetorizadas

array([[0.04257614]])

### equivale a 3% a 4% de similaridade.. procuramos valores proximos a 1. em valores exatamente iguais, teremos o numero 1 como mostra o exemplo abaixo.

In [54]:
cosine_similarity(palavras_vetorizadas[0], palavras_vetorizadas[3])

array([[1.]])

### equivale a 100 de similaridade..

In [55]:
similaridade = cosine_similarity(palavras_vetorizadas[0], palavras_vetorizadas)
similaridade

array([[1.        , 0.04257614, 0.08168341, 1.        ]])

### comparacao com todas as frases

In [56]:
similaridade.argsort()

array([[1, 2, 0, 3]])

### organiza os indices que possuem os maiores valores da direita pra esquerda.. o indice 1 possui o menor valor.

In [57]:
i = similaridade.argsort()[0][-2]
i



0

In [58]:
i = i.flatten()
i

array([0])

In [59]:
def responder(texto_usuario):
  resposta_chatbot = ''
  lista_sentencas_preprocessada.append(texto_usuario)

  tfidf = TfidfVectorizer()
  palavras_vetorizadas = tfidf.fit_transform(lista_sentencas_preprocessada)

  similaridade = cosine_similarity(palavras_vetorizadas[-1], palavras_vetorizadas)

  indice_sentenca = similaridade.argsort()[0][-2]
  vetor_similar = similaridade.flatten()
  vetor_similar.sort()
  vetor_encontrado = vetor_similar[-2]

  if (vetor_encontrado == 0):
    resposta_chatbot = resposta_chatbot + 'Desculpe, mas não entendi!'
    return resposta_chatbot
  else:
    resposta_chatbot = resposta_chatbot + lista_sentencas[indice_sentenca]
    return resposta_chatbot