<a href="https://colab.research.google.com/github/luisaheise/Caterpillar-Invaders/blob/main/projeto_chatbot.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
!pip install transformers

Collecting transformers
[?25l  Downloading https://files.pythonhosted.org/packages/50/0c/7d5950fcd80b029be0a8891727ba21e0cd27692c407c51261c3c921f6da3/transformers-4.1.1-py3-none-any.whl (1.5MB)
[K     |████████████████████████████████| 1.5MB 5.9MB/s 
Collecting sacremoses
[?25l  Downloading https://files.pythonhosted.org/packages/7d/34/09d19aff26edcc8eb2a01bed8e98f13a1537005d31e95233fd48216eed10/sacremoses-0.0.43.tar.gz (883kB)
[K     |████████████████████████████████| 890kB 40.6MB/s 
Collecting tokenizers==0.9.4
[?25l  Downloading https://files.pythonhosted.org/packages/0f/1c/e789a8b12e28be5bc1ce2156cf87cb522b379be9cadc7ad8091a4cc107c4/tokenizers-0.9.4-cp36-cp36m-manylinux2010_x86_64.whl (2.9MB)
[K     |████████████████████████████████| 2.9MB 41.5MB/s 
Building wheels for collected packages: sacremoses
  Building wheel for sacremoses (setup.py) ... [?25l[?25hdone
  Created wheel for sacremoses: filename=sacremoses-0.0.43-cp36-none-any.whl size=893261 sha256=2fa1867f057574a5602

In [2]:
from transformers import AutoTokenizer  
from transformers import AutoModel 
import torch
import numpy as np
import pandas as pd
import nltk
from nltk import word_tokenize

nltk.download('stopwords')
nltk.download('punkt')

class QuestionEmbeddings():
    def __init__(self, question_path, greeting, no_answer, similarity_threshold=0.80, count_stops=False, media=True):
        self.no_answer = no_answer
        self.similarity_threshold = similarity_threshold
        self.greeting = greeting
        self.count_stops = count_stops
        self.media = media
        self.tokenizer = AutoTokenizer.from_pretrained('neuralmind/bert-base-portuguese-cased', do_lower_case=False)
        self.model = AutoModel.from_pretrained('neuralmind/bert-base-portuguese-cased')
        self.stopwords = nltk.corpus.stopwords.words('portuguese')
        perguntas_frequentes_int = pd.read_excel(question_path)
        self.perguntas_frequentes = self.get_database_embs(perguntas_frequentes_int)

    def get_database_embs(self, perguntas_frequentes):
        embs = []
        for i, row in perguntas_frequentes.iterrows():
            emb = self.get_sentence_embs(row['PERGUNTAS'])
            embs.append(emb)
        perguntas_frequentes['Sentence Embedding'] = embs
        return perguntas_frequentes

    def get_embs_bertinbau(self, frase):
        input_ids = self.tokenizer.encode(frase, return_tensors='pt')
        with torch.no_grad():
            outs = self.model(input_ids)
            encoded = outs[0][0, 1:-1] 
        return encoded

    def get_sentence_embs(self, frase):
        frase_embs = self.get_embs_bertinbau(frase.lower()).numpy()
        frase_embs_considerados = []
        palavras = word_tokenize(frase.lower())
        for palavra, embedding in zip(palavras, frase_embs):
            if not(self.count_stops):
                if not(palavra in self.stopwords):
                    frase_embs_considerados.append(embedding)
            else:
                frase_embs_considerados.append(embedding)
        frase_embs_considerados = np.array(frase_embs_considerados)
        if self.media:
            final = np.mean(frase_embs_considerados, axis=0)
        else:
            final = np.sum(frase_embs_considerados, axis=0)
        return final
    
    def semelhanca_cossenos(self, a,b):
        return np.dot(a,b)/(np.linalg.norm(a)*np.linalg.norm(b))
    
    def get_most_similar_phrase(self, frase):
        mais_similar = ""
        maior_score_similaridade = -999

        sentence_emb = self.get_sentence_embs(frase)
        for i, row in self.perguntas_frequentes.iterrows():
            similaridade = self.semelhanca_cossenos(sentence_emb,row['Sentence Embedding'])
            if similaridade > maior_score_similaridade:
                maior_score_similaridade = similaridade
                mais_similar = row['PERGUNTAS']
        return mais_similar, maior_score_similaridade
    
    def get_response(self, frase):
        question, similaridade = self.get_most_similar_phrase(frase)
        anwser = self.perguntas_frequentes[self.perguntas_frequentes['PERGUNTAS']  ==  question]['RESPOSTAS'].values[0]
        print(f"Pergunta mais similar na base de dados: \n {question}\nsimilaridade = {similaridade*100}%")
        if similaridade < self.similarity_threshold:
            anwser = self.no_answer
        full_answer = self.greeting  + anwser
        return full_answer


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [3]:
gret = "Olá! Obrigado por entrar em contato!"
noans = "Em breve um de nossos membros te responderá!"
qe = QuestionEmbeddings("/content/q_and_a.xlsx", gret, noans)

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=647.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=209528.0, style=ProgressStyle(descripti…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=2.0, style=ProgressStyle(description_wi…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=112.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=43.0, style=ProgressStyle(description_w…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=438235074.0, style=ProgressStyle(descri…




In [4]:
qe.get_response("quando é o processo seletivo?")

Pergunta mais similar na base de dados: 
 Quando abre o Processo Seletivo?
similaridade = 94.71486806869507%


'Olá! Obrigado por entrar em contato!O processo seletivo do Grupo Turing abre apenas uma vez por ano, no inicio do ano letivo da USP. Para acompanhar notícias sobre o processo siga nossas redes sociais:\nInstagram: @grupoturing.usp'

In [5]:
qe.get_response("como é o ps?")

Pergunta mais similar na base de dados: 
 Poderia me explicar como funciona o PS?
similaridade = 75.2830982208252%


'Olá! Obrigado por entrar em contato!As regras específicas do nosso processo seletivo serão informadas quando iniciarmos a divulgação. Mas, em geral, contamos com um Case Técnico, uma dinâmica em grupo e uma entrevista ao final.'

In [6]:
qe.get_response("vcs fazem a sobrancelha?")

Pergunta mais similar na base de dados: 
 Vocês fazem design de sobrancelha?
similaridade = 82.99254179000854%


'Olá! Obrigado por entrar em contato!Para esse serviço, você deve contactar nosso membro, Felipe Azank, no zap 19 99662-3900. Ou se preferir invadir a casa dele: Av. Kenkiti Simomoto 728 - Jaguaré ap. 162, 16º andar'

In [7]:
qe.get_response("vcs fazem a sombrancelha?")

Pergunta mais similar na base de dados: 
 Vocês fazem design de sobrancelha?
similaridade = 71.48125171661377%


'Olá! Obrigado por entrar em contato!Para esse serviço, você deve contactar nosso membro, Felipe Azank, no zap 19 99662-3900. Ou se preferir invadir a casa dele: Av. Kenkiti Simomoto 728 - Jaguaré ap. 162, 16º andar'

In [8]:
qe.get_response("me dá sorvetinho?")

Pergunta mais similar na base de dados: 
 O Sibuya pode me comprar  um sorvete?
similaridade = 55.19858002662659%


'Olá! Obrigado por entrar em contato!Em breve um de nossos membros te responderá!'

In [10]:
qe.get_response("Sibuya me dá um sorvetinho?")

Pergunta mais similar na base de dados: 
 O Sibuya pode me comprar  um sorvete?
similaridade = 72.90801405906677%


'Olá! Obrigado por entrar em contato!O SIbuya só dá sorvete para membros de comunidade'

In [11]:
qe.get_response("vocês ensinam python?")

Pergunta mais similar na base de dados: 
 Vocês oferecem curso basico de Python?
similaridade = 78.89406681060791%


'Olá! Obrigado por entrar em contato!Não oferecemos curso de Python ou de qualquer outra linguagem de programação. Nosso grupo é voltado para pesquisa, aplicações de projetos e realizações de eventos. Entretanto, temos aulas de Python em nosso canal no youtube'

In [15]:
qe.get_response("vocês ensinam pyton?")

Pergunta mais similar na base de dados: 
 Vocês oferecem curso basico de Python?
similaridade = 76.55329704284668%


'Olá! Obrigado por entrar em contato!Não oferecemos curso de Python ou de qualquer outra linguagem de programação. Nosso grupo é voltado para pesquisa, aplicações de projetos e realizações de eventos. Entretanto, temos aulas de Python em nosso canal no youtube'

In [16]:
qe.get_response("vocês ensinam phyton?")

Pergunta mais similar na base de dados: 
 Vocês oferecem curso basico de Python?
similaridade = 76.03037357330322%


'Olá! Obrigado por entrar em contato!Não oferecemos curso de Python ou de qualquer outra linguagem de programação. Nosso grupo é voltado para pesquisa, aplicações de projetos e realizações de eventos. Entretanto, temos aulas de Python em nosso canal no youtube'

In [17]:
qe.get_response("Azank tá bem?")

Pergunta mais similar na base de dados: 
 O Azank tá bravo?
similaridade = 78.39685082435608%


'Olá! Obrigado por entrar em contato!O Azank sempre está pistola'

In [18]:
qe.get_response("vcs poderiam divulgar uma vaga de estágio?")

Pergunta mais similar na base de dados: 
 Eu queria saber se vocês tem algum local especifico para fazer divulgação de vagas de emprego
similaridade = 80.09474277496338%


'Olá! Obrigado por entrar em contato!Você pode utilizar nosso servidor no Discord para divulgar vagas de emprego - https://discord.gg/26RGmBS '

In [19]:
qe.get_response("estou com uma vaga aberta pra cientista de dados na minha empresa. Vocês podem divulgar?")

Pergunta mais similar na base de dados: 
 Eu queria saber se vocês tem algum local especifico para fazer divulgação de vagas de emprego
similaridade = 72.26579189300537%


'Olá! Obrigado por entrar em contato!Você pode utilizar nosso servidor no Discord para divulgar vagas de emprego - https://discord.gg/26RGmBS '

In [20]:
qe.get_response("Fala gente, tudo bem? Sou aluno da Poli e estou entrando em contato sob indicação do professor André Fleury. Estou abrindo uma empresa bem maneira, inspirade nessa aqui (www.tylko.com). Estamos a procura de alguém para integrar a área de programação e possivelmente assumir posições de liderança, já que ainda não temos um CTO definido. Queria saber como faço para conseguir conversar com a rede de vocês e possivelmente aprofundar as conversas com alguns  membros.")

Pergunta mais similar na base de dados: 
 Gostaria de saber mais sobre o Grupo Turing. Como são os projetos do grupo?
similaridade = 72.73702025413513%


'Olá! Obrigado por entrar em contato!Nossos projetos variam de acordo com nossas áreas e você pode saber mais sobre eles através do nosso instagram e do Turing Talks. '

In [None]:
qe.get_response("o pãozinho do sibuya tá disponível pra umas bitocas?")

Pergunta mais similar na base de dados: 
 O Sibuya está solteiro?
similaridade = 72.02653288841248%


'Olá! Obrigado por entrar em contato!\nSolteríssimo, só vem'

In [None]:
qe.get_response("quanto custa essa escola?")

Pergunta mais similar na base de dados: 
 Quanto custa esta escola?
similaridade = 94.44549679756165%


'Olá! Obrigado por entrar em contato!\nNão somos uma escola'

In [None]:
qe.get_response("sou do doutorado, posso entrar no grupo?")

Pergunta mais similar na base de dados: 
 Alunos da pós Graduação, mestrado e doutorado podem fazer parte do grupo?
similaridade = 79.5280933380127%


'Olá! Obrigado por entrar em contato!\nalunos da pós Graduação, mestrado e doutorado podem fazer parte do grupo'

In [None]:
qe.get_response("voces fazem cursos de programação?")

Pergunta mais similar na base de dados: 
 Vocês oferecem curso basico de Python?
similaridade = 76.1618971824646%


'Olá! Obrigado por entrar em contato!\nNão oferecemos curso de Python ou de qualquer outra linguagem de programação. Nosso grupo é voltado para pesquisa, aplicações de projetos e realizações de eventos. Não realizamos aulas externas.'

In [None]:
qe.get_response("Receberia salário no grupo?")

Pergunta mais similar na base de dados: 
 Ao participar do grupo, recebe-se algum salário, bolsa ou compensação financeira?
similaridade = 70.029217004776%


'Olá! Obrigado por entrar em contato!\nNão há nenhum tipo de contrapartida financeira para os membros do grupo. O trabalho é 100% voluntário'

In [None]:
qe.get_response("como funciona o grupo?")

Pergunta mais similar na base de dados: 
 Como posso conhecer o grupo?
similaridade = 71.89542055130005%


'Olá! Obrigado por entrar em contato!\nPara conhecer o grupo, veja nosso Instagram @grupoturing.usp, nossos posts no medium (turing-talks), conheça nosso site (grupoturing.com.br) e entre na nossa comunidade no Discord - https://discord.gg/26RGmBS '

In [None]:
qe.get_response("quero entrar em contato com o grupo")

Pergunta mais similar na base de dados: 
 Como posso entrar em contato com vocês?
similaridade = 76.11371874809265%


'Olá! Obrigado por entrar em contato!\nPode mandar a mensagem por aqui mesmo, mas se quiser algo mais formal, pode nos enviar um e-mail no grupoturing.usp@gmail.com'

In [None]:
qe.get_response("Vocês tem conteudo de processamento de linguagem natural (pnl)?")

Pergunta mais similar na base de dados: 
 Me interesso muito por Processamento de Linguagem Natural, NLP ou PLN e gostaria de falar com vocês sobre isso
similaridade = 80.10140061378479%


'Olá! Obrigado por entrar em contato!\nTemos alguns textos no nosso medium sobre Processamento de Linguagem Natural! Se tiver alguma dúvida em específico, sinta-se à vontade para enviar uma mensagem no nosso servidor no discord ( https://discord.gg/26RGmBS )'

In [None]:
qe.get_response("sou da pós graduação, posso entrar no grupo?")

Pergunta mais similar na base de dados: 
 Alunos da pós Graduação, mestrado e doutorado podem fazer parte do grupo?
similaridade = 87.89551854133606%


'Olá! Obrigado por entrar em contato!\nalunos da pós Graduação, mestrado e doutorado podem fazer parte do grupo'

In [None]:
qe.get_response("quando acaba o coronga?")

Pergunta mais similar na base de dados: 
 O Sibuya está solteiro?
similaridade = 49.07633662223816%


'Olá! Obrigado por entrar em contato!\nEm breve um de nossos membros te responderá!'