<a href="https://colab.research.google.com/github/eu-ale/chatbot_telegram/blob/master/telegram_chatbot_with_ia.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Instalação de Bibliotecas


In [10]:
!pip install pytelegrambotapi
!pip install unidecode



# Baixando nosso dataset

In [8]:
!git clone https://github.com/gladson-sza/atrativos_turisticos_dataset.git

fatal: destination path 'atrativos_turisticos_dataset' already exists and is not an empty directory.


# Lendo nosso dataset

## Pandas


A biblioteca pandas é uma poderosa biblioteca em Python amplamente utilizada para análise de dados e manipulação de estruturas de dados tabulares, como DataFrames. Ela oferece funcionalidades para carregar, limpar, transformar, analisar e visualizar dados de maneira eficiente.

In [5]:
import pandas as pd

In [6]:
dataset = pd.read_csv('/content/atrativos_turisticos_dataset/dataset.csv', delimiter=';')

In [7]:
dataset.head()

Unnamed: 0,Pergunta,Resposta
0,Bom dia!,Bom dia! Como posso ajudar você hoje?
1,Boa tarde!,Boa tarde! Estou à disposição para responder à...
2,Boa noite!,Boa noite! Em que posso ser útil?
3,Oi!,Olá! Como posso ser útil a você?
4,"Olá, viajante!",Olá! Estou aqui para fornecer informações sobr...



Passing `palette` without assigning `hue` is deprecated and will be removed in v0.14.0. Assign the `y` variable to `hue` and set `legend=False` for the same effect.




Passing `palette` without assigning `hue` is deprecated and will be removed in v0.14.0. Assign the `y` variable to `hue` and set `legend=False` for the same effect.



# Bibliotecas para tratar strings



In [9]:
import string

# Bibliotecas de NLP

## NLTK
O Natural Language Toolkit (NLTK) é uma biblioteca em Python amplamente utilizada para processamento de linguagem natural (NLP). Ela oferece uma gama de ferramentas que tornam mais fácil a realização de análises textuais e tarefas de NLP, bem como a construção de sistemas de processamento de linguagem natural.

In [11]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

# Biblioteca para remoção de acentuação

In [12]:
from unidecode import unidecode

# Pré processamento de texto

In [13]:
def remove_pontuacao(text):
    texto_limpo = ''
    for palavra in text:
      if palavra not in string.punctuation:
        texto_limpo += palavra

    return texto_limpo

In [14]:
print(string.punctuation)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


In [15]:
def preprocessamento(texto):
    # Remove pontuações e símbolos
    texto = remove_pontuacao(texto)

    # Remover acentos
    texto = unidecode(texto)

    # Converte para minúsculo
    texto = texto.lower()

    # Tokenização
    tokens = word_tokenize(texto)

    # Remover stopwords
    stop_words = stopwords.words('portuguese')
    tokens = [token for token in tokens if token not in stop_words]

    # Juntar as palavras novamente em uma string
    texto_preprocessado = ' '.join(tokens)

    return texto_preprocessado

In [16]:
dataset["Pergunta_Preprocessada"] = dataset["Pergunta"].apply(preprocessamento)

In [17]:
dataset.head()

Unnamed: 0,Pergunta,Resposta,Pergunta_Preprocessada
0,Bom dia!,Bom dia! Como posso ajudar você hoje?,bom dia
1,Boa tarde!,Boa tarde! Estou à disposição para responder à...,boa tarde
2,Boa noite!,Boa noite! Em que posso ser útil?,boa noite
3,Oi!,Olá! Como posso ser útil a você?,oi
4,"Olá, viajante!",Olá! Estou aqui para fornecer informações sobr...,ola viajante


## Vetorização

In [18]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

In [19]:
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(dataset["Pergunta_Preprocessada"])

## Método para obter uma resposta a partir de uma pergunta

In [20]:
def obter_resposta(pergunta):
    # Pré processa a sentença da pergunta
    pergunta_processada = preprocessamento(pergunta)

    # Transforma a pergunta para um vetor
    pergunta_vector = vectorizer.transform([pergunta_processada])

    # Calcula a similaridade do cosseno
    similaridades = cosine_similarity(pergunta_vector, tfidf_matrix)

    # Obtém o índice da pergunta mais similar
    pergunta_index = similaridades.argmax()

    # Devolve a resposta para o usuário
    return dataset["Resposta"].iloc[pergunta_index]

## Testando Chatbot

In [21]:
flags = ['Fechar', 'Sair', 'Tchau']
end = False

while not end:
    question = input()
    if question in flags:
        end = True
        print('Finalizando Chat')
        continue

    answer = obter_resposta(question)
    print(answer)

ola
Olá! Estou aqui para fornecer informações sobre as atrações turísticas do Brasil.
Olá
Olá! Estou aqui para fornecer informações sobre as atrações turísticas do Brasil.
tudo bom?
Estou apenas um programa de computador, mas estou aqui para ajudar você. Como você está?
oii
Bom dia! Como posso ajudar você hoje?
como vai a vida?
A vida noturna no Brasil é vibrante. Cidades como São Paulo e Rio de Janeiro têm uma cena de bares e casas noturnas agitada, e o samba e o forró são populares para dançar.
hehe
Bom dia! Como posso ajudar você hoje?
fechar
Bom dia! Como posso ajudar você hoje?
sair
Bom dia! Como posso ajudar você hoje?
Sair
Finalizando Chat


# Integrando com Telegram

In [22]:
import telebot

API_KEY = '6461231063:AAGsOpD4zZo3cukyPNcLsEkEyexdk2QGa8g'
bot = telebot.TeleBot(API_KEY)

In [23]:
@bot.message_handler(func=lambda message: True)
def default(message):
    resposta = obter_resposta(message.text)

    bot.reply_to(
        message,
        resposta
    )

In [None]:
bot.polling()