<a href="https://colab.research.google.com/github/vaverka85/my-project-vaverka/blob/main/2022_07_WORKSHOP_Skillbox_Chat_Bot.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Чем мы будем заниматься на интенсиве?

**День 1:** Знакомимся с Python и архитектурой умного чат-бота

https://live.skillbox.ru/webinars/code/znakomimsya-s-python-i-arkhitekturoi-umnogo-chat-bota180722/
*   Что такое NLU и как компьютер понимает естественную речь.
*   Архитектура «умных» чат-ботов.
*   Начало работы с Python.
*   Типы и структуры данных Python. Циклы и функции.

**День 2:** Учим бота на Python понимать текст 

https://live.skillbox.ru/webinars/code/uchim-bota-na-python-ponimat-tekst190722/
*   Подготовка дата-сета.
*   Алгоритмы сравнения текстов.
*   Векторизация.
*   Обучение машинной модели.
*   Измерение качества классификатора и интеграция в чат-бота.

**День 3:** Искусственный интеллект на Python: подводим итоги 

https://live.skillbox.ru/webinars/code/iskusstvennyi-intellekt-na-python-podvodim-itogi200722/
*   Создание Telegram-бота через @BotFather.
*   Запуск и подключение Python-приложения.



<img src='https://drive.google.com/uc?export=view&id=1jh8IXsRZMwODB7Yk_ZH7pR1laJaQlaly' height=300>

# День 1

## ВЕРСИЯ 1: Простейший Чат-бот
`{Вопрос на входе}` => `{Алгоритм ответа}` => `{Ответ на выходе}`

---
Простейший алгоритм — это поиск по базе известных вопросов и ответов.


In [None]:
import random

In [None]:
# Словарь

intents = {
    'hello': {
        'examples': ['Хелло', "Привет", "Здравствуйте"],
        'responses': ['Добрый день!', "Как дела?", "Как настроение?"]
    },
    'weather': {
        'examples': ['Какая погода?', 'Что за окном', "Во что одеваться?"],
        'responses': ['Погода отличная!', "У природы нет плохой погоды!"],
    }
}

# input = ввод данных от пользователя
# random.choice = выбор случайного элемента из списка
# print = вывод на экран

In [None]:
intents['hello']['examples']

['Хелло', 'Привет', 'Здравствуйте']

In [None]:
text = input()  # Нужно нажать Enter после ввода текста

Привет


In [None]:
print(text)

Привет


In [None]:
text = input()

if text == 'Какая погода?':
    print('weather')

Какая погода?
weather


In [None]:
text = input()

for intent_name in intents:
    for example in intents[intent_name]['examples']:
        if text == example:
            answer = random.choice(intents[intent_name]['responses'])
            print(answer)

Привет
Как дела?


In [None]:
text = input()

for intent_name in intents:
    for example in intents[intent_name]['examples']:
        if text == example:
            answer = random.choice(intents[intent_name]['responses'])
            print(answer)

привет!


### Алгоритм ответа
1.   Если вопрос это что-то вроде "*Привет*" или "*Хеллоу*"
2.   То ответить случайной фразой вроде "**Йоу**", "**Приветики**" или "**Здрасте**"

Сложность — в том чтобы сравнить **Текст Пользователя** и текст в программе.

In [None]:
import re
import nltk

In [None]:
def clean_up(text):
    # преобразуем слово к нижнему регистру
    text = text.lower()
    # описываем текстовый шаблон для удаления: "все, что НЕ (^) является буквой \w или пробелом \s"
    re_not_word = r'[^\w\s]'
    # заменяем в исходном тексте то, что соответствует шаблону, на пустой текст (удаляем)
    text = re.sub(re_not_word, '', text)
    # возвращаем очищенный текст
    
    return text

def text_match(user_text, example):
    # допишем функцию так, чтобы все примеры ниже работали
    user_text = clean_up(user_text)
    example = clean_up(example)
    # A.find(B) - возвращает номер буквы, с которой идет текст B внутри текста А
    # find возвращает -1 в случае, если ничего не нашла

    if user_text.find(example) != -1:
        return True

    if example.find(user_text) != -1:
        return True

    example_len = len(example)
    difference = nltk.edit_distance(user_text, example)

    return (difference / example_len) < 0.4

In [None]:
# Тексты совпадают
text_match("Привет", "Привет")  

True

In [None]:
# Разный регистр (ToDo: lower)
text_match("привет", "Привет")

True

In [None]:
# Лишние символы (ToDo: regular expressions)
text_match("Привет!!!", "Привет")  

True

In [None]:
# Лишние слова (ToDo: find)
text_match("Привет, как дела", "Привет")  

True

In [None]:
# Опечатки (ToDo: levenstein)
text_match("Превет", "Привет")

True

In [None]:
nltk.edit_distance("Превет", "Привет")

1

In [None]:
user_text = "Превет"
example = "Привет"
example_len = len(example)

print(example_len)

6


In [None]:
user_text = "Превет"
example = "Привет"
example_len = len(example)

difference = nltk.edit_distance(user_text, example)

print(difference / example_len)

0.16666666666666666


### ВЕРСИЯ 2: Определение намерения (intent) пользователя


In [None]:
INTENTS = {
    "hello": {
        "examples": ["Привет", "Хеллоу", "Хай"],
        "responses": ["Здрасте", "Йоу"],
    },
    "how-are-you": {
        "examples": ["Как дела", "Чем занят", "Что нового"],
        "responses": ["Вроде ничего", "Хорошо, а как сам?"],
    },
    "exit": {
        "examples": ["Пока", "Выход"],
        "responses": ["Пока-пока!", "До скорой встречи :)"],
    },
    'unknown': {
        'examples': [],
        'responses': ['Не понятно, повторите', 
                      'На такую тему поддержать разговор еще не могу', 
                      "Давайте поговорим о чем-нибудь другом"]
    }
}

In [None]:
# Определить намерение по тексту
# "Чем занят" => "how-are-you"
def get_intent(text):
  # Проверить все существующие intent'ы
    # Какой-нибудь один будет иметь example похожий на text
    # Проверить все examples

    for intent in INTENTS:
        for example in INTENTS[intent]['examples']:
            if text_match(text, example):
                return intent
    return 'unknown'
    

# "hello" => "Йоу"
# Берет случайный response для данного intent'а
def get_response(intent):
    return random.choice(INTENTS[intent]['responses'])

In [None]:
get_intent('какк дела?')

'how-are-you'

In [None]:
get_response('how-are-you')

'Вроде ничего'

In [None]:
text = input('< ')
intent = get_intent(text)
answer = get_response(intent)
print('>', answer)

< привет
> Йоу


In [None]:
intent = ''

while intent != 'exit':
    text = input('< ')
    intent = get_intent(text)
    answer = get_response(intent)
    print('>', answer)

< привет
> Йоу
< как дела
> Вроде ничего
< закажи пиццу
> На такую тему поддержать разговор еще не могу
< выход
> До скорой встречи :)


# День 2


## ВЕРСИЯ 3: Классификация текстов ML-моделью


### Шаг 1: собираем данные, на которых будет учиться модель

Задача: Научить Модель опеределять интент по тексту пользователя

**Классификация текстов**


Фраза на вход => Модель предсказывает интент фразы

Входные данные (Фразы, X)
Выходные данные (Интенты, y)

Модель обучится на наших примерах и сможет предсказывать интенты по фразе.

In [None]:
# Скачаем файл с большим количеством примеров для обучения
import os
import urllib.request

url = "https://drive.google.com/uc?export=view&id=1u4sNekGHaDzgkOVzCOAbyWpFTEMfu95Z"
filename = "intents_dataset.json"
urllib.request.urlretrieve(url, filename)

('intents_dataset.json', <http.client.HTTPMessage at 0x7f387603b450>)

In [None]:
# Считываем файл в словарь
import json

with open(filename, 'r', encoding='UTF-8') as file:
    data = json.load(file)

In [None]:
len(data)

439

Составляем 2 массива:
* **X** - входные фразы (то, что модель будет получать от пользователя)
* **y** - интенты (то, что модель будет учиться прогнозировать)

<img src='https://drive.google.com/uc?export=view&id=1u3wiw_dSsYbEyGPfu3pj_mMHMnVVINS6' height=450 border='1' alt=''>

In [None]:
# пробегаем по всему словарю - берем пары ключ-значение и раскладываем по двум спискам
# сначала берем пары name, intent из словаря
# потом для каждого элемента в examples и responses добавляем в X элемент, 
# а в y параллельно кладем name - название корневого интента
X = []
y = []


for name in data:
    for phrase in data[name]['examples']:
        X.append(phrase)
        y.append(name)
    for phrase in data[name]['responses']:
        X.append(phrase)
        y.append(name)

In [None]:
len(X), len(y)

(5726, 5726)

In [None]:
y

['hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',


### Шаг 2: преобразуем слова в числа

**Векторизация** - процесс кодирования слова в набор чисел

[sklearn.CountVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html)

1. На вход подается большой набор фраз
2. Векторайзер обучается (каждому слову выделяется отдельная ячейка, куда будет вставляться код - число, сколько раз слово встретилось во фразе)
3. Векторайзер готов работать с новыми текстами

**Пример**
```
1. Набор текстов = {
  "мама мыла раму", 
  "Саша мыла раму",
}
```

```
2. Обучение
мама -> 1, мыла -> 2, раму -> 3, Саша -> 4
  "мама мыла раму" = [1, 1, 1, 0]
  "Саша мыла раму" = [0, 1, 1, 1]
```
```
3. Векторизация
"мама мама мама" = [3, 0, 0, 0]
"как мама мыла раму" = [1, 1, 1, 0]
"шла Саша по шоссе" = [0, 0, 0, 1]
```

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
vectorizer.fit(["мама мыла раму", "Саша мыла раму",]) # Обучаем векторайзер

print(vectorizer.get_feature_names_out())
print("мама мама мама ->", vectorizer.transform(["мама мама мама"]).toarray())
print("шла Саша по шоссе ->", vectorizer.transform(["шла Саша по шоссе"]).toarray())

['мама' 'мыла' 'раму' 'саша']
мама мама мама -> [[3 0 0 0]]
шла Саша по шоссе -> [[0 0 0 1]]


Векторизуем наши фразы X

In [None]:
vectorizer = CountVectorizer()

vectorizer.fit(X)

CountVectorizer()

In [None]:
X_vec = vectorizer.transform(X)

In [None]:
X_vec.toarray()

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]])

In [None]:
vectorizer.transform(['какая погода']).toarray()

array([[0, 0, 0, ..., 0, 0, 0]])

In [None]:
vectorizer.get_feature_names_out()

array(['00', '066', '0с', ..., 'ясно', 'ящерица', 'ёлочка'], dtype=object)

### Шаг 3: обучаем классификатор текстов

In [None]:
from sklearn.neural_network import MLPClassifier # Импортируем
# Создаем модель

model_mlp = MLPClassifier()
# Обучаем модель

model_mlp.fit(X_vec, y)



MLPClassifier()

### Шаг 4: оцениваем качество

**Accuracy** $= \frac{n\ угаданных}{N\ всего}$ — доля правильных ответов (больше - лучше)

_Вопрос на внимательность: какое максимальное и минимальное значение метрики может быть, исходя из формулы выше?_

In [None]:
model_mlp.score(X_vec, y)  # Качество на тренировочной выборке = accuracy / больше = лучше

0.8643031784841075

### Шаг 5: пишем функцию для получения интента с помощью ML

In [None]:
MODEL = model_mlp

def get_intent(text):
    # сначала преобразуем текст в числа

    text_vec = vectorizer.transform([text])
    # берем элемент номер 0 - для того, чтобы избавиться от формата "список", который необходим для векторизации и машинного обучения
    return model_mlp.predict(text_vec)[0]  

In [None]:
get_intent("привет, как дела?")

'hello'

In [None]:
get_intent("давай анекдот")

'talks_dogs'

In [None]:
data['talks_dogs']

{'examples': ['ну',
  'собака',
  'расскажи',
  'анекдот',
  'животное',
  'давай',
  'песик',
  'еще',
  'шутка'],
 'responses': ['Объявление: Пропала собака!! Очень умная!! /nШарик, если ты читаешь это сообщение, отпишись мне на e—mail, дети переживают!!',
  'Я опоздал на работу, потому что собака съела моё время.',
  '— Это неописуемо, — сказала собака, глядя на баобаб.',
  '— Что мужчина делает стоя, женщина — сидя, а собака поднимая одну лапу? \n— Здороваются!',
  'Завёл собаку — заглохла.']}

In [None]:
def get_response(intent):
    return random.choice(data[intent]['responses'])

In [None]:
def bot(text):
    intent = get_intent(text)
    answer = get_response(intent)
    return answer

In [None]:
text = ""
while text != "Выход":
    text=input('< ')
    print('>', bot(text))

< Привет, как дела?
> Халоу!
< Расскажи шутку
> калькулятор - это устаревший робот,ахахахах.
< Какая погода?
> Возможно дождь
< Выход
> See


# День 3

Бот в Телеграм

Библиотека [python-telegram-bot](https://python-telegram-bot.org/)

Токен получаем у телеграм-бота @BotFather

In [None]:
!pip install python-telegram-bot --pre

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting python-telegram-bot
  Downloading python_telegram_bot-20.0a2-py3-none-any.whl (451 kB)
[K     |████████████████████████████████| 451 kB 5.0 MB/s 
[?25hCollecting httpx~=0.23.0
  Downloading httpx-0.23.0-py3-none-any.whl (84 kB)
[K     |████████████████████████████████| 84 kB 3.6 MB/s 
[?25hCollecting tornado~=6.1
  Downloading tornado-6.2-cp37-abi3-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (423 kB)
[K     |████████████████████████████████| 423 kB 24.1 MB/s 
[?25hCollecting APScheduler~=3.9.1
  Downloading APScheduler-3.9.1-py2.py3-none-any.whl (59 kB)
[K     |████████████████████████████████| 59 kB 7.1 MB/s 
Collecting cachetools~=5.2.0
  Downloading cachetools-5.2.0-py3-none-any.whl (9.3 kB)
Collecting tzlocal!=3.*,>=2.0
  Downloading tzlocal-4.2-py3-none-any.whl (19 kB)
Collecting rfc3986[idna2008]<2,>=1.3
  Downloading rfc39

In [None]:
import os
import random
import json
import urllib.request
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.neural_network import MLPClassifier

# Загружаем файл с диалогами для обучения модели
url = "https://drive.google.com/uc?export=view&id=1u4sNekGHaDzgkOVzCOAbyWpFTEMfu95Z"
filename = "intents_dataset.json"
urllib.request.urlretrieve(url, filename)

# Считываем файл в словарь
with open(filename, 'r', encoding='UTF-8') as file:
    data = json.load(file)

# Создаем массивы фраз и интентов для обучения
X = []
y = []

for name in data:
    for phrase in data[name]['examples']:
        X.append(phrase)
        y.append(name)
    for phrase in data[name]['responses']:
        X.append(phrase)
        y.append(name)

# Векторизуем наши фразы X
vectorizer = CountVectorizer()
vectorizer.fit(X)
X_vec = vectorizer.transform(X)

# Создаем и обучаем модель
model_mlp = MLPClassifier()
model_mlp.fit(X_vec, y)

MODEL = model_mlp

def get_intent(text):
    # сначала преобразуем текст в числа
    text_vec = vectorizer.transform([text])
    # берем элемент номер 0 - для того, чтобы избавиться от формата "список", который необходим для векторизации и машинного обучения
    return model_mlp.predict(text_vec)[0] 

def get_response(intent):
    return random.choice(data[intent]['responses'])

def bot(text):
    intent = get_intent(text)
    answer = get_response(intent)
    return answer



In [None]:
import nest_asyncio
nest_asyncio.apply()

In [None]:
try:
    with open('secret_file.txt', 'r') as f:
        TOKEN = f.read()
except:
    print('Это файл с токеном спикера. Вам нужно вставить свой токен в ячейку ниже')

In [None]:
TOKEN = '<вставьте сюда свой токен>'

In [None]:
#  Update - информация полученная с сервера (новые сообщения, новые контакты)
#  С сервера регулярно регулярно приходят Update'ы с новой информацией
from telegram import Update 
from telegram.ext import ApplicationBuilder #  Инструмент чтобы создавать и настраивать приложение (телеграм бот)
from telegram.ext import MessageHandler #  Handler (обработчик) - создать реакцию (функцию) на действие

from  telegram.ext import filters

In [None]:
# Функция для MessageHandler'а, вызывать ее при каждом сообщении боту
async def reply(update: Update, context) -> None:

    user_text = update.message.text
    reply = bot(user_text)
    print('<', user_text)
    print('>', reply)

    await update.message.reply_text(reply)  # Ответ пользователю в чат ТГ

# Создаем объект приложения - связываем его с токеном
app = ApplicationBuilder().token(TOKEN).build()

# Создаем обработчик текстовых сообщений
handler = MessageHandler(filters.Text(), reply)

# Добавляем обработчик в приложение
app.add_handler(handler)

# Запускаем приложение: бот крутится, пока крутится колесико выполнения слева ячейки)
app.run_polling()

< Хай!
> БОЛЬШЕ ЧЕРЕПОВ ДЛЯ ТРОНА!!!
КРОВЬ ДЛЯ БОГА КРОВИ!!!
КРОВЬ ДЛЯ БОГА КРОВИ!!!
< Как дела?
> Рад Вас видеть
< Мне скучно
> Хубулава Григорий Геннадьевич


RuntimeError: ignored

In [None]:
get_intent('Мне скучно')

'byflood'

In [None]:
data['byflood']

{'examples': ['Подскажи, как переводится: «I want you»?',
  'Ты любишь деньги?',
  'Чего тебе в жизни не хватает?',
  'Ты из какой сказки?',
  'На учебу ходила?',
  'Тебе нравится получать подарки, или приятней дарить их?',
  'Разве можем мы друг без друга?',
  'Хочу выпить',
  'Что делаешь',
  'Как тебя зовут',
  'Какой у тебя был самый яркий момент в жизни?',
  'У тебя какой любимый цветок?',
  'Ты уверенный в себе человек?',
  'Ты бы сняла свой секс за деньги?',
  'Что тебя больше всего рассмешило за прошедшую неделю/ месяц?',
  'Занимаешься спортом? Каким? Как часто?',
  'Тебя никто не обижает?',
  'Любишь мечтать? О чем мечтаешь?',
  'Поболтаем',
  'Ты веришь в любовь с первого взгляда?',
  'Ты обещаешь не врать друг другу никогда?',
  'Мне скучно',
  'Скажи что-нибудь',
  'Сегодня гадал на ромашке (любит, не любит). И отгадай что выпало?',
  'Ты где и с кем новый год встречать будешь?',
  'Давай познакомимся',
  'Что выберешь: деньги или любовь?',
  'Ты слышала что ради тебя я бр

In [None]:
# Как добавить интенты в словарь?

data.update(INTENTS)

In [None]:
len(data)

442

In [None]:
with open('intents_new.json', 'w', encoding='UTF-8') as f:
    json.dump(data, f, indent=4, ensure_ascii=False)

In [None]:
import pickle

In [None]:
with open('model.pkl', 'wb') as f:
    pickle.dump(model_mlp, f)

In [None]:
with open('model.pkl', 'rb') as f:
    model_saved = pickle.load(f)

In [None]:
type(model_saved)

sklearn.neural_network._multilayer_perceptron.MLPClassifier