Этот проект представляет собой Telegram-бота, который отвечает на вопросы о спортивных играх в России 2024 года, используя базу знаний, собранную из статей Википедии. Бот использует технологии обработки естественного языка и векторного поиска для предоставления точных ответов на вопросы пользователей.

In [None]:
# Отключим предупреждения в колабе. Будет меньше лишней информации в выводе
import warnings
warnings.filterwarnings('ignore')

  and should_run_async(code)


In [None]:
# Установим библиотеку nest_asyncio
!pip install nest_asyncio

import nest_asyncio
nest_asyncio.apply()



# **1. Data preparation**

### Сбор заголовков статей из категории

In [None]:
!pip install openai mwclient mwparserfromhell tiktoken

Collecting openai
  Downloading openai-1.30.2-py3-none-any.whl (320 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m320.7/320.7 kB[0m [31m2.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting mwclient
  Downloading mwclient-0.10.1-py2.py3-none-any.whl (27 kB)
Collecting mwparserfromhell
  Downloading mwparserfromhell-0.6.6-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (191 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m191.0/191.0 kB[0m [31m14.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting tiktoken
  Downloading tiktoken-0.7.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.1/1.1 MB[0m [31m15.0 MB/s[0m eta [36m0:00:00[0m
Collecting httpx<1,>=0.23.0 (from openai)
  Downloading httpx-0.27.0-py3-none-any.whl (75 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.6/75.6 kB[0m [31m4.9 MB/s[0m eta [36m0:00:00[0m
Collectin

In [None]:
# imports
import mwclient  # библиотека для работы с MediaWiki API для загрузки примеров статей Википедии
import mwparserfromhell  # Парсер для MediaWiki
import openai  # будем использовать для токинизации
import pandas as pd  # В DataFrame будем хранить базу знаний и результат токинизации базы знаний
import re  # для вырезания ссылок <ref> из статей Википедии
import tiktoken  # для подсчета токенов

In [None]:
# поиск страниц Википедии о Всемирных играх дружбы 2024

# Задаем категорию и англоязычную версию Википедии для поиска
CATEGORY_TITLE = "Category:2024 in Russian sport"
WIKI_SITE = "en.wikipedia.org"

# Соберем заголовки всех статей
def titles_from_category(
    category: mwclient.listing.Category, # Задаем типизированный параметр категории статей
    max_depth: int # Определяем глубину вложения статей
) -> set[str]:
    """Возвращает набор заголовков страниц в данной категории Википедии и ее подкатегориях."""
    titles = set() # Используем множество для хранения заголовков статей
    for cm in category.members(): # Перебираем вложенные объекты категории
        if type(cm) == mwclient.page.Page: # Если объект является страницей
            titles.add(cm.name) # в хранилище заголовков добавляем имя страницы
        elif isinstance(cm, mwclient.listing.Category) and max_depth > 0: # Если объект является категорией и глубина вложения не достигла максимальной
            deeper_titles = titles_from_category(cm, max_depth=max_depth - 1) # вызываем рекурсивно функцию для подкатегории
            titles.update(deeper_titles) # добавление в множество элементов из другого множества
    return titles

# Инициализация объекта MediaWiki
# WIKI_SITE ссылается на англоязычную часть Википедии
site = mwclient.Site(WIKI_SITE)

# Загрузка раздела заданной категории
category_page = site.pages[CATEGORY_TITLE]
# Получение множества всех заголовков категории с вложенностью на один уровень
titles = titles_from_category(category_page, max_depth=1)


print(f"Создано {len(titles)} заголовков статей в категории {CATEGORY_TITLE}.")

Создано 12 заголовков статей в категории Category:2024 in Russian sport.


### Извлечение секций из документов

In [None]:
# Задаем секции, которые будут отброшены при парсинге статей
SECTIONS_TO_IGNORE = [
    "See also",
    "References",
    "External links",
    "Further reading",
    "Footnotes",
    "Bibliography",
    "Sources",
    "Citations",
    "Literature",
    "Footnotes",
    "Notes and references",
    "Photo gallery",
    "Works cited",
    "Photos",
    "Gallery",
    "Notes",
    "References and sources",
    "References and notes",
]


In [None]:
# Функция возвращает список всех вложенных секций для заданной секции страницы Википедии

def all_subsections_from_section(
    section: mwparserfromhell.wikicode.Wikicode, # текущая секция
    parent_titles: list[str], # Заголовки родителя
    sections_to_ignore: set[str], # Секции, которые необходимо проигнорировать
) -> list[tuple[list[str], str]]:
    """
    Из раздела Википедии возвращает список всех вложенных секций.
    Каждый подраздел представляет собой кортеж, где:
      - первый элемент представляет собой список родительских секций, начиная с заголовка страницы
      - второй элемент представляет собой текст секции
    """

    # Извлекаем заголовки текущей секции
    headings = [str(h) for h in section.filter_headings()]
    title = headings[0]
    # Заголовки Википедии имеют вид: "== Heading =="

    if title.strip("=" + " ") in sections_to_ignore:
        # Если заголовок секции в списке для игнора, то пропускаем его
        return []

    # Объединим заголовки и подзаголовки, чтобы сохранить контекст для chatGPT
    titles = parent_titles + [title]

    # Преобразуем wikicode секции в строку
    full_text = str(section)

    # Выделяем текст секции без заголовка
    section_text = full_text.split(title)[1]
    if len(headings) == 1:
        # Если один заголовок, то формируем результирующий список
        return [(titles, section_text)]
    else:
        first_subtitle = headings[1]
        section_text = section_text.split(first_subtitle)[0]
        # Формируем результирующий список из текста до первого подзаголовка
        results = [(titles, section_text)]
        for subsection in section.get_sections(levels=[len(titles) + 1]):
            results.extend(
                # Вызываем функцию получения вложенных секций для заданной секции
                all_subsections_from_section(subsection, titles, sections_to_ignore)
                )  # Объединяем результирующие списки данной функции и вызываемой
        return results

# Функция возвращает список всех секций страницы, за исключением тех, которые отбрасываем
def all_subsections_from_title(
    title: str, # Заголовок статьи Википедии, которую парсим
    sections_to_ignore: set[str] = SECTIONS_TO_IGNORE, # Секции, которые игнорируем
    site_name: str = WIKI_SITE, # Ссылка на сайт википедии
) -> list[tuple[list[str], str]]:
    """
    Из заголовка страницы Википедии возвращает список всех вложенных секций.
    Каждый подраздел представляет собой кортеж, где:
      - первый элемент представляет собой список родительских секций, начиная с заголовка страницы
      - второй элемент представляет собой текст секции
    """

    # Инициализация объекта MediaWiki
    # WIKI_SITE ссылается на англоязычную часть Википедии
    site = mwclient.Site(site_name)

    # Запрашиваем страницу по заголовку
    page = site.pages[title]

    # Получаем текстовое представление страницы
    text = page.text()

    # Парсер для MediaWiki
    parsed_text = mwparserfromhell.parse(text)
    # Извлекаем заголовки
    headings = [str(h) for h in parsed_text.filter_headings()]
    if headings: # Если заголовки найдены
        # В качестве резюме берем текст до первого заголовка
        summary_text = str(parsed_text).split(headings[0])[0]
    else:
        # Если нет заголовков, то весь текст считаем резюме
        summary_text = str(parsed_text)
    results = [([title], summary_text)] # Добавляем резюме в результирующий список
    for subsection in parsed_text.get_sections(levels=[2]): # Извлекаем секции 2-го уровня
        results.extend(
            # Вызываем функцию получения вложенных секций для заданной секции
            all_subsections_from_section(subsection, [title], sections_to_ignore)
        ) # Объединяем результирующие списки данной функции и вызываемой
    return results

In [None]:
# Разбивка статей на секции
wikipedia_sections = []
for title in titles:
    wikipedia_sections.extend(all_subsections_from_title(title))
print(f"Найдено {len(wikipedia_sections)} секций на {len(titles)} страницах")

Найдено 183 секций на 12 страницах


### Очистка текста (теги ссылок, пробелы и короткие секции)

In [None]:
# Очистка текста секции от ссылок <ref>xyz</ref>, начальных и конечных пробелов
def clean_section(section: tuple[list[str], str]) -> tuple[list[str], str]:
    titles, text = section
    # Удаляем ссылки
    text = re.sub(r"<ref.*?</ref>", "", text)
    # Удаляем пробелы вначале и конце
    text = text.strip()
    return (titles, text)

# Применим функцию очистки ко всем секциям с помощью генератора списков
wikipedia_sections = [clean_section(ws) for ws in wikipedia_sections]

# Отфильтруем короткие и пустые секции
def keep_section(section: tuple[list[str], str]) -> bool:
    """Возвращает значение True, если раздел должен быть сохранен, в противном случае значение False."""
    titles, text = section
    # Фильтруем по произвольной длине, можно выбрать и другое значение
    if len(text) < 16:
        return False
    else:
        return True


original_num_sections = len(wikipedia_sections)
wikipedia_sections = [ws for ws in wikipedia_sections if keep_section(ws)]
print(f"Отфильтровано {original_num_sections-len(wikipedia_sections)} секций, осталось {len(wikipedia_sections)} секций.")


Отфильтровано 17 секций, осталось 166 секций.


In [None]:
for ws in wikipedia_sections[:5]:
    print(ws[0])
    display(ws[1][:50] + "...")
    print()

['2024 World Friendship Games']


'{{Short description|Multi-sport event in Moscow an...'


['2024 World Friendship Games', '== History ==']


'As a result of an ongoing [[Doping in Russia|dopin...'


['2024 World Friendship Games', '== International reaction ==']


'On November 14, 2023, the [[International Olympic ...'


['2024 World Friendship Games', '== Branding ==']


'[[File:Тигр – талисман Всемирных игр дружбы 2024.j...'


['2024 World Friendship Games', '== Branding ==', '=== Logo ===']


'The logo of the 2024 World Friendship Games was pr...'




### Фрагментация документов

In [None]:
GPT_MODEL = "gpt-3.5-turbo" 

# Функция подсчета токенов
def num_tokens(text: str, model: str = GPT_MODEL) -> int:
    """Возвращает число токенов в строке."""
    encoding = tiktoken.encoding_for_model(model)
    return len(encoding.encode(text))

# Функция разделения строк
def halved_by_delimiter(string: str, delimiter: str = "\n") -> list[str, str]:
    """Разделяет строку надвое с помощью разделителя (delimiter), пытаясь сбалансировать токены с каждой стороны."""

    # Делим строку на части по разделителю, по умолчанию \n - перенос строки
    chunks = string.split(delimiter)
    if len(chunks) == 1:
        return [string, ""]  # разделитель не найден
    elif len(chunks) == 2:
        return chunks  # нет необходимости искать промежуточную точку
    else:
        # Считаем токены
        total_tokens = num_tokens(string)
        halfway = total_tokens // 2
        # Предварительное разделение по середине числа токенов
        best_diff = halfway
        # В цикле ищем какой из разделителей, будет ближе всего к best_diff
        for i, chunk in enumerate(chunks):
            left = delimiter.join(chunks[: i + 1])
            left_tokens = num_tokens(left)
            diff = abs(halfway - left_tokens)
            if diff >= best_diff:
                break
            else:
                best_diff = diff
        left = delimiter.join(chunks[:i])
        right = delimiter.join(chunks[i:])
        # Возвращаем левую и правую часть оптимально разделенной строки
        return [left, right]


# Функция обрезает строку до максимально разрешенного числа токенов
def truncated_string(
    string: str, # строка
    model: str, # модель
    max_tokens: int, # максимальное число разрешенных токенов
    print_warning: bool = True, # флаг вывода предупреждения
) -> str:
    """Обрезка строки до максимально разрешенного числа токенов."""
    encoding = tiktoken.encoding_for_model(model)
    encoded_string = encoding.encode(string)
    # Обрезаем строку и декодируем обратно
    truncated_string = encoding.decode(encoded_string[:max_tokens])
    if print_warning and len(encoded_string) > max_tokens:
        print(f"Предупреждение: Строка обрезана с {len(encoded_string)} токенов до {max_tokens} токенов.")
    # Усеченная строка
    return truncated_string

# Функция делит секции статьи на части по максимальному числу токенов
def split_strings_from_subsection(
    subsection: tuple[list[str], str], # секции
    max_tokens: int = 1000, # максимальное число токенов
    model: str = GPT_MODEL, # модель
    max_recursion: int = 5, # максимальное число рекурсий
) -> list[str]:
    """
    Разделяет секции на список из частей секций, в каждой части не более max_tokens.
    Каждая часть представляет собой кортеж родительских заголовков [H1, H2, ...] и текста (str).
    """
    titles, text = subsection
    string = "\n\n".join(titles + [text])
    num_tokens_in_string = num_tokens(string)
    # Если длина соответствует допустимой, то вернет строку
    if num_tokens_in_string <= max_tokens:
        return [string]
    # если в результате рекурсия не удалось разделить строку, то просто усечем ее по числу токенов
    elif max_recursion == 0:
        return [truncated_string(string, model=model, max_tokens=max_tokens)]
    # иначе разделим пополам и выполним рекурсию
    else:
        titles, text = subsection
        for delimiter in ["\n\n", "\n", ". "]: # Пробуем использовать разделители от большего к меньшему (разрыв, абзац, точка)
            left, right = halved_by_delimiter(text, delimiter=delimiter)
            if left == "" or right == "":
                # если какая-либо половина пуста, повторяем попытку с более простым разделителем
                continue
            else:
                # применим рекурсию на каждой половине
                results = []
                for half in [left, right]:
                    half_subsection = (titles, half)
                    half_strings = split_strings_from_subsection(
                        half_subsection,
                        max_tokens=max_tokens,
                        model=model,
                        max_recursion=max_recursion - 1, # уменьшаем максимальное число рекурсий
                    )
                    results.extend(half_strings)
                return results
    # иначе никакого разделения найдено не было, поэтому просто обрезаем строку (должно быть очень редко)
    return [truncated_string(string, model=model, max_tokens=max_tokens)]


In [None]:
# Делим секции на части
MAX_TOKENS = 1600
wikipedia_strings = []
for section in wikipedia_sections:
    wikipedia_strings.extend(split_strings_from_subsection(section, max_tokens=MAX_TOKENS))

print(f"{len(wikipedia_sections)} секций Википедии поделены на {len(wikipedia_strings)} строк.")


166 секций Википедии поделены на 223 строк.


In [None]:
# Напечатаем пример строки
print(wikipedia_strings[1])


2024 World Friendship Games

== History ==

As a result of an ongoing [[Doping in Russia|doping scandal]] and the [[Russian invasion of Ukraine|Russian invasion of Ukraine in 2022]], Russia has been excluded from almost every sporting competition, and Russian athletes have been unable to use their national symbols at international sporting events. In response, the Russian government announced its intent to organize competitions for the country's top athletes with the possibility for other countries to participate. 

In May 2023, Russian sports minister [[Oleg Matytsin]] confirmed Russia will host the second edition of [[Friendship Games]] in 2024, shortly after the [[2024 Summer Olympics|Summer Olympics in Paris]]. The Organizing Committee of the Games was formed in October 2023. In addition to winning medals, athletes will win cash prizes. The total prize money offered amounts to 4.6 billion [[Russian ruble]]s (approximately US$49 million).


### Токенизация и сохранение результата

In [None]:
from openai import OpenAI
import os
import getpass

EMBEDDING_MODEL = "text-embedding-ada-002"  # Модель токенизации от OpenAI

os.environ["OPENAI_API_KEY"] = getpass.getpass("Введите OpenAI API Key:")
client = OpenAI(api_key = os.environ.get("OPENAI_API_KEY"))

# Функция отправки chatGPT строки для ее токенизации (вычисления эмбедингов)
def get_embedding(text, model="text-embedding-ada-002"):

   return client.embeddings.create(input = [text], model=model).data[0].embedding


Введите OpenAI API Key:··········


In [None]:
df = pd.DataFrame({"text": wikipedia_strings[:10]})

df['embedding'] = df.text.apply(lambda x: get_embedding(x, model='text-embedding-ada-002'))

SAVE_PATH = "./russian_sport_2024.csv"
# Сохранение результата
df.to_csv(SAVE_PATH, index=False)

In [None]:
df.head()

Unnamed: 0,text,embedding
0,2024 World Friendship Games\n\n{{Short descrip...,"[-0.010835863649845123, -0.01851208694279194, ..."
1,2024 World Friendship Games\n\n== History ==\n...,"[0.0011780696222558618, -0.007130289450287819,..."
2,2024 World Friendship Games\n\n== Internationa...,"[-0.013011261820793152, -0.02101205848157406, ..."
3,2024 World Friendship Games\n\n== Branding ==\...,"[-0.01841997541487217, -0.006020640023052692, ..."
4,2024 World Friendship Games\n\n== Branding ==\...,"[-0.004721407778561115, -0.016095107421278954,..."


Блок кода на случай загрузки уже готового эмбединга:

In [None]:
import pandas as pd
import ast
embeddings_path = "./russian_sport_2024.csv"

df = pd.read_csv(embeddings_path)

# Конвертируем наши эмбединги из строк в списки
df['embedding'] = df['embedding'].apply(ast.literal_eval)

# **2. Search**

In [None]:
from scipy import spatial  # вычисляет сходство векторов
EMBEDDING_MODEL = "text-embedding-ada-002"

# Функция поиска
def strings_ranked_by_relatedness(
    query: str, # пользовательский запрос
    df: pd.DataFrame, # DataFrame со столбцами text и embedding (база знаний)
    relatedness_fn=lambda x, y: 1 - spatial.distance.cosine(x, y), # функция схожести, косинусное расстояние
    top_n: int = 100 # выбор лучших n-результатов
) -> tuple[list[str], list[float]]: # Функция возвращает кортеж двух списков, первый содержит строки, второй - числа с плавающей запятой
    """Возвращает строки и схожести, отсортированные от большего к меньшему"""

    # Отправляем в OpenAI API пользовательский запрос для токенизации
    query_embedding_response = openai.embeddings.create(
        model=EMBEDDING_MODEL,
        input=query,
    )

    # Получен токенизированный пользовательский запрос
    query_embedding = query_embedding_response.data[0].embedding

    # Сравниваем пользовательский запрос с каждой токенизированной строкой DataFrame
    strings_and_relatednesses = [
        (row["text"], relatedness_fn(query_embedding, row["embedding"]))
        for i, row in df.iterrows()
    ]

    # Сортируем по убыванию схожести полученный список
    strings_and_relatednesses.sort(key=lambda x: x[1], reverse=True)

    # Преобразовываем наш список в кортеж из списков
    strings, relatednesses = zip(*strings_and_relatednesses)

    # Возвращаем n лучших результатов
    return strings[:top_n], relatednesses[:top_n]

In [None]:
strings, relatednesses = strings_ranked_by_relatedness("games date", df, top_n=3)
for string, relatedness in zip(strings, relatednesses):
    print(f"{relatedness=:.3f}")
    display(string)

relatedness=0.783


"2024 World Friendship Games\n\n== History ==\n\nAs a result of an ongoing [[Doping in Russia|doping scandal]] and the [[Russian invasion of Ukraine|Russian invasion of Ukraine in 2022]], Russia has been excluded from almost every sporting competition, and Russian athletes have been unable to use their national symbols at international sporting events. In response, the Russian government announced its intent to organize competitions for the country's top athletes with the possibility for other countries to participate. \n\nIn May 2023, Russian sports minister [[Oleg Matytsin]] confirmed Russia will host the second edition of [[Friendship Games]] in 2024, shortly after the [[2024 Summer Olympics|Summer Olympics in Paris]]. The Organizing Committee of the Games was formed in October 2023. In addition to winning medals, athletes will win cash prizes. The total prize money offered amounts to 4.6 billion [[Russian ruble]]s (approximately US$49 million)."

relatedness=0.780


"2024 World Friendship Games\n\n{{Short description|Multi-sport event in Moscow and Yekaterinburg, Russia}}\n{{Multiple issues|\n{{refimprove|date=November 2023}}\n{{Advert|date=November 2023}}\n}}\n{{Use dmy dates|date=November 2023}}\n{{Infobox sports competition event\n| event         = World Friendship games 2024\n| image         =2024 World Friendship Games logo.png|size=200\n| alt           = \n| caption       = 2024 World Friendship games logo\n| venue         = [[Luzhniki Stadium]]\n| location      = [[Moscow]], [[Yekaterinburg]]\n| dates         = 15–29 September\n| competitors   = 283 athletes\n| nations       = 70\n| website       = {{URL|https://ru.wfg2024.com/}}\n}}\nThe '''2024 World Friendship Games''' ({{lang-ru|Всемирные игры дружбы 2024}}, {{lang|ru-Latn|Vsemirnye igry druzhby 2024}}) – is a planned international [[multi-sport event]], which is expected be held in [[Russia]] from 15 to 29 September 2024. Unlike the [[Olympic Games]], where athletes only compete for me

relatedness=0.780


'2024 World Friendship Games\n\n== Branding ==\n\n=== Mascot ===\n\nThe games mascot, a [[tiger]], was unveiled on 5 March 2024.'

# **3. Ask**

In [None]:
def num_tokens(text: str, model: str = GPT_MODEL) -> int:
    """Возвращает число токенов в строке для заданной модели"""
    encoding = tiktoken.encoding_for_model(model)
    return len(encoding.encode(text))

# Функция формирования запроса к chatGPT по пользовательскому вопросу и базе знаний
def query_message(
    query: str, # пользовательский запрос
    df: pd.DataFrame, # DataFrame со столбцами text и embedding (база знаний)
    model: str, # модель
    token_budget: int # ограничение на число отсылаемых токенов в модель
) -> str:
    """Возвращает сообщение для GPT с соответствующими исходными текстами, извлеченными из фрейма данных (базы знаний)."""
    strings, relatednesses = strings_ranked_by_relatedness(query, df) # функция ранжирования базы знаний по пользовательскому запросу
    # Шаблон инструкции для chatGPT
    message = 'Use the articles below about sports games in Russia in 2024 to answer the following question. If the answer is not found in the articles, write "I could not find the answer".'
    # Шаблон для вопроса
    question = f"\n\nQuestion: {query}"

    # Добавляем к сообщению для chatGPT релевантные строки из базы знаний, пока не выйдем за допустимое число токенов
    for string in strings:
        next_article = f'\n\nWikipedia article section:\n"""\n{string}\n"""'
        if (num_tokens(message + next_article + question, model=model) > token_budget):
            break
        else:
            message += next_article
    return message + question


def ask(
    query: str, # пользовательский запрос
    df: pd.DataFrame = df, # DataFrame со столбцами text и embedding (база знаний)
    model: str = GPT_MODEL, # модель
    token_budget: int = 4096 - 500, # ограничение на число отсылаемых токенов в модель
    print_message: bool = False, # нужно ли выводить сообщение перед отправкой
) -> str:
    """Отвечает на вопрос, используя GPT и базу знаний."""
    # Формируем сообщение к chatGPT (функция выше)
    message = query_message(query, df, model=model, token_budget=token_budget)
    # Если параметр True, то выводим сообщение
    if print_message:
        print(message)
    messages = [
        {"role": "system", "content": "You answer questions about sports games in Russia in 2024."},
        {"role": "user", "content": message},
    ]
    response = openai.chat.completions.create(
        model=model,
        messages=messages,
        temperature=0 # гиперпараметр степени случайности при генерации текста. Влияет на то, как модель выбирает следующее слово в последовательности.
    )
    response_message = response.choices[0].message.content
    return response_message


In [None]:
ask('friendship games in russia 2024')

'The 2024 World Friendship Games in Russia are planned to be held in Moscow and Yekaterinburg from 15 to 29 September 2024. The event will feature 33 sports, with athletes competing for cash prizes in addition to medals. Athletes from at least 70 nations are expected to participate, and the total prize money offered amounts to 4.6 billion Russian rubles (approximately US$49 million). The mascot of the games is a tiger, and the logo depicts two white hands clasped across a globe. The competitions will take place at existing sports facilities in Yekaterinburg, and most of the sports programs, as well as the opening and closing ceremonies, will be held in Moscow.'

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   text       10 non-null     object
 1   embedding  10 non-null     object
dtypes: object(2)
memory usage: 288.0+ bytes


In [None]:
df.shape[0]

10

# **4. Telegram-bot**

In [None]:
!pip install aiogram

Collecting aiogram
  Downloading aiogram-3.6.0-py3-none-any.whl (540 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m540.1/540.1 kB[0m [31m3.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting aiofiles~=23.2.1 (from aiogram)
  Downloading aiofiles-23.2.1-py3-none-any.whl (15 kB)
Collecting magic-filter<1.1,>=1.0.12 (from aiogram)
  Downloading magic_filter-1.0.12-py3-none-any.whl (11 kB)
Installing collected packages: magic-filter, aiofiles, aiogram
Successfully installed aiofiles-23.2.1 aiogram-3.6.0 magic-filter-1.0.12


In [None]:
os.environ["BOT_TOKEN"] = getpass.getpass("Введите TOKEN Telegram-бота:")

Введите TOKEN Telegram-бота:··········


In [None]:
import asyncio
import logging
from aiogram import Bot, Dispatcher, types
from aiogram.filters.command import Command

# Включаем логирование, чтобы не пропустить важные сообщения
logging.basicConfig(level=logging.INFO)

entries = df.shape[0]

# Информация о базе знаний
knowledge_base_info = {
    'topic': 'Sport games in Russia 2024',
    'number_of_entries': entries,
    'example_query': 'friendship games 2024'
}

API_TOKEN = os.environ.get("BOT_TOKEN")

# Объект бота
bot = Bot(token=API_TOKEN)
# Диспетчер
dp = Dispatcher()

# Хэндлер на команду /start
@dp.message(Command("start"))
async def cmd_start(message: types.Message):
    # Логика обработки команды /start
    await message.answer("Hi, I'm a reference bot for sports games in Russia in 2024. Enter /help for more information.")

# Обработчик команды /help
@dp.message(Command("help"))
async def send_help_message(message: types.Message):
    help_text = (
        f"Information about the knowledge base:\n"
        f"Subject matter: {knowledge_base_info['topic']}\n"
        f"Number of entries: {knowledge_base_info['number_of_entries']}\n"
        f"Example of a request: {knowledge_base_info['example_query']}"
    )
    await message.reply(help_text)

@dp.message()
async def handle_message(message: types.Message):
    # Получение текста сообщения
    text = message.text
    # Передача текста в функцию ask
    response = ask(text)
    # Отправка ответа от ChatGPT пользователю
    await message.reply(response)

# Запуск процесса поллинга новых апдейтов
async def main():
    await dp.start_polling(bot)

if __name__ == "__main__":
    asyncio.run(main())

