---
**Чат-бот на основе библиотеки Llama-cpp-python и веб интерфейсом на фреймворке Gradio, деплой бота на облачный сервер, подключение к нему сервера NGINX, аренда своего домена (сайта) и получение SSL сертификата для работы сайта по протоколу HTTPS**

# Структура и код проекта, запуск в Colab

**Простой чат-бот с веб-интерфейсом на фреймворке Gradio**  
**Для генерации текста языковыми моделями формата GGUF используется библиотека `llama-cpp-python`**

---

**Стек**

Библиотека `llama-cpp-python` для инференса модели в формате GGUF  
https://github.com/abetlen/llama-cpp-python

Инструкции по Docker образам для `llama-cpp-python`  
https://github.com/abetlen/llama-cpp-python/tree/main/docker

Страница модели `gemma-2-2b` в формате GGUF  
https://huggingface.co/bartowski/gemma-2-2b-it-GGUF

Страница модели `gemma-2-2b-abliterated` в формате GGUF  
https://huggingface.co/bartowski/gemma-2-2b-it-abliterated-GGUF

Фреймворк Gradio для написания веб-интерфейса  
https://github.com/gradio-app/gradio

Библиотека для загрузки файлов `data-downloader`  
https://github.com/Fanchengyan/data-downloader  
https://data-downloader.readthedocs.io/en/latest/user_guide/download.html  


---

Репозиторий HF где можно найти свежие модели в формате GGUF   
https://huggingface.co/bartowski?search_models=GGUF

Поиск моделей в формате GGUF на HF  
https://huggingface.co/bartowski?search_models=GGUF  
Заходим на страницу модели, нажимаем `Files and versions` -> ПКМ на значок загрузки -> копировать ссылку -> при вставке ссылки стереть последние символы `?download=true` чтобы осталось расширение файла `.gguf`

## Структура и описание проекта

---

Скриншот главной страницы приложения приложения  
<img src="https://drive.google.com/uc?export=view&id=1HUyxCzC-7SKN_Dwz98oELCnKxa64J1nE" width=100%>

Скриншот страницы загрузки моделей
<img src="https://drive.google.com/uc?export=view&id=1HYq8O_54KwbqxPTLMXRdB2-VeH_5j0Ru" width=100%>

---

**Структура проекта**:  
 - 📁 `models`
 - `requirements.txt`
 - `app.py`


---

**Установка и запуск:**

1. Создание и активация виртуального окружения (опционально)

 Создание окружения:
 ```
python3 -m venv env
 ```

 Активация окружения:
 - Linux
```
source env/bin/activate
```

 - Windows
```
env\Scripts\activate.bat
```

2. Установка библиотек
 - с поддержкой CPU
 ```
 pip install -r requirements.txt --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cpu
 ```

 - с поддержкой CUDA 12.5
 ```
 pip install -r requirements.txt --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cu124
 ```
Для установки `llama-cpp-python` на Windows с поддержкой CUDA нужно предварительно установить [Visual Studio 2022 Community](https://visualstudio.microsoft.com/ru/downloads/) и [CUDA Toolkit](https://developer.nvidia.com/cuda-toolkit-archive), как например указано в этой [инструкции](https://github.com/abetlen/llama-cpp-python/discussions/871#discussion-5812096)  
Для полной переустановки использовать команду
```
pip install --force-reinstall --no-cache-dir -r requirements.txt --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cu124
```

3. Запуск приложения
```
python3 app.py
```

Перейти в браузере http://localhost:7860/ после того как появится надпись `Running on local URL:  http://0.0.0.0:7860`  

На некоторых системах (например на некоторых WSL) модель загружается не быстро  
При первом запуске произойдет загрузка модели по умолчаню (`gemma-2-2b-it-Q8_0.gguf`, 2.7GB) в папку `./models`, поэтому приложение доступно не сразу

---

**Содержимое `app.py` в разделе `Код приложения`**

**Содержимое `requirements.txt`**
```
llama_cpp_python==0.2.88
gradio>4
```
Версия `Python:` `3.8+` (проверено на `3.10`)

In [None]:
# проверить текущие версии библиотек
!pip list | grep -P 'llama_cpp_python|gradio'

# gradio                           4.44.0
# llama_cpp_python                 0.2.88

Приложение протестировано на следующих версиях библиотек (сентябрь 2024)
```
llama_cpp_python==0.2.88
gradio==4.44.0
```

---

**Дополнительно**

Команда для установки `llama-cpp-python` для Linux с поддержкой GPU NVIDIA (если обычная без FORCE_CMAKE=1 не сработала)
```
CMAKE_ARGS="-DGGML_CUDA=on" FORCE_CMAKE=1 pip install llama-cpp-python
```
Команда установки/переустановки для Windows с поддержкой CPU (если обычная команда не сработала)
```
pip install --force-reinstall --no-cache-dir llama-cpp-python --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cpu
```

---

## Запуск инференса чат-бота в Colab

Установка библиотек

In [None]:
!pip install -q llama_cpp_python==0.2.88 gradio

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m63.8/63.8 MB[0m [31m6.6 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Installing backend dependencies ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m50.4/50.4 kB[0m [31m4.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m18.1/18.1 MB[0m [31m59.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m318.7/318.7 kB[0m [31m22.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.5/45.5 kB[0m [31m3.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m94.6/94.6 kB[0m [31m7.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

In [None]:
# !pip install -q llama_cpp_python gradio

In [None]:
!pip list | grep -P 'llama_cpp_python|gradio|huggingface-hub'

gradio                           4.44.0
gradio_client                    1.3.0
huggingface-hub                  0.24.7
llama_cpp_python                 0.3.0


Импорты

In [None]:
from pathlib import Path
from shutil import rmtree
from typing import Union, List, Dict
from tqdm import tqdm

import requests
from llama_cpp import Llama, llama_tokenizer

Загрузка весов модели в формате GGUF - вариант через `requests`

In [None]:
# функция для загрузки файла по URL ссылке и отображением прогресс бара
def download_file(file_url: str, file_path: Union[str, Path]) -> None:
    response = requests.get(file_url, stream=True)
    if response.status_code != 200:
        raise Exception(f'Файл недоступен для скачивания по ссылке: {file_url}')
    # получение размера файла в байтах
    total_size = int(response.headers.get('content-length', 0))
    # прогресс бар tqdm
    progress_bar = tqdm(desc='Загрузка файла GGUF', total=total_size, unit='iB', unit_scale=True)
    # открытие файла на запись
    with open(file_path, 'wb') as file:
        # загрузка файла чанками по 4Кб и запись чанка в файл
        for data in response.iter_content(chunk_size=4096):
            size = file.write(data)
            # обновление прогресс бара
            progress_bar.update(size)

# прямая ссылка на модель в формате GGUF
# gguf_url = 'https://huggingface.co/bartowski/Qwen2.5-1.5B-Instruct-GGUF/resolve/main/Qwen2.5-1.5B-Instruct-Q8_0.gguf'
# gguf_url = 'https://huggingface.co/bartowski/openchat-3.6-8b-20240522-GGUF/resolve/main/openchat-3.6-8b-20240522-IQ4_XS.gguf'
# gguf_url = https://huggingface.co/bartowski/gemma-2-2b-it-GGUF/resolve/main/gemma-2-2b-it-IQ3_M.gguf
# gguf_url = 'https://huggingface.co/bartowski/Llama-3.2-1B-Instruct-GGUF/resolve/main/Llama-3.2-1B-Instruct-Q8_0.gguf'
gguf_url = 'https://huggingface.co/bartowski/gemma-2-2b-it-GGUF/resolve/main/gemma-2-2b-it-Q8_0.gguf'

# полный путь до модели в папке ./models
model_path = Path('models') / gguf_url.rsplit('/')[-1]
model_path.parent.mkdir(exist_ok=True)

# если модель отсутствует в папке models то нужно ее загрузить
if not model_path.is_file():
    if not gguf_url.endswith('.gguf'):
        raise Exception('Ссылка на модель LLM должна быть прямой ссылкой на файл GGUF')
    else:
        print('Загрузка файла GGUF для LLM модели ...')
        download_file(gguf_url, model_path)

Загрузка файла LLM модели ...


Загрузка файла GGUF: 100%|██████████| 2.78G/2.78G [00:30<00:00, 90.2MiB/s]


Загрузка весов модели в формате GGUF - вариант через `hf_hub_download`

In [None]:
# from huggingface_hub import hf_hub_download, list_repo_tree, list_repo_files, repo_info, repo_exists, snapshot_download

# # пути куда будут скачиваться модели
# MODELS_PATH = Path('models')
# MODELS_PATH.parent.mkdir(exist_ok=True)

# # адрес репозитория модели на HF и название файла модели в формате GGUF
# model_id = 'bartowski/gemma-2-2b-it-GGUF'
# model_filename = 'gemma-2-2b-it-Q8_0.gguf'

# # загрузка файла GGUF
# model_path = hf_hub_download(repo_id=model_id, filename=model_filename, local_dir=MODELS_PATH)
# model_path

Access to the secret `HF_TOKEN` has not been granted on this notebook.
You will not be requested again.
Please restart the session if you want to be prompted again.


'models/gemma-2-2b-it-Q8_0.gguf'

Инициализация модели

In [None]:
# инициализация модели для генерации текста моделью в формате GGUF
# n_gpu_layers=-1 - использовать все слои ГПУ если ГПУ доступен
# verbose=True - выводить инфо о модели при инициализации (False чтобы ничего не выводить)
model = Llama(model_path=str(model_path), n_gpu_layers=-1, verbose=True)

Новый способ инициализации модели - напрямую из репозитория HF  
https://github.com/abetlen/llama-cpp-python/blob/main/examples/gradio_chat/local.py

In [None]:
# MODELS_PATH = Path('models')
# MODELS_PATH.parent.mkdir(exist_ok=True)

# model = Llama.from_pretrained(
#     repo_id="bartowski/gemma-2-2b-it-GGUF",
#     filename="*8_0.gguf",
#     local_dir=MODELS_PATH,
#     verbose=False,
#     # tokenizer=llama_tokenizer.LlamaHFTokenizer.from_pretrained("unsloth/gemma-2-2b"),
# )

Поддерживает ли модель системный промт

In [None]:
model.metadata['tokenizer.chat_template']

"{{ bos_token }}{% if messages[0]['role'] == 'system' %}{{ raise_exception('System role not supported') }}{% endif %}{% for message in messages %}{% if (message['role'] == 'user') != (loop.index0 % 2 == 0) %}{{ raise_exception('Conversation roles must alternate user/assistant/user/assistant/...') }}{% endif %}{% if (message['role'] == 'assistant') %}{% set role = 'model' %}{% else %}{% set role = message['role'] %}{% endif %}{{ '<start_of_turn>' + role + '\n' + message['content'] | trim + '<end_of_turn>\n' }}{% endfor %}{% if add_generation_prompt %}{{'<start_of_turn>model\n'}}{% endif %}"

In [None]:
# проверка что в шаблоне токенайзера нет исключения System role not supported
support_system_role = 'System role not supported' not in model.metadata['tokenizer.chat_template']
support_system_role

False

Формирование входа для модели

In [None]:
# системный промт
system_prompt = ''
# входной запрос пользователя
user_message = 'Почему трава зеленая?'
# список с репликами юзера и бота (в данном примере одна)
messages = []

# формирование стандартного промта с запросом от пользователя
messages.append({'role': 'user', 'content': user_message})
messages

[{'role': 'user', 'content': 'Почему трава зеленая?'}]

Генерация текста моделью

Документация по методу `create_chat_completion`  
https://llama-cpp-python.readthedocs.io/en/latest/api-reference/#llama_cpp.Llama.create_chat_completion

In [None]:
%%time

# параметры генерации
# чтобы модель отвечала одинаково достаточно поставить top_k=1, top_p=0 и repeat_penalty=1 не зависимо от остальных параметров
GENERATE_KWARGS = dict(
    temperature=1,  # температура для софтмакса
    top_p=0.0,  # сумма вероятностей токенов из которых нужно выбирать следующий токен
    top_k=1,  # из скольки максимально вероятных токенов выбирать следующий токен
    repeat_penalty=1.0,  # штраф модели за повторения
    )

# создание объекта итератора для генерации текста
# при итерации по этому объекту в цикле она будет возвращать сгенерированный текст частями текста (токенами)
stream_response = model.create_chat_completion(
    messages=messages,  # входной промт на который надо сгенерировать ответ
    stream=True,  # вернуть генератор
    **GENERATE_KWARGS,  # передача параметров генерации
    )

# пустую строку будем конкатенировать с токенами ответа модели
response_text = ''
# итерация и последовательная генерация текста моделью в цикле
for chunk in stream_response:
    # извлечение текущего сгенерированного токена
    token = chunk['choices'][0]['delta'].get('content')
    if token is not None:
        response_text += token
        print(token, end='')

Llama.generate: 14 prefix-match hit, remaining 1 prompt tokens to eval


Трава зеленая из-за пигмента, называемого **хлорофиллом**. 

Вот как это работает:

* **Хлорофилл** - это пигмент, который содержится в хлоропластах, органеллах, расположенных в клетках растений. 
* **Хлорофилл** поглощает солнечный свет, особенно в красном и синем диапазоне, и отражает зеленый свет. 
* **Зеленый свет** - это то, что мы видим, когда трава отражает свет. 

Таким образом, трава кажется зеленой, потому что хлорофилл поглощает большинство цветов света, кроме зеленого, который отражается. 



llama_print_timings:        load time =    2217.45 ms
llama_print_timings:      sample time =      34.25 ms /   156 runs   (    0.22 ms per token,  4555.01 tokens per second)
llama_print_timings: prompt eval time =       0.00 ms /     0 tokens (    -nan ms per token,     -nan tokens per second)
llama_print_timings:        eval time =   65072.76 ms /   156 runs   (  417.13 ms per token,     2.40 tokens per second)
llama_print_timings:       total time =   65597.71 ms /   156 tokens


CPU times: user 1min 5s, sys: 109 ms, total: 1min 5s
Wall time: 1min 5s


In [None]:
# вывод что лежит в переменной chunk на последней итерации
chunk

{'id': 'chatcmpl-a6890e0b-b821-4c10-948a-2b0357ce17a9',
 'model': 'models/gemma-2-2b-it-Q8_0.gguf',
 'created': 1727297719,
 'object': 'chat.completion.chunk',
 'choices': [{'index': 0,
   'delta': {},
   'logprobs': None,
   'finish_reason': 'stop'}]}

Проверка на другом вопросе

In [None]:
%%time

# системный промт
system_prompt = 'Отвечай максимально кратко и простым языком, если не знаешь ответ, говори - "Я не знаю"'
# входной запрос пользователя
user_message = 'Почему коровы летают вверх ногами?'
# список с репликами юзера и бота
messages = []

# если задан системынй промт и модель его поддерживает - добавить его в начало списка messages
if system_prompt and support_system_role:
    messages.append({'role': 'system', 'content': system_prompt})

# добавление сообщения пользователя в список
messages.append({'role': 'user', 'content': user_message})

# параметры генерации
# чтобы модель отвечала одинаково достаточно поставить top_k=1, top_p=0 и repeat_penalty=1 не зависимо от остальных параметров
GENERATE_KWARGS = dict(
    temperature=1,  # температура для софтмакса
    top_p=0.0,  # сумма вероятностей токенов из которых нужно выбирать следующий токен
    top_k=1,  # из скольки максимально вероятных токенов выбирать следующий токен
    repeat_penalty=1.0,  # штраф модели за повторения
    )

# создание объекта итератора для генерации текста
# при итерации по этому объекту в цикле она будет возвращать сгенерированный текст частями
stream_response = model.create_chat_completion(
    messages=messages,  # входной промт на который надо сгенерировать ответ
    stream=True,  # вернуть генератор
    **GENERATE_KWARGS,  # параметры генерации
    )

# пустую строку будем конкатенировать с токенами ответа модели
response = ''
# итерация и последовательная генерация текста моделью в цикле
for chunk in stream_response:
    # извлечение текущего сгенерированного токена
    token = chunk['choices'][0]['delta'].get('content')
    if token is not None:
        response_text += token
        print(token, end='')

Коровы не летают вверх ногами! 🐄 

Это просто шутка или забавный миф. Коровы - это животные, которые живут на земле и не умеют летать. 

Может быть, ты слышал эту фразу в каком-то рассказе или фильме? 😊 
CPU times: user 30.7 s, sys: 60.6 ms, total: 30.8 s
Wall time: 29.3 s


Проверка генерации с историей сообщений

In [None]:
%%time

# системный промт
system_prompt = ''
# входной запрос пользователя - проверка что модель так же получает на вход историю сообщений
user_message = 'Что я спросил и что ты ответила одно сообщение назад?'
# список с репликами юзера и бота
messages = []
# какое кол-во сообщений в истории учитывать
history_len = 1
# история переписки пользователя и бота
history = [
    ['Что ты умеешь?', 'Ничего'],
]

# если задан системынй промт и он поддерживается моделью - добавить его в начало списка
if system_prompt and support_system_role:
    messages.append({'role': 'system', 'content': system_prompt})

# итерация по истории переписки
if history_len != 0:
    for user_msg, bot_msg in history[-history_len:]:
        messages.append({'role': 'user', 'content': user_msg})
        messages.append({'role': 'assistant', 'content': bot_msg})

# формирование стандартного промта с запросом от пользователя
messages.append({'role': 'user', 'content': user_message})

# параметры генерации
# чтобы модель отвечала одинаково достаточно поставить top_k=1, top_p=0 и repeat_penalty=1 не зависимо от остальных параметров
GENERATE_KWARGS = dict(
    temperature=1,  # температура для софтмакса
    top_p=0.0,  # сумма вероятностей токенов из которых нужно выбирать следующий токен
    top_k=1,  # из скольки максимально вероятных токенов выбирать следующий токен
    repeat_penalty=1.0,  # штраф модели за повторения
    )

# создание объекта итератора для генерации текста
# при итерации по этому объекту в цикле она будет возвращать сгенерированный текст частями
stream_response = model.create_chat_completion(
    messages=messages,  # входной промт на который надо сгенерировать ответ
    stream=True,  # вернуть генератор
    **GENERATE_KWARGS,  # параметры генерации
    )

# пустую строку будем конкатенировать с токенами ответа модели
response = ''
# итерация и последовательная генерация текста моделью в цикле
for chunk in stream_response:
    # извлечение текущего сгенерированного токена
    token = chunk['choices'][0]['delta'].get('content')
    if token is not None:
        response_text += token
        print(token, end='')

Ты спросил, что я умею, а я ответила, что "ничего". 

Я немного не понимаю, что ты имеешь в виду.  Может, ты хотел спросить что-то другое? 
CPU times: user 23.7 s, sys: 50.8 ms, total: 23.8 s
Wall time: 21.9 s


Ошибка на версии `llama-cpp-python==0.3.0` которая не позволяет передать модель в состояние Gradio

In [None]:
from copy import deepcopy, copy
copy(model)

In [None]:
import gradio as gr
model_dict = gr.State({'model': model})

## Код приложения с комментариями и его запуск в Colab

Руководство по написанию интерфейса чат-бота в Gradio  
https://www.gradio.app/guides/creating-a-custom-chatbot-with-blocks/

Установка библиотек

In [None]:
!pip install -q llama_cpp_python gradio

Содержимое файла приложения `app.py`

In [None]:
from pathlib import Path
from shutil import rmtree
from typing import Union, List, Dict, Tuple, Optional
from tqdm import tqdm

import requests
import gradio as gr
from llama_cpp import Llama


# CHAT_HISTORY = list[list[str | GradioComponent | tuple[str] | tuple[str | Path, str] | None]] | Callable | None
# CHAT_HISTORY = List[Tuple[Optional[Union[Tuple[str], str]], Optional[str]]]
CHAT_HISTORY = List[Tuple[Optional[str], Optional[str]]]
MODEL_DICT = Dict[str, Llama]


# =============== ФУНКЦИИ ЗАГРУЗКИ МОДЕЛИ ===============================

# функция для загрузки файла по URL ссылке и отображением прогресс баров tqdm и gradio
def download_file(file_url: str, file_path: Union[str, Path]) -> None:
    response = requests.get(file_url, stream=True)
    if response.status_code != 200:
        raise Exception(f'Файл недоступен для скачивания по ссылке: {file_url}')
    total_size = int(response.headers.get('content-length', 0))
    progress_tqdm = tqdm(desc='Загрузка файла GGUF', total=total_size, unit='iB', unit_scale=True)
    progress_gradio = gr.Progress()
    completed_size = 0
    with open(file_path, 'wb') as file:
        for data in response.iter_content(chunk_size=4096):
            size = file.write(data)
            progress_tqdm.update(size)
            completed_size += size
            desc = f'Загрузка файла GGUF, {completed_size/1024**3:.3f}/{total_size/1024**3:.3f} GB'
            progress_gradio(completed_size/total_size, desc=desc)


# функция для загрузки файла модели в формате GGUF и инициализации новой модели из него
# так же возвращает логи загрузки модели для отображения в элементе gr.Textbox()
# и флаг поддержки системного промта моделью
def download_gguf_and_init_model(gguf_url: str, model_dict: MODEL_DICT) -> Tuple[MODEL_DICT, bool, str]:
    # строка с информацией о загрузке и инициализации модели для дальнейшего отображения в gr.Textbox()
    log = ''
    # проверка что ссылка на GGUF модель оканичивается на .gguf
    if not gguf_url.endswith('.gguf'):
        log += f'Ссылка на модель LLM должна быть прямой ссылкой на файл GGUF\n'
        return model_dict, log

    # извечение имени файла модели и формирование пути до нее
    gguf_filename = gguf_url.rsplit('/')[-1]
    model_path = MODELS_PATH / gguf_filename
    # прогресс бар Gradio
    progress = gr.Progress()

    # если модель еще не загружена в папку MODELS_PATH (./models)
    if not model_path.is_file():
        # загрузка модели по URL ссылке
        progress(0.3, desc='Шаг 1/2: Загрузка модели GGUF')
        try:
            download_file(gguf_url, model_path)
            log += f'Файл модели {gguf_filename} загружен\n'
        # если загрузка не удалась до записать в логи код ошибки и инфо о текущей инициализированной модели
        except Exception as ex:
            log += f'Ошибка загрузки модели по ссылке {gguf_url}, код ошибки:\n{ex}\n'
            curr_model = model_dict.get('model')
            # если по каким то причинам модель отсуствует в словаре model_dict то добавить это в логи
            if curr_model is None:
                log += f'Никакая модель не инициализирована в словаре model_dict\n'
                return model_dict, load_log
            # назввание файла текущей инициализарованной модели
            curr_model_filename = Path(curr_model.model_path).name
            log += f'Текущая инициалищированная модель: {curr_model_filename}\n'
            return model_dict, log
    # если модель уже загружена то добавить это в логи
    else:
        log += f'Файл модели {gguf_filename} загружен, инициализация модели...\n'

    # удаление файла предыдущей инициализированной модели если требуется такой функционал
    # curr_model = model_dict.get('model')
    # if curr_model is not None and Path(curr_model.model_path).is_file():
    #     Path(curr_model.model_path).unlink(missing_ok=True)

    # инициализация загруженной модели
    progress(0.7, desc='Шаг 2/2: Инициализация модели')
    model = Llama(model_path=str(model_path), n_gpu_layers=-1, verbose=False)
    model_dict = {'model': model}
    # поддерживает ли модель системный промт
    support_system_role = 'System role not supported' not in model.metadata['tokenizer.chat_template']
    log += f'Модель {gguf_filename} инициализирована\n'
    return model_dict, support_system_role, log


# =============== ФУНКЦИИ ИНТЕРФЕЙСА ЧАТ-БОТА =============================

# добавление сообщение пользователя в окошко чат бота
def user_message_to_chatbot(user_message: str, chatbot: CHAT_HISTORY) -> Tuple[str, CHAT_HISTORY]:
    if user_message:
        chatbot.append((user_message, None))
    return '', chatbot


# генерация ответа моделью и добавление ответа в окно чат бота посимвольно
# функция будет вызыватся при нажатии на Enter в окошке вовода текста
# кроме обычных аргументов - сообщения пользователя и истории - принимает еще параметры для конфига генерации
def bot_response_to_chatbot(
        chatbot: CHAT_HISTORY,  # список переписок пользователя и бота, который отображается в окошке чат-бота
        model_dict: MODEL_DICT,  # словарь с модель llama-cpp-python
        system_prompt: str,  # системный промт
        support_system_role: bool,  # поддержиывает ли модель системный промт
        history_len: int,  # кол-во предыдущих сообщений которые учитываются в истории
        do_sample: bool,  # использовать ли случайное семплирование при генерации ответа моделью
        *generate_args,  # параметры генерации ответа модели
        ):

    # получение модели
    model = model_dict.get('model')
    # получение сообщения из чат бота
    user_message = chatbot[-1][0]
    # список с переписками юзера и бота
    messages = []

    # обновление словаря параметров генерации текста
    gen_kwargs = dict(zip(GENERATE_KWARGS.keys(), generate_args))
    gen_kwargs['top_k'] = int(gen_kwargs['top_k'])

    # отключение случайного семплирования если do_sample=False
    if not do_sample:
        gen_kwargs['top_p'] = 0.0
        gen_kwargs['top_k'] = 1
        gen_kwargs['repeat_penalty'] = 1.0

    # добавление системного промта если он есть и поддерживается моделью
    if support_system_role and system_prompt:
        messages.append({'role': 'system', 'content': system_prompt})

    # добавление истории переписки в промт
    if history_len != 0:
        for user_msg, bot_msg in chatbot[:-1][-history_len:]:
            print(user_msg, bot_msg)
            messages.append({'role': 'user', 'content': user_msg})
            messages.append({'role': 'assistant', 'content': bot_msg})

    # добавления текущего сообщения пользователя
    messages.append({'role': 'user', 'content': user_message})

    # формирование генератора для генерации ответа моделью с форматированием промта
    stream_response = model.create_chat_completion(
        messages=messages,
        stream=True,
        **gen_kwargs,
        )

    # пустую строку будем конкатенировать с токенами ответа модели
    chatbot[-1][1] = ''
    # итерация и генерация токенов ответа модели в цикле
    for chunk in stream_response:
        token = chunk['choices'][0]['delta'].get('content')
        if token is not None:
            chatbot[-1][1] += token
            yield chatbot


# получение окошка для системного промта. если interactive=True то можно вводить системный промт
# примеры системных промтов:
# Отвечай на вопросы максимально кратко, если не знаешь ответ - говори "не знаю".
# Если в вопросе есть хоть малейший намек на политику, насилие, ругательства, ответь так: "На эту тему я не могу говорить".
def get_system_prompt_component(interactive: bool) -> gr.Textbox:
    value = '' if interactive else 'System prompt is not supported by this model'
    return gr.Textbox(value=value, label='System prompt', interactive=interactive)


# компоненты настройки конфига генерации текста
def get_generate_args(do_sample: bool) -> List[gr.component]:
    # если do_sample включен (элемент gr.Checkbox() активен) то отображать слайдера с параметрами генерации
    visible = do_sample
    generate_args = [
        gr.Slider(label='temperature', value=GENERATE_KWARGS['temperature'], minimum=0.1, maximum=3, step=0.1, visible=visible),
        gr.Slider(label='top_p', value=GENERATE_KWARGS['top_p'], minimum=0.1, maximum=1, step=0.1, visible=visible),
        gr.Slider(label='top_k', value=GENERATE_KWARGS['top_k'], minimum=1, maximum=50, step=5, visible=visible),
        gr.Slider(label='repeat_penalty', value=GENERATE_KWARGS['repeat_penalty'], minimum=1, maximum=5, step=0.1, visible=visible),
    ]
    return generate_args


# ======================== ПЕРЕМЕННЫЕ ==============================

# пути куда будут скачиваться модели
MODELS_PATH = Path('models')
MODELS_PATH.mkdir(exist_ok=True)

# ссылка на модель GGUF для стартовой модели
DEFAULT_GGUF_URL = 'https://huggingface.co/bartowski/gemma-2-2b-it-GGUF/resolve/main/gemma-2-2b-it-Q8_0.gguf'

# загрузка и инициализация стартовой модели, флага поддержики системного промта и логов загрузки
start_model_dict, start_support_system_role, start_load_log = download_gguf_and_init_model(
    gguf_url=DEFAULT_GGUF_URL, model_dict={},
    )

# словарь для конфига генерации текста
GENERATE_KWARGS = dict(
    temperature=0.2,  # температура для софтмакса
    top_p=0.95,  # сумма вероятностей токенов из которых нужно выбирать следующий токен
    top_k=40,  # из скольки максимально вероятных токенов выбирать следующий токен
    repeat_penalty=1.0,  # штраф модели за повторения
    )

# ====================== ИНТЕРФЕЙС ПРИЛОЖЕНИЯ ============================

# тема оформления и CSS
# theme = gr.themes.Monochrome()
theme = gr.themes.Base(primary_hue='green', secondary_hue='yellow', neutral_hue='zinc').set(
    loader_color='rgb(0, 255, 0)',
    slider_color='rgb(0, 200, 0)',
    body_text_color_dark='rgb(0, 200, 0)',
    button_secondary_background_fill_dark='green',
)
css = '''.gradio-container {width: 60% !important}'''

# начало описания интерфейса приложения
with gr.Blocks(theme=theme, css=css) as interface:

    # словарь с текущей моделью llama-cpp-python
    model_dict = gr.State(start_model_dict)
    # флаг поддержки системного промта моделью
    support_system_role = gr.State(start_support_system_role)

    # ========== СТРАНИЦА ЧАТ-БОТА ===============================

    with gr.Tab('Chat bot'):
        with gr.Row():
            with gr.Column(scale=3):
                # окошко чат-бота и окошко ввода сообщения пользователя
                chatbot = gr.Chatbot(show_copy_button=True, bubble_full_width=False, height=480)
                user_message = gr.Textbox(label='User')

                # кнопки отправить сообщение, стоп генерации и удалить историю чата
                with gr.Row():
                    user_message_btn = gr.Button('Send')
                    stop_btn = gr.Button('Stop')
                    clear_btn = gr.Button('Clear')

                # окошко для системного промта
                system_prompt = get_system_prompt_component(interactive=support_system_role.value)

            with gr.Column(scale=1, min_width=80):
                with gr.Group():
                    # длина истории которую будет учитывать модель
                    gr.Markdown('Length of message history')
                    history_len = gr.Slider(
                        minimum=0,
                        maximum=10,
                        value=0,
                        step=1,
                        info='Number of previous messages taken into account in history',
                        label='history_len',
                        show_label=False,
                        )

                    with gr.Group():
                        gr.Markdown('Generation parameters')
                        # переключатель активации случайного семплирования при генерации текста моделью
                        do_sample = gr.Checkbox(
                            value=False,
                            label='do_sample',
                            info='Activate random sampling',
                            )
                        # параметры генерации текста
                        generate_args = get_generate_args(do_sample.value)
                        do_sample.change(
                            fn=get_generate_args,
                            inputs=do_sample,
                            outputs=generate_args,
                            show_progress=False,
                        )

        # ------------------ КНОПКИ ОТПРАВИТЬ ОЧИСТИТЬ И СТОП ------------

        # нажатие Enter и кнопка отправить
        generate_event = gr.on(
            triggers=[user_message.submit, user_message_btn.click],
            fn=user_message_to_chatbot,
            inputs=[user_message, chatbot],
            outputs=[user_message, chatbot],
        ).then(
            fn=bot_response_to_chatbot,
            inputs=[chatbot, model_dict, system_prompt, support_system_role, history_len, do_sample, *generate_args],
            outputs=[chatbot],
        )
        # кнопка Стоп
        stop_btn.click(
            fn=None,
            inputs=None,
            outputs=None,
            cancels=generate_event,
        )
        # кнопка Очистить чат
        clear_btn.click(
            fn=lambda: None,
            inputs=None,
            outputs=[chatbot],
            )

    # ============= СТРАНИЦА ЗАГРУЗКИ МОДЕЛЕЙ ============================

    with gr.Tab('Load model'):
        # окно для URL ссылки на модель в формате GGUF
        gguf_url = gr.Textbox(
            value='',
            label='Link to GGUF',
            placeholder='URL link to the model in GGUF format',
            )
        # кнопка загрузки модели по URL ссылке
        load_model_btn = gr.Button('Downloading GGUF and initializing the model')

        # статус загрузки и инициализации модели
        load_log = gr.Textbox(
            value=start_load_log,
            label='Model loading status',
            lines=3,
            )

        # нажатие кнопки загрузки и инициализации модели
        load_model_btn.click(
            fn=download_gguf_and_init_model,
            inputs=[gguf_url, model_dict],
            outputs=[model_dict, support_system_role, load_log],
        ).success(
            fn=get_system_prompt_component,
            inputs=[support_system_role],
            outputs=[system_prompt],
        )

# запуск приложения в Colab
interface.launch(debug=True)

# запуск приложения при деплое
# interface.launch(server_name='0.0.0.0', server_port=7860)

# Docker

**Сборка Docker образа и запуск контейнера с приложением**

---

**Стек**

Библиотека `llama-cpp-python` для инференса модели в формате GGUF  
https://github.com/abetlen/llama-cpp-python

Инструкции по Docker образам для `llama-cpp-python`  
https://github.com/abetlen/llama-cpp-python/tree/main/docker

Образы Nvidia CUDA  
https://catalog.ngc.nvidia.com/orgs/nvidia/containers/cuda

Содержимое всех файлов кроме `*docker*` такое же как в разделе `Структура и код приложения`

---

**Структура проекта**:  
 - 📁 `models`
 - `.dockerignore`
 - `Dockerfile-cpu`
 - `Dockerfile-cuda`
 - `requirements.txt`
 - `app.py`
 - `utils.py`


---

**Сборка образа и запуск контейнера:**

1. Сборка образа  

 - с поддержкой CPU
```
docker build -t gradio-llamacpp-chatbot:cpu -f Dockerfile-cpu .
```

 - с поддержкой CUDA
```
docker build -t gradio-llamacpp-chatbot:cuda -f Dockerfile-cuda .
```

2. Запуск контейнера на 7860 порту с пробросом папок через `docker volumes`
 - с поддержкой CPU
```
docker run -it -p 7860:7860 -v ./models:/app/models --name chatbot gradio-llamacpp-chatbot:cpu
```

 - с поддержкой CUDA
```
docker run -it --gpus all -p 7860:7860 -v ./models:/app/models --name chatbot gradio-llamacpp-chatbot:cuda
```

Открыть в браузере адрес http://localhost:7860/  
При первом запуске произойдет загрузка модели по умолчаню (`gemma-2-2b-it-Q8_0.gguf`, 2.7GB) в папку `./models`, поэтому приложение доступно не сразу

---

**Содержимое `.dockerignore`:**  
```
__pycache__
env*
models/*
*.ipynb
```

**Содержимое `Dockerfile-cpu`**
```
FROM python:3.10
WORKDIR /app
COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt
COPY . .
EXPOSE 7860
CMD ["python3", "app.py"]
```
Несжатый образ занимает 1.37GB

**Содержимое `Dockerfile-cuda`**
```
ARG CUDA_IMAGE='12.5.0-devel-ubuntu22.04'
FROM nvidia/cuda:${CUDA_IMAGE} AS builder

RUN apt-get update && apt-get upgrade -y \
    && apt-get install -y git build-essential \
    python3 python3-pip gcc wget \
    ocl-icd-opencl-dev opencl-headers clinfo \
    libclblast-dev libopenblas-dev \
    && mkdir -p /etc/OpenCL/vendors && echo 'libnvidia-opencl.so.1' > /etc/OpenCL/vendors/nvidia.icd

ENV CUDA_DOCKER_ARCH=all
ENV GGML_CUDA=1

RUN python3 -m pip install --upgrade \
    pip pytest cmake scikit-build setuptools \
    fastapi uvicorn sse-starlette pydantic-settings starlette-context

COPY requirements.txt .
RUN CMAKE_ARGS='-DGGML_CUDA=on' pip install --no-cache-dir -r requirements.txt

FROM nvcr.io/nvidia/cuda:12.5.0-runtime-ubuntu22.04

RUN apt-get update && apt-get upgrade -y \
    && apt-get install -y python3 python3-pip \
    && apt-get clean && rm -rf /var/lib/apt/lists/*

ARG PYTHON_VERSION=3.10
COPY --from=builder /usr/local/lib/python${PYTHON_VERSION}/dist-packages /usr/local/lib/python${PYTHON_VERSION}/dist-packages
COPY --from=builder /etc/OpenCL /etc/OpenCL

WORKDIR /app
COPY app.py .
EXPOSE 7860
CMD ["python3", "app.py"]
```
Несжатый образ занимает 5.05GB

---

**Запушить образы на Docker Hub**

Залогиниться в Docker Hub
```
docker login
```

Чтобы запушить образ, он должен иметь название в формате `имя_пользователя/имя_образа:тэг`, например `username/gradio-app:latest`  
Если название не в нужном формате то надо создать ссылку на образ с правильным форматом командой `docker tag`  
(заменить `your_username` на свое имя на Docker Hub)
```
docker tag gradio-llamacpp-chatbot:cpu your_username/gradio-llamacpp-chatbot:cpu
```

Запушить образ на Docker Hub
```
docker push your_username/gradio-llamacpp-chatbot:cpu
```

# Деплой на облачный сервер (Gradio + NGINX)

---
*Деплой приложения на Gradio на облачный сервер и дополнительное подключение сервера NGINX + аренда и подключение своего домена + установка сертификатов SSL для работы приложения по протоколу HTTPS*  

## Подключение к облачному серверу

**Подключение к удаленному серверу vk cloud**

> *Данная инструкция так же проверялась на сервере от immers.cloud, разница только в расположении меню и настроек, и на immers.cloud не нужно открывать порты, они уже открыты*  

---
Личный кабинет панель управления  
https://msk.cloud.vk.com/app

1. Создать ключевую пару - нажать на профиль и выбрать `Ключевые пары` (необязательно создавать сейчас - можно создать потом во время создания ВМ)  
Скачается закрытый ключ (например с и названием `ssh-vk.pem`), с его помощью можно подключится через команду  
`ssh -i файл_ключа`  

2. `Облачные вычисления` - `Виртуальные машины` - `Создать инстанс `  
Выбрать созданный ранее или новый SSH ключ  
При создании ВМ конкретно на vk cloud на вкладке сеть в разделе Настройки Firewall должен быть виден квадрат с надписью ssh, если его нет до добавить его (Добавить группу безопасности - ssh)  
После создания ВМ будет отображен IP адрес для подключения (здесь и далее будет использоваться пример IP `90.156.218.32`)  

3. Подключение в ВМ с указанием полученного ключа `ssh-vk.pem`  
Если выбрали ОС `Ubuntu` то имя пользователя будет `ubuntu` (на разных серверах по разному, например на Selectel имя пользователя `root`)
```
ssh -i путь_до_ssh_ключа/файл_ssh_ключа имя_пользователя@IP_сервера
```
Например
```
ssh -i C:\Users\111\.ssh\ssh-vk.pem ubuntu@90.156.218.32
```
В этом примере скачанный на шаге 1 SSH ключ `ssh-vk.pem` находится в директории `C:\Users\111\.ssh\`  
Так же можно отдельно заранее создать свой собственный ключ и указать его публичную часть при создании ВМ

**Здесь и далее в качестве арендованного IP рассматривается пример  http://90.156.218.32/ - нужно будет заменить на свой**

## Открытие портов на облачном сервере

**Если на сервере, отличном от VK Cloud (например immers.cloud), порты открыты, то все инструкции по пробросу портов в этом ноутбуке делать не нужно и можно сразу переходить в браузере по адресуи порту, на котром запущено приложение, например http://90.156.218.32:7860/**  

**Открытие (проброс) портов в VK Cloud и открытие приложения в браузере**

`Панель управления` в `Виртуальные сети` - `Настройки Firewall` - добавить имя группы правил (например `chatbot`) - `Входящий трафик` -
`Добавить правило` - указать порт `7860`, затем `Добавить виртуальную машину` и выбрать свою ВМ  
После применения настроек (настройка применяется не моментально) перейти в браузере на адрес и порт, на котром запущено приложение, например http://90.156.218.32:7860/

> *Проверить открыты ли порты у сервера (на примере IP сервера 91.219.226.152 и 7860 порта)*
```
nc -zv 91.219.226.152 7860
telnet 91.219.226.152 7860
```

## Установка библиотек и запуск приложения по HTTP

**Установка библиотек, активация виртуального окружения и создание файлов приложения**

```sh
# установка python и вспомогательных библиотек
sudo apt update
sudo apt install -y python3 python3-pip python3-venv nano unzip

# создание директории проекта и переход в нее
mkdir chatbot_gradio
cd chatbot_gradio

# создание и активация виртуального окружения python
python3 -m venv env
source ./env/bin/activate
pip install -U pip

# если нужно например скачать архив с файлами проекта - закинуть его на Gdrive и открыть к нему доступ
# pip install gdown
# gdown ID_Архива_на_Gdrive
# unzip archive.zip
```

Создать файлы `app.py` и `requirements.txt`, заполнить их содержимым из раздела `Струткура и код проекта` и установить зависимости

Если нужна установка `llama-cpp-python` с поддержкой CUDA то установить ее заранее по [инструкции](https://github.com/abetlen/llama-cpp-python?tab=readme-ov-file#installation-configuration) для своей системы

```
nano app.py
nano requirements.txt
pip install -r requirements.txt
```
В конце файла `app.py` установить параметр `server_name='0.0.0.0` при запуске приложения, потом после подключения сервера NGINX его можно убрать  


---

**Запуск приложения и открытие в браузере по протоколу HTTP**
```
python3 app.py
```

Перейти в браузере по адресу http://90.156.218.32:7860/ (порт 7860 должен быть открыт)

## Настройка NGINX для запуска на localhost

NGINX документация  
https://nginx.org/ru/

NGINX - высокопроизводительный веб-сервер и обратный прокси-сервер с открытым исходным кодом.  
Ключевые функции NGINX:
 - `Веб-сервер:`  
Nginx может отдавать веб-страницы и файлы пользователям, когда они заходят на сайт.
 - `Обратный прокси:`  
Перенаправляет запросы от клиентов к другим серверам, скрывая детали внутренней сети.
 - `Балансировка нагрузки:`  
Распределяет входящие запросы между несколькими серверами, чтобы ни один сервер не был перегружен.
 - `Кэширование:`  
Сохраняет копии часто запрашиваемых данных, чтобы быстрее отдавать их пользователям.
 - `SSL/TLS терминация:`  
Обрабатывает шифрованные HTTPS-соединения, обеспечивая безопасность передачи данных.
 - `Сжатие данных:`  
Уменьшает размер передаваемых данных, ускоряя загрузку веб-страниц.
 - `Обработка статического контента:`  
Эффективно обслуживает неизменяемые файлы, такие как изображения или CSS.
 - `Ограничение скорости:`  
Контролирует количество запросов от пользователя, защищая от перегрузок.
 - `Аутентификация:`  
Может проверять пользователей перед предоставлением доступа к определенным ресурсам.
 - `Перезапись URL:`  
Изменяет URL-адреса запросов, помогая в маршрутизации и SEO-оптимизации.


**NGINX можно конфигурировать несколькими способами:**  
 - 1) через правку основного конфига `/etc/nginx/nginx.conf`
 - 2) добавление своих конфигов в директорию `/etc/nginx/sites-available/` и их активация/деактивация путем добавления/удаления ссылок на них в директорию `/etc/nginx/sites-enabled/`
 - 3) добавление своих конфигов в директорию `/etc/hginx/conf.d`  

Здесь будет использован способ 2, способ 1 рассмотрен внизу данного раздела в разделе дополнительно

---

**Установка и настройка NGINX**

1. Установка и включение автозапуска NGINX
```
sudo apt install -y nginx
sudo systemctl enable nginx
```

2. Создание файла конфига NGINX
```
sudo nano /etc/nginx/sites-available/chatbot.conf
```
Вставить туда содержимое

```
server {
    listen 80;
    listen [::]:80;
    # server_name - слушать вшешний IP облачного сервера (если указать localhost тоже будет работать)
    # потом заменить server_name на арендованный домен с настроенной А-записью, например chatbot.nachalo2024.ru
    server_name 90.156.218.32;  

    location / {
        proxy_pass http://127.0.0.1:7860;  # проксировть запросы на приложение Gradio
        
        # дополнительные заголовки при передаче запроса от клиента к серверу, нужны для корректной работы многих приложений
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
        proxy_set_header X-Forwarded-Proto $scheme;
    }
}
```
Для сохранения изменений и выхода из редактора `nano` нажать `Ctrl+S` и `Ctrl+X`

3. Активация созданного конфига NGINX
```
sudo ln -s /etc/nginx/sites-available/chatbot.conf /etc/nginx/sites-enabled/
```
В итоге в папке разрешенных сайтов `/etc/nginx/sites-enabled/` появится символическая ссылка на `chatbot.conf`

4. Отключить конфиг `default` (который показывает главную страницу NGINX)
```
sudo rm /etc/nginx/sites-enabled/default
```

5. Перезапустить NGINX, чтобы изменения вступили в силу  
Здесь и далее после любых изменений конфигов нужно выпонять эту команду
```
sudo systemctl restart nginx
```
Проверить статус NGINX можно командой
```
sudo systemctl status nginx
```
Проверка конфигурации NGINX на на наличие ошибок
```
sudo nginx -t
```
Должно вывести
```
nginx: the configuration file /etc/nginx/nginx.conf syntax is ok
nginx: configuration file /etc/nginx/nginx.conf test is successful
```

---

**Запуск приложения и открытие в браузере по протоколу HTTP**

В фаерволе открыть 80 порт как в инструкции `Открытие портов` в разделе выше (просто добавить правило с ту же созданную группу `chatbot`)  
Порт 8000 можно закрыть, он больше не нужен (через три точки - удалить)  
Теперь можно запускать приложение на локальном хосте - `127.0.0.1` - NGINX будет проксировать запросы на него  
То есть можно в `app.py` убрать параметр `server_name='0.0.0.0'` в  `chatbot_interface.launch()`

Запуск приложения
```
python3 app.py
```

Перейти в браузере по адресу http://90.156.218.32/ (порт 80 должен быть открыт)

---

**Дополнительно**

Вариант настройки NGINX через правку основного конфига `/etc/nginx/nginx.conf`

```
sudo nano /etc/nginx/nginx.conf
```
Удалить все текущее содержимое файла в редакторе nano - `Alt + \`, `Alt + T`

**Содержимое `/etc/nginx/nginx.conf` для запуска на localhost**
```
events {
    worker_connections 1024;
}
http {
    server {
        listen 80;
        server_name localhost;  # localhost или IP адрес сервера или домен

        location / {
            proxy_pass http://127.0.0.1:7860;  # адрес где запущено приложение Gradio
            proxy_set_header Host $host;
            proxy_set_header X-Real-IP $remote_addr;
            proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
            proxy_set_header X-Forwarded-Proto $scheme;
        }
    }
}
```

**Запуск приложения и открытие в браузере по протоколу HTTP**
```
python3 app.py
```

Перейти в браузере по адресу http://90.156.218.32/ (порт 80 должен быть открыт)

## Активация автоматического перезапуска приложения (опционально)

Создать systemd сервис для автоматического перезапуска приложения
```
sudo nano /etc/systemd/system/chatbot.service
```

Содержимое сервиса
```
[Unit]
Description=Chatbot service

[Service]
# пользователь, от имени которого должен работать процесс
# указать своего пользователя если он называется не ubuntu
User=ubuntu
# перезапуск всегда даже если завершилось ошибкой
Restart=always

# рабочий каталог и переменная PATH, где находятся исполняемые файлы процесса
WorkingDirectory=/home/ubuntu/chatbot_gradio
Environment=PATH=/home/ubuntu/chatbot_gradio/env/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin

# команда для старта сервиса (здесь нужно использовать полный путь)
ExecStart=/home/ubuntu/chatbot_gradio/env/bin/python3 app.py

[Install]
WantedBy=multi-user.target
```

Перезагрузка конфигурации systemd, запуск сервсиса, добавление в автозапуск и проверка статуса
```
sudo systemctl daemon-reload
sudo systemctl start chatbot
sudo systemctl enable chatbot
sudo systemctl status chatbot
```
Название сервиса `chatbot` - это название сервиса которое мы создавали командой  - `sudo nano /etc/systemd/system/chatbot.service`

---

**Варианты опции Restart для сервиса**

 - `no` (по умолчанию): Сервис не будет автоматически перезапускаться.
 - `always`: Сервис всегда перезапускается, независимо от причины завершения.
 - `on-success`: Перезапуск только если процесс завершился с кодом выхода 0 или сигналом SIGHUP, SIGINT, SIGTERM или SIGPIPE.
 - `on-failure`: Перезапуск если процесс завершился с ненулевым кодом выхода, был убит сигналом, или истекло время ожидания.
 - `on-abnormal`: Перезапуск если процесс был убит сигналом, истекло время ожидания, или если сервис не смог остановиться корректно.
 - `on-abort`: Перезапуск только если процесс завершился по сигналу, который обычно создает core dump.
 - `on-watchdog`: Перезапуск только если истекло время ожидания watchdog.

## Регистрация и настройка своего домена (сайта)

**Аренда своего домена**

---
Регистрация домена на примере сервиса Reg RU  
https://www.reg.ru/

Здесь и далее в качестве примера названия арендованного домена будет рассматриваться `nachalo2024.ru`  
Настройки и условия описаны на момент июля 2024, они могут менятся

---
После регистрации и оплаты домена Reg RU подключает платный хостинг на месяц, которым можно пользоваться месяц бесплатно, или можно сразу перейти на бесплатные серверы DNS

Инcтрукция как изменить DNS серверы на бесплатные (актуально для Reg RU):  
Заходим в `Домены` -> нажимаем на наш домен `nachalo2024.ru` -> `DNS-серверы и управление зоной` -> `Изменить` -> `DNS-серверы Изменить` -> выбрать `Бесплатные DNS-серверы ns1.reg.ru, ns2.reg.ru` -> `Да`  
Процесс обновления DNS может занять до 24 часов  
Проверить какие DNS установлены для любого сайта можно на этом же сайте через [whois](https://www.reg.ru/whois/)

---
После регистрации и оплаты домена нужно добавить А-запись DNS, которая будет указывать, на какой IP адрес указывает наш домен  
Например пользователи будут заходить на домен `chatbot.nachalo2024.ru`, и с помощью А-записи они будут перенаправляться на IP адрес арендованного сервера на котором запущено наше приложение на Gradio - например `90.156.218.32`

---
Как добавлять A-записи [инструкция](https://help.reg.ru/support/dns-servery-i-nastroyka-zony/nastroyka-resursnykh-zapisey-dns/nastroyka-resursnykh-zapisey-v-lichnom-kabinete#0)

Как добавлять A-записи быстрая инструкция:  
Под надписью `Ресурсные записи` нажимаем `Добавить запись` -> `A` -> в поле `Subdomain` вводим любое название для поддомена, например `chatbot`, в поле `IP Address` вводим IP арендованной виртуальной машины, например `90.156.218.32`  
Таким образом поддомен `chatbot.nachalo2024.ru` будет связан с IP `90.156.218.32`

Перенаправление заработает не сразу, бывает нужно ждать долго (у меня уходило примерно 3 - 20 мин но говорят что может занимать до нескольких дней)  

Проверка что А-запись активна и домен работает
```
ping chatbot.nachalo2024.ru
nslookup chatbot.nachalo2024.ru
```
Онлайн проверка что А-запись активна и домен работает  
https://www.digwebinterface.com/  
https://dnschecker.org/  

---

**Дополнительно**

Быстро проверить что домен работает и происходит перенапраление на работающее приложение на сервере
```
sudo apt update
sudo apt install -y python3
python3 -m http.server --bind 0.0.0.0 8000
```
Для проверки сервера перейти на http://90.156.218.32:8000/  
Для проверки домена перейти на http://chatbot.nachalo2024.ru:8000/  
На сервере должен быть открыт порт `8000`

## Настройка NGINX для запуска на арендованном домене

Перед запуском данного раздела нужно выполнить код из раздела `Подключение к серверу, установка библиотек` и установить nginx

Редактирование (или создание) файла конфига NGINX
```
sudo nano /etc/nginx/sites-available/chatbot.conf
```
Вставить туда содержимое
```
server {
    listen 80;
    listen [::]:80;
    server_name chatbot.nachalo2024.ru;  # арендованный домен с настроенной А-записью

    location / {
        proxy_pass http://127.0.0.1:7860;  # проксировть запросы на приложение Gradio
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
        proxy_set_header X-Forwarded-Proto $scheme;
    }
}
```

Перезапустить NGINX, чтобы изменения вступили в силу  
Здесь и далее после любых изменений конфигов нужно выпонять эту команду
```
sudo systemctl restart nginx
```

Запуск приложения и открытие в браузере по протоколу HTTP
```
python3 app.py
```

Перейти в браузере по адресу http://chatbot.nachalo.ru/ (порт 80 должен быть открыт)

> Если сайт не открывается, и мы уже ранее проводили с ним эксперименты, возможно браузер закэшировал старую DNS запись (можно проверить в другом браузере, и если сайт открывается то это так)  
Исправить это можно очистив кэш браузера (или очистить отдельно DNS кэш, например в Chrome введя в адресную строку `chrome://net-internals/#dns`, нажать `Enter` и нажать `Clear host cache`)  
Очистить кэш DNS в ОС Windows можно через командную строку, введя `ipconfig /flushdns`

## Установка SSL сертификата и запуск приложения по HTTPS

Чтобы сайт нормально работал по протоколу HTTPS, нужно установить для него SSL сертификат, в данном примере устанавливается бесплатный сертификат Let's Encrypt  
https://letsencrypt.org/ru/getting-started/

1. Установка Certbot
```
sudo apt install -y certbot python3-certbot-nginx
```

2. Создание SSL-сертификата
```
sudo certbot --nginx -d chatbot.nachalo2024.ru -m email_adress@mail.ru --agree-tos
```
Эта команда обновляет файл конфига NGINX нашего приложения `/etc/nginx/sites-available/chatbot.conf`  

3. Активировать автопродление сертификата когда срок действия закончится (опционально)
```
sudo certbot renew --dry-run
```

4. Перезапустить службу NGINX
```
sudo systemctl restart nginx
```

---

**Запуск приложения и открытие в браузере по протоколу HTTPS**

В фаерволе открыть 443 порт как в инструкции `Проброс портов` в разделе выше  
Порт 80 можно не удалять - NGINX будет перенаправлять запросы с HTTP на HTTPS (с 80 порта на 443)

Запуск приложения
```
python3 app.py
```

Перейти в браузере по адресу https://chatbot.nachalo2024.ru/

---

**Дополнительные команды**

Попытки получить сертификат ограничены, если несколько раз это сделать неудачно то будет временная блокировка на получение сертификата, поэтому есть безопасная версия команды - просто проверить что ошибок нет и сертификат будет выдан
```
sudo certbot certonly --dry-run --nginx -d fastapi.nachalo2024.ru -m адрес_email@mail.ru --agree-tos
```
Если напишет `The dry run was successful.` то все ок и можно делать основную команду

Проверить текущие сертификаты
```
sudo certbot certificates
```

Если при установке сертификата ошибка `duplicate location` то нужно отключить конфиги которыые конфликтуют  
Список активированных конфигов
```
ls /etc/nginx/sites-enabled/
```
Отключить конфиг (например конфиг `default`)
```
sudo rm /etc/nginx/sites-enabled/default
```
И перезапустить службу
```
sudo systemctl restart nginx
```

---

**Дополнительные прочие команды**

Если порт 7860 занят (например мы вылетели из сервера при работающем приложении потом снова загли) то нужно узнать PID процесса командой `sudo lsof -i :7860`, затем убить его командой `sudo kill -9 PID`