## Библиотека fuzzywuzzy

**Библиотека FuzzyWuzzy** — это инструмент для выполнения операций сравнения строк с целью определения их сходства. Она полезна в тех случаях, когда нужно сравнить строки с ошибками, опечатками или вариациями написания и определить, насколько они похожи друг на друга.

### Основное предназначение FuzzyWuzzy

FuzzyWuzzy применяется для решения задач, связанных с нечётким сопоставлением строк. В повседневных задачах это может пригодиться для:

- Обработки данных, где строки могут содержать ошибки или опечатки.
- Сравнения и сопоставления пользовательских вводов с существующими данными (например, при поиске по базе данных).
- Очистки данных (например, поиска и устранения дубликатов записей).

### Основной функционал библиотеки

FuzzyWuzzy использует алгоритм **Levenshtein distance**, который измеряет количество операций (вставок, удалений или замен) для преобразования одной строки в другую. Библиотека позволяет вычислять степень сходства строк в виде процентного значения.

**fuzz.ratio**

Это базовая функция, которая вычисляет процентное сходство между двумя строками. Чем выше процент, тем больше строки похожи друг на друга.

In [1]:
!pip install fuzzywuzzy

Collecting fuzzywuzzy
  Downloading fuzzywuzzy-0.18.0-py2.py3-none-any.whl.metadata (4.9 kB)
Downloading fuzzywuzzy-0.18.0-py2.py3-none-any.whl (18 kB)
Installing collected packages: fuzzywuzzy
Successfully installed fuzzywuzzy-0.18.0


In [2]:
from fuzzywuzzy import fuzz

string_1 = "apple"
string_2 = "appel"
similarity = fuzz.ratio(string_1, string_2)
print(similarity)  # Output: 80

80




**fuzz.partial_ratio**

Эта функция полезна для сравнения подстрок, когда одна строка является частью другой, или когда строки сильно отличаются по длине.

In [3]:
string_1 = "apple pie"
string_2 = "apple"
similarity = fuzz.partial_ratio(string_1, string_2)
print(similarity)  # Output: 100

100


**fuzz.token_sort_ratio**

Сравнивает строки, игнорируя порядок слов. Это полезно в случаях, когда порядок слов может меняться, но сами слова одинаковы.

In [4]:
string_1 = "apple pie"
string_2 = "pie apple"
similarity = fuzz.token_sort_ratio(string_1, string_2)
print(similarity)  # Output: 100

100


**fuzz.token_set_ratio**

Подходит для сравнения строк, которые содержат повторяющиеся слова. Сначала удаляет дубликаты, а затем сравнивает уникальные слова.

In [5]:
string_1 = "apple pie apple"
string_2 = "pie apple"
similarity = fuzz.token_set_ratio(string_1, string_2)
print(similarity)  # Output: 100

100


**process.extract**

Используется для поиска наиболее похожих строк в списке. Эта функция возвращает список кортежей, где каждый кортеж содержит строку и процент совпадения.

In [6]:
from fuzzywuzzy import process

choices = ["apple pie", "banana pie", "cherry pie"]
query = "apple"
results = process.extract(query, choices)
print(results)  # Output: [('apple pie', 90), ('banana pie', 30), ('cherry pie', 30)]

[('apple pie', 90), ('banana pie', 54), ('cherry pie', 40)]


**process.extractOne**

Если требуется найти только одно наиболее похожее совпадение, можно использовать эту функцию.

In [7]:
result = process.extractOne(query, choices)
print(result)  # Output: ('apple pie', 90)

('apple pie', 90)


### Самые полезные модули

- **fuzz**: модуль для непосредственного сравнения строк, как рассмотрено выше.
- **process**: модуль для поиска похожих строк в коллекциях данных.

In [None]:
# пример, как использовать в лабе
y_pred = [{'content': 'Вы - полезный помощник, умеющий читать тексты на русском языке, глубоко понимать их и анализировать.', 'role': 'system'}, {'content': 'Прочтите, пожалуйста, следующий текст и определите, какая тема из известного списка тем наиболее представлена в следующем тексте. В качестве ответа напишите только название темы из списка, больше ничего.\nСписок тем: entertainment, geography, health, politics, science/technology, sports и travel.\nТекст: Если увеличить расстояние для бега с четверти до половины мили, скорость становится не так важна, тогда как выносливость превращается в абсолютную необходимость.\nВаш ответ: ', 'role': 'user'}, {'role': 'assistant', 'content': 'sports'}]
y_pred_with_normalization = list(map(
    lambda it: process.extractOne(it[-1]['content'], list_of_categories, scorer=fuzz.token_sort_ratio)[0],
    y_pred
))
y_pred_with_normalization

https://habr.com/ru/articles/491448/

## Расстояние Левенштейна

**Расстояние Левенштейна** — это метрика для измерения различий между двумя строками. Оно показывает минимальное количество операций, которые необходимо выполнить, чтобы превратить одну строку в другую. Эти операции включают:

- Замена одного символа на другой.
- Вставка нового символа.
- Удаление символа.

Чем меньше значение расстояния Левенштейна, тем больше строки похожи друг на друга. Если расстояние Левенштейна равно нулю, это означает, что строки идентичны.

### Пример 1: Расстояние между двумя похожими словами

Возьмём два слова: **"kitten"** и **"sitting"**. Посчитаем расстояние Левенштейна между ними.

- kitten → sitten (заменить k на s)
- sitten → sittin (заменить e на i)
- sittin → sitting (вставить g в конец)

Здесь требуется три операции (две замены и одна вставка), поэтому расстояние Левенштейна между этими словами равно 3.

### Пример 2: Расстояние между строками с меньшими отличиями

Рассмотрим два слова: **"flaw"** и **"lawn"**.

- flaw → law (удаление f)
- law → lawn (вставка n в конец)

Итак, расстояние Левенштейна равно 2 (одна удаление и одна вставка).

### Пример 3: Полностью разные строки

Теперь сравним строки: **"book"** и **"pen"**.

- book → pook (замена b на p)
- pook → peek (замена o на e)
- peek → penk (замена o на n)
- penk → pen (удаление k)

Здесь требуется 4 операции, и расстояние Левенштейна равно 4.

### Пример расчёта расстояния Левенштейна на Python

In [8]:
!pip install Levenshtein

Collecting Levenshtein
  Downloading levenshtein-0.26.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.2 kB)
Collecting rapidfuzz<4.0.0,>=3.9.0 (from Levenshtein)
  Downloading rapidfuzz-3.10.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (11 kB)
Downloading levenshtein-0.26.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (162 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m162.6/162.6 kB[0m [31m12.0 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading rapidfuzz-3.10.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.1/3.1 MB[0m [31m52.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: rapidfuzz, Levenshtein
Successfully installed Levenshtein-0.26.0 rapidfuzz-3.10.0


In [9]:
import Levenshtein

string_1 = "kitten"
string_2 = "sitting"
distance = Levenshtein.distance(string_1, string_2)
print(f"Расстояние Левенштейна между '{string_1}' и '{string_2}' равно {distance}.")

Расстояние Левенштейна между 'kitten' и 'sitting' равно 3.


Если использовать встроенную функцию для вычисления расстояния Левенштейна вручную, можно использовать следующий код:

In [None]:
def levenshtein_distance(s1, s2):
    # Создание матрицы
    m = [[0] * (len(s2) + 1) for _ in range(len(s1) + 1)]

    # Инициализация первой строки и столбца
    for i in range(len(s1) + 1):
        m[i][0] = i
    for j in range(len(s2) + 1):
        m[0][j] = j

    # Вычисление расстояния
    for i in range(1, len(s1) + 1):
        for j in range(1, len(s2) + 1):
            if s1[i-1] == s2[j-1]:
                cost = 0
            else:
                cost = 1
            m[i][j] = min(m[i-1][j] + 1,  # Удаление
                          m[i][j-1] + 1,  # Вставка
                          m[i-1][j-1] + cost)  # Замена

    return m[len(s1)][len(s2)]

# Пример
string_1 = "kitten"
string_2 = "sitting"
distance = levenshtein_distance(string_1, string_2)
print(f"Расстояние Левенштейна между '{string_1}' и '{string_2}' равно {distance}.")

### Применение расстояния Левенштейна

- Сопоставление строк в поисковых системах для учета возможных опечаток.
- Обнаружение дубликатов в базах данных, где возможны ошибки в написании.
- Обработка естественного языка (NLP) для сравнения текстов, проверки на плагиат, автоматической коррекции текстов.
- Автозаполнение и автопредсказание текста, где ввод пользователя может содержать ошибки или опечатки.

https://stackabuse.com/levenshtein-distance-and-text-similarity-in-python/ <br>
https://habr.com/ru/articles/676858/ <br>
https://neerc.ifmo.ru/wiki/index.php?title=%D0%97%D0%B0%D0%B4%D0%B0%D1%87%D0%B0_%D0%BE_%D1%80%D0%B5%D0%B4%D0%B0%D0%BA%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D0%BE%D0%BC_%D1%80%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B8,_%D0%B0%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC_%D0%92%D0%B0%D0%B3%D0%BD%D0%B5%D1%80%D0%B0-%D0%A4%D0%B8%D1%88%D0%B5%D1%80%D0%B0

### Взаимодействие FuzzyWuzzy и python-Levenshtein

- **FuzzyWuzzy** — это библиотека, которая использует алгоритм Левенштейна для вычисления схожести строк. В стандартной установке она использует чисто Python-реализацию для расчёта расстояния Левенштейна (и других операций), что может быть не очень быстрым на больших наборах данных или при сложных вычислениях.

- **python-Levenshtein** — это C-библиотека, реализующая алгоритм Левенштейна с использованием оптимизированного кода на C, что даёт значительное ускорение вычислений. Когда эта библиотека установлена, FuzzyWuzzy автоматически использует её для вычислений, заменяя свою стандартную реализацию на более быструю версию.

Если вы используете только FuzzyWuzzy, библиотека по умолчанию работает на Python-реализации расстояния Левенштейна. Это вполне нормально для небольших данных, но на больших наборах данных скорость может быть недостаточной. Установка python-Levenshtein позволяет FuzzyWuzzy использовать более эффективную реализацию.

### Тестирование производительности

In [10]:
!pip install -q python-Levenshtein

In [11]:
import time
from fuzzywuzzy import fuzz
from fuzzywuzzy import process

# Создание набора строк
strings = ["I love fuzzy matching"] * 10000
query = "I love fuzzy"

# Измерение времени выполнения без python-Levenshtein
start_time = time.time()
results = process.extract(query, strings)
print(f"Время выполнения без python-Levenshtein: {time.time() - start_time} секунд")

# После установки python-Levenshtein результаты будут значительно быстрее

Время выполнения без python-Levenshtein: 5.624720335006714 секунд


https://sky.pro/wiki/python/ponimaem-funktsiyu-enumerate-v-python-na-primere-koda/

## Библиотека accelerate

**Библиотека Accelerate** — это инструмент от команды Hugging Face, предназначенный для упрощения процесса распределения вычислений на несколько устройств (например, нескольких GPU или TPU) в рамках глубокого обучения. Она позволяет разработчикам запускать и оптимизировать модели на различных платформах и конфигурациях оборудования без необходимости значительных изменений в коде.

### Основные задачи библиотеки Accelerate

- **Распределённые вычисления:** Позволяет запускать обучение модели сразу на нескольких устройствах (GPU, TPU, CPU) или даже нескольких узлах (серверов).
- **Унификация работы с несколькими устройствами:** Автоматически выбирает оптимальные конфигурации для обучения на одном или нескольких устройствах.
- **Простота в использовании:** Позволяет легко переключаться между различными конфигурациями (например, между одной и несколькими GPU) без необходимости переписывать код обучения.
- **Совместимость**: Работает с популярными библиотеками для глубокого обучения, такими как PyTorch и Hugging Face Transformers.

### Accelerate в Google Colab

Библиотека Accelerate может использоваться для распределённых вычислений на нескольких устройствах, включая GPU и TPU в среде Google Colab. Хотя Colab предоставляет ограниченное количество вычислительных ресурсов (обычно 1 или 2 GPU на сеанс), вы всё равно можете использовать Accelerate для управления и распределения нагрузки между этими устройствами, а также для более эффективного использования одного устройства.

1. **Множественные GPU (если доступны)**: В премиум-аккаунтах Colab (например, Colab Pro+) иногда могут предоставляться несколько GPU на одном сеансе. В этом случае библиотека Accelerate может автоматически использовать все доступные устройства.

2. **TPU-ускорение**: В Colab можно выбрать TPU в качестве устройства, и библиотека Accelerate поддерживает распределённое обучение на TPU без необходимости вносить значительные изменения в код.

### Пример использования

Обычно в локальной среде конфигурация выполняется через команду **accelerate config**. Однако в Colab всё проще: библиотека автоматически определяет доступные устройства. Тем не менее, можно выполнить конфигурацию вручную, если необходимо:

In [None]:
from accelerate.utils import write_basic_config

# Создание базового конфигурационного файла
write_basic_config()

In [None]:
!pip install datasets

In [None]:
!pip install transformers datasets accelerate

import torch
from transformers import DistilBertTokenizer, DistilBertForSequenceClassification
from datasets import load_dataset
from accelerate import Accelerator
from torch.utils.data import DataLoader
from torch.optim import AdamW
import torch.nn.functional as F

dataset = load_dataset("imdb")

tokenizer = DistilBertTokenizer.from_pretrained("distilbert-base-uncased")

def tokenize_function(examples):
    return tokenizer(examples['text'], padding="max_length", truncation=True)

tokenized_datasets = dataset.map(tokenize_function, batched=True)
train_dataset = tokenized_datasets["train"].shuffle(seed=42).select([i for i in list(range(1000))])  # Для ускорения, выбираем 1000 примеров
test_dataset = tokenized_datasets["test"].shuffle(seed=42).select([i for i in list(range(100))])  # Для теста 100 примеров

train_dataloader = DataLoader(train_dataset, batch_size=8)
test_dataloader = DataLoader(test_dataset, batch_size=8)

model = DistilBertForSequenceClassification.from_pretrained("distilbert-base-uncased", num_labels=2)
optimizer = AdamW(model.parameters(), lr=5e-5)

# Инициализация Accelerator
accelerator = Accelerator()
model, optimizer, train_dataloader = accelerator.prepare(model, optimizer, train_dataloader)

num_epochs = 3

for epoch in range(num_epochs):
    model.train()
    for batch in train_dataloader:
        optimizer.zero_grad()
        inputs = {k: v.to(accelerator.device) for k, v in batch.items() if k != 'label'}
        labels = batch['label'].to(accelerator.device)
        outputs = model(**inputs, labels=labels)
        loss = outputs.loss
        accelerator.backward(loss)
        optimizer.step()
    print(f"Epoch {epoch + 1} completed.")

model.eval()
correct_predictions = 0

with torch.no_grad():
    for batch in test_dataloader:
        inputs = {k: v.to(accelerator.device) for k, v in batch.items() if k != 'label'}
        labels = batch['label'].to(accelerator.device)
        outputs = model(**inputs)
        predictions = torch.argmax(outputs.logits, dim=-1)
        correct_predictions += (predictions == labels).sum().item()

accuracy = correct_predictions / len(test_dataset)
print(f"Accuracy: {accuracy:.4f}")

**Запуск обучения на TPU:** Для обучения на TPU используется та же библиотека Accelerate, но с поддержкой **torch_xla** — специального бэкенда для работы с TPU.


In [None]:
!pip install torch_xla

In [None]:
import torch
import torch_xla.core.xla_model as xm
from accelerate import Accelerator

# Проверяем, какое устройство доступно
accelerator = Accelerator()
print(f"Используемое устройство: {accelerator.device}")

# Ваш код обучения здесь

https://huggingface.co/docs/accelerate/index

## Большие языковые модели

**Большие языковые модели (Large Language Models, LLM)** — это нейронные сети, обученные на огромных объемах текстовых данных для выполнения различных задач обработки естественного языка (NLP). Эти модели, такие как GPT (Generative Pre-trained Transformer), BERT (Bidirectional Encoder Representations from Transformers), T5 (Text-to-Text Transfer Transformer) и другие, существенно изменили ландшафт NLP, улучшив точность решений в задачах обработки текста.

### Преимущества больших языковых моделей

1. **Высокая точность и эффективность**:
   - LLMs демонстрируют отличные результаты в задачах, требующих понимания языка: машинный перевод, генерация текста, классификация, анализ тональности, резюмирование и др.
   - Модели, такие как GPT и T5, способны генерировать связные, грамматически правильные и осмысленные тексты на основе контекста, что улучшает их использование в чат-ботах, генерации ответов и других интерактивных системах.

2. **Универсальность**:
   - Большие языковые модели могут решать широкий спектр задач, не ограничиваясь одной узкой областью. Одна и та же модель может выполнять классификацию текста, извлечение сущностей, перевод, генерацию и другие задачи, используя лишь разные наборы инструкций.
   - Модели, такие как GPT-3 или GPT-4, обучены на больших корпусах данных и могут адаптироваться к новым задачам без необходимости полного дообучения.

3. **Многоязычность**:
   - Многие LLMs поддерживают работу с множеством языков, что делает их применимыми в глобальных задачах NLP, таких как машинный перевод и многоязычные чат-боты. Модели, такие как mBERT и mT5, способны работать с десятками языков.

4. **Обработка контекста и сложных языковых конструкций**:
   - Благодаря архитектуре трансформеров, LLMs способны учитывать контекст на дальних расстояниях, что улучшает обработку сложных текстов и предложений. Это позволяет лучше понимать зависимости между словами в больших отрезках текста, чем это могли более ранние модели (например, LSTM).

5. **Моделирование знаний и обобщение**:
   - LLMs обучены на разнообразных данных, что позволяет моделям «запоминать» знания и факты о мире. Они могут выполнять задачи, которые требуют специфических знаний, например, генерация научных текстов или объяснение сложных концепций.

### Недостатки больших языковых моделей

1. **Требования к ресурсам**:
   - Большие языковые модели требуют огромных вычислительных ресурсов для обучения и использования. Например, GPT-3 имеет 175 миллиардов параметров, что делает её чрезвычайно дорогой в обучении (на это требуются мощные GPU-кластеры и месяцы работы).
   - Даже для вывода (инференса) такие модели нуждаются в значительных ресурсах, что ограничивает их использование на устройствах с ограниченной вычислительной мощностью.

2. **Проблемы с этикой и генерацией предвзятых ответов**:
   - Модели обучаются на данных из интернета, которые могут содержать предвзятые или токсичные тексты. Это может привести к тому, что модели генерируют дискриминационные, вредные или неточные ответы.
   - Например, модели могут неосознанно распространять стереотипы, так как они унаследуют предвзятости из обучающих данных.

3. **Необъяснимость и ограниченное понимание**:
   - Большие языковые модели не обладают настоящим пониманием мира, они обучены выявлять паттерны и корреляции в данных. Это означает, что они могут генерировать ответы, которые кажутся осмысленными, но на самом деле не основаны на глубоком понимании вопроса.
   - Их выводы трудно объяснить, поскольку внутренние механизмы работы трансформеров сложны для интерпретации. Это затрудняет диагностику и устранение ошибок.

4. **Ограниченная работа с фактической информацией**:
   - LLMs, такие как GPT, могут генерировать тексты, которые звучат правдоподобно, но содержат фактические ошибки. Это связано с тем, что модели не имеют постоянного доступа к обновляющейся базе данных или фактическим источникам знаний.
   - Они склонны «галлюцинировать» — придумывать несуществующую информацию, если контекст слишком общий или недостаточно ясен.

5. **Проблемы с долговременной памятью**:
   - Большие языковые модели могут иметь трудности с пониманием и использованием контекста, если текст слишком длинный (например, более 2000-3000 символов). Это приводит к тому, что важные детали теряются или забываются в процессе генерации.

6. **Опасность генерации вредного контента**:
   - Такие модели могут использоваться для создания дезинформации, фейковых новостей, спам-контента или даже опасных материалов (например, инструкций по вредоносным действиям). Управление безопасностью этих моделей — это важный вопрос в сфере их применения.

### Задачи, для которых используются большие языковые модели

1. **Чат-боты и виртуальные ассистенты**:
   - LLMs используются для создания чат-ботов и голосовых помощников, таких как Alexa или Google Assistant. Благодаря своей способности понимать контекст и генерировать осмысленные ответы, они могут поддерживать диалог с пользователями.

2. **Машинный перевод**:
   - Модели, такие как mBERT или MarianMT, используются для перевода текста с одного языка на другой. Их универсальность позволяет эффективно обрабатывать многоязычные запросы.

3. **Анализ текста и тональности**:
   - LLMs используются для анализа текстов (например, отзывов или новостей) и определения их тональности — положительная, отрицательная или нейтральная. Это полезно для маркетинга, социального анализа и мониторинга медиа.

4. **Генерация текста**:
   - Модели, такие как GPT-3, используются для автоматической генерации текста, будь то статьи, резюме, посты в соцсетях или даже художественные тексты. Они способны создавать связные и структурированные тексты на основе введённых данных.

5. **Автодополнение кода**:
   - Модели, такие как GitHub Copilot (основанная на OpenAI Codex), используют LLMs для предсказания и автодополнения программного кода. Это улучшает производительность разработчиков, ускоряя написание программ.

6. **Обобщение и резюмирование текста**:
   - LLMs применяются для автоматического создания кратких резюме длинных документов, таких как научные статьи, отчёты или новости.

7. **Извлечение информации**:
   - Модели, такие как BERT, используются для поиска и извлечения сущностей или фактов из текстов. Это полезно в юридической, медицинской и научной областях для обработки больших объемов информации.

8. **Обработка вопросов и ответов (QA)**:
   - LLMs применяются для задач вопросно-ответных систем, где пользователи вводят вопрос, а модель отвечает, используя информацию из текста. Это особенно полезно в базе знаний, поддержке клиентов и в образовательных приложениях.

 ## Семейство моделей Qwen

**Семейство моделей Qwen (Quantum Wen)** — это набор больших языковых моделей, разработанных компанией Alibaba Cloud, предназначенных для решения задач, связанных с обработкой естественного языка (NLP). Модели Qwen обучены на больших корпусах данных и ориентированы на широкий спектр задач, таких как генерация текста, понимание инструкций, поддержка диалогов и многое другое. Модель **Qwen2-7B-Instruct**, о которой мы говорили ранее, является одним из представителей этого семейства.

Основные особенности моделей Qwen:
- **Многофункциональность**: поддержка инструкций, диалогов, генерации текста.
- **Многоязычность**: поддержка различных языков, что делает их применимыми в глобальных сценариях.
- **Оптимизация для задач реального времени**: модели разработаны с учётом низкой задержки для работы в интерактивных системах, таких как чат-боты.
- **Обучение с учётом инструкций**: обучены на данных, оптимизированных для точного выполнения команд и ответов на запросы пользователей.

Qwen — это относительно новое семейство моделей, и его развитие свидетельствует о растущей конкуренции в области разработки больших языковых моделей (LLMs).

## Другие семейства моделей для обработки текста

В мире NLP существует несколько других семейств моделей, которые применяются для различных текстовых задач, таких как генерация, перевод, классификация, анализ тональности, и многое другое. Вот несколько самых известных семейств:

#### 1. **GPT (Generative Pre-trained Transformer)**
   - **Разработчик**: OpenAI.
   - **Примеры**: GPT-2, GPT-3, GPT-4.
   - **Описание**: Одно из самых известных семейств языковых моделей, основанное на архитектуре трансформеров. GPT-модели способны генерировать связные тексты, отвечать на вопросы, переводить и решать многие другие задачи. GPT-3 и GPT-4 используют огромное количество параметров (175 миллиардов и более).
   - **Задачи**: Генерация текста, диалоги, создание кода, чат-боты, резюмирование, анализ текста.
   - **Особенности**: Способны выполнять различные задачи с минимальной настройкой, "zero-shot" и "few-shot" обучение, большой объём параметров для более глубокого понимания контекста.

#### 2. **BERT (Bidirectional Encoder Representations from Transformers)**
   - **Разработчик**: Google.
   - **Примеры**: BERT, RoBERTa, DistilBERT.
   - **Описание**: BERT — это модель, использующая двунаправленное внимание (bidirectional attention) для понимания контекста текста с обеих сторон (слева и справа). Она предназначена для задач, связанных с пониманием текста, таких как классификация и извлечение информации.
   - **Задачи**: Анализ текста, извлечение информации, машинный перевод, вопросно-ответные системы.
   - **Особенности**: Отлично справляется с задачами, где важен контекст, может эффективно использоваться в задачах классификации и поиска.

#### 3. **T5 (Text-to-Text Transfer Transformer)**
   - **Разработчик**: Google.
   - **Примеры**: T5, mT5 (многоязычная версия).
   - **Описание**: T5 преобразует все задачи NLP в задачу преобразования текста в текст. Эта универсальная модель может решать задачи классификации, перевода, резюмирования, извлечения информации и многое другое с использованием единой архитектуры.
   - **Задачи**: Перевод, генерация текста, классификация, резюмирование.
   - **Особенности**: Подход "text-to-text" делает модель очень гибкой для различных задач.

#### 4. **Turing-NLG**
   - **Разработчик**: Microsoft.
   - **Примеры**: Turing-NLG (17 миллиардов параметров).
   - **Описание**: Модель предназначена для генерации текста, поддержки диалогов и выполнения различных задач NLP. Это одна из крупнейших моделей, разработанных Microsoft для обработки текста.
   - **Задачи**: Генерация текста, ответ на вопросы, поддержка диалогов.
   - **Особенности**: Фокусируется на генерации связных текстов и взаимодействии с пользователем в интерактивных сценариях.

#### 5. **Mistral**
   - **Разработчик**: Mistral AI.
   - **Примеры**: Mistral 7B.
   - **Описание**: Новое семейство языковых моделей, которое стремится к высокой эффективности и универсальности. Mistral модели оптимизированы для выполнения инструкций, генерации текста и взаимодействия в диалоговых системах.
   - **Задачи**: Ответы на вопросы, поддержка диалогов, генерация текста.
   - **Особенности**: Улучшенная оптимизация с небольшим количеством параметров по сравнению с моделями-гигантами, что делает их доступнее для использования на более скромных ресурсах.

#### 6. **LLaMA (Large Language Model Meta AI)**
   - **Разработчик**: Meta (Facebook).
   - **Примеры**: LLaMA-1, LLaMA-2.
   - **Описание**: Модели LLaMA разработаны для широкого спектра задач NLP. Они предлагают мощные возможности для генерации текста и других задач, связанных с обработкой естественного языка.
   - **Задачи**: Ответ на вопросы, генерация текста, перевод, поддержка диалогов.
   - **Особенности**: Модели LLaMA менее ресурсозатратные по сравнению с гигантскими моделями вроде GPT, но при этом сохраняют высокую точность.

#### 7. **OPT (Open Pretrained Transformer)**
   - **Разработчик**: Meta (Facebook).
   - **Примеры**: OPT-175B.
   - **Описание**: Семейство моделей, открыто разработанное Meta, с целю предложить альтернативу GPT-3. Модели OPT оптимизированы для генерации текста, поддерживают работу с большими объёмами данных.
   - **Задачи**: Генерация текста, ответ на вопросы, создание контента.
   - **Особенности**: Открытость и доступность моделей делают их популярными для исследовательских целей.

#### 8. **Claude**
   - **Разработчик**: Anthropic.
   - **Примеры**: Claude 1, Claude 2.
   - **Описание**: Модели Claude ориентированы на этическое и безопасное взаимодействие с пользователем, а также на минимизацию предвзятостей и токсичности. Они могут генерировать текст, следовать инструкциям и поддерживать диалоги.
   - **Задачи**: Генерация текста, создание диалоговых систем, поддержка пользователей.
   - **Особенности**: Уделяет внимание вопросам безопасности и этики, пытается минимизировать вредные последствия генерации текста.

#### 9. **PaLM (Pathways Language Model)**
   - **Разработчик**: Google.
   - **Примеры**: PaLM, PaLM 2.
   - **Описание**: PaLM — это модель от Google, которая предназначена для решения различных задач NLP, включая генерацию текста, перевод и понимание текста. Модель создана на базе архитектуры Pathways, что делает её более гибкой и эффективной.
   - **Задачи**: Генерация текста, перевод, анализ текста, ответ на вопросы.
   - **Особенности**: Модель эффективна для работы с большими объёмами данных и сложными задачами NLP.

Каждое семейство языковых моделей обладает уникальными характеристиками и предназначено для решения различных задач в области обработки текста. В то время как модели, такие как GPT, обладают исключительными возможностями в генерации текста и многозадачности, модели вроде BERT и T5 сосредоточены на понимании текста и его преобразовании. Модели, такие как Qwen и LLaMA, предлагают более сбалансированные решения для использования в реальных приложениях с меньшими вычислительными затратами.

## Пример использования и дообучения модели Qwen2-7B-Instruct

Для использования и дообучения модели **Qwen2-7B-Instruct** на датасете из Hugging Face, вы можете следовать следующему примеру:

1. **Установка необходимых библиотек**:
   Убедитесь, что у вас установлены библиотеки `transformers` и `datasets`. Вы можете установить их с помощью pip:

   ```bash
   pip install transformers datasets
   ```

2. **Импорт библиотек**:

   ```python
   from transformers import QwenForCausalLM, QwenTokenizer
   from datasets import load_dataset
   from transformers import Trainer, TrainingArguments
   ```

3. **Загрузка модели и токенизатора**:

   ```python
   model_name = "Qwen/Qwen2-7B-Instruct"
   tokenizer = QwenTokenizer.from_pretrained(model_name)
   model = QwenForCausalLM.from_pretrained(model_name)
   ```

4. **Загрузка датасета**:
   Вы можете выбрать любой доступный датасет на Hugging Face. Например, используем датасет `imdb` для дообучения на текстах отзывов:

   ```python
   dataset = load_dataset("imdb")
   ```

5. **Подготовка данных**:
   Вам нужно будет токенизировать данные:

   ```python
   def tokenize_function(examples):
       return tokenizer(examples["text"], truncation=True)

   tokenized_datasets = dataset.map(tokenize_function, batched=True)
   ```

6. **Настройка параметров обучения**:

   ```python
   training_args = TrainingArguments(
       output_dir="./results",
       evaluation_strategy="epoch",
       learning_rate=2e-5,
       per_device_train_batch_size=4,
       num_train_epochs=3,
       weight_decay=0.01,
   )
   ```

7. **Создание тренера и запуск обучения**:

   ```python
   trainer = Trainer(
       model=model,
       args=training_args,
       train_dataset=tokenized_datasets["train"],
       eval_dataset=tokenized_datasets["test"],
   )

   trainer.train()
   ```

In [12]:
!pip install transformers datasets

Collecting datasets
  Downloading datasets-3.0.1-py3-none-any.whl.metadata (20 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting xxhash (from datasets)
  Downloading xxhash-3.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess (from datasets)
  Downloading multiprocess-0.70.17-py310-none-any.whl.metadata (7.2 kB)
INFO: pip is looking at multiple versions of multiprocess to determine which version is compatible with other requirements. This could take a while.
  Downloading multiprocess-0.70.16-py310-none-any.whl.metadata (7.2 kB)
Downloading datasets-3.0.1-py3-none-any.whl (471 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m471.6/471.6 kB[0m [31m22.1 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dill-0.3.8-py3-none-any.whl (116 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m116.3/116.3 kB[0m [31m9.4 MB/s[0m eta [36m0:00:

In [14]:
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2-7B-Instruct", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2-7B-Instruct")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/663 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/27.8k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/4 [00:00<?, ?it/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/3.95G [00:00<?, ?B/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/3.86G [00:00<?, ?B/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/3.86G [00:00<?, ?B/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/3.56G [00:00<?, ?B/s]



Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/243 [00:00<?, ?B/s]



tokenizer_config.json:   0%|          | 0.00/1.29k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/2.78M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/1.67M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/7.03M [00:00<?, ?B/s]

https://habr.com/ru/articles/775870/ <br>
https://www.youtube.com/live/ympqLdellrU?si=s7vDD2-ZmNueSSsU

## Трансформеры

https://huggingface.co/learn/nlp-course/ru/chapter1/4 <br>
https://habr.com/ru/companies/mws/articles/770202/<br>
https://education.yandex.ru/handbook/ml/article/transformery

## Метрики расстояния между строками

https://www.youtube.com/watch?v=MAFJR-dtkoo

## Метрики машинного перевода

https://www.youtube.com/watch?v=MAFJR-dtkoo:<br>
https://habr.com/ru/articles/748496/<br>
https://habr.com/ru/articles/758522/