[![How BERT NLP Optimization Model Works](https://tse1.mm.bing.net/th?id=OIP.1FF9u3Y9Ngg3ZI6WQgtXWAHaGe\&pid=Api)](https://www.turing.com/kb/how-bert-nlp-optimization-model-works)

## 🔬 BERT — як він працює і чому це важливо

**BERT (Bidirectional Encoder Representations from Transformers)** — це проривна мовна модель, розроблена в Google AI у 2018 році. Вона дала новий імпульс у сфері обробки текстів, бо вперше навчила модель *читати контекст в обидва боки одночасно*.

📄 **Оригінальна стаття:**
📎 *BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding*
📚 [https://arxiv.org/abs/1810.04805](https://arxiv.org/abs/1810.04805)


## 🏋️‍♀️ На чому тренували BERT?

Модель не просто зʼявилась — її натренували на **величезних обсягах тексту**, а саме:

* **BooksCorpus** (800+ млн слів з книг)
* **English Wikipedia** (2,500+ млн слів)

Але головне — **на яких завданнях її навчали**:

1. Masked Language Modeling (MLM)

  👉 Ідея: випадково закриваємо (маскуємо) частину слів у реченні й просимо модель відгадати, які це були слова.
  Це вчить BERT розуміти контекст *з обох боків*.

  **Приклад:**

  *“The cat sat on the \[MASK]” → “mat”*

2. Next Sentence Prediction (NSP)

  👉 Ідея: моделі подається пара речень, і вона має сказати, чи друге речення реально йде після першого.
  Це важливо для завдань, де потрібно аналізувати зв'язок між реченнями (наприклад, у відповіді на питання або в чат-ботах).

    **Приклад:**

    * Речення A: "He went to the store."
    * Речення B: "He bought some milk." → ✅ "is next"
    * Речення B: "The sun is hot." → ❌ "not next"


### 📚 Дані, на яких тренували:

- BooksCorpus (~800M слів)
- Wikipedia (EN) (~2.5B слів)



## 🧠 Чому це круто?

До BERT більшість моделей обробляли текст або зліва направо (GPT), або справа наліво.
**BERT читає речення в обох напрямках одночасно**, що дає кращі розуміння значень слів у контексті.

Він став новим стандартом для багатьох NLP-задач: класифікації текстів, пошуку, розпізнавання іменованих сутностей, тощо.

## 🧰 Як BERT використовують на практиці?

BERT — це **універсальний фундамент**. Але щоб він працював на вашій задачі, потрібно:

### 1. Fine-tuning (донавчання на свою задачу)

Ви берете готову модель і продовжуєте її тренування на своєму датасеті — наприклад, для класифікації відгуків, пошуку схожих текстів, чат-ботів тощо.

### 2. Використання ембедингів

Можна просто використати BERT як "генератор векторів":
він перетворює текст на вектори, які вже можна застосовувати у своїй системі (наприклад, для пошуку схожих речень або кластеризації).

> ✨ У цьому уроці ми якраз використовуємо **другий підхід** — отримуємо ембединги речень і шукаємо, які з них найбільш схожі між собою.


Для генерації ембедингів нам треба спочатку представити дані в тому форматі, в якому BERT їх приймає. Адже це навчена мережа, і формат введення даних ми змінити не можемо.


##Як BERT обробляє текст

Перед тим як модель щось зрозуміє, потрібно «пояснити» їй текст. Цей процес називається **токенізація**.

### 🔄 Етапи:

1. **Підготовка тексту:**
   Текст ділиться на менші частини — *токени*. Це можуть бути цілі слова або їх частини.

2. **Перетворення в числа:**
   Кожен токен зіставляється з певним числом (ID) зі словника BERT.

3. **Форматування для моделі:**
   Моделі потрібно подати текст у вигляді тензорів — спеціальних масивів:

   * `input_ids`: номери токенів
   * `attention_mask`: позначки, що вказують, на які слова звертати увагу
   * `token_type_ids`: для моделей, що працюють з парою речень


## 🧪 Приклад: як BERT «бачить» речення

Візьмемо фразу:

📎 **"The quick brown fox jumps over the lazy dog."**

І подивимось, як її перетворити в токени та ID за допомогою Python.


In [None]:
!pip install transformers torch --quiet

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m363.4/363.4 MB[0m [31m3.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.8/13.8 MB[0m [31m28.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m24.6/24.6 MB[0m [31m17.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m883.7/883.7 kB[0m [31m16.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m664.8/664.8 MB[0m [31m2.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m211.5/211.5 MB[0m [31m6.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m56.3/56.3 MB[0m [31m12.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m127.9/127.9 MB[0m [31m7.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

In [None]:
from transformers import BertTokenizer

# Завантаження попередньо натренованого токенізатора для BERT
bert_tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Приклад тексту
text = "The quick brown fox jumps over the lazy dog."

# Токенізація з використанням токенізатора BERT
bert_inputs = bert_tokenizer(text, return_tensors='pt')

print("Token IDs:", bert_inputs['input_ids'])

attention_mask = bert_inputs['attention_mask']
print("Attention Mask:", attention_mask)

token_type_ids = bert_inputs['token_type_ids']
print("Token Type IDs:", token_type_ids)

# Виведення самих токенів для розуміння розбиття
tokens = bert_tokenizer.convert_ids_to_tokens(bert_inputs['input_ids'][0])
print("Tokens:", tokens)


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

Token IDs: tensor([[  101,  1996,  4248,  2829,  4419, 14523,  2058,  1996, 13971,  3899,
          1012,   102]])
Attention Mask: tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])
Token Type IDs: tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])
Tokens: ['[CLS]', 'the', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.', '[SEP]']


Розберемо аутпут:
- **Token IDs**

  Це числове представлення кожного токена у реченні, яке розуміє модель.
  `101` — це спецтокен `[CLS]`, `102` — `[SEP]`, а решта — ID слів на основі словника BERT.


- **Attention Mask**

  Ця маска показує, які токени є "активними". `1` — означає, що це справжній токен (а не паддінг). У нашому випадку всі токени справжні → всі `1`.

- **Token Type IDs**

  Цей масив показує, до якого речення належить токен. Тут всі `0`, бо в нас лише одне речення. Якщо б було два — друга частина мала б `1`.

- **Tokens**

  Це зворотне перетворення ID → в оригінальні слова та технічні токени.
  `[CLS]` і `[SEP]` — це спеціальні токени потрібні BERT (з ними він навчався).






## Генерація ембедингів

Генерація ембедингів відбувається після токенізації, де токенізовані входи обробляються моделлю для отримання щільних векторних представлень, що містять контекстне значення.



In [None]:

from transformers import BertTokenizer, BertModel
import torch

# Завантаження попередньо натренованої моделі та токенізатора
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

# Визначення тексту
text = "The quick brown fox jumps over the lazy dog."

# Токенізація тексту
inputs = tokenizer(text, return_tensors='pt')

# Отримання ембедингів
with torch.no_grad():
    outputs = model(**inputs)

# Витяг останнього прихованого стану (ембедингів)
last_hidden_states = outputs.last_hidden_state

# Виведення розмірів ембедингів
print("Форма останнього прихованого стану (ембедингів):", last_hidden_states.shape)

# Виведення ембедингів для кожного токена разом з їхньою розмірністю
tokens = tokenizer.convert_ids_to_tokens(inputs['input_ids'][0])
for token, embedding in zip(tokens, last_hidden_states[0]):
    print(f"Токен: {token}, Розмірність ембедингу: {embedding.shape}, Ембединг (перші 5 компонент): {embedding[:5]}...")

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/440M [00:00<?, ?B/s]

Форма останнього прихованого стану (ембедингів): torch.Size([1, 12, 768])
Токен: [CLS], Розмірність ембедингу: torch.Size([768]), Ембединг (перші 5 компонент): tensor([-0.3608,  0.2271, -0.3030, -0.1880,  0.0475])...
Токен: the, Розмірність ембедингу: torch.Size([768]), Ембединг (перші 5 компонент): tensor([-0.3276, -0.3762, -0.5044,  0.0098,  0.9037])...
Токен: quick, Розмірність ембедингу: torch.Size([768]), Ембединг (перші 5 компонент): tensor([-0.4000, -0.4212,  0.4903,  0.0033,  0.4567])...
Токен: brown, Розмірність ембедингу: torch.Size([768]), Ембединг (перші 5 компонент): tensor([ 0.1209, -0.2728,  0.5550, -0.1874,  0.7759])...
Токен: fox, Розмірність ембедингу: torch.Size([768]), Ембединг (перші 5 компонент): tensor([ 0.0323, -0.2305, -0.1756, -0.1121,  0.5692])...
Токен: jumps, Розмірність ембедингу: torch.Size([768]), Ембединг (перші 5 компонент): tensor([ 0.2432, -0.0648,  0.3022,  0.2046,  0.7072])...
Токен: over, Розмірність ембедингу: torch.Size([768]), Ембединг (перші 5


## 3. Типи ембедингів

У сфері обробки природної мови (NLP) **ембединги слів** (Word Embeddings) і **ембединги речень** (Sentence Embeddings) представляють два різні підходи до захоплення семантичної інформації з тексту.
У розділі  «Генерація ембедингів» вихідними результатами є саме ембединги слів.

Коли які ембединги використовувати?

### 3.1 Ембединги слів (Word Embeddings)

**Ембединги слів** — це щільні векторні представлення окремих слів. Вони кодують семантичні властивості та зв'язки між словами.

**Приклади використання:**

* Класифікація токенів (наприклад, розпізнавання іменованих сутностей — NER).
* Контекстуалізація окремих слів у межах речення.

### 3.2 Ембединги речень (Sentence Embeddings)

**Ембединги речень** — це векторні представлення цілих речень або документів. Вони спрямовані на захоплення **загального значення** тексту, а не лише окремих слів.

**Приклади використання:**

* Пошук схожості між текстами.
* Класифікація речень.
* Пошук документів.
* Обчислення семантичної схожості між текстами.

### Як отримати ембединги речень або документу з BERT

Мета — представити ціле речення або документ одним вектором. Це можна зробити кількома способами:

1. **Середнє згортання (Mean Pooling):**
   Обчислити середнє значення ембедингів усіх токенів речення.

2. **Ембединг токена `[CLS]`:**
   Використати вектор токена `[CLS]` із моделі BERT як представлення всього речення.

3. **Попередньо натреновані моделі для речень:**
   Наприклад, **Sentence-BERT (SBERT)** — спеціально створена модель для генерації якісних ембедингів речень.

Давайте розвʼяжемо задачу **пошуку схожості текстів** і для цього реалізуємо на практиці витягування ембедингів речень.



## Пошук схожості між текстами

Оцінка семантичної схожості між текстами є однією з ключових задач у Natural Language Processing. BERT дозволяє ефективно отримувати векторні представлення речень, які можна порівнювати між собою за допомогою косинусної подібності.



In [None]:
from transformers import BertTokenizer, BertModel
import torch
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# Завантаження попередньо натренованої моделі та токенізатора
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

# Функція для отримання ембедингу речення
def get_sentence_embedding(text):
    inputs = tokenizer(text, return_tensors='pt')
    with torch.no_grad():
        outputs = model(**inputs)
    last_hidden_states = outputs.last_hidden_state
    sentence_embedding = torch.mean(last_hidden_states, dim=1).numpy()
    return sentence_embedding

# Список прикладів речень
texts = [
    "The quick brown fox jumps over the lazy dog.",
    "A fast brown fox leaps over a sleepy dog.",
    "This sentence is completely different from the others."
]

# Генерація ембедингів для кожного речення
embeddings = [get_sentence_embedding(text) for text in texts]

# Запит (query)
query_text = "The quick red fox jumps over the lazy dog."
query_embedding = get_sentence_embedding(query_text)

# Обчислення косинусної подібності
similarities = cosine_similarity(query_embedding, np.vstack(embeddings))

# Виведення результатів
print (f"Запит: {query_text}")
for i, text in enumerate(texts):
    print(f"Схожість із «{text}»: {similarities[0][i]}")

Запит: The quick red fox jumps over the lazy dog.
Схожість із «The quick brown fox jumps over the lazy dog.»: 0.9852557182312012
Схожість із «A fast brown fox leaps over a sleepy dog.»: 0.9026964902877808
Схожість із «This sentence is completely different from the others.»: 0.48106062412261963


In [None]:
embeddings[0].shape

(1, 768)


### 🧠 Як це працює?

1. **Отримання ембедингів:**
   Кожне речення перетворюється у вектор за допомогою моделі BERT.

2. **Згортка (Pooling):**
   Використовується середнє значення ембедингів усіх токенів (mean pooling) як представлення всього речення.

3. **Косинусна подібність:**
   Обчислюється схожість між запитом і кожним із речень у базі.


Цей підхід може бути використаний як базова реалізація семантичного пошуку або основа для побудови системи рекомендацій на основі тексту.

Дякую за уточнення! Ось оновлена, **більш стримана та професійна версія**, орієнтована на студентів, які вже розуміють основи NLP та працювали з embedding-підходами:

---

## Розмір моделі та розмірність векторів: що це означає на практиці

Коли ви працюєте з моделями на кшталт BERT чи GPT, важливо орієнтуватись не лише в їхньому інтерфейсі, а й у внутрішній архітектурі. Два ключові параметри, які впливають на обчислювальні вимоги та якість представлень — це **розмір моделі** та **розмірність ембедингів**.

### Розмір моделі (Model Size)

Розмір моделі — це кількість параметрів, які вона містить (ваги, біаси тощо). Ці параметри визначають здатність моделі відображати складні залежності у даних.

**Приклади:**

* `BERT-base` має 110M параметрів
* `BERT-large` — 340M
* `GPT-3` — 175B

👉 Важливо: більша модель ≠ завжди кращий результат. Але більша модель, як правило, краще справляється з **тонкими семантичними відтінками**, якщо правильно адаптована до задачі.

### Розмірність векторів (Vector Dimension)

Це кількість числових ознак у векторному представленні одного токена чи речення. Вона визначає, **наскільки багатою є інформація**, яку модель може закодувати в embedding.

**Приклади:**

* `BERT-base` → 768-розмірні ембединги
* `BERT-large` → 1024
* `GPT-3` → 12288

На практиці це впливає на:

* обсяг памʼяті, потрібний для зберігання ембедингів;
* ефективність подальших моделей (класифікаторів, пошукових систем);
* якість кластеризації або порівняння текстів.


📌 **У реальних проєктах** важливо знаходити баланс між якістю представлення (розмірність + якість попереднього навчання моделі) та ресурсами (RAM, GPU, час обробки). Саме тому в ряді задач краще використовувати Sentence-BERT або distilled-версії BERT, навіть із меншою кількістю параметрів.
