# Exercise 1: Tokenization with BERT

In [1]:
# Установка необходимых библиотек (если еще не установлены в текущей сессии Colab)
# Если ты уже запускал pip install torch transformers, можно пропустить.
!pip install --quiet transformers torch

# --- 1. Импорт токенизатора BERT ---
from transformers import BertTokenizer

# --- 2. Загрузка токенизатора BERT (bert-base-uncased) ---
# 'bert-base-uncased' - это базовая (небольшая) модель BERT,
# 'uncased' означает, что она не различает регистр (все буквы переводятся в нижний регистр).
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
print("BERT Токенизатор 'bert-base-uncased' загружен.")

# --- 3. Выбор примера предложения ---
sample_sentence = "BERT is a powerful language model developed by Google."
print(f"\nИсходное предложение: \"{sample_sentence}\"")

# --- 4. Токенизация предложения и просмотр разбиения ---
# `tokenize` возвращает список строковых токенов.
tokens = tokenizer.tokenize(sample_sentence)
print(f"\nТокены после базовой токенизации: {tokens}")

# --- 5. Подготовка предложения со специальными токенами, padding и truncation для ввода в модель ---
# `encode_plus` - это более комплексный метод, который делает все необходимое:
# - Добавляет специальные токены ([CLS] и [SEP]).
# - Преобразует токены в их числовые ID.
# - Добавляет padding (заполнение до максимальной длины, если указано).
# - Обрезает (truncation) до максимальной длины, если текст слишком длинный.
# - Создает маску внимания (attention mask) и тип токенов (token type IDs).

# Для этого примера мы установим max_length 16 (небольшое число, чтобы увидеть padding)
# и padding='max_length', чтобы заполнить до этой длины.
encoded_inputs = tokenizer.encode_plus(
    sample_sentence,
    add_special_tokens=True,    # Добавляет [CLS] и [SEP]
    max_length=16,              # Максимальная длина последовательности
    pad_to_max_length=True,     # Добавляет [PAD] токены до max_length
    return_attention_mask=True, # Возвращает маску внимания
    return_tensors='pt',        # Возвращает PyTorch тензоры
)

# --- 6. Просмотр ID токенов и самих токенов, идентификация специальных токенов BERT ---
input_ids = encoded_inputs['input_ids'][0]
attention_mask = encoded_inputs['attention_mask'][0]
token_type_ids = encoded_inputs['token_type_ids'][0] # Для одного предложения это будут все нули

# Декодируем обратно в токены, чтобы видеть, как они выглядят
decoded_tokens = tokenizer.convert_ids_to_tokens(input_ids)

print("\n--- Подготовлено для ввода в модель ---")
print(f"ID токенов (input_ids): {input_ids}")
print(f"Декодированные токены: {decoded_tokens}")
print(f"Маска внимания (attention_mask): {attention_mask} (1=реальный токен, 0=padding)")
print(f"Типы токенов (token_type_ids): {token_type_ids} (0=первое предложение, 1=второе)")

# Идентификация специальных токенов
print("\nИдентификация специальных токенов:")
print(f"  [CLS] токен: {tokenizer.cls_token} (ID: {tokenizer.cls_token_id})")
print(f"  [SEP] токен: {tokenizer.sep_token} (ID: {tokenizer.sep_token_id})")
print(f"  [PAD] токен: {tokenizer.pad_token} (ID: {tokenizer.pad_token_id})")

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m363.4/363.4 MB[0m [31m4.4 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.8/13.8 MB[0m [31m32.8 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m24.6/24.6 MB[0m [31m58.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m883.7/883.7 kB[0m [31m19.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m664.8/664.8 MB[0m [31m1.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m211.5/211.5 MB[0m [31m6.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m56.3/56.3 MB[0m [31m15.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m127.9/127.9 MB[0m [31m7.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Keyword arguments {'pad_to_max_length': True} not recognized.


BERT Токенизатор 'bert-base-uncased' загружен.

Исходное предложение: "BERT is a powerful language model developed by Google."

Токены после базовой токенизации: ['bert', 'is', 'a', 'powerful', 'language', 'model', 'developed', 'by', 'google', '.']

--- Подготовлено для ввода в модель ---
ID токенов (input_ids): tensor([  101, 14324,  2003,  1037,  3928,  2653,  2944,  2764,  2011,  8224,
         1012,   102])
Декодированные токены: ['[CLS]', 'bert', 'is', 'a', 'powerful', 'language', 'model', 'developed', 'by', 'google', '.', '[SEP]']
Маска внимания (attention_mask): tensor([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]) (1=реальный токен, 0=padding)
Типы токенов (token_type_ids): tensor([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]) (0=первое предложение, 1=второе)

Идентификация специальных токенов:
  [CLS] токен: [CLS] (ID: 101)
  [SEP] токен: [SEP] (ID: 102)
  [PAD] токен: [PAD] (ID: 0)


# Exercise 2: Sentiment Analysis with BERT Pipeline

In [3]:
# --- 1. Импорт класса pipeline ---
from transformers import pipeline

# --- 2. Создание пайплайна для анализа тональности ---
# Мы используем модель 'distilbert-base-uncased-finetuned-sst-2-english'.
# Это модель DistilBERT (более легкая и быстрая версия BERT),
# которая специально дообучена на датасете SST-2 для анализа тональности
# (выходы: 'POSITIVE' или 'NEGATIVE').
print("Создание пайплайна для анализа тональности...")
sentiment_pipeline = pipeline("sentiment-analysis", model="distilbert-base-uncased-finetuned-sst-2-english")
print("Пайплайн успешно создан.")

# --- 3. Предоставление примера предложения ---
sample_sentence_1 = "I absolutely loved this movie! It was fantastic and captivating."
sample_sentence_2 = "The film was utterly disappointing, a complete waste of time."
sample_sentence_3 = "The movie was okay, nothing special, just average."
sample_sentence_4 = "My daughter liked it but I was aghast, that a character in this movie smokes. As if it isn't awful enough to see 'product placement' actors like Bruce Willis who smoke in their movies - at least children movies should be more considerate!"


# --- 4. Использование пайплайна для предсказания тональности ---
print(f"\nАнализ тональности для: \"{sample_sentence_1}\"")
result_1 = sentiment_pipeline(sample_sentence_1)
print(f"Результат: {result_1}")

print(f"\nАнализ тональности для: \"{sample_sentence_2}\"")
result_2 = sentiment_pipeline(sample_sentence_2)
print(f"Результат: {result_2}")

print(f"\nАнализ тональности для: \"{sample_sentence_3}\"")
result_3 = sentiment_pipeline(sample_sentence_3)
print(f"Результат: {result_3}")

print(f"\nАнализ тональности для: \"{sample_sentence_4}\"")
result_4 = sentiment_pipeline(sample_sentence_4)
print(f"Результат: {result_4}")

# --- 5. Проверка предсказанной метки и оценки достоверности ---
print("\n--- Детализированные результаты ---")
if result_1:
    print(f"Предложение 1: Label = {result_1[0]['label']}, Score = {result_1[0]['score']:.4f}")
if result_2:
    print(f"Предложение 2: Label = {result_2[0]['label']}, Score = {result_2[0]['score']:.4f}")
if result_3:
    print(f"Предложение 3: Label = {result_3[0]['label']}, Score = {result_3[0]['score']:.4f}")
if result_4:
    print(f"Предложение 4: Label = {result_4[0]['label']}, Score = {result_4[0]['score']:.4f}")


Создание пайплайна для анализа тональности...


config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

Device set to use cuda:0


Пайплайн успешно создан.

Анализ тональности для: "I absolutely loved this movie! It was fantastic and captivating."
Результат: [{'label': 'POSITIVE', 'score': 0.9998857975006104}]

Анализ тональности для: "The film was utterly disappointing, a complete waste of time."
Результат: [{'label': 'NEGATIVE', 'score': 0.9997947812080383}]

Анализ тональности для: "The movie was okay, nothing special, just average."
Результат: [{'label': 'NEGATIVE', 'score': 0.9827930927276611}]

Анализ тональности для: "My daughter liked it but I was aghast, that a character in this movie smokes. As if it isn't awful enough to see 'product placement' actors like Bruce Willis who smoke in their movies - at least children movies should be more considerate!"
Результат: [{'label': 'NEGATIVE', 'score': 0.9970535039901733}]

--- Детализированные результаты ---
Предложение 1: Label = POSITIVE, Score = 0.9999
Предложение 2: Label = NEGATIVE, Score = 0.9998
Предложение 3: Label = NEGATIVE, Score = 0.9828
Предложение 4

# Exercise 3: Building a Custom Sentiment Analyzer

In [4]:
# --- 1. Импорт AutoTokenizer и AutoModelForSequenceClassification ---
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch # Убедимся, что torch импортирован для работы с тензорами

# --- 2. Создание класса BERTSentimentAnalyzer ---
class BERTSentimentAnalyzer:
    def __init__(self, model_name="nlptown/bert-base-multilingual-uncased-sentiment"):
        """
        Инициализирует токенизатор и модель для анализа тональности.
        Используем ту же модель, что и в первом примере анализа тональности,
        которая предсказывает оценки от 1 до 5.
        """
        print(f"Загрузка токенизатора и модели: {model_name}...")
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForSequenceClassification.from_pretrained(model_name)
        print("Модель и токенизатор загружены.")

    def preprocess_text(self, text):
        """
        Предобрабатывает входной текст: токенизирует, добавляет специальные токены,
        создает маску внимания и возвращает PyTorch тензоры.
        """
        # encode_plus делает всю черновую работу:
        # - токенизация
        # - добавление [CLS] и [SEP]
        # - преобразование в ID
        # - padding (до максимальной длины, если текст короче)
        # - truncation (обрезание, если текст длиннее)
        # - создание attention_mask
        # - возвращает PyTorch тензоры
        encoded_input = self.tokenizer.encode_plus(
            text,
            add_special_tokens=True,       # Добавить [CLS] и [SEP]
            max_length=512,                # Максимальная длина, с которой работает BERT
            padding='max_length',          # Дополнить до max_length
            truncation=True,               # Обрезать, если длиннее max_length
            return_attention_mask=True,    # Вернуть маску внимания
            return_tensors='pt'            # Вернуть PyTorch тензоры
        )
        return encoded_input

    def predict_sentiment(self, text):
        """
        Предсказывает тональность для заданного текста.
        Возвращает предсказанную оценку (1-5) и необработанные логиты.
        """
        # 1. Предобработка текста
        inputs = self.preprocess_text(text)

        # 2. Передача входных данных через модель
        # inputs['input_ids'] и inputs['attention_mask'] уже являются PyTorch тензорами.
        with torch.no_grad(): # Отключаем расчет градиентов для предсказания (экономит память и ускоряет)
            outputs = self.model(
                inputs['input_ids'],
                attention_mask=inputs['attention_mask']
            )

        # 3. Обработка выходных данных
        # outputs.logits содержит необработанные предсказания модели для каждого класса (в нашем случае 5 классов)
        logits = outputs.logits
        # torch.argmax находит индекс класса с наибольшим логитом
        predicted_class_id = torch.argmax(logits, dim=1).item()

        # Модель nlptown/bert-base-multilingual-uncased-sentiment предсказывает классы 0-4.
        # Чтобы получить шкалу 1-5, добавляем 1.
        sentiment_score = predicted_class_id + 1

        return {
            "score": sentiment_score,
            "logits": logits.tolist() # Преобразуем логиты в обычный список для удобства
        }

# --- Тестирование кастомного анализатора ---
print("\n--- Тестирование BERTSentimentAnalyzer ---")
analyzer = BERTSentimentAnalyzer()

test_sentences = [
    "This is an amazing movie, truly captivating and well-acted!", # Очень позитивный
    "I hated every single minute of it. Absolutely dreadful.",     # Очень негативный
    "It was neither good nor bad, just an average film.",          # Нейтральный
    "The plot had some interesting twists, but the acting was subpar.", # Смешанный
    "My daughter liked it but I was aghast, that a character in this movie smokes. As if it isn't awful enough to see 'product placement' actors like Bruce Willis who smoke in their movies - at least children movies should be more considerate!", # Твой сложный пример
]

for i, sentence in enumerate(test_sentences):
    print(f"\nАнализ предложения {i+1}: \"{sentence[:100]}...\"") # Обрезаем для вывода
    sentiment_result = analyzer.predict_sentiment(sentence)
    print(f"  Предсказанная тональность: {sentiment_result['score']}")
    print(f"  Логиты (необработанные оценки классов): {sentiment_result['logits']}")




--- Тестирование BERTSentimentAnalyzer ---
Загрузка токенизатора и модели: nlptown/bert-base-multilingual-uncased-sentiment...


tokenizer_config.json:   0%|          | 0.00/39.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/953 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/669M [00:00<?, ?B/s]

Модель и токенизатор загружены.

Анализ предложения 1: "This is an amazing movie, truly captivating and well-acted!..."
  Предсказанная тональность: 5
  Логиты (необработанные оценки классов): [[-2.444465160369873, -2.9355690479278564, -1.3974380493164062, 1.2881840467453003, 4.42720890045166]]

Анализ предложения 2: "I hated every single minute of it. Absolutely dreadful...."
  Предсказанная тональность: 1
  Логиты (необработанные оценки классов): [[4.9556474685668945, 1.5857826471328735, -1.1070458889007568, -2.879279136657715, -1.8276035785675049]]

Анализ предложения 3: "It was neither good nor bad, just an average film...."
  Предсказанная тональность: 2
  Логиты (необработанные оценки классов): [[1.1402943134307861, 2.0953474044799805, 1.6258741617202759, -1.189151644706726, -2.9720001220703125]]

Анализ предложения 4: "The plot had some interesting twists, but the acting was subpar...."
  Предсказанная тональность: 3
  Логиты (необработанные оценки классов): [[-1.116264224052429

# Exercise 4: Understanding BERT for Named Entity Recognition (NER)

In [5]:
# --- 1. Импорт AutoTokenizer и AutoModelForTokenClassification ---
from transformers import AutoTokenizer, AutoModelForTokenClassification
import torch # Убедимся, что torch импортирован

# --- 2. Создание класса BERTNamedEntityRecognizer ---
class BERTNamedEntityRecognizer:
    def __init__(self, model_name="dbmdz/bert-large-cased-finetuned-conll03-english"):
        """
        Инициализирует токенизатор и модель для распознавания именованных сущностей (NER).
        Используем модель, дообученную на датасете CoNLL-2003,
        который использует схему B-I-O (Begin, Inside, Outside).
        """
        print(f"Загрузка токенизатора и модели для NER: {model_name}...")
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForTokenClassification.from_pretrained(model_name)
        # Получаем маппинг ID к меткам (например, 0 -> 'O', 1 -> 'B-PER' и т.д.)
        self.id2label = self.model.config.id2label
        print("Модель и токенизатор для NER загружены.")

    def recognize_entities(self, text):
        """
        Распознает именованные сущности в заданном тексте.
        Возвращает список словарей, где каждый словарь представляет найденную сущность.
        """
        # 1. Токенизация текста и подготовка входных данных для модели
        inputs = self.tokenizer.encode_plus(
            text,
            add_special_tokens=True,
            return_tensors="pt", # Возвращаем PyTorch тензоры
            padding="max_length", # Добавляем padding, чтобы все последовательности были одинаковой длины
            truncation=True,      # Обрезаем, если текст слишком длинный
            max_length=512        # Максимальная длина, которую может обработать модель
        )

        # 2. Передача входных данных через модель
        with torch.no_grad():
            outputs = self.model(inputs["input_ids"], attention_mask=inputs["attention_mask"])

        # 3. Обработка выходных данных
        # outputs.logits содержит логиты для каждого токена и каждого класса сущностей
        predictions = torch.argmax(outputs.logits, dim=2) # Берем индекс класса с самым высоким логитом для каждого токена

        # 4. Сопоставление предсказаний с метками и токенами
        tokens = self.tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])
        # Для NER, токен [CLS] и [SEP] не содержат сущностей.
        # Также токены типа ##word (subwords) объединяются с предыдущими.
        # Мы будем упрощенно обрабатывать это, исключая спец. токены и ## токены
        # для более чистого вывода, но в реальных NER-пайплайнах это сложнее.

        entities = []
        current_entity = {"word": "", "label": "", "score": 0.0}

        # Проходим по предсказанным токенам
        for token, prediction_id in zip(tokens, predictions[0].tolist()):
            label = self.id2label[prediction_id]

            # Игнорируем специальные токены и токены padding
            if token in [self.tokenizer.cls_token, self.tokenizer.sep_token, self.tokenizer.pad_token]:
                if current_entity["word"]: # Если была незавершенная сущность, добавляем её
                    entities.append(current_entity)
                    current_entity = {"word": "", "label": "", "score": 0.0}
                continue

            # Обработка подслов (subwords, начинающихся с '##')
            if token.startswith('##'):
                token = token[2:] # Удаляем '##'

            if label.startswith('B-'): # Начало новой сущности
                if current_entity["word"]: # Если была незавершенная сущность, добавляем её
                    entities.append(current_entity)
                current_entity = {"word": token, "label": label[2:], "score": 1.0} # Убираем B-
            elif label.startswith('I-') and current_entity["word"]: # Продолжение текущей сущности
                current_entity["word"] += token # Просто конкатенируем токен
                current_entity["score"] += 1.0 # Условное увеличение score
            elif label == 'O' and current_entity["word"]: # Конец сущности (Outside)
                entities.append(current_entity)
                current_entity = {"word": "", "label": "", "score": 0.0}
            elif label == 'O': # Просто обычный токен
                if current_entity["word"]: # Если была незавершенная сущность, добавляем её
                    entities.append(current_entity)
                    current_entity = {"word": "", "label": "", "score": 0.0}

        if current_entity["word"]: # Добавляем последнюю сущность, если она была
            entities.append(current_entity)

        # Здесь упрощенное вычисление score как количество токенов в сущности.
        # В реальных системах score вычисляется на основе логитов для всей сущности.
        # Для демонстрации NER этого достаточно.

        return entities


# --- Тестирование NER анализатора ---
print("\n--- Тестирование BERTNamedEntityRecognizer ---")
ner_analyzer = BERTNamedEntityRecognizer()

test_text_1 = "Barack Obama was born in Honolulu, Hawaii and later became President of the United States."
test_text_2 = "Google's headquarters are in Mountain View, California. Sundar Pichai is the CEO."
test_text_3 = "The Eiffel Tower is a landmark in Paris, France."
test_text_4 = "In Berlin, Germany, I met a developer from IBM." # Добавим пример с организацией

for i, text in enumerate([test_text_1, test_text_2, test_text_3, test_text_4]):
    print(f"\nАнализ текста {i+1}: \"{text}\"")
    found_entities = ner_analyzer.recognize_entities(text)
    if found_entities:
        for entity in found_entities:
            print(f"  Сущность: '{entity['word']}', Тип: {entity['label']}")
    else:
        print("  Сущности не найдены.")



--- Тестирование BERTNamedEntityRecognizer ---
Загрузка токенизатора и модели для NER: dbmdz/bert-large-cased-finetuned-conll03-english...


tokenizer_config.json:   0%|          | 0.00/60.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/998 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

model.safetensors:   0%|          | 0.00/1.33G [00:00<?, ?B/s]

Some weights of the model checkpoint at dbmdz/bert-large-cased-finetuned-conll03-english were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


Модель и токенизатор для NER загружены.

Анализ текста 1: "Barack Obama was born in Honolulu, Hawaii and later became President of the United States."
  Сущности не найдены.

Анализ текста 2: "Google's headquarters are in Mountain View, California. Sundar Pichai is the CEO."
  Сущности не найдены.

Анализ текста 3: "The Eiffel Tower is a landmark in Paris, France."
  Сущности не найдены.

Анализ текста 4: "In Berlin, Germany, I met a developer from IBM."
  Сущности не найдены.


# Exercise 5: Comparing BERT and GPT

 BERT-encoder,simantics,search,self-attention,need mor info for pre training
 GPT-decoder,generation,content,self-attention, not so good understand simantic and context

 BERT-encoder,simantics,search,self-attention,need mor info for pre training

 GPT-decoder,generation,content,self-attention, not so good understand simantic and context

# Exercise 6: Exploring BERT Applications in Retrieval-Augmented Generation (RAG)

Retrieval-Augmented Generation (RAG) is an architectural pattern (or framework) that improves the performance of large language models (LLMs) by allowing them to retrieve information from an external knowledge base before generating a response.

In the RAG system, BERT (or any other encoder model capable of generating quality embeddings, such as bge-base-en-v1.5-gguf, which we used) plays a critical role as a "Retriever".

"implements at the input using (token embedding, segment and position embeddings)"

BERT helps create this base, but the base itself is an external, specially prepared knowledge repository.


BERT acts as the "eyes" and "brains" of the system, finding relevant "pages" in a huge "library", and LLM then "reads" these pages and forms a coherent response.