In [None]:
%pip install scipy

In [None]:
%pip install sklearn

### Мыслить инвариантами в контексте написания чистого кода означает: 
смещение фокуса с того, как код работает в данный момент, на то, каким условиям он должен удовлетворять всегда (до, во время и после своего выполнения).

Инвариант (в программировании) — это утверждение или условие, которое остается истинным на протяжении всего времени жизни объекта, функции или целой системы, если только не происходит ошибка.

In [15]:
# вычисление моды в наборе значений. 
# Мода - статистическая мера центральной тенденции, представляющая собой значение, которое встречается в наборе данных чаще всего. 
# Не обязательно должна быть уникальной: в одном наборе данных может быть несколько мод или не быть ни одной (если все значения встречаются одинаково часто).

from scipy import stats
from collections import Counter

# Пример с одной модой
data_single_mode = [1, 2, 2, 3, 4]
mode_single = stats.mode(data_single_mode)
print(f"Мода для набора с одной модой: {mode_single[0]} (появляется {mode_single[1]} раз)")

# Пример с двумя модами
data_bimodal = [1, 2, 2, 3, 3, 4]
mode_bimodal = stats.mode(data_bimodal)
print(f"Моды для набора с двумя модами: {mode_bimodal[0]} (каждая появляется по {mode_bimodal[1]} раз)")

# Категориальные данные
data_categorical = ['red', 'blue', 'blue', 'green', 'red', 'red']
counter = Counter(data_categorical)
mode_categorical = counter.most_common(1)[0]  # most_common(1) возвращает список с одной парой (элемент, частота)
print(f"Мода для категориальных данных: {mode_categorical[0]} (появляется {mode_categorical[1]} раз)")


Мода для набора с одной модой: 2 (появляется 2 раз)
Моды для набора с двумя модами: 2 (каждая появляется по 2 раз)
Мода для категориальных данных: red (появляется 3 раз)


### BERT - отличный выбор для задачи поиска именованных сущностей

BERT (Bidirectional Encoder Representations from Transformers) является отличным и часто используемым выбором для задачи NER (Named Entity Recognition) — распознавания именованных сущностей.

1. Контекст с двух сторон (Bidirectional)
2. Контекстуализированные эмбеддинги (Word Representations) 
3. Решение проблемы OOV (Out-of-Vocabulary) BERT использует токенизатор WordPiece (или BPE).

###### Архитектура "Token Classification"

BERT легко адаптируется под NER. Стандартный пайплайн выглядит так:

Текст токенизируется в подслова.

Каждый токен проходит через BERT и превращается в вектор (скрытое состояние).

Поверх BERT вешается простой линейный слой (Full-connected layer) с Softmax, который классифицирует каждый вектор (каждое слово или подслово) в одну из NER-меток (например: B-PER, I-PER, B-LOC, O и т.д.).

###### Возможные нюансы (чего стоит опасаться)

Хотя BERT отличный выбор, есть несколько моментов, которые нужно учитывать:

Длина последовательности: BERT имеет ограничение на длину входных данных (обычно 512 токенов). Для очень длинных документов это может быть проблемой, но для NER на уровне предложений это не критично.

Ресурсы: BERT (особенно большие версии вроде BERT-large) требует видеокарты (GPU). Однако для NER обычно хватает маленьких версий (BERT-base или DistilBERT), которые работают быстро и на CPU.

Скорость инференса: Для задач реального времени (real-time streaming) BERT может быть медленнее более легких моделей (LSTM + CRF), но современные квантованные версии решают эту проблему.

######  Современные последователи вроде RoBERTa, DeBERTa.

### Мера R2
Мера R2 (коэффициент детерминации) в sklearn.linear_model.LinearRegression — это статистическая мера, которая показывает, насколько хорошо модель линейной регрессии соответствует данным.

В контексте библиотеки sklearn это основная встроенная метрика качества для регрессии, доступная через метод score().

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score # отдельная функция для расчета

model = LinearRegression()
model.fit(X_train, y_train)

# Это и есть R^2
r2 = model.score(X_test, y_test)
print(f"Коэффициент детерминации: {r2}")