In [1]:
import pandas as pd
from transformers import pipeline
from sklearn.metrics import f1_score



#### Переменные

In [2]:
MODEL_TASK = "sentiment-analysis"
MODEL_NAME = "./models/sbert_pretrained"
DATASET_NAME = "./datasets/ru.csv"

#### Классификатор

In [3]:
classifier = pipeline(MODEL_TASK, model=MODEL_NAME)

#### Загружаем данные

In [4]:
df = pd.read_csv(DATASET_NAME, delimiter="|")
df.columns = ['text', 'label']
df['label'] = df['label'].astype(int)

#### Тексты для классификации

In [5]:
texts = df['text'].tolist()
labels = df['label'].tolist()

#### Классификация текстов

In [6]:
results = classifier(texts)

#### Вывод неверных результатов

In [7]:
LABEL_MAP = {
    'LABEL_0': 0,
    'LABEL_1': 1,
    'LABEL_2': 2,
}

for text, label, result in zip(texts, labels, results):
    if LABEL_MAP[result['label']] != label:
        print(f"Текст: {text}")
        print(f"Предсказано: {LABEL_MAP[result['label']]}, Значение: {label} Оценка: {result['score']}")
        print()

Текст: Привет, как дела?
Предсказано: 1, Значение: 0 Оценка: 0.9957446455955505

Текст: Какие у тебя планы на вечер?
Предсказано: 1, Значение: 2 Оценка: 0.9685974717140198

Текст: До свидания
Предсказано: 0, Значение: 2 Оценка: 0.9946723580360413

Текст: Как прошел день?
Предсказано: 1, Значение: 2 Оценка: 0.9926908612251282

Текст: Как ты относишься к спорту?
Предсказано: 1, Значение: 2 Оценка: 0.9390012621879578



#### Расчет f1-score

In [11]:
def map_func(el):
    return LABEL_MAP[el['label']]
maped_results = list(map(map_func, results))

f1 = f1_score(labels, maped_results, average='macro')
print(f"F1 Score: {f1}")

F1 Score: 0.9686747678550957
