In [None]:
pip install transformers

In [None]:
pip install sentencepiece

## 1. Pipelines

In [None]:
from transformers import pipeline

[Документация по transformers.pipeline](https://huggingface.co/transformers/main_classes/pipelines.html)

[Model hub](https://huggingface.co/models)

1.1 Среди предобученных моделей найдите модель для перевода текста с русского языка на английский. Протестируйте данную модель на нескольких предложениях, используя `transformers.pipeline`. Выведите результаты работы в следующем виде:

```
sentence1_ru -> sentence1_en
sentence2_ru -> sentence2_en
```


In [1]:
from transformers import pipeline

translator = pipeline("translation", model="Helsinki-NLP/opus-mt-ru-en")

sentences = [
    "Сегодня прекрасная погода.",
    "Я люблю программировать на Python.",
]

for ru_text in sentences:
    translation = translator(ru_text)[0]['translation_text']
    print(f"{ru_text} -> {translation}")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/1.38k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/307M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/42.0 [00:00<?, ?B/s]

source.spm:   0%|          | 0.00/1.08M [00:00<?, ?B/s]

target.spm:   0%|          | 0.00/803k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/2.60M [00:00<?, ?B/s]

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


Сегодня прекрасная погода. -> It's a beautiful weather today.
Я люблю программировать на Python. -> I like to program on Python.


1.2 Среди предобученных моделей найдите модель для поиска ответа в тексте. Протестируйте данную модель на нескольких предложениях, используя `transformers.pipeline`. Выведите на экран результаты в следующем виде:

```
Q: ...
A: ...
Q: ...
A: ...
```

In [2]:
qa_pipeline = pipeline("question-answering", model="deepset/roberta-base-squad2")

context = "The Python programming language was created by Guido van Rossum in 1991. Python is known for its simple syntax."
questions = [
    "Who created Python?",
    "When was Python created?"
]

for question in questions:
    result = qa_pipeline(question=question, context=context)
    print(f"Q: {question}")
    print(f"A: {result['answer']}\n")

config.json:   0%|          | 0.00/571 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/496M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/79.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/772 [00:00<?, ?B/s]

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


Q: Who created Python?
A: Guido van Rossum

Q: When was Python created?
A: 1991



1.3 Среди предобученных моделей найдите модель для классификации тональности русскоязычного текста (позитивный/негативный или позитивный/негативный/нейтральный). Протестируйте данную модель на нескольких предложениях, используя `transformers.pipeline`. Выведите результаты работы в следующем виде:

```
sentence1 -> class1
sentence2 -> class2
...
```

In [3]:
sentiment = pipeline("text-classification", model="blanchefort/rubert-base-cased-sentiment")

sentences = [
    "Этот фильм просто потрясающий!",
    "Ужасное обслуживание в этом ресторане.",
    "Обычный день, ничего особенного."
]

for text in sentences:
    result = sentiment(text)[0]
    print(f"{text} -> {result['label']}")

config.json:   0%|          | 0.00/943 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/711M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/499 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/1.40M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


Этот фильм просто потрясающий! -> POSITIVE
Ужасное обслуживание в этом ресторане. -> NEGATIVE
Обычный день, ничего особенного. -> NEUTRAL


## 2. Токенизаторы и модели

[Auto Classes](https://huggingface.co/transformers/model_doc/auto.html)

[Tokenizer](https://huggingface.co/transformers/main_classes/tokenizer.html?highlight=tokenizer#transformers.PreTrainedTokenizer.__call__)

2.1 Решите задачу 1.2, создав объект токенизатора (`transformers.AutoTokenizer`) и модель (`transformers.AutoModelForQuestionAnswering`).

In [4]:
from transformers import AutoTokenizer
from transformers import AutoModelForQuestionAnswering

In [6]:
from transformers import AutoTokenizer, AutoModelForQuestionAnswering
import torch

model_name = "deepset/roberta-base-squad2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForQuestionAnswering.from_pretrained(model_name)

context = "The Python programming language was created by Guido van Rossum in 1991. Python is known for its simple syntax."
questions = [
    "Who created Python?",
    "When was Python created?"
]

for question in questions:
    inputs = tokenizer(question, context, return_tensors="pt", padding=True)
    outputs = model(**inputs)

    answer_start = torch.argmax(outputs.start_logits)
    answer_end = torch.argmax(outputs.end_logits)

    answer = tokenizer.convert_tokens_to_string(
        tokenizer.convert_ids_to_tokens(
            inputs["input_ids"][0][answer_start:answer_end+1]
        )
    )

    print(f"Q: {question}")
    print(f"A: {answer}\n")

Q: Who created Python?
A:  Guido van Rossum

Q: When was Python created?
A:  1991



2.2 Решите задачу 1.3, создав объект токенизатора (`transformers.AutoTokenizer`) и модель (`transformers.AutoModelForSequenceClassification`).

In [5]:
from transformers import AutoModelForSequenceClassification

In [7]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model_name = "blanchefort/rubert-base-cased-sentiment"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

sentences = [
    "Этот фильм просто потрясающий!",
    "Ужасное обслуживание в этом ресторане.",
    "Обычный день, ничего особенного."
]

for text in sentences:
    inputs = tokenizer(text, return_tensors="pt", padding=True)
    outputs = model(**inputs)
    prediction = torch.nn.functional.softmax(outputs.logits, dim=-1)
    label_id = torch.argmax(prediction).item()
    label = model.config.id2label[label_id]
    print(f"{text} -> {label}")

Этот фильм просто потрясающий! -> POSITIVE
Ужасное обслуживание в этом ресторане. -> NEGATIVE
Обычный день, ничего особенного. -> NEUTRAL


# 3. Fine tuning

3.1 Дообучите классификатор отзывов на основе модели `distilbert-base-uncased`.

Датасет: https://yadi.sk/d/mRXgc2aJSCncdw

* считайте данные, разбейте на обучающее и тестовое множество;
* создайте токенизатор `AutoTokenizer` для модели `distilbert-base-uncased` и преобразуйте с его помощью текстовые данные. Не забудьте выровнять длину всех последовательностей при помощи параметра `padding`;
* опишите класс `ReviewDataset`:
  * в данном случае удобнее, чтобы метод `__getitem__` возвращал словарь, а не кортеж (см. класс `MyDataset` ниже). Этот словарь должен содержать все данные, полученные после работы токенизатора плюс по ключу `label` должен находиться правильный ответ;
* создайте модель `AutoModelForSequenceClassification` с предобученными весами на основе `distilbert-base-uncased`;
  * при создании модели укажите параметр `num_labels=2`
* дообучите модель:
  * удобная особенность моделей из `transformers`: в метод `__call__` модели можно передать параметр `labels`, содержащий правильные ответы для обучения; тогда в словаре, который вернет метод `__call__` будет ключ `loss`, содержащий тензор со значением функции потерь, у которого можно вызвать метод `backward` и т.д. Таким образом, в данном случае функцию потерь объявлять не нужно;
  * для обучения используйте оптимизатор `transformers.AdamW` вместо `torch.optim.Adam`;
* измерьте значение accuracy на тестовом множестве.

In [8]:
from sklearn.model_selection import train_test_split
import torch
from torch.utils.data import DataLoader
from transformers import AutoModelForSequenceClassification, AdamW, AutoTokenizer

In [10]:
from google.colab import drive
drive.mount('/content/drive/')

Mounted at /content/drive/


In [16]:
cd /content/drive/MyDrive/datasets/polarity

/content/drive/MyDrive/datasets/polarity


In [17]:
import torch
from torch.utils.data import Dataset, DataLoader, random_split
from transformers import AutoTokenizer, AutoModelForSequenceClassification, AdamW
import numpy as np

# Скачаем данные
def read_reviews(filename):
    with open(filename, 'r', encoding='utf-8') as f:
        return f.readlines()

negative_reviews = read_reviews('negative_reviews.txt')
positive_reviews = read_reviews('positive_reviews.txt')

# Combine and create labels
texts = negative_reviews + positive_reviews
labels = [0] * len(negative_reviews) + [1] * len(positive_reviews)

# Создадим train/test split indices
indices = np.arange(len(texts))
np.random.shuffle(indices)
train_size = int(0.8 * len(texts))
train_indices = indices[:train_size]
test_indices = indices[train_size:]

# Ицициализируем токенизатор
tokenizer = AutoTokenizer.from_pretrained('distilbert-base-uncased')

class ReviewDataset(Dataset):
    def __init__(self, texts, labels, tokenizer, indices):
        self.texts = [texts[i] for i in indices]
        self.labels = [labels[i] for i in indices]
        self.tokenizer = tokenizer

    def __len__(self):
        return len(self.texts)

    def __getitem__(self, idx):
        text = self.texts[idx]
        label = self.labels[idx]

        encoding = self.tokenizer(
            text,
            truncation=True,
            padding='max_length',
            max_length=128,
            return_tensors='pt'
        )

        return {
            'input_ids': encoding['input_ids'].squeeze(),
            'attention_mask': encoding['attention_mask'].squeeze(),
            'label': torch.tensor(label)
        }

# Создание датасета
train_dataset = ReviewDataset(texts, labels, tokenizer, train_indices)
test_dataset = ReviewDataset(texts, labels, tokenizer, test_indices)

# Создание dataloaders
train_loader = DataLoader(train_dataset, batch_size=16, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=16)

# Инициализация модели
model = AutoModelForSequenceClassification.from_pretrained(
    'distilbert-base-uncased',
    num_labels=2 # укажем параметр
)

# Параметры обучения
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model.to(device)
optimizer = AdamW(model.parameters(), lr=2e-5)
num_epochs = 3

# Training loop
model.train()
for epoch in range(num_epochs):
    total_loss = 0
    for batch in train_loader:
        optimizer.zero_grad()

        input_ids = batch['input_ids'].to(device)
        attention_mask = batch['attention_mask'].to(device)
        labels = batch['label'].to(device)

        outputs = model(
            input_ids=input_ids,
            attention_mask=attention_mask,
            labels=labels
        )

        loss = outputs.loss
        total_loss += loss.item()

        loss.backward()
        optimizer.step()

    print(f"Epoch {epoch+1}, Average loss: {total_loss/len(train_loader):.4f}")

# Тестирование
model.eval()
correct = 0
total = 0

with torch.no_grad():
    for batch in test_loader:
        input_ids = batch['input_ids'].to(device)
        attention_mask = batch['attention_mask'].to(device)
        labels = batch['label'].to(device)

        outputs = model(input_ids=input_ids, attention_mask=attention_mask)
        predictions = torch.argmax(outputs.logits, dim=1)

        correct += (predictions == labels).sum().item()
        total += labels.size(0)

accuracy = correct / total
print(f"Test accuracy: {accuracy:.4f}")

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/483 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

Some weights of DistilBertForSequenceClassification were not initialized from the model checkpoint at distilbert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight', 'pre_classifier.bias', 'pre_classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Epoch 1, Average loss: 0.4170
Epoch 2, Average loss: 0.2326
Epoch 3, Average loss: 0.1198
Test accuracy: 0.8420
