<a href="https://colab.research.google.com/github/CodeHunterOfficial/NLP-2024-2025/blob/main/Lecture_8_1_Transformer_(Hugging_Face).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Hugging Face в задачах NLP

#### Введение в Hugging Face


Hugging Face — это платформа и сообщество, специализирующееся на разработке и распространении библиотек и моделей для работы с естественным языком (NLP). Они известны своими инновационными подходами к решению различных задач, таких как классификация текстов, вопросно-ответная система, генерация текстов и многие другие.

Основные преимущества использования Hugging Face:

1. Широкий выбор предобученных моделей: Hugging Face предоставляет доступ к большому количеству предобученных моделей, которые можно использовать для решения широкого спектра задач в области NLP. Это позволяет значительно ускорить разработку и сократить затраты на обучение собственных моделей.

2. Простота использования: Библиотеки Hugging Face, такие как Transformers и Datasets, предоставляют удобные и интуитивно понятные интерфейсы для работы с моделями и данными. Это значительно упрощает интеграцию Hugging Face в различные проекты.

3. Активное сообщество: Hugging Face имеет большое и активное сообщество разработчиков, исследователей и энтузиастов, которые активно участвуют в развитии платформы, делятся своими наработками и предоставляют поддержку другим пользователям.

4. Регулярные обновления: Hugging Face регулярно обновляет свои библиотеки и модели, добавляя новые возможности и улучшая существующие. Это позволяет разработчикам всегда использовать актуальные и эффективные решения.

5. Свободное использование: Большинство моделей и библиотек Hugging Face распространяются под открытыми лицензиями, что делает их доступными для широкого круга пользователей и позволяет использовать их в коммерческих и некоммерческих проектах.

Таким образом, Hugging Face предоставляет мощный инструментарий для решения широкого спектра задач в области обработки естественного языка, что делает ее популярной среди разработчиков, исследователей и энтузиастов в области NLP.




## Примеры задач и использование Hugging Face

1. **Text Classification**
   - **Определение задачи:** Классификация текстов на основе их содержания.
   - **Пример с использованием Hugging Face:** Использование модели `distilbert-base-uncased` для классификации отзывов на фильмы как положительные или отрицательные.


In [15]:
from transformers import pipeline

classifier = pipeline("sentiment-analysis")
result = classifier("I love this product!")
print(result)
# Output: [{'label': 'POSITIVE', 'score': 0.9997}]

No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


[{'label': 'POSITIVE', 'score': 0.9998855590820312}]


Определение эмоции в тексте

In [16]:
from transformers import pipeline
classifier = pipeline("text-classification",
                     model="SamLowe/roberta-base-go_emotions")
results = classifier("Я в мае сдаю, боюсь сейчас) Ну как же, для себя, просто.")
results

[{'label': 'neutral', 'score': 0.7762740254402161}]

Классификации текста

In [17]:
from transformers import pipeline
classifier = pipeline("text-classification",
                      model="cointegrated/rubert-tiny2-cedr-emotion-detection")
res=classifier("Я в мае сдаю, боюсь сейчас) Ну как же, для себя, просто.",
           return_all_scores=True)
res

[[{'label': 'no_emotion', 'score': 0.027997499331831932},
  {'label': 'joy', 'score': 0.07670938223600388},
  {'label': 'sadness', 'score': 0.03352627903223038},
  {'label': 'surprise', 'score': 0.020482530817389488},
  {'label': 'fear', 'score': 0.9468780159950256},
  {'label': 'anger', 'score': 0.02653832733631134}]]

Вывести на русском языке

In [18]:
from transformers import pipeline

# Создаём словарь соответствия меток эмоций на английском и русском языках
emotion_labels = {
    'anger': 'гнев',
    'fear': 'страх',
    'joy': 'радость',
    'neutral': 'нейтральность',
    'sadness': 'грусть',
    'no_emotion': 'отсутствие эмоций'
}

# Загружаем модель для классификации эмоций
classifier = pipeline("text-classification",
                      model="cointegrated/rubert-tiny2-cedr-emotion-detection")

# Текст для классификации
text = "Я в мае сдаю, боюсь сейчас) Ну как же, для себя, просто."

# Классифицируем текст и получаем результаты
results = classifier(text, return_all_scores=True)[0]

# Преобразуем результаты на русский язык
russian_results = []
for res in results:
    if res['label'] in emotion_labels:
        russian_results.append({'label': emotion_labels[res['label']], 'score': res['score']})
    else:
        russian_results.append({'label': emotion_labels['no_emotion'], 'score': res['score']})

# Выводим результаты
print(russian_results)

# Выводим результаты
for result in russian_results:
    print(result)

[{'label': 'отсутствие эмоций', 'score': 0.027997499331831932}, {'label': 'радость', 'score': 0.07670938223600388}, {'label': 'грусть', 'score': 0.03352627903223038}, {'label': 'отсутствие эмоций', 'score': 0.020482530817389488}, {'label': 'страх', 'score': 0.9468780159950256}, {'label': 'гнев', 'score': 0.02653832733631134}]
{'label': 'отсутствие эмоций', 'score': 0.027997499331831932}
{'label': 'радость', 'score': 0.07670938223600388}
{'label': 'грусть', 'score': 0.03352627903223038}
{'label': 'отсутствие эмоций', 'score': 0.020482530817389488}
{'label': 'страх', 'score': 0.9468780159950256}
{'label': 'гнев', 'score': 0.02653832733631134}



2. **Token Classification**
   - **Определение задачи:** Определение класса каждого токена в тексте.
   - **Пример с использованием Hugging Face:** Модель `bert-base-cased` для идентификации и классификации именованных сущностей в тексте, таких как имена людей или организаций.


In [19]:
from transformers import pipeline

ner_model = pipeline("ner")
result = ner_model("Hugging Face is a company based in New York City.")
print(result)
# Output: [{'entity': 'I-ORG', 'score': 0.9986, 'index': 1, 'word': 'Hu', 'start': 0, 'end': 2}, ...]

No model was supplied, defaulted to dbmdz/bert-large-cased-finetuned-conll03-english and revision f2482bf (https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
Some weights of the model checkpoint at dbmdz/bert-large-cased-finetuned-conll03-english were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


[{'entity': 'I-ORG', 'score': 0.9943229, 'index': 1, 'word': 'Hu', 'start': 0, 'end': 2}, {'entity': 'I-ORG', 'score': 0.89372134, 'index': 2, 'word': '##gging', 'start': 2, 'end': 7}, {'entity': 'I-ORG', 'score': 0.9618119, 'index': 3, 'word': 'Face', 'start': 8, 'end': 12}, {'entity': 'I-LOC', 'score': 0.99907184, 'index': 9, 'word': 'New', 'start': 35, 'end': 38}, {'entity': 'I-LOC', 'score': 0.99889284, 'index': 10, 'word': 'York', 'start': 39, 'end': 43}, {'entity': 'I-LOC', 'score': 0.99922264, 'index': 11, 'word': 'City', 'start': 44, 'end': 48}]



3. **Table Question Answering**
   - **Определение задачи:** Ответ на вопросы, основанные на данных в табличном формате.
   - **Пример с использованием Hugging Face:** Использование модели `roberta-large` для отвечения на вопросы, связанные с финансовыми данными, представленными в табличной форме.


Пример 1.

In [12]:
import torch
from transformers import RobertaForQuestionAnswering, RobertaTokenizer

# Загрузка модели и токенизатора
model_name = 'roberta-large'
model = RobertaForQuestionAnswering.from_pretrained(model_name)
tokenizer = RobertaTokenizer.from_pretrained(model_name)

# Подготовка данных: таблица с финансовыми данными
context = """Дата       | Цена закрытия | Объем торгов | Изменение
             -----------------------------------------------------
             2023-01-01 | 100.0         | 100000       | +1.5
             2023-01-02 | 101.5         | 120000       | +0.5"""

# Формулировка вопросов
questions = [
    "Какова была цена закрытия акций на 2023-01-01?",
    "Какой объем торгов был 2023-01-02?",
    "На сколько изменилась цена акций 2023-01-02 по сравнению с предыдущим днем?"
]

# Токенизация вопросов и контекста
tokenized_input = tokenizer(questions, [context]*len(questions), return_tensors="pt", padding=True, truncation=True)

# Вызов модели для получения ответов
with torch.no_grad():
    outputs = model(**tokenized_input)

# Извлечение ответов из вывода модели
answer_start = torch.argmax(outputs.start_logits)
answer_end = torch.argmax(outputs.end_logits) + 1
model_answer = tokenizer.decode(tokenized_input["input_ids"][0][answer_start:answer_end])

# Функция для оценки ответа пользователя
def evaluate_answer(user_answer, model_answer):
    user_answer = user_answer.strip().lower()
    model_answer = model_answer.strip().lower()

    if user_answer == model_answer:
        return True
    else:
        return False

# Ввод ответа от пользователя
user_answer = input("Введите ваш ответ на вопрос '{}': ".format(questions[0]))

# Оценка ответа пользователя
correct = evaluate_answer(user_answer, model_answer)

# Вывод результата
if correct:
    print("Ваш ответ правильный!")
else:
    print("Ваш ответ неправильный. Правильный ответ:", model_answer)

Some weights of RobertaForQuestionAnswering were not initialized from the model checkpoint at roberta-large and are newly initialized: ['qa_outputs.bias', 'qa_outputs.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Введите ваш ответ на вопрос 'Какова была цена закрытия акций на 2023-01-01?': 100.0
Ваш ответ неправильный. Правильный ответ: � на 2023-01-01?</s></s>Дата       | Цена закрытия | Объем торгов | Изменение
             -----------------------------------------------------
             2023-01-01 | 100.0         | 100000       | +1.5
             2023-01-02 | 101.5         | 120000       | +0.5</s><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad>


In [7]:
from transformers import RobertaTokenizer, RobertaForQuestionAnswering
import torch

# Табличные данные для примера 1: Финансовые данные компании
table_data_1 = """
Квартал | Выручка (млн $) | Прибыль (млн $) | Расходы (млн $)
Q1 2023 | 500 | 120 | 380
Q2 2023 | 600 | 150 | 450
Q3 2023 | 700 | 200 | 500
Q4 2023 | 800 | 250 | 550
"""

# Табличные данные для примера 2: Данные о продажах продуктов
table_data_2 = """
Продукт | Продажи (шт.) | Выручка (тыс. $) | Средняя цена (тыс. $)
Телевизоры | 200 | 400 | 2.0
Холодильники | 150 | 450 | 3.0
Стиральные машины | 100 | 300 | 3.0
Кондиционеры | 250 | 500 | 2.0
"""

# Табличные данные для примера 3: Статистика по студентам
table_data_3 = """
Студент | Возраст | Баллы по математике | Баллы по физике | Баллы по химии
Иванов И.И. | 17 | 90 | 85 | 88
Петров П.П. | 18 | 78 | 92 | 80
Сидоров С.С. | 17 | 85 | 89 | 84
Кузнецов К.К. | 18 | 92 | 81 | 90
"""

# Примеры вопросов для каждой таблицы
questions_example_1 = [
    "Какая была выручка в Q1 2023?",
    "Какая была прибыль в Q2 2023?",
    "Какие были расходы в Q3 2023?"
]

questions_example_2 = [
    "Сколько телевизоров было продано?",
    "Какая была выручка от продажи холодильников?",
    "Какова средняя цена стиральной машины?"
]

questions_example_3 = [
    "Какой возраст у Иванова И.И.?",
    "Сколько баллов по физике у Петрова П.П.?",
    "Какие баллы по химии у Кузнецова К.К.?"
]

# Функция для ответа на вопросы с использованием модели RobertaForQuestionAnswering
def answer_questions(table_data, questions):
    # Загрузка токенизатора и модели
    tokenizer = RobertaTokenizer.from_pretrained('roberta-large')
    model = RobertaForQuestionAnswering.from_pretrained('roberta-large')

    # Пройти по каждому вопросу и получить ответы
    for i, question in enumerate(questions, 1):
        print(f"Вопрос {i}: {question}")

        # Токенизация вопроса и табличных данных
        inputs = tokenizer(question, table_data, return_tensors='pt')

        # Получение ответа от модели
        with torch.no_grad():
            outputs = model(**inputs)

        # Получение начального и конечного индексов ответа
        start_index = torch.argmax(outputs.start_logits)
        end_index = torch.argmax(outputs.end_logits) + 1

        # Преобразование токенов в строку ответа
        answer_tokens = inputs['input_ids'][0][start_index:end_index]
        answer = tokenizer.decode(answer_tokens)

        print(f"Ответ: {answer}\n")

# Примеры вопросов и ответы для каждой таблицы
print("Пример 1: Финансовые данные компании")
answer_questions(table_data_1, questions_example_1)

print("Пример 2: Данные о продажах продуктов")
answer_questions(table_data_2, questions_example_2)

print("Пример 3: Статистика по студентам")
answer_questions(table_data_3, questions_example_3)

Пример 1: Финансовые данные компании


tokenizer_config.json:   0%|          | 0.00/25.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]



config.json:   0%|          | 0.00/482 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.42G [00:00<?, ?B/s]

Some weights of RobertaForQuestionAnswering were not initialized from the model checkpoint at roberta-large and are newly initialized: ['qa_outputs.bias', 'qa_outputs.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Вопрос 1: Какая была выручка в Q1 2023?
Ответ: �ка в Q1 2023?</s></s>
Квартал | Выручка (млн $) | Прибыль (млн $) | Расходы (млн $)
Q1 2023 | 500 | 120 | 380
Q2 2023 | 600 | 150 | 450
Q3 2023 | 700 | 200 | 500
Q4 2023 | 800

Вопрос 2: Какая была прибыль в Q2 2023?
Ответ: 23 | 500 | 120 | 380
Q2 2023 | 600 | 150 | 450
Q3 2023 | 700 | 200 | 500
Q4 2023 | 800

Вопрос 3: Какие были расходы в Q3 2023?
Ответ: 23 | 500 | 120 | 380
Q2 2023 | 600 | 150 | 450
Q3 2023 | 700 | 200 | 500
Q4 2023 | 800

Пример 2: Данные о продажах продуктов


Some weights of RobertaForQuestionAnswering were not initialized from the model checkpoint at roberta-large and are newly initialized: ['qa_outputs.bias', 'qa_outputs.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Вопрос 1: Сколько телевизоров было продано?
Ответ: 

Вопрос 2: Какая была выручка от продажи холодильников?
Ответ: 

Вопрос 3: Какова средняя цена стиральной машины?
Ответ:  500

Пример 3: Статистика по студентам


Some weights of RobertaForQuestionAnswering were not initialized from the model checkpoint at roberta-large and are newly initialized: ['qa_outputs.bias', 'qa_outputs.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Вопрос 1: Какой возраст у Иванова И.И.?
Ответ: 

Вопрос 2: Сколько баллов по физике у Петрова П.П.?
Ответ: 

Вопрос 3: Какие баллы по химии у Кузнецова К.К.?
Ответ: 



In [1]:
from transformers import AutoTokenizer, AutoModelForQuestionAnswering
import torch
import pandas as pd

# Загрузка модели и токенизатора
model_name = "deepset/roberta-large-squad2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForQuestionAnswering.from_pretrained(model_name)

# Пример данных в табличной форме
data = {
    "Year": [2020, 2021, 2022],
    "Revenue": [100, 150, 200],
    "Profit": [10, 15, 25]
}
df = pd.DataFrame(data)

# Функция для преобразования таблицы в текст
def table_to_text(df):
    text = ""
    for col in df.columns:
        text += col + ": " + ", ".join(df[col].astype(str)) + ". "
    return text

# Преобразование таблицы в текст
context = table_to_text(df)
print("Context:", context)

# Функция для выполнения Table QA
def answer_question(question, context):
    inputs = tokenizer.encode_plus(question, context, add_special_tokens=True, return_tensors="pt")
    input_ids = inputs["input_ids"].tolist()[0]

    outputs = model(**inputs)
    answer_start = torch.argmax(outputs.start_logits)
    answer_end = torch.argmax(outputs.end_logits) + 1

    answer = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(input_ids[answer_start:answer_end]))
    return answer

# Пример вопроса
question = "What was the revenue in 2021?"
answer = answer_question(question, context)
print(f"Answer: {answer}")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/1.19k [00:00<?, ?B/s]



config.json:   0%|          | 0.00/696 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/798k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.42G [00:00<?, ?B/s]

Context: Year: 2020, 2021, 2022. Revenue: 100, 150, 200. Profit: 10, 15, 25. 
Answer:  100, 150, 200



4. **Question Answering**
   - **Определение задачи:** Ответ на вопросы на естественном языке, основываясь на предоставленном контексте.
   - **Пример с использованием Hugging Face:** Модель `albert-base-v2` для ответа на вопросы, касающиеся содержания статей в новостях.


In [21]:
from transformers import pipeline

qa_model = pipeline("question-answering")
context = "Hugging Face is a company based in New York City."
question = "Where is Hugging Face based?"
result = qa_model(question=question, context=context)
print(result)
# Output: {'score': 0.9923, 'start': 31, 'end': 45, 'answer': 'New York City'}

No model was supplied, defaulted to distilbert/distilbert-base-cased-distilled-squad and revision 626af31 (https://huggingface.co/distilbert/distilbert-base-cased-distilled-squad).
Using a pipeline without specifying a model name and revision in production is not recommended.


{'score': 0.9679760932922363, 'start': 35, 'end': 48, 'answer': 'New York City'}


Пример 2.

In [None]:
from transformers import pipeline
qa_model = pipeline("question-answering", model="AlexKay/xlm-roberta-large-qa-multilingual-finedtuned-ru")

context="""Меня зовут Андрей Андреевич, я занимаюсь созданием учебных курсов по ИТ и компьютерным наукам.
           Сейчас я работаю в Казанском федеральном университете, где мы создаем магистерскую программу по
           Инженерии искусственного интеллекта. В программу входят курсы по компьютерному зрению,
           обработке естественного языка, анализу временных рядов. Также есть интересный курс по
           применению машинного обучения для информационной безопасности.
         """
question="Как называется программа магистратуры, которую создает Андрей Андреевич?"
results = qa_model(question = question, context = context)
print(results)


5. **Zero-Shot Classification**
   - **Определение задачи:** Классификация текстов без предварительного обучения на данных конкретной задачи.
   - **Пример с использованием Hugging Face:** Модель `facebook/bart-large-mnli` для классификации текстов на несколько категорий без предварительного обучения на этом конкретном наборе данных.


In [22]:
from transformers import pipeline

classifier = pipeline("zero-shot-classification")
sequence = "I am looking for a restaurant in Paris."
candidate_labels = ["food", "politics", "travel"]
result = classifier(sequence, candidate_labels)
print(result)
# Output: {'sequence': 'I am looking for a restaurant in Paris.', 'labels': ['travel', 'food', 'politics'], ...}

No model was supplied, defaulted to facebook/bart-large-mnli and revision c626438 (https://huggingface.co/facebook/bart-large-mnli).
Using a pipeline without specifying a model name and revision in production is not recommended.


{'sequence': 'I am looking for a restaurant in Paris.', 'labels': ['food', 'travel', 'politics'], 'scores': [0.7707962989807129, 0.2245446890592575, 0.004658977966755629]}



6. **Translation**
   - **Определение задачи:** Перевод текста с одного языка на другой.
   - **Пример с использованием Hugging Face:** Модель `t5-small` для перевода текстов с английского на французский.


In [23]:
!pip install transformers sentencepiece
!pip install sacremoses
from transformers import pipeline
translator = pipeline("translation_ru_to_en", model="facebook/wmt19-ru-en")
results = translator("Меня зовут Андрей и я живу в Казани")

Collecting sacremoses
  Downloading sacremoses-0.1.1-py3-none-any.whl (897 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m897.5/897.5 kB[0m [31m10.7 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: sacremoses
Successfully installed sacremoses-0.1.1


config.json:   0%|          | 0.00/826 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.16G [00:00<?, ?B/s]

Some weights of FSMTForConditionalGeneration were not initialized from the model checkpoint at facebook/wmt19-ru-en and are newly initialized: ['model.decoder.embed_positions.weight', 'model.encoder.embed_positions.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


generation_config.json:   0%|          | 0.00/260 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/67.0 [00:00<?, ?B/s]

vocab-src.json:   0%|          | 0.00/776k [00:00<?, ?B/s]

vocab-tgt.json:   0%|          | 0.00/639k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/396k [00:00<?, ?B/s]


7. **Summarization**
   - **Определение задачи:** Создание краткого содержания исходного текста.
   - **Пример с использованием Hugging Face:** Модель `bart-large-cnn` для генерации краткого содержания новостных статей.


In [24]:
from transformers import pipeline

summarizer = pipeline("summarization")
text = "Hugging Face is a technology company specializing in NLP."
summary = summarizer(text, max_length=50, min_length=20, do_sample=False)
print(summary)
# Output: [{'summary_text': 'Hugging Face is a technology company specializing in NLP.'}]

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.
Your max_length is set to 50, but your input_length is only 14. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=7)


[{'summary_text': " Hugging Face is a technology company specializing in NLP . Hugging face is based in New York City, New Jersey . Hugged Face is based on the company's NLP technology ."}]



8. **Feature Extraction**
   - **Определение задачи:** Извлечение важных признаков из текстов для дальнейшего анализа.
   - **Пример с использованием Hugging Face:** Использование модели `distilbert-base-uncased` для извлечения эмоциональной окраски текста.


In [25]:
from transformers import AutoModel, AutoTokenizer

model_name = "bert-base-uncased"
model = AutoModel.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

text = "Hugging Face is a company based in New York City."
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state
last_hidden_states

tensor([[[ 0.0031, -0.1495, -0.0781,  ...,  0.1091,  0.0357,  0.6354],
         [ 0.1841, -0.5790,  0.7695,  ..., -0.0349,  0.4123,  0.2883],
         [ 0.2063, -0.6032,  0.5040,  ..., -0.3913, -0.2780,  0.1514],
         ...,
         [ 0.3941, -0.6282, -0.4151,  ..., -0.6306, -0.2951, -0.9471],
         [ 0.7025,  0.2739, -0.1233,  ...,  0.1764, -0.6605, -0.3647],
         [-0.5441,  0.4317,  0.2160,  ..., -0.2036, -0.7500, -0.2573]]],
       grad_fn=<NativeLayerNormBackward0>)


9. **Text Generation**
   - **Определение задачи:** Автоматическое создание текста на основе входных данных.
   - **Пример с использованием Hugging Face:** Модель `gpt2` для генерации текста в стиле писателя.


In [26]:
from transformers import pipeline

text_generator = pipeline("text-generation")
prompt = "Once upon a time"
generated_text = text_generator(prompt, max_length=50, num_return_sequences=1)
print(generated_text[0]['generated_text'])

No model was supplied, defaulted to openai-community/gpt2 and revision 6c0e608 (https://huggingface.co/openai-community/gpt2).
Using a pipeline without specifying a model name and revision in production is not recommended.
Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Once upon a time, they got a deal. The only way I can think of to take it anywhere is through something a little different, like this: you give me a piece of paper with all the deals, and I say, "Yeah,



10. **Text2Text Generation**
    - **Определение задачи:** Преобразование текста одного типа в другой.
    - **Пример с использованием Hugging Face:** Модель `t5-base` для перевода текста в вопрос в соответствующий ответ.


In [27]:
from transformers import pipeline

text2text_generator = pipeline("text2text-generation")
input_text = "Translate: How are you?"
generated_text = text2text_generator(input_text)
print(generated_text[0]['generated_text'])

No model was supplied, defaulted to google-t5/t5-base and revision 686f1db (https://huggingface.co/google-t5/t5-base).
Using a pipeline without specifying a model name and revision in production is not recommended.


: How are you? Translate: How are you?



11. **Fill-Mask**
    - **Определение задачи:** Заполнение пропущенных частей предложения.
    - **Пример с использованием Hugging Face:** Модель `bert-base-multilingual-cased` для автоматического заполнения пропусков в предложениях на различных языках.


In [28]:
from transformers import pipeline

# Создание конвейера для заполнения пропусков с моделью BERT
fill_mask = pipeline('fill-mask', model='bert-base-multilingual-cased')

# Пример предложения с пропуском на английском
text_en = "The [MASK] jumped over the fence."
print(f"Предложение на английском: {text_en}")
print(f"Предсказания для пропуска:")
print(fill_mask(text_en))

# Пример предложения с пропуском на русском
text_ru = "Кошка [MASK] на дерево."
print(f"\nПредложение на русском: {text_ru}")
print(f"Предсказания для пропуска:")
print(fill_mask(text_ru))

# Пример предложения с пропуском на французском
text_fr = "Le chat a [MASK] sur l'arbre."
print(f"\nПредложение на французском: {text_fr}")
print(f"Предсказания для пропуска:")
print(fill_mask(text_fr))

Some weights of the model checkpoint at bert-base-multilingual-cased were not used when initializing BertForMaskedLM: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight', 'cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


Предложение на английском: The [MASK] jumped over the fence.
Предсказания для пропуска:
[{'score': 0.03132371976971626, 'token': 50059, 'token_str': 'crowd', 'sequence': 'The crowd jumped over the fence.'}, {'score': 0.024791132658720016, 'token': 15034, 'token_str': 'police', 'sequence': 'The police jumped over the fence.'}, {'score': 0.022936228662729263, 'token': 14633, 'token_str': 'others', 'sequence': 'The others jumped over the fence.'}, {'score': 0.017980100587010384, 'token': 32647, 'token_str': 'boys', 'sequence': 'The boys jumped over the fence.'}, {'score': 0.01739131473004818, 'token': 11426, 'token_str': 'people', 'sequence': 'The people jumped over the fence.'}]

Предложение на русском: Кошка [MASK] на дерево.
Предсказания для пропуска:
[{'score': 0.4775923192501068, 'token': 118, 'token_str': '-', 'sequence': 'Кошка - на дерево.'}, {'score': 0.0697089359164238, 'token': 88544, 'token_str': 'идёт', 'sequence': 'Кошка идёт на дерево.'}, {'score': 0.037621114403009415, 'to


12. **Sentence Similarity**
    - **Определение задачи:** Определение степени семантической близости между двумя предложениями.
    - **Пример с использованием Hugging Face:** Модель `sentence-transformers/paraphrase-MiniLM-L6-v2` для определения степени близости между двумя предложениями.


In [29]:
!pip install sentence_transformers
from sentence_transformers import SentenceTransformer, util
# Загрузка модели
model = SentenceTransformer('sentence-transformers/paraphrase-MiniLM-L6-v2')

# Определение двух предложений
sentence1 = "Это красивый и яркий закат над морем."
sentence2 = "Солнце медленно опускается за горизонт, окрашивая небо в потрясающие оттенки."

# Получение векторных представлений предложений
embeddings1 = model.encode([sentence1])
embeddings2 = model.encode([sentence2])

# Вычисление косинусного сходства
cosine_score = util.cos_sim(embeddings1, embeddings2)[0][0]

# Вывод результата
print(f"Степень семантической близости между предложениями: \[{cosine_score:.4f}\]")

Степень семантической близости между предложениями: \[0.8674\]


## Вопросы для закрепления темы


1. Что представляет собой платформа Hugging Face и на чем она специализируется?

2. Перечислите основные задачи в области NLP, которые можно решать с помощью библиотек Hugging Face.

3. Как можно использовать Hugging Face для задачи классификации текстов? Приведите пример.

4. Объясните, как реализовать определение эмоциональной окраски текста на русском языке с использованием Hugging Face.

5. Опишите, как можно извлекать именованные сущности из текста с помощью библиотек Hugging Face.

6. Расскажите о применении Hugging Face для создания вопросно-ответных систем на основе табличных данных.

7. Как можно использовать Hugging Face для реализации системы ответов на вопросы, основанных на контексте?

8. Объясните, как можно реализовать классификацию текстов по категориям с использованием zero-shot classification в Hugging Face.

9. Опишите, как можно создать приложение для перевода текста с русского на английский, используя Hugging Face.

10. Расскажите о применении Hugging Face для генерации аннотаций к текстам.

11. Как можно извлекать векторные представления слов из текста с помощью Hugging Face?

12. Объясните, как можно разработать систему для генерации продолжения текста, используя модели Hugging Face.

13. Как можно реализовать приложение для заполнения пропусков в предложениях на разных языках с помощью Hugging Face?

14. Опишите, как можно определять сходство между предложениями с использованием Hugging Face.

15. Расскажите о применении Hugging Face для классификации текстов на основе их содержания.

16. Как можно создать систему для идентификации языка текста с помощью Hugging Face?

17. Объясните, как можно реализовать автоматическую генерацию подписей к изображениям, используя Hugging Face.

18. Как можно использовать Hugging Face для автоматического суммирования текста?

19. Опишите применение Hugging Face для извлечения ключевых фраз из текста.

20. Расскажите о реализации анализа настроений в текстах на разных языках с помощью Hugging Face.

21. Как можно использовать Hugging Face для определения возраста и пола авторов текстов?

22. Объясните, как можно создать приложение для классификации текстов по жанрам, используя Hugging Face.

23. Опишите применение Hugging Face для перевода текстов с английского на другие языки.

24. Как можно реализовать определение уровня читабельности текста с помощью Hugging Face?

25. Расскажите о применении Hugging Face для извлечения сущностей и отношений из текстов.

26. Как можно использовать Hugging Face для автоматического исправления грамматических ошибок в текстах?

27. Объясните, как можно реализовать определение тональности отзывов на продукты с помощью Hugging Face.

28. Опишите применение Hugging Face для классификации текстов по темам.

29. Как можно использовать Hugging Face для генерации аннотаций к изображениям?

30. Расскажите о реализации перефразирования текстов с сохранением смысла с помощью Hugging Face.

##  Задачи для самостоятельной работы

1. Используя модель `distilbert-base-uncased`, реализуйте классификацию твитов как "позитивные" или "негативные".

2. Разработайте систему для определения эмоциональной окраски текста на русском языке, используя модель `cointegrated/rubert-tiny2-cedr-emotion-detection`.

3. Напишите скрипт, который извлекает именованные сущности из произвольного текста с помощью модели `bert-base-cased`.

4. Создайте вопросно-ответную систему на основе таблицы данных, используя модель `roberta-large`.

5. Реализуйте систему для ответа на вопросы, основанную на контексте, используя модель `distilbert-base-uncased-distilled-squad`.

6. Разработайте модуль для классификации текстов по категориям с использованием zero-shot classification.

7. Создайте приложение для перевода текста с русского на английский, используя модель `facebook/wmt19-ru-en`.

8. Напишите скрипт, который генерирует аннотацию на основе произвольного текста, применяя модель `t5-small`.

9. Реализуйте модуль для извлечения векторных представлений слов из текста с помощью модели `bert-base-uncased`.

10. Разработайте систему для генерации продолжения текста на основе заданного начала, используя модель `gpt2`.

11. Создайте приложение для заполнения пропусков в предложениях на русском и английском языках с помощью модели `bert-base-multilingual-cased`.

12. Напишите скрипт, который определяет сходство между двумя предложениями, применяя модель `sentence-transformers/paraphrase-MiniLM-L6-v2`.

13. Реализуйте функцию для классификации текстов на основе их содержания с использованием модели `distilbert-base-uncased-finetuned-sst-2-english`.

14. Создайте систему для идентификации языка текста, применяя модель `distilbert-base-multilingual-cased-language-detection`.

15. Разработайте модуль для автоматической генерации подписей к изображениям, используя модель `nlpconnect/vit-gpt2-image-captioning`.

16. Напишите скрипт, который суммирует текст, применяя модель `sshleifer/distilbart-cnn-12-6`.

17. Реализуйте систему для выявления фактов и утверждений в тексте с помощью модели `roberta-large-openai-detector`.

18. Создайте приложение для перефразирования текста, используя модель `tuner007/pegasus_paraphrase`.

19. Разработайте модуль для распознавания именованных сущностей в текстах на русском языке с помощью модели `DeepPavlov/rubert-base-ner-conll2003-v1`.

20. Напишите скрипт, который определяет политическую окраску текста, применяя модель `bhadresh-savani/distilbert-base-uncased-emotion`.

21. Реализуйте систему для извлечения ключевых фраз из текста с помощью модели `wietsedv/bert-base-dutch-cased-finetuned-tpo`.

22. Создайте модуль для анализа настроений в текстах на нескольких языках с использованием модели `cardiffnlp/twitter-roberta-base-sentiment-latest`.

23. Напишите скрипт, который определяет возраст и пол авторов текстов, применяя модель `nlptown/bert-base-multilingual-uncased-sentiment`.

24. Разработайте приложение для классификации текстов по жанрам, используя модель `arpanghoshal/EmoRoBERTa`.

25. Реализуйте систему для перевода текстов с английского на испанский, используя модель `Helsinki-NLP/opus-mt-en-es`.

26. Создайте модуль для определения уровня читабельности текста, применяя модель `hpcaitech/longformer-base-readability`.

27. Напишите скрипт, который извлекает сущности и отношения из текста с помощью модели `nlpaueb/legal-bert-base-uncased`.

28. Разработайте приложение для автоматического исправления грамматических ошибок в текстах, используя модель `nreimers/BERT-Small-L-4-H-512-uncased-gram-corrector`.

29. Реализуйте систему для определения тональности отзывов на продукты, применяя модель `affinelayer/roberta-base-product-sentiment`.

30. Создайте модуль для классификации текстов по темам, используя модель `bhadresh-savani/distilbert-base-uncased-topic`.

31. Напишите скрипт, который генерирует аннотации к изображениям на основе их содержимого с помощью модели `nlpconnect/vit-gpt2-image-captioning`.

32. Разработайте приложение для перефразирования текстов с сохранением смысла, применяя модель `tuner007/pegasus_paraphrase`.

33. Реализуйте систему для определения степени достоверности информации в текстах, используя модель `roberta-large-openai-detector`.

34. Создайте модуль для автоматической генерации названий для текстов, применяя модель `miso-better/t5-base-title-generation`.

35. Напишите скрипт, который выделяет основные аргументы в текстах, помогая в анализе аргументации, с помощью модели `nreimers/BERT-Small-L-4-H-512-uncased-arg-mining`.

36. Разработайте приложение для извлечения ключевых фраз из текстов, используя модель `boudinlab/keybert`.

37. Реализуйте систему для определения эмоциональной окраски твитов, применяя модель `cardiffnlp/twitter-roberta-base-emotion`.

38. Создайте модуль для автоматической генерации вопросов к текстам, используя модель `vblagoje/bert-for-qa`.

39. Напишите скрипт, который определяет стиль письма авторов текстов, применяя модель `nlptown/bert-base-multilingual-uncased-sentiment`.

40. Разработайте приложение для определения языка текстов, используя модель `distilbert-base-multilingual-cased-language-detection`.