 # Источники
 https://huggingface.co/learn/llm-course/ru/chapter1/3?fw=pt

# pipeline в библиотеке transformers
pipeline — это высокоуровневый, простой в использовании API от Hugging Face, предназначенный для решения различных задач с помощью моделей трансформеров. Он абстрагирует множество низкоуровневых деталей, таких как токенизация, загрузка модели и постобработка, позволяя быстро и эффективно использовать предобученные модели.

Вот список наиболее распространённых вариантов использования pipeline с кратким описанием:

1. text-classification (Классификация текста)
Описание: Определяет категорию или метку для данного текста. Например, сентимент-анализ (положительный/отрицательный отзыв), классификация спама или определение темы текста.
Пример: classifier = pipeline("text-classification")

2. zero-shot-classification (Классификация с "нулевым выстрелом")
Описание: Позволяет классифицировать текст по меткам, которые модель не видела во время обучения. Вы предоставляете текст и список возможных меток, а модель оценивает, насколько текст соответствует каждой из них.
Пример: classifier = pipeline("zero-shot-classification")

3. sentiment-analysis (Сентимент-анализ)
Описание: Частный случай text-classification, который специально предназначен для определения эмоциональной окраски текста.

4. fill-mask (Заполнение маски)
Описание: Предсказывает слова, которые были "замаскированы" (скрыты) в предложении. Это полезно для понимания грамматических и семантических отношений между словами.
Пример: unmasker = pipeline("fill-mask")

5. summarization (Суммаризация)
Описание: Сокращает длинный текст, оставляя только ключевые идеи. Может быть экстрактивной (собирает важные предложения из исходного текста) или абстрактивной (генерирует новый текст, который резюмирует исходный).
Пример: summarizer = pipeline("summarization")

6. translation (Перевод)
Описание: Переводит текст с одного языка на другой. Для использования необходимо указать языковую пару, например, translation_en_to_ru (английский-русский).
Пример: translator = pipeline("translation_en_to_ru")

7. text-generation (Генерация текста)
Описание: Генерирует продолжение текста на основе предоставленной "затравки" (prompt).
Пример: text_generator = pipeline("text-generation")

8. question-answering (Ответы на вопросы)
Описание: Находит ответ на заданный вопрос в предоставленном контексте (тексте).
Пример: qa_pipeline = pipeline("question-answering")

9. ner (Распознавание именованных сущностей)
Описание: Находит и классифицирует именованные сущности в тексте, такие как имена людей, организации, даты и местоположения.
Пример: ner_pipeline = pipeline("ner")

10. feature-extraction (Извлечение признаков)
Описание: Получает векторное представление (эмбеддинг) для текста, что полезно для последующих задач, таких как кластеризация или поиск сходства.
Пример: extractor = pipeline("feature-extraction")

11. Другие типы задач
Существуют также менее распространённые, но очень полезные варианты, такие как:
- audio-classification (Классификация аудио)
- image-classification (Классификация изображений)
- object-detection (Детекция объектов на изображении)
- image-segmentation (Сегментация изображений)
- token-classification (Классификация токенов)
- automatic-speech-recognition (Автоматическое распознавание речи)


In [8]:
from transformers import pipeline

classifer = pipeline("sentiment-analysis")
classifer("Human is angry")

No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


[{'label': 'NEGATIVE', 'score': 0.9946828484535217}]

Пример продолжениея текста

en

In [9]:
generator = pipeline("text-generation", model="distilgpt2")

generator(
    "My day start with",
    max_length=30,
    num_return_sequences=2,
)

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'My day start with the old joke.\n\n\nWe will run out of time to read my next book on meditation meditation.\n(All things'},
 {'generated_text': 'My day start with the usual routine. Then I will open my bag and start getting coffee. Then I will get my coffee on my mind. Then'}]

In [10]:
# my_token = "hf_***"
#generator = pipeline("text-generation", model="tinkoff-ai/ru-gpts-tiny", token=my_token)

generator = pipeline("text-generation", model="Sberbank-AI/rugpt3large_based_on_gpt2")
generator(
    "Мой день начинается с",
    max_length=30,
    num_return_sequences=2,
    num_beams=4,
)

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.


[{'generated_text': 'Мой день начинается с того, что я просыпаюсь в шесть утра. Я встаю с постели, делаю зарядку, умываюсь, чищу зубы'},
 {'generated_text': 'Мой день начинается с того, что я просыпаюсь в шесть утра. Я встаю с постели, делаю зарядку, завтракаю и отправляюсь на'}]

Распознование сущностей в тексте,типа имя, локация и тд

In [12]:
ner = pipeline("ner", grouped_entities=True)
ner("My mane is Serg, i'm from Moscow")

No model was supplied, defaulted to dbmdz/bert-large-cased-finetuned-conll03-english and revision f2482bf (https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
Some weights of the model checkpoint at dbmdz/bert-large-cased-finetuned-conll03-english were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


[{'entity_group': 'PER',
  'score': 0.8774506,
  'word': 'Serg',
  'start': 11,
  'end': 15},
 {'entity_group': 'LOC',
  'score': 0.9996278,
  'word': 'Moscow',
  'start': 26,
  'end': 32}]

Перевод текста

In [14]:
translator = pipeline("translation", model="Helsinki-NLP/opus-mt-ru-en")

result = translator("Привет, как дела?")

print(result)



[{'translation_text': "Hey, how's it going?"}]


In [15]:
translator = pipeline("translation", model="Helsinki-NLP/opus-mt-en-ru")

result = translator("Hello, how are you?")

print(result)

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


[{'translation_text': 'Привет, как дела?'}]
