# Библиотека обработки естественного языка Hugging Face



Устанавливаем и подключаем необходимые библиотеки

In [None]:
!pip install transformers sentencepiece sacremoses



In [None]:
from transformers import pipeline

## Определение тональности текста

Создаем пайплайн для решения задачи обработки естественного языка

In [None]:
classifier = pipeline("sentiment-analysis")

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading (…)lve/main/config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

Используем пайплайн для определения тональности текста

In [None]:
results = classifier("I like natural language processing.")

Просматриваем результаты

In [None]:
results

[{'label': 'NEGATIVE', 'score': 0.9997277855873108}]

Создаем пайплайн для определения тональности текста на русском языке. Модель [RuBERT for Sentiment Analysis](https://huggingface.co/blanchefort/rubert-base-cased-sentiment).

In [None]:
classifier = pipeline("sentiment-analysis", model="blanchefort/rubert-base-cased-sentiment")

Downloading (…)lve/main/config.json:   0%|          | 0.00/943 [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/711M [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/499 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/1.40M [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Используем пайплайн для определения тональности текста на русском языке.

In [None]:
results = classifier("Я ненавижу обработку естественного языка")

In [None]:
results

[{'label': 'NEGATIVE', 'score': 0.7515643239021301}]

In [None]:
del classifier

## Классификация текст – определение токсичности

In [None]:
classifier = pipeline("text-classification", model="SkolkovoInstitute/russian_toxicity_classifier")

Downloading (…)lve/main/config.json:   0%|          | 0.00/1.04k [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/711M [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/585 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/1.40M [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

In [None]:
results = classifier("Мамкин кубер-докер смузихлеб")

Источник комментария: [Взращивание культуры Open Source в компании: о чем не пишут в Интернете / Михаил Грачев (Evrone)](https://youtu.be/1mPxNc3cNZE).

In [None]:
results

[{'label': 'toxic', 'score': 0.9114413261413574}]

In [None]:
del classifier

## Автоматический перевод

In [None]:
translator = pipeline("translation_ru_to_en", model="Helsinki-NLP/opus-mt-ru-en")

Downloading (…)lve/main/config.json:   0%|          | 0.00/1.38k [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/307M [00:00<?, ?B/s]

Downloading (…)neration_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/42.0 [00:00<?, ?B/s]

Downloading (…)olve/main/source.spm:   0%|          | 0.00/1.08M [00:00<?, ?B/s]

Downloading (…)olve/main/target.spm:   0%|          | 0.00/803k [00:00<?, ?B/s]

Downloading (…)olve/main/vocab.json:   0%|          | 0.00/2.60M [00:00<?, ?B/s]

In [None]:
results = translator("Меня зовут Андрей Созыкин и я создаю учебный курс по обработке естественного языка")

In [None]:
results

[{'translation_text': "My name is Andrei Sozykin and I'm developing a course in natural language processing."}]

In [None]:
del translator

## Автоматическая генерация текста

In [None]:
generator = pipeline('text-generation', model="sberbank-ai/rugpt3large_based_on_gpt2" )

Downloading (…)lve/main/config.json:   0%|          | 0.00/609 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/3.14G [00:00<?, ?B/s]

Downloading (…)olve/main/vocab.json:   0%|          | 0.00/1.71M [00:00<?, ?B/s]

Downloading (…)olve/main/merges.txt:   0%|          | 0.00/1.27M [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [None]:
results = generator("В Уральском федеральном университете я изучаю", max_length = 30)

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


In [None]:
results

[{'generated_text': 'В Уральском федеральном университете я изучаю историю и культуру народов Урала. В этом году я участвовал в конференции, посвященной истории и культуре народов Урала.\n'}]

In [None]:
results[0]['generated_text']

'В Уральском федеральном университете я изучаю историю и культуру народов Урала. В этом году я участвовал в конференции, посвященной истории и культуре народов Урала.\n'

In [None]:
del generator

## Ответы на вопросы

In [None]:
qa_model = pipeline("question-answering", model="AlexKay/xlm-roberta-large-qa-multilingual-finedtuned-ru")

Downloading (…)lve/main/config.json:   0%|          | 0.00/781 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/516 [00:00<?, ?B/s]

Downloading (…)tencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/9.10M [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/150 [00:00<?, ?B/s]

In [None]:
context="""Меня зовут Андрей Созыкин, я занимаюсь созданием учебных курсов по ИТ и компьютерным наукам.
           Сейчас я работаю в Уральском федеральном университете, где мы создаем магистерскую программу по
           Инженерии искусственного интеллекта. В программу входят курсы по компьютерному зрению,
           обработке естественного языка, анализу временных рядов. Также есть интересный курс по
           применению машинного обучения для информационной безопасности.
         """

In [None]:
question="Как называется программа магистратуры, которую создает Андрей Созыкин?"

In [None]:
results = qa_model(question = question, context = context)

In [None]:
results

{'score': 0.48482567071914673,
 'start': 210,
 'end': 247,
 'answer': ' Инженерии искусственного интеллекта.'}

In [None]:
del qa_model

## Извлечение именованных сущностей

In [None]:
classifier = pipeline("ner", model="Babelscape/wikineural-multilingual-ner")

Downloading (…)lve/main/config.json:   0%|          | 0.00/1.19k [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/709M [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/333 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/996k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/1.96M [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

In [None]:
results = classifier("Меня зовут Андрей и я живу в Екатеринбурге")

In [None]:
results

[{'entity': 'B-PER',
  'score': 0.8313715,
  'index': 7,
  'word': 'Андрей',
  'start': 11,
  'end': 17},
 {'entity': 'B-LOC',
  'score': 0.9969297,
  'index': 13,
  'word': 'Екатеринбург',
  'start': 29,
  'end': 41},
 {'entity': 'I-LOC',
  'score': 0.9289497,
  'index': 14,
  'word': '##е',
  'start': 41,
  'end': 42}]

## Полезные ссылки

1. [Библиотека Hugging Face](https://huggingface.co/course/chapter1/3?fw=pt).
2. [Модели машинного обучения в библиотеке Hugging Face](https://huggingface.co/models).
3. [Задачи обработки естественного языка в библиотеке Hugging Face](https://huggingface.co/tasks).
3. Модель [RuBERT for Sentiment Analysis](https://huggingface.co/blanchefort/rubert-base-cased-sentiment).
4. [Модель определения токсичности русскоязычных комментариев](https://huggingface.co/SkolkovoInstitute/russian_toxicity_classifier).
5. [Взращивание культуры Open Source в компании: о чем не пишут в Интернете / Михаил Грачев (Evrone)](https://youtu.be/1mPxNc3cNZE) (комментарий "Мамкин кубер-докер смузихлёб").
