<a href="https://colab.research.google.com/github/dariabokareva/datascience/blob/master/neural-networks/nlp/hugging-face/nlp_hugging_face.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Примеры решения задач обработки естественного языка с использованием библиотеки Hugging Face

Устанавливаем и подключаем необходимые библиотеки

In [1]:
!pip install transformers sentencepiece sacremoses

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting transformers
  Downloading transformers-4.20.1-py3-none-any.whl (4.4 MB)
[K     |████████████████████████████████| 4.4 MB 10.2 MB/s 
[?25hCollecting sentencepiece
  Downloading sentencepiece-0.1.96-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.2 MB)
[K     |████████████████████████████████| 1.2 MB 46.9 MB/s 
[?25hCollecting sacremoses
  Downloading sacremoses-0.0.53.tar.gz (880 kB)
[K     |████████████████████████████████| 880 kB 68.1 MB/s 
[?25hCollecting huggingface-hub<1.0,>=0.1.0
  Downloading huggingface_hub-0.8.1-py3-none-any.whl (101 kB)
[K     |████████████████████████████████| 101 kB 9.4 MB/s 
Collecting tokenizers!=0.11.3,<0.13,>=0.11.1
  Downloading tokenizers-0.12.1-cp37-cp37m-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (6.6 MB)
[K     |████████████████████████████████| 6.6 MB 40.2 MB/s 
Collecting pyyaml>=5.1
  Downloading PyYAML-6.0-cp37-

In [2]:
from transformers import pipeline

## Определение тональности текста

Создаем пайплайн для решения задачи обработки естественного языка

In [3]:
classifier = pipeline("sentiment-analysis")

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english)


Downloading:   0%|          | 0.00/629 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/255M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/226k [00:00<?, ?B/s]

Используем пайплайн для определения тональности текста

In [6]:
results = classifier("I don't like natural language processing.")

Просматриваем результаты

In [7]:
results

[{'label': 'NEGATIVE', 'score': 0.9990301132202148}]

Создаем пайплайн для определения тональности текста на русском языке. Модель [RuBERT for Sentiment Analysis](https://huggingface.co/blanchefort/rubert-base-cased-sentiment).

In [8]:
classifier = pipeline("sentiment-analysis", model="blanchefort/rubert-base-cased-sentiment")

Downloading:   0%|          | 0.00/943 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/679M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/499 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.34M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/112 [00:00<?, ?B/s]

Используем пайплайн для определения тональности текста на русском языке.

In [11]:
results = classifier("Я обожаю тех, кто любит обработку естественного языка")

In [12]:
results

[{'label': 'POSITIVE', 'score': 0.9787896275520325}]

## Классификация текст – определение токсичности

In [13]:
classifier = pipeline("text-classification", model="SkolkovoInstitute/russian_toxicity_classifier")

Downloading:   0%|          | 0.00/1.02k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/679M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/585 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.34M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/112 [00:00<?, ?B/s]

In [34]:
results = classifier("Слил катку, мамкин геймер")

In [35]:
results

[{'label': 'toxic', 'score': 0.9601777195930481}]

## Автоматический перевод

In [36]:
translator = pipeline("translation_ru_to_en", model="Helsinki-NLP/opus-mt-ru-en")

Downloading:   0%|          | 0.00/1.11k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/293M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/42.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.03M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/784k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/2.48M [00:00<?, ?B/s]

In [38]:
results = translator("Вечность держит на прицеле")

In [39]:
results

[{'translation_text': 'Eternity is on target.'}]

## Автоматическая генерация текста

In [40]:
generator = pipeline('text-generation', model="sberbank-ai/rugpt3large_based_on_gpt2" )

Downloading:   0%|          | 0.00/609 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/2.93G [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.63M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.21M [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [74]:
results = generator("Интернет-агентство Инфинити - самая лучшая компания и любит ", max_length = 100)

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


In [75]:
print(results[0]['generated_text'])

Интернет-агентство Инфинити - самая лучшая компания и любит 
всех своих клиентов.

В этом году мы решили сделать подарок нашим клиентам и 
предложили им купить автомобиль в кредит.

В этом году мы решили сделать подарок нашим клиентам и 
предложили им купить автомобиль в кредит.

В этом году мы решили сделать подарок нашим клиентам и 
предложили им купить автомобиль в кредит.

В этом году мы решили сделать подарок


## Ответы на вопросы

In [None]:
qa_model = pipeline("question-answering", model="AlexKay/xlm-roberta-large-qa-multilingual-finedtuned-ru")

In [None]:
context="""
         """

In [None]:
question=""

In [None]:
results = qa_model(question = question, context = context)

In [None]:
results

{'answer': ' Инженерии искусственного интеллекта.',
 'end': 248,
 'score': 0.48482614755630493,
 'start': 211}

## Извлечение именованных сущностей

In [None]:
classifier = pipeline("ner", model="Babelscape/wikineural-multilingual-ner")

Downloading:   0%|          | 0.00/1.16k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/676M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/333 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/972k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.87M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/112 [00:00<?, ?B/s]

In [None]:
results = classifier("")

In [None]:
results

## Полезные ссылки

1. [Библиотека Hugging Face](https://huggingface.co/course/chapter1/3?fw=pt).
2. [Модели машинного обучения в библиотеке Hugging Face](https://huggingface.co/models).
3. [Задачи обработки естественного языка в библиотеке Hugging Face](https://huggingface.co/tasks).
3. Модель [RuBERT for Sentiment Analysis](https://huggingface.co/blanchefort/rubert-base-cased-sentiment).
4. [Модель определения токсичности русскоязычных комментариев](https://huggingface.co/SkolkovoInstitute/russian_toxicity_classifier). 
5. [Взращивание культуры Open Source в компании: о чем не пишут в Интернете / Михаил Грачев (Evrone)](https://youtu.be/1mPxNc3cNZE) (комментарий "Мамкин кубер-докер смузихлёб").
