<a href="https://colab.research.google.com/github/levcch/applied_data_analysis_tasks/blob/main/%D0%A1%D0%9F%D0%97_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!pip install transformers datasets

Collecting datasets
  Downloading datasets-3.5.0-py3-none-any.whl.metadata (19 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting xxhash (from datasets)
  Downloading xxhash-3.5.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess<0.70.17 (from datasets)
  Downloading multiprocess-0.70.16-py311-none-any.whl.metadata (7.2 kB)
Collecting fsspec<=2024.12.0,>=2023.1.0 (from fsspec[http]<=2024.12.0,>=2023.1.0->datasets)
  Downloading fsspec-2024.12.0-py3-none-any.whl.metadata (11 kB)
Downloading datasets-3.5.0-py3-none-any.whl (491 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m491.2/491.2 kB[0m [31m7.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dill-0.3.8-py3-none-any.whl (116 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m116.3/116.3 kB[0m [31m8.4 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading fsspec-2024.12.0-py3-none-any.wh

In [None]:
from transformers import pipeline

def setup_sentiment_analyzer():
    """Настройка анализатора тональности"""
    try:
        return pipeline("sentiment-analysis", model="blanchefort/rubert-base-cased-sentiment")
    except Exception as e:
        print(f"Ошибка при загрузке модели анализа тональности: {e}")
        return None

def setup_qa_model():
    """Настройка модели для вопросно-ответных систем"""
    try:
        return pipeline("question-answering", model="AlexKay/xlm-roberta-large-qa-multilingual-finedtuned-ru")
    except Exception as e:
        print(f"Ошибка при загрузке QA модели: {e}")
        return None

def setup_summarizer():
    """Настройка модели для суммаризации"""
    try:
        return pipeline("summarization", model="IlyaGusev/mbart_ru_sum_gazeta")
    except Exception as e:
        print(f"Ошибка при загрузке модели суммаризации: {e}")
        return None

def setup_paraphraser():
    """Настройка модели для парафраза"""
    try:
        return pipeline("text2text-generation", model="cointegrated/rut5-base-paraphraser")
    except Exception as e:
        print(f"Ошибка при загрузке модели парафраза: {e}")
        return None

def analyze_sentiments(analyzer):
    """Анализ тональности отзывов"""
    reviews = [
        "Фильм был потрясающий, актеры сыграли великолепно!",
        "Сюжет скучный, ничего нового. Разочарован.",
        "Очень атмосферный фильм, но концовка оставила вопросы."
    ]

    print("\nАнализ тональности отзывов:")
    for review in reviews:
        try:
            result = analyzer(review)[0]
            print(f"\nОтзыв: {review}")
            print(f"Тональность: {result['label']}, Уверенность: {result['score']:.2f}")
        except Exception as e:
            print(f"Ошибка при анализе отзыва: {e}")

def answer_question(qa_model):
    """Ответ на вопрос по контексту"""
    context = """
    Гарри Поттер — мальчик, который выжил после атаки Волан-де-Морта.
    Он живет у своих тети и дяди, которые плохо к нему относятся.
    В свой 11-й день рождения Гарри узнает, что он волшебник, и поступает в Хогвартс.
    """
    question = "Кто такой Гарри Поттер?"

    print("\nОтвет на вопрос по контексту:")
    try:
        result = qa_model(question=question, context=context)
        print(f"Вопрос: {question}")
        print(f"Ответ: {result['answer']}")
    except Exception as e:
        print(f"Ошибка при поиске ответа: {e}")

def summarize_text(summarizer):
    """Суммаризация текста"""
    text = """
    Глава 1: Гарри Поттер живет у Дурслей, которые скрывают от него правду о его прошлом.
    В день его 11-летия он получает письмо из Хогвартса.
    Глава 2: Гарри узнает, что он волшебник, и встречает Хагрида, который рассказывает ему о его родителях и Волан-де-Морте.
    Глава 3: Гарри отправляется в Косой переулок, где покупает всё необходимое для школы, включая волшебную палочку.
    """

    print("\nСуммаризация текста:")
    try:
        summary = summarizer(text, max_length=50, min_length=25, do_sample=False)
        print(f"Исходный текст: {text[:100]}...")
        print(f"Краткий пересказ: {summary[0]['summary_text']}")
    except Exception as e:
        print(f"Ошибка при суммаризации: {e}")

def paraphrase_text(paraphraser):
    """Парафраз текста"""
    song_text = """
    Я хочу быть с тобой, но ты далеко,
    Ты свет моей жизни, мое вдохновение.
    """

    print("\nПарафраз текста:")
    try:
        paraphrased = paraphraser(song_text, max_length=50, num_return_sequences=1)
        print(f"Исходный текст: {song_text.strip()}")
        print(f"Парафраз: {paraphrased[0]['generated_text']}")
    except Exception as e:
        print(f"Ошибка при парафразе: {e}")

def main():
    """Основная функция выполнения заданий"""
    # Инициализация моделей
    sentiment_analyzer = setup_sentiment_analyzer()
    qa_model = setup_qa_model()
    summarizer = setup_summarizer()
    paraphraser = setup_paraphraser()

    # Выполнение заданий
    if sentiment_analyzer:
        analyze_sentiments(sentiment_analyzer)

    if qa_model:
        answer_question(qa_model)

    if summarizer:
        summarize_text(summarizer)

    if paraphraser:
        paraphrase_text(paraphraser)

if __name__ == "__main__":
    main()

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/943 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/711M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/499 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/1.40M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Device set to use cpu


config.json:   0%|          | 0.00/781 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/516 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.10M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/150 [00:00<?, ?B/s]

Device set to use cpu


config.json:   0%|          | 0.00/1.08k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/3.47G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/287 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/406 [00:00<?, ?B/s]

Device set to use cpu


config.json:   0%|          | 0.00/724 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/977M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/315 [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/828k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/65.0 [00:00<?, ?B/s]

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565
Device set to use cpu



Анализ тональности отзывов:

Отзыв: Фильм был потрясающий, актеры сыграли великолепно!
Тональность: POSITIVE, Уверенность: 0.98

Отзыв: Сюжет скучный, ничего нового. Разочарован.
Тональность: NEGATIVE, Уверенность: 0.75

Отзыв: Очень атмосферный фильм, но концовка оставила вопросы.
Тональность: NEUTRAL, Уверенность: 0.81

Ответ на вопрос по контексту:
Вопрос: Кто такой Гарри Поттер?
Ответ:  мальчик,

Суммаризация текста:
Исходный текст: 
    Глава 1: Гарри Поттер живет у Дурслей, которые скрывают от него правду о его прошлом. 
    В де...
Краткий пересказ: «кантом ом омныеаоммммм е омныеныеныеныеныеныеныеныеныеныеныета  ом .и в.и.. .

Парафраз текста:
Исходный текст: Я хочу быть с тобой, но ты далеко,
    Ты свет моей жизни, мое вдохновение.
Парафраз: Я хочу быть с тобой, но ты далеко, ты свет моей жизни, мое вдохновение.
