## Импорты

In [1]:
import pandas as pd

from text_tagging_model.models.rake_based_model import TagsExtractor
from text_tagging_model.models.metrics import rouge_score_corpus

## Extractive датасет

In [2]:
data = pd.read_csv("./resources/data/processed/data_extractive_habr.csv")

X_test = data["text"]
y_test = data["tag"].str.split().to_list()

## Extractive модель

In [3]:
model = TagsExtractor(
    language="russian",
    fasttext_model_path="./resources/models/cc.ru.300.bin",
)

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/pavelkockin/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     /Users/pavelkockin/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/pavelkockin/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


## Получение тегов

In [4]:
y_pred = model.extract_for_corpus(X_test, top_n=5)

100%|██████████| 3128/3128 [04:09<00:00, 12.55it/s]


## Подсчет метрик ROUGE

In [6]:
rouge_score_corpus(y_test, y_pred)

3128it [00:00, 21632.71it/s]


{'recall': 0.07772707017624733,
 'precision': 0.060664730558244596,
 'f1': 0.06680929111156135}

In [4]:
text2 = """
Использование ML в онлайн-шоппинге не ограничивается рекомендациями товаров. Покупать одежду и обувь проще, когда у любого бренда ты знаешь нужный размер, видишь удачное сочетания товаров и легко находишь похожие внешне или по цвету вещи.
В Lamoda Tech мы создаем продукты, которые решают самые разные задачи пользователей и бизнеса. На митапе 28 марта мы рассказали, какие ML-модели работают у нас в проде и как мы строили эту работу. 
Делимся с вами видео выступлений и презентациями.
Data Science в Lamoda: особенности применения ML в Fashion E-commerce
Александр Желубенков, Head of Data Science в Lamoda Tech
Мы в Lamoda Tech уверены, что онлайн-шоппинг должен быть удобным и вдохновляющим. На нашей платформе работают десятки data-продуктов, которые обеспечивают такой опыт для пользователей: они ранжируют каталог и предлагают персональные рекомендации, собирают образы и управляют ценообразованием на платформе.
В выступлении Саша рассказывает, с какими сложностями сталкивается команда при работе с разными задачами и что важно учитывать для успешного внедрения ML в Fashion E-commerce. 
Рекомендация размера с помощью машинного обучения
Никита Чуркин, Teamlead of Personalisation в Lamoda Tech
Онлайн-покупка обуви и одежды кажется простой задачей ровно до тех пор, пока вы не сталкиваетесь с выбором размера. Как выбрать подходящий? Что делать, если у товара незнакомая размерная сетка? А вдруг товар большемерит или маломерит? 
В Lamoda на помощь в выборе пришли ML-модели. С чего начинались первые тесты и как эволюционировала рекомендация размера — узнаете в докладе Никиты.
В поисках стиля: Deep Learning в fashion-индустрии
Илья Черников, Senior Data Scientist в Lamoda Tech
Поисковые алгоритмы легко справляются с простыми запросами на «спортивные брюки» или «белые кроссовки». Но фантазия и желания пользователей всегда шире, чем мы можем представить. Как найти «изумрудное платье» или «нарядный костюм»? 
Илья рассказывает о нейросетевом подходе к поиску и дополнении языковых моделей компьютерным зрением. Подробнее о том, как это решение получило развитие в генерацию образов, смотрите в выступлении.
После докладов мы успели не только пообщаться за пиццей, но и поиграть в настольный теннис. Ищите себя на фотографиях, если были с нами в офисе!
"""
model.extract(text2, 5)

['пользователь', 'размер', 'товар', 'рекомендация', 'задача']

In [5]:
text2 = """Яндекс открыл набор на студкемпы — бесплатные сверхинтенсивные программы для студентов IT-специальностей. 
За две недели студенты изучат материал, на освоение которого в рамках традиционных программ уходит от пары месяцев до нескольких семестров. 
Они получат фундаментальные знания в области искусственного интеллекта, а также познакомятся с практиками применения нейросетей в сервисах Яндекса. 
В 2024 году пройдут четыре очных студкемпа, участвовать в которых могут студенты вузов из всех регионов России.
Каждый студкемп посвящен одной из областей компьютерных наук: разработке ПО, машинному обучению, науке о данных и искусственному интеллекту. Авторы и преподаватели — эксперты Яндекса и Школы анализа данных, а также исследователи и преподаватели ведущих российских вузов. Обучение проходит на площадках партнёров: НИУ ВШЭ, Университет ИТМО, Университет Иннополис и УрФУ.
С 1 по 13 апреля в Москве пройдет студкемп по машинному обучению на базе факультета компьютерных наук НИУ ВШЭ. Участники познакомятся с современными подходами в NLP и глубоком обучении, освоят методы сбора данных, в том числе с помощью YandexGPT, и научатся визуализировать результаты при помощи фреймворков. Во время итогового проекта студенты создадут MVP системы для решения задачи обработки естественного языка."""
model.extract(text2, 5)

['яндекс', 'студкемп', 'наука', 'обучение', 'студент']

In [6]:
source_text = """
    Методы ускорения инференса.
    Дистилляция
    Обычно в этом методе есть какая-то большая модель, которую мы называем учитель (teacher),
    и модель поменьше — студент (student). Хорошим примером будет YandexGPT 3 — большая LLM,
    способная решать задачу с наилучшим качеством, но она совершенно не укладывается
    в наш вычислительный бюджет. Есть модель поменьше, вроде Т5, которая потребляет
    сильно меньше ресурсов, но не решает задачу так же качественно, как YandexGPT 3.
    Задача Knowledge Distillation состоит в том,
    чтобы минимизировать потери (loss) между фичами — предсказаниями учителя и студента.
"""
model.extract(source_text, 5)

['модель', 'задача', 'метод', 'студент', 'учитель']

: 