In [1]:
from transformers import pipeline

# This model is a `zero-shot-classification` model.
# It will classify text, except you are free to choose any label you might imagine
classifier = pipeline(model="facebook/bart-large-mnli")
classifier(
    """Штирлиц, на вас поступил донос от соседей. Пишут, что вы вчера пили, буянили и ругались по-русски!
	Штирлиц молча берёт лист бумаги и пишет ответный донос:
	"Группенфюреру СС Генриху Мюллеру. Мои соседи знают русский язык и, что особенно подозрительно, разбираются в ненормативной русской лексике!""",
    candidate_labels=["смешно", "грустно", "агрессивно", "обычно", "философично"],
)

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


{'sequence': 'Штирлиц, на вас поступил донос от соседей. Пишут, что вы вчера пили, буянили и ругались по-русски!\n\tШтирлиц молча берёт лист бумаги и пишет ответный донос:\n\t"Группенфюреру СС Генриху Мюллеру. Мои соседи знают русский язык и, что особенно подозрительно, разбираются в ненормативной русской лексике!',
 'labels': ['смешно', 'грустно', 'обычно', 'агрессивно', 'философично'],
 'scores': [0.3616945445537567,
  0.304428368806839,
  0.1545340120792389,
  0.10165932774543762,
  0.07768379151821136]}

In [2]:
from transformers import pipeline

# This model is a `zero-shot-classification` model.
# It will classify text, except you are free to choose any label you might imagine
classifier = pipeline(model="cointegrated/rubert-base-cased-nli-threeway")
classifier(
    """Штирлиц, на вас поступил донос от соседей. Пишут, что вы вчера пили, буянили и ругались по-русски!
	Штирлиц молча берёт лист бумаги и пишет ответный донос:
	"Группенфюреру СС Генриху Мюллеру. Мои соседи знают русский язык и, что особенно подозрительно, разбираются в ненормативной русской лексике!""",
    candidate_labels=["смешно", "грустно", "агрессивно", "обычно", "философично"],
)

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


{'sequence': 'Штирлиц, на вас поступил донос от соседей. Пишут, что вы вчера пили, буянили и ругались по-русски!\n\tШтирлиц молча берёт лист бумаги и пишет ответный донос:\n\t"Группенфюреру СС Генриху Мюллеру. Мои соседи знают русский язык и, что особенно подозрительно, разбираются в ненормативной русской лексике!',
 'labels': ['смешно', 'агрессивно', 'грустно', 'философично', 'обычно'],
 'scores': [0.4557251036167145,
  0.2718726098537445,
  0.2234349399805069,
  0.03288855403661728,
  0.016078822314739227]}

In [7]:
import json

def create_ngrams_by_time_and_duration(chunks, max_overlap=0.5, target_duration=10.0):
    ngrams = []
    i = 0

    while i < len(chunks) - 1:
        # Начальные значения для первого чанка
        current_start, current_end = chunks[i]["timestamp"]
        ngram_text = chunks[i]['text']
        ngram_start = current_start
        ngram_end = current_end
        ngram_duration = ngram_end - ngram_start

        # Объединение чанков, если они не превышают заданную длительность
        while i < len(chunks) - 1:
            next_start, next_end = chunks[i + 1]["timestamp"]
            next_duration = next_end - next_start

            # Пересечение по времени
            overlap = max(0, min(current_end, next_end) - max(current_start, next_start))

            # Проверяем условие на пересечение и целевую длительность
            if overlap / min(ngram_duration, next_duration) <= max_overlap and (ngram_duration + next_duration) <= target_duration:
                # Обновляем энграмму
                ngram_text += " " + chunks[i + 1]['text']
                ngram_end = next_end
                ngram_duration = ngram_end - ngram_start
                i += 1  # Продвигаемся к следующему чанку
            else:
                break

        # Добавляем текущую энграмму в список
        ngrams.append({"text": ngram_text, "timestamp": [ngram_start, ngram_end]})
        i += 1  # Переходим к следующему чанку

    # Обрабатываем последний чанк, если он не вошел в энграмму
    if i < len(chunks):
        ngrams.append({"text": chunks[i]['text'], "timestamp": chunks[i]["timestamp"]})

    return ngrams


with open("./result.json", "r") as f:
    chunks = json.load(f)

chunks = chunks["chunks"]
# Применение функции
ngrams = create_ngrams_by_time_and_duration(chunks, target_duration=120.0)

# Вывод результата
for ngram in ngrams:
    print(f"Текст: {ngram['text']}\nВременные метки: {ngram['timestamp']}\n")


Текст:  всем привет это киц кухня шоу где дети становятся на кухне главными с вами я мария перышкина и мой  сын мирон давай 5 и сегодня у нас в гостях многократная чемпионка мира и Европы, дважды призер Олимпийских игр и просто крутая девушка и мама Ирина Слуцкая с дочерью Варварой.  Любишь ли ты готовить?  Да.  А какие твои самые любимые кулинарные шедевры мои самые любимые кулинарные шедевры это тортики которые я делаю практически каждую  субботу и карбонару которую мы делаем вместе с мамой а также мы любим делать беляши и разные  пирожки с кокосом ничего себе ладно как вы думаете что сегодня вы будете готовить но очень хотелось  бы на самом деле из рыбки что-нибудь сделать потому что я люблю рыбку ав авокадо. То есть что-то такое прям легкое. Мирон, а ты как думаешь, что мы сегодня будем делать?  Я? Я думаю, что мы будем мстить.  Мстить?  Конечно.  Да, Варвар?  Ну, готовить всякие невкусные блюда.  Да, и что же вы будете такое готовить и за что мстить?  За то, что надо ходить в сади

In [11]:
from transformers import pipeline

# This model is a `zero-shot-classification` model.
# It will classify text, except you are free to choose any label you might imagine
classifier = pipeline(model="cointegrated/rubert-base-cased-nli-threeway")
classifier(
		ngrams[0]['text'],
		candidate_labels=["юмор", "вдохновение", "шок", "негатив", "удивление"],
	)

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


{'sequence': ' всем привет это киц кухня шоу где дети становятся на кухне главными с вами я мария перышкина и мой  сын мирон давай 5 и сегодня у нас в гостях многократная чемпионка мира и Европы, дважды призер Олимпийских игр и просто крутая девушка и мама Ирина Слуцкая с дочерью Варварой.  Любишь ли ты готовить?  Да.  А какие твои самые любимые кулинарные шедевры мои самые любимые кулинарные шедевры это тортики которые я делаю практически каждую  субботу и карбонару которую мы делаем вместе с мамой а также мы любим делать беляши и разные  пирожки с кокосом ничего себе ладно как вы думаете что сегодня вы будете готовить но очень хотелось  бы на самом деле из рыбки что-нибудь сделать потому что я люблю рыбку ав авокадо. То есть что-то такое прям легкое. Мирон, а ты как думаешь, что мы сегодня будем делать?  Я? Я думаю, что мы будем мстить.  Мстить?  Конечно.  Да, Варвар?  Ну, готовить всякие невкусные блюда.  Да, и что же вы будете такое готовить и за что мстить?  За то, что надо ходить