# GPN Cup 2024. Тематическое моделирование
# Трапер Максим

## Задача
В архиве вы найдете файл, который предварительно оцифровал и обработал Лютик

1. Предложите решение по выделению подмножества тематик и их описания из общего корпуса цитат.
    
2. Предположим, Йеннифер и Трисс поставят эту активность как регулярную, проводя интервью раз в месяц по разным доменам предприятия. Предложите варианты, как Лютику сделать для них легковесную систему по обработке новых цитат из опросов с учетом уже накопленной истории извлеченных тематик и тегов.



# 0. Теоретическое введение

# 1. Ход решения

## 1.1 Предварительная подготовка

In [1]:
! git clone https://github.com/MaksimTraper/TopicModel_GPN_Cup_2024.git

fatal: destination path 'TopicModel_GPN_Cup_2024' already exists and is not an empty directory.


### 1.1 Установка библиотек

In [2]:
# RAG
!pip install langchain-community langchain-core

# Исправление опечаток
!pip install pyspellchecker
! git clone https://github.com/ai-forever/sage.git
%cd sage
! pip install .
! pip install -e .[errant]

# LLM
!pip install llama-cpp-python

fatal: destination path 'sage' already exists and is not an empty directory.
/content/sage
Processing /content/sage
  Preparing metadata (setup.py) ... [?25l[?25hdone
Processing ./wheels/augmentex-1.0.3-py3-none-any.whl (from sage==1.1.0)
augmentex is already installed with the same version as the provided wheel. Use --force-reinstall to force an installation of the wheel.
Building wheels for collected packages: sage
  Building wheel for sage (setup.py) ... [?25l[?25hdone
  Created wheel for sage: filename=sage-1.1.0-py3-none-any.whl size=47141 sha256=71164dd92e21325daba6c133139b8c93ab42b2e2ece1b7fb76be59e38102a1e6
  Stored in directory: /tmp/pip-ephem-wheel-cache-9aq3jtky/wheels/f6/fb/b3/1a788356f44a49d04bc8fdc67921c8b7f36cef909ee0b9615e
Successfully built sage
Installing collected packages: sage
  Attempting uninstall: sage
    Found existing installation: sage 1.1.0
    Uninstalling sage-1.1.0:
      Successfully uninstalled sage-1.1.0
Successfully installed sage-1.1.0
Obtaining

In [32]:
import json
import re
from collections import Counter

from nltk.corpus import stopwords
import nltk
from nltk.util import ngrams
from nltk.metrics import edit_distance
from spellchecker import SpellChecker

from langchain import HuggingFaceHub, LLMChain, PromptTemplate

from transformers import T5Tokenizer, T5ForConditionalGeneration, AutoTokenizer, AutoModelForSeq2SeqLM,LogitsProcessor
from llama_cpp import Llama

import os
import torch
from sage.spelling_correction import T5ModelForSpellingCorruption, RuM2M100ModelForSpellingCorrection, AvailableCorrectors

import pandas as pd

from IPython.display import display, HTML

import difflib

nltk.download('stopwords')
# Загрузка стоп-слов для русского языка
stop_words = set(stopwords.words('russian'))

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [4]:
stop_words = set(stopwords.words('russian'))

In [5]:
stop_words.remove('не')

In [33]:
scrolling_css = '''
<style>
    .scrollable-dataframe {
        overflow: auto;
        height: 500px; /* Установите желаемую высоту */
        width: auto;
    }
</style>
'''

### 1.2 Загрузка исходных файлов

In [6]:
%cd ..

/content


In [9]:
file_path_quotes = '/content/TopicModel_GPN_Cup_2024/data/cintra_phoenix_oils_hr_mgck_feather.json'

with open(file_path_quotes, 'r', encoding='utf-8') as f:
  data = json.load(f)

quotes = []
for quote in data:
  quotes.append(quote['quote'])

In [10]:
file_path_abbrev = '/content/TopicModel_GPN_Cup_2024/data/abbreviations.txt'
abbrev_text = open(file_path_abbrev).read().split('\n')

abbreviations = {}
for abb in abbrev_text[:len(abbrev_text)-1]:
  abbrev = abb.split(' - ')
  abbreviations[abbrev[0].lower()] = abbrev[1].lower()

In [11]:
tokenizer = AutoTokenizer.from_pretrained("ai-forever/RuM2M100-418M")
corrector = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/RuM2M100-418M")

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
corrector.model.to(device)

tokenizer_config.json:   0%|          | 0.00/1.74k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/465k [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/489k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/1.56k [00:00<?, ?B/s]



config.json:   0%|          | 0.00/963 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.47G [00:00<?, ?B/s]

M2M100Model(
  (shared): M2M100ScaledWordEmbedding(14341, 1024, padding_idx=1)
  (encoder): M2M100Encoder(
    (embed_tokens): M2M100ScaledWordEmbedding(14341, 1024, padding_idx=1)
    (embed_positions): M2M100SinusoidalPositionalEmbedding()
    (layers): ModuleList(
      (0-11): 12 x M2M100EncoderLayer(
        (self_attn): M2M100Attention(
          (k_proj): Linear(in_features=1024, out_features=1024, bias=True)
          (v_proj): Linear(in_features=1024, out_features=1024, bias=True)
          (q_proj): Linear(in_features=1024, out_features=1024, bias=True)
          (out_proj): Linear(in_features=1024, out_features=1024, bias=True)
        )
        (self_attn_layer_norm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (activation_fn): ReLU()
        (fc1): Linear(in_features=1024, out_features=4096, bias=True)
        (fc2): Linear(in_features=4096, out_features=1024, bias=True)
        (final_layer_norm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
 

In [39]:
protected_words = ['плантире', 'музiка']
protected_ids = [tokenizer.convert_tokens_to_ids(word) for word in protected_words]

In [40]:
# Собственный LogitsProcessor для защиты токенов
class ForceTokensLogitsProcessor(LogitsProcessor):
    def __init__(self, protected_token_ids, penalty=-1000.0):
        super().__init__()
        self.protected_token_ids = protected_token_ids
        self.penalty = penalty  # сильный штраф для защищённых слов

    def __call__(self, input_ids, scores):
        # Применяем штраф к защищённым токенам
        for token_id in self.protected_token_ids:
            scores[:, token_id] += self.penalty
        return scores

def generate_fixed_from_samples(model, tokenizer, samples, device='cpu'):
    model.eval()
    model = model.to(device)

    tokens = tokenizer(samples, padding=True, return_tensors='pt')
    output = model.generate(tokens['input_ids'].to(device),
                            do_sample=True, top_k=50, top_p=0.95,
                            num_return_sequences=1,
                            logits_processor=[ForceTokensLogitsProcessor(protected_ids, -1000)])
    results = tokenizer.batch_decode(output.cpu(), skip_special_tokens=True)

    return dict(zip(samples, results))

In [52]:
import gc
import torch
gc.collect()
torch.cuda.empty_cache()

In [53]:
tokenizer = tokenizer
model = corrector

samples = quotes[0:100]
results = dict()

fixed_samples = generate_fixed_from_samples(model, tokenizer, samples, device=device)
results = fixed_samples

OutOfMemoryError: CUDA out of memory. Tried to allocate 124.00 MiB. GPU 0 has a total capacity of 14.75 GiB of which 85.06 MiB is free. Process 34497 has 14.66 GiB memory in use. Of the allocated memory 14.50 GiB is allocated by PyTorch, and 36.48 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)

In [30]:
def remove_punctuation(text):
    return re.sub(r'[^\w\s]', '', text)
data = []

def text_to_lower(text):
  return text.lower()

def preprocess_text(text):
  text = text_to_lower(text)
  text = remove_punctuation(text)
  return text

# Обработка каждой пары оригинального и исправленного предложений
for original_sentence, corrected_sentence in results.items():
    print(f"Оригинальное предложение: '{original_sentence}'")
    print(f"Исправленное предложение: '{corrected_sentence}'")
    print('-'*50)

    # Сохраняем исходные предложения для контекста
    original_text = original_sentence
    changed_text = corrected_sentence

    # Удаляем знаки препинания
    original_clean = preprocess_text(original_sentence)
    result_clean = preprocess_text(corrected_sentence)

    # Токенизируем очищенные предложения
    original_tokens = original_clean.split()
    result_tokens = result_clean.split()

    # Используем SequenceMatcher для выравнивания токенов
    matcher = difflib.SequenceMatcher(None, original_tokens, result_tokens)

    for tag, i1, i2, j1, j2 in matcher.get_opcodes():
        if tag == 'replace':
            # Обрабатываем случаи, когда количество токенов различается
            max_len = max(i2 - i1, j2 - j1)
            for idx in range(max_len):
                o_idx = i1 + idx if i1 + idx < i2 else i2 - 1
                r_idx = j1 + idx if j1 + idx < j2 else j2 - 1
                o_word = original_tokens[o_idx]
                r_word = result_tokens[r_idx]
                if o_word != r_word:
                    data.append({
                        'original_text': original_text,
                        'changed_text': changed_text,
                        'original_word': o_word,
                        'changed_word': r_word
                    })
        elif tag == 'delete':
            for o_word in original_tokens[i1:i2]:
                data.append({
                    'original_text': original_text,
                    'changed_text': changed_text,
                    'original_word': o_word,
                    'changed_word': ''
                })
        elif tag == 'insert':
            for r_word in result_tokens[j1:j2]:
                data.append({
                    'original_text': original_text,
                    'changed_text': changed_text,
                    'original_word': '',
                    'changed_word': r_word
                })

# Создаем DataFrame из накопленных данных
df_changed_words = pd.DataFrame(data, columns=['original_text', 'changed_text', 'original_word', 'changed_word'])

Оригинальное предложение: '«У ннас среди ночi в райооне 55 часов упала полxа с водой в сттеклянной  таре, тоесть, посреди этой лужа, сстеккла, всёё, это уже поод утро, кстати, ээто не перрвыи раз,,, они сами по себе падают, как-то неправилььно рассчитывают, мы же должны выставлять по определённой картинке, у нас при мне было уже пару раз, чтоо сами по себе грохаются эти полки с буттылками» 


'
Исправленное предложение: '"У нас среди ночи в районе 55 часов упала полка с водой в стеклянной таре, то есть посреди этой лужи стекла, всё, это уже под утро. Кстати, это не первый раз... Они сами по себе падают, как-то неправильно рассчитывают, мы же должны выставлять по определённой картинке, у нас при мне было уже пару раз, что сами по себе грохаются эти полки с бутылками".'
--------------------------------------------------
Оригинальное предложение: 'Программы повышения квалификации через гильдию ЦМФ, хитрые, хитрые.  У всех, кто хочет повышаться, есть свои предпочтения и направления, а гиль

In [38]:
df_changed_words['original_word'].value_counts().head(15)

Unnamed: 0_level_0,count
original_word,Unnamed: 1_level_1
ска3ть,7
с,3
наавести,3
всь0,2
говворрю,2
нормaльно,2
тоесть,2
походу,2
змс,2
ужe,1


In [34]:
# Применяем CSS-стиль
display(HTML(scrolling_css))

# Отображаем DataFrame с указанным классом
display(HTML(df_changed_words.to_html(classes='scrollable-dataframe')))

Unnamed: 0,original_text,changed_text,original_word,changed_word
0,"«У ннас среди ночi в райооне 55 часов упала полxа с водой в сттеклянной таре, тоесть, посреди этой лужа, сстеккла, всёё, это уже поод утро, кстати, ээто не перрвыи раз,,, они сами по себе падают, как-то неправилььно рассчитывают, мы же должны выставлять по определённой картинке, у нас при мне было уже пару раз, чтоо сами по себе грохаются эти полки с буттылками» \n\n\n","""У нас среди ночи в районе 55 часов упала полка с водой в стеклянной таре, то есть посреди этой лужи стекла, всё, это уже под утро. Кстати, это не первый раз... Они сами по себе падают, как-то неправильно рассчитывают, мы же должны выставлять по определённой картинке, у нас при мне было уже пару раз, что сами по себе грохаются эти полки с бутылками"".",ннас,нас
1,"«У ннас среди ночi в райооне 55 часов упала полxа с водой в сттеклянной таре, тоесть, посреди этой лужа, сстеккла, всёё, это уже поод утро, кстати, ээто не перрвыи раз,,, они сами по себе падают, как-то неправилььно рассчитывают, мы же должны выставлять по определённой картинке, у нас при мне было уже пару раз, чтоо сами по себе грохаются эти полки с буттылками» \n\n\n","""У нас среди ночи в районе 55 часов упала полка с водой в стеклянной таре, то есть посреди этой лужи стекла, всё, это уже под утро. Кстати, это не первый раз... Они сами по себе падают, как-то неправильно рассчитывают, мы же должны выставлять по определённой картинке, у нас при мне было уже пару раз, что сами по себе грохаются эти полки с бутылками"".",ночi,ночи
2,"«У ннас среди ночi в райооне 55 часов упала полxа с водой в сттеклянной таре, тоесть, посреди этой лужа, сстеккла, всёё, это уже поод утро, кстати, ээто не перрвыи раз,,, они сами по себе падают, как-то неправилььно рассчитывают, мы же должны выставлять по определённой картинке, у нас при мне было уже пару раз, чтоо сами по себе грохаются эти полки с буттылками» \n\n\n","""У нас среди ночи в районе 55 часов упала полка с водой в стеклянной таре, то есть посреди этой лужи стекла, всё, это уже под утро. Кстати, это не первый раз... Они сами по себе падают, как-то неправильно рассчитывают, мы же должны выставлять по определённой картинке, у нас при мне было уже пару раз, что сами по себе грохаются эти полки с бутылками"".",райооне,районе
3,"«У ннас среди ночi в райооне 55 часов упала полxа с водой в сттеклянной таре, тоесть, посреди этой лужа, сстеккла, всёё, это уже поод утро, кстати, ээто не перрвыи раз,,, они сами по себе падают, как-то неправилььно рассчитывают, мы же должны выставлять по определённой картинке, у нас при мне было уже пару раз, чтоо сами по себе грохаются эти полки с буттылками» \n\n\n","""У нас среди ночи в районе 55 часов упала полка с водой в стеклянной таре, то есть посреди этой лужи стекла, всё, это уже под утро. Кстати, это не первый раз... Они сами по себе падают, как-то неправильно рассчитывают, мы же должны выставлять по определённой картинке, у нас при мне было уже пару раз, что сами по себе грохаются эти полки с бутылками"".",полxа,полка
4,"«У ннас среди ночi в райооне 55 часов упала полxа с водой в сттеклянной таре, тоесть, посреди этой лужа, сстеккла, всёё, это уже поод утро, кстати, ээто не перрвыи раз,,, они сами по себе падают, как-то неправилььно рассчитывают, мы же должны выставлять по определённой картинке, у нас при мне было уже пару раз, чтоо сами по себе грохаются эти полки с буттылками» \n\n\n","""У нас среди ночи в районе 55 часов упала полка с водой в стеклянной таре, то есть посреди этой лужи стекла, всё, это уже под утро. Кстати, это не первый раз... Они сами по себе падают, как-то неправильно рассчитывают, мы же должны выставлять по определённой картинке, у нас при мне было уже пару раз, что сами по себе грохаются эти полки с бутылками"".",сттеклянной,стеклянной
5,"«У ннас среди ночi в райооне 55 часов упала полxа с водой в сттеклянной таре, тоесть, посреди этой лужа, сстеккла, всёё, это уже поод утро, кстати, ээто не перрвыи раз,,, они сами по себе падают, как-то неправилььно рассчитывают, мы же должны выставлять по определённой картинке, у нас при мне было уже пару раз, чтоо сами по себе грохаются эти полки с буттылками» \n\n\n","""У нас среди ночи в районе 55 часов упала полка с водой в стеклянной таре, то есть посреди этой лужи стекла, всё, это уже под утро. Кстати, это не первый раз... Они сами по себе падают, как-то неправильно рассчитывают, мы же должны выставлять по определённой картинке, у нас при мне было уже пару раз, что сами по себе грохаются эти полки с бутылками"".",тоесть,то
6,"«У ннас среди ночi в райооне 55 часов упала полxа с водой в сттеклянной таре, тоесть, посреди этой лужа, сстеккла, всёё, это уже поод утро, кстати, ээто не перрвыи раз,,, они сами по себе падают, как-то неправилььно рассчитывают, мы же должны выставлять по определённой картинке, у нас при мне было уже пару раз, чтоо сами по себе грохаются эти полки с буттылками» \n\n\n","""У нас среди ночи в районе 55 часов упала полка с водой в стеклянной таре, то есть посреди этой лужи стекла, всё, это уже под утро. Кстати, это не первый раз... Они сами по себе падают, как-то неправильно рассчитывают, мы же должны выставлять по определённой картинке, у нас при мне было уже пару раз, что сами по себе грохаются эти полки с бутылками"".",тоесть,есть
7,"«У ннас среди ночi в райооне 55 часов упала полxа с водой в сттеклянной таре, тоесть, посреди этой лужа, сстеккла, всёё, это уже поод утро, кстати, ээто не перрвыи раз,,, они сами по себе падают, как-то неправилььно рассчитывают, мы же должны выставлять по определённой картинке, у нас при мне было уже пару раз, чтоо сами по себе грохаются эти полки с буттылками» \n\n\n","""У нас среди ночи в районе 55 часов упала полка с водой в стеклянной таре, то есть посреди этой лужи стекла, всё, это уже под утро. Кстати, это не первый раз... Они сами по себе падают, как-то неправильно рассчитывают, мы же должны выставлять по определённой картинке, у нас при мне было уже пару раз, что сами по себе грохаются эти полки с бутылками"".",лужа,лужи
8,"«У ннас среди ночi в райооне 55 часов упала полxа с водой в сттеклянной таре, тоесть, посреди этой лужа, сстеккла, всёё, это уже поод утро, кстати, ээто не перрвыи раз,,, они сами по себе падают, как-то неправилььно рассчитывают, мы же должны выставлять по определённой картинке, у нас при мне было уже пару раз, чтоо сами по себе грохаются эти полки с буттылками» \n\n\n","""У нас среди ночи в районе 55 часов упала полка с водой в стеклянной таре, то есть посреди этой лужи стекла, всё, это уже под утро. Кстати, это не первый раз... Они сами по себе падают, как-то неправильно рассчитывают, мы же должны выставлять по определённой картинке, у нас при мне было уже пару раз, что сами по себе грохаются эти полки с бутылками"".",сстеккла,стекла
9,"«У ннас среди ночi в райооне 55 часов упала полxа с водой в сттеклянной таре, тоесть, посреди этой лужа, сстеккла, всёё, это уже поод утро, кстати, ээто не перрвыи раз,,, они сами по себе падают, как-то неправилььно рассчитывают, мы же должны выставлять по определённой картинке, у нас при мне было уже пару раз, чтоо сами по себе грохаются эти полки с буттылками» \n\n\n","""У нас среди ночи в районе 55 часов упала полка с водой в стеклянной таре, то есть посреди этой лужи стекла, всё, это уже под утро. Кстати, это не первый раз... Они сами по себе падают, как-то неправильно рассчитывают, мы же должны выставлять по определённой картинке, у нас при мне было уже пару раз, что сами по себе грохаются эти полки с бутылками"".",всёё,всё


In [None]:
corrector = T5ModelForSpellingCorruption.from_pretrained(AvailableCorrectors.sage_fredt5_distilled_95m.value)

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
corrector.model.to(device)

results = dict()
samples = quotes[0:20]
model = corrector.model
tokenizer = corrector.tokenizer

fixed_samples = generate_fixed_from_samples(model, tokenizer, samples, device=device)
results = fixed_samples

for original, result in zip(list(results.keys()), list(results.values())):
    print(f"'{original}'")
    print(f"{result}'")
    print('-'*50)

'«У ннас среди ночi в райооне 55 часов упала полxа с водой в сттеклянной  таре, тоесть, посреди этой лужа, сстеккла, всёё, это уже поод утро, кстати, ээто не перрвыи раз,,, они сами по себе падают, как-то неправилььно рассчитывают, мы же должны выставлять по определённой картинке, у нас при мне было уже пару раз, чтоо сами по себе грохаются эти полки с буттылками» 


'
"У нас среди ночи в районе 55 часов упала полxа с водой в стеклянной таре, то есть посреди этой лужа стеккла. Всё, это уже под утро (кстати, это не первый раз). Они сами по себе падают, как-то неправильно рассчитывают, мы же должны выставлять по определённой картинке. У нас при мне было уже пару раз, что-то сами по себе грохаются эти полки с бутылками".'
--------------------------------------------------
'Программы повышения квалификации через гильдию ЦМФ, хитрые, хитрые.  У всех, кто хочет повышаться, есть свои предпочтения и направления, а гильдия... гильдия толкает свое, не всегда то, что нужно сотрудникам.  В "Белых 

### 1.3 Предобработка текстов

In [None]:
def find_common_bigrams(text_list):
    bigram_counts = Counter()
    for text in text_list:
        tokens = text.split()
        bigrams = ngrams(tokens, 1)
        bigram_counts.update(bigrams)
    return bigram_counts.most_common()

bigram_counts = find_common_bigrams(quotes)
print(bigram_counts)

In [None]:
# Инициализация для русского языка
spell = SpellChecker(language='ru')

def preprocess_text(text):
    # Приведение к нижнему регистру
    text = text.lower()

    # Удаление повторяющихся символов (например, "оооо" -> "о")
    text = re.sub(r'(.)\1{1,}', r'\1', text)

    # Удаление знаков препинания (если не нужны)
    text = text.translate(str.maketrans('', '', string.punctuation))

    # Удаление стоп-слов
    words = text.split()
    words = [abbreviations[word] if word in abbreviations.keys() else word for word in words]
    text = ' '.join([word for word in words if word not in stop_words])

    #words = text.split()
    #corrected_words = [spell.correction(word) if spell.correction(word) is not None else word for word in words]
    #return ' '.join(corrected_words)

    return text

preprocessed_quotes = [preprocess_text(quote) for quote in quotes]

In [None]:
print(quotes[1])
print(preprocessed_quotes[1])

Программы повышения квалификации через гильдию ЦМФ, хитрые, хитрые.  У всех, кто хочет повышаться, есть свои предпочтения и направления, а гильдия... гильдия толкает свое, не всегда то, что нужно сотрудникам.  В "Белых Змеях", например,  программы гибче,  и сотрудники сами выбирают, что им нужно. 

програмы повышения квалификаци гильдию цмф хитрые хитрые хочет повышаться свои предпочтения направления гильдия гильдия толкает свое не нужно сотрудникам белых змеях например програмы гибче сотрудники сами выбирают нужно


In [None]:
# Шаг 1: Собираем уникальные слова из всех текстов
unique_words = set(word for quote in preprocessed_quotes[:1] for word in quote.split())

# Шаг 2: Формируем словарь предполагаемых исправлений
correction_dict = {}
for word in unique_words:
    if word not in spell:  # Если слово считается ошибочным
        correction_dict[word] = spell.correction(word)

# Шаг 3: Печатаем словарь для ручной проверки и корректировки
print("Словарь предложенных исправлений:")
for original, correction in correction_dict.items():
    print(f"{original}: {correction}")

"""
# Ручная корректировка (пример)
correction_dict["класный"] = "классный"
correction_dict["Привеетт"] = "Привет"

# Шаг 4: Применение исправлений к тексту
def correct_text_with_dict(text, correction_dict):
    words = text.split()
    corrected_words = [correction_dict.get(word, word) for word in words]
    return ' '.join(corrected_words)

# Пример использования
text = "Привеетт всем, это класный день"
corrected_text = correct_text_with_dict(text, correction_dict)
print("Исправленный текст:", corrected_text)
"""

Словарь предложенных исправлений:
грохаются: None
полxа: пола
таре: тара
«у: у
стекляной: None
както: като
лужа: луна
5: 5
ночi: ночь
бутылками»: None
картинке: картинка
выставлять: заставлять
первыи: первый
расчитывают: рассчитываю
определёной: определённо


'\n# Ручная корректировка (пример)\ncorrection_dict["класный"] = "классный"\ncorrection_dict["Привеетт"] = "Привет"\n\n# Шаг 4: Применение исправлений к тексту\ndef correct_text_with_dict(text, correction_dict):\n    words = text.split()\n    corrected_words = [correction_dict.get(word, word) for word in words]\n    return \' \'.join(corrected_words)\n\n# Пример использования\ntext = "Привеетт всем, это класный день"\ncorrected_text = correct_text_with_dict(text, correction_dict)\nprint("Исправленный текст:", corrected_text)\n'

In [None]:
edit_distance('цмф', 'мы')

2

In [None]:
word='Привеетт'

correction = spell.correction(word)

if spell.known([correction]) and edit_distance(word, correction) < 2:
    print(correction)
else:
    print(word)

привет


In [None]:
# Инициализация для русского языка
spell = SpellChecker(language='ru')

def preprocess_text(text):
    # Приведение к нижнему регистру
    text = text.lower()

    # Удаление повторяющихся символов (например, "оооо" -> "о")
    text = re.sub(r'(.)\1{1,}', r'\1', text)

    # Удаление знаков препинания (если не нужны)
    text = text.translate(str.maketrans('', '', string.punctuation))

    # Удаление стоп-слов
    words = text.split()
    text = ' '.join([word for word in words if word not in stop_words])

    words = text.split()
    corrected_words = [spell.correction(word) if word not in spell else word for word in words]
    return ' '.join(corrected_words)

    return text

# Пример текста
text = "Привеетт!! Как дела???😊😊😊 Как твоя раб0тта в ЦМФ?"

# Предобработка текста
preprocessed_text = preprocess_text(text)
print("Предобработанный текст:", preprocessed_text)


Предобработанный текст: привет делай твоя работа мы


## 2.1 Основная часть

## 2.1.1 Генерация тегов

In [None]:
llm = Llama.from_pretrained(
	repo_id="RefalMachine/ruadapt_qwen2.5_3B_ext_u48_instruct_v4_gguf",
	filename="FP16.gguf",
  use_gpu=True,
  device_map="auto",
  n_ctx=2048
)

In [None]:
import ctypes

# Получение указателя на функцию mlock
libc = ctypes.CDLL("libc.so.6")  # Для Linux; на macOS используйте "libSystem.dylib"
mlock = libc.mlock

# Блокировка памяти для предотвращения выгрузки
def lock_memory(address, length):
    result = mlock(address, length)
    if result != 0:
        raise RuntimeError("Ошибка при вызове mlock для блокировки памяти")

# Получение размера памяти модели (например, 1 ГБ)
model_memory_size = 1 * 1024 * 1024 * 1024 * 12  # 1 ГБ
address = ctypes.c_void_p(id(llm))  # Получаем адрес объекта модели

lock_memory(address, model_memory_size)


In [None]:
unique_tags = []
for text in quotes[0:10]:
  print(text)
  prompt = (
      f"Далее будет дан текст. Для него нужно сгенерировать от 5 до 10 \
      тегов (длиной от одного до трёх слов), точно описывающих то, что \
      происходит в тексте и о чём или о ком говориться в нём. Если в тексте есть имена собственные или аббревиатуры, обязательно добавляй их в теги.\
      Пример, дан текст: Мурр... Новиград - город контрастов, да. Но в ЦМФ, как и в других ЗМС, люди превратились в котов, все заняты только собой. Никто не хочет протянуть лапку товарищу, помочь с грузом. Все в напряжении, в спешке. Мурр, раньше было лучше, когда работали втроем, а не порознь.\
      Теги: Новиград, ЦМФ, ЗМС, эгоизм, раньше было лучше, Работа"
      f"Текст: {text}; \n Теги:"
  )

  tags = generate_tags(prompt, llm)
  unique_tags.extend(tags)
  print("Generated tags:", tags)

# Удаление дубликатов
unique_tags = list(set(unique_tags))

«У ннас среди ночi в райооне 55 часов упала полxа с водой в сттеклянной  таре, тоесть, посреди этой лужа, сстеккла, всёё, это уже поод утро, кстати, ээто не перрвыи раз,,, они сами по себе падают, как-то неправилььно рассчитывают, мы же должны выставлять по определённой картинке, у нас при мне было уже пару раз, чтоо сами по себе грохаются эти полки с буттылками» 





Llama.generate: 3 prefix-match hit, remaining 311 prompt tokens to eval
llama_perf_context_print:        load time =   41866.94 ms
llama_perf_context_print: prompt eval time =       0.00 ms /   311 tokens (    0.00 ms per token,      inf tokens per second)
llama_perf_context_print:        eval time =       0.00 ms /    25 runs   (    0.00 ms per token,      inf tokens per second)
llama_perf_context_print:       total time =   57022.62 ms /   336 tokens
Llama.generate: 186 prefix-match hit, remaining 88 prompt tokens to eval


Generated tags: ['Уличные инциденты', 'полxа с водой', 'водно-опасные предметы', 'расчётные ошибки', 'безопасность в районе']
Программы повышения квалификации через гильдию ЦМФ, хитрые, хитрые.  У всех, кто хочет повышаться, есть свои предпочтения и направления, а гильдия... гильдия толкает свое, не всегда то, что нужно сотрудникам.  В "Белых Змеях", например,  программы гибче,  и сотрудники сами выбирают, что им нужно. 



llama_perf_context_print:        load time =   41866.94 ms
llama_perf_context_print: prompt eval time =       0.00 ms /    88 tokens (    0.00 ms per token,      inf tokens per second)
llama_perf_context_print:        eval time =       0.00 ms /    15 runs   (    0.00 ms per token,      inf tokens per second)
llama_perf_context_print:       total time =   20571.85 ms /   103 tokens
Llama.generate: 186 prefix-match hit, remaining 93 prompt tokens to eval


Generated tags: ['ЦМФ', 'гильдия', 'повышения квалификации', 'предпочтения', 'гибкие программы']
"Мурр... Новиград - город контрастов, да. Но в ЦМФ, как и в других ЗМС, люди превратились в котов, все заняты только собой. Никто не хочет протянуть лапку товарищу, помочь с грузом. Все в напряжении, в спешке. Мурр, раньше было лучше, когда работали втроем, а не порознь. " 



llama_perf_context_print:        load time =   41866.94 ms
llama_perf_context_print: prompt eval time =       0.00 ms /    93 tokens (    0.00 ms per token,      inf tokens per second)
llama_perf_context_print:        eval time =       0.00 ms /    25 runs   (    0.00 ms per token,      inf tokens per second)
llama_perf_context_print:       total time =   27847.97 ms /   118 tokens
Llama.generate: 186 prefix-match hit, remaining 63 prompt tokens to eval


Generated tags: ['Мурр', 'Новиград', 'ЦМФ', 'ЗМС', 'эгоизм', 'раньше было лучше', 'РаботаТекст']
Типа, вот уже полгода, как мы ждем установки этих фильтров на маслобазе.  Думаю, если бы "Бесконечные Огненные Огни" не затягивали с поставками, то уже давно бы все было в порядке. 



llama_perf_context_print:        load time =   41866.94 ms
llama_perf_context_print: prompt eval time =       0.00 ms /    63 tokens (    0.00 ms per token,      inf tokens per second)
llama_perf_context_print:        eval time =       0.00 ms /    25 runs   (    0.00 ms per token,      inf tokens per second)
llama_perf_context_print:       total time =   24523.02 ms /    88 tokens
Llama.generate: 186 prefix-match hit, remaining 74 prompt tokens to eval


Generated tags: ['установка', 'Фильтры', 'маслобаза', 'ожидания', '"Бесконечные Огненные Огни"', 'поставка']
"Теперь всьё так просто! Раньше бумажки летали, терялись, искать приходилось по всему Зеленосу. А теперь всё в одном месте, на плантирe.  Вся инфoрмaция под руkой, ничо не пропалaют.  Работать стало гораздо удобнее!" 



llama_perf_context_print:        load time =   41866.94 ms
llama_perf_context_print: prompt eval time =       0.00 ms /    74 tokens (    0.00 ms per token,      inf tokens per second)
llama_perf_context_print:        eval time =       0.00 ms /    12 runs   (    0.00 ms per token,      inf tokens per second)
llama_perf_context_print:       total time =   18987.30 ms /    86 tokens
Llama.generate: 186 prefix-match hit, remaining 86 prompt tokens to eval


Generated tags: ['Зеленос', 'плантир', 'удобство', 'информация', 'потеря']
«— Расказыыывалии  лии  ввам, м0жет быть, рууководител или кто-то из коллег,  сс точкии зрення ЦМФ,,,, как можно развиваатся  далльшее, какие еессть пррограммыы для  сотруднниик0в?  — Нет, нее было» 



llama_perf_context_print:        load time =   41866.94 ms
llama_perf_context_print: prompt eval time =       0.00 ms /    86 tokens (    0.00 ms per token,      inf tokens per second)
llama_perf_context_print:        eval time =       0.00 ms /    17 runs   (    0.00 ms per token,      inf tokens per second)
llama_perf_context_print:       total time =   21474.09 ms /   103 tokens
Llama.generate: 186 prefix-match hit, remaining 90 prompt tokens to eval


Generated tags: ['ЦМФ', 'Развитие', 'Программы', 'Сотрудники', 'Зренья', 'Руководство']
Типа, раньше все масла ЦМФ были одинаковые, а теперь вот, разный спрос. В Новиграде, типа, богатые на "Огненный дракон" гоняются, а простые люди на "Лесной дух" - типа, подешевле.  Вот и приходится нам, лаборантам, все время новые рецепты выдумывать, чтоб всем угодить. 



llama_perf_context_print:        load time =   41866.94 ms
llama_perf_context_print: prompt eval time =       0.00 ms /    90 tokens (    0.00 ms per token,      inf tokens per second)
llama_perf_context_print:        eval time =       0.00 ms /    14 runs   (    0.00 ms per token,      inf tokens per second)
llama_perf_context_print:       total time =   20421.73 ms /   104 tokens
Llama.generate: 186 prefix-match hit, remaining 81 prompt tokens to eval


Generated tags: ['ЦМФ', 'масла', 'богатые', 'подешевле', 'рецепты']
-С  Старшим технологом на маслoперерабатывающую станцию попасть - это как в "Зачарованные Огненные Драконы" попасть -с, говриот, там условия просто шикарные, а зарплата -с... Ну, в обшем, мечта любой лабораторной крысы -с.  



llama_perf_context_print:        load time =   41866.94 ms
llama_perf_context_print: prompt eval time =       0.00 ms /    81 tokens (    0.00 ms per token,      inf tokens per second)
llama_perf_context_print:        eval time =       0.00 ms /    10 runs   (    0.00 ms per token,      inf tokens per second)
llama_perf_context_print:       total time =   16545.01 ms /    91 tokens
Llama.generate: 186 prefix-match hit, remaining 68 prompt tokens to eval


Generated tags: ['технолог', 'станция', 'зарплаты', 'мечты', 'Крыса']
Вот, знаете, раньше приходилось порой подолгу ждать, пока заправишся. А сейчас, с этoй предоплатой, всё так гладко!  Заезжаешь, оплачиваешь, и вперёд!  Никаких очередей, никаких задержек. Просто супер! 



llama_perf_context_print:        load time =   41866.94 ms
llama_perf_context_print: prompt eval time =       0.00 ms /    68 tokens (    0.00 ms per token,      inf tokens per second)
llama_perf_context_print:        eval time =       0.00 ms /    19 runs   (    0.00 ms per token,      inf tokens per second)
llama_perf_context_print:       total time =   19524.02 ms /    87 tokens
Llama.generate: 186 prefix-match hit, remaining 105 prompt tokens to eval


Generated tags: ['Теги: ожидание', 'заправка', 'предоплата', 'очередь', 'задержка', 'комфорт']
Ну, вот, в Карбоне, например, всё норaльно. Вода чистая, прямо из крана. А вот в глубинке, где ЗМС открываються в новыx меcтах, бывает, приходится жdacь доставки.  Иногда, прав4а, бывает, что... э-э... что вода не такая чиcтая, как хоч4лось бы. Но, в обшему, всё терпимо. 



llama_perf_context_print:        load time =   41866.94 ms
llama_perf_context_print: prompt eval time =       0.00 ms /   105 tokens (    0.00 ms per token,      inf tokens per second)
llama_perf_context_print:        eval time =       0.00 ms /    19 runs   (    0.00 ms per token,      inf tokens per second)
llama_perf_context_print:       total time =   25538.38 ms /   124 tokens


Generated tags: ['Карбоновая вода', 'ЗМС', 'добыча', 'неочевидные трудности', 'терпимость']


In [None]:
for text in quotes[12:15]:
  print(text)
  prompt = (
          f"Есть ряд тегов, перечисленных через запятую: {', '.join(unique_tags)}"
          "Далее будет дан текст. Выбери 5-7 из данного списка тегов только те, которые точно характеризуют данный текст. Смотри на ключевые слова или их синонимы. Но таких тегов может и не быть\
          Теги: Новиград, ЦМФ, ЗМС, эгоизм, раньше было лучше, Работа"
          f"Текст: {text}\n Теги:"
      )

  tags = generate_tags(prompt, llm)
  print("Generated tags:", tags)

«У нас каждая смена, как маленькая семья. Естественно, все взрослые люди, все с разным темпераментом и характером, но чтобы они какие-то были критические, которые нужно было решать, вплоть до перехода из этой смены в другую, потому что не нашли общего языка, нет, у меня таких вопросов не было»


Llama.generate: 236 prefix-match hit, remaining 98 prompt tokens to eval
llama_perf_context_print:        load time =   41866.94 ms
llama_perf_context_print: prompt eval time =       0.00 ms /    98 tokens (    0.00 ms per token,      inf tokens per second)
llama_perf_context_print:        eval time =       0.00 ms /    31 runs   (    0.00 ms per token,      inf tokens per second)
llama_perf_context_print:       total time =   31999.95 ms /   129 tokens
Llama.generate: 261 prefix-match hit, remaining 68 prompt tokens to eval


Generated tags: ['ЗМС', 'эгоизм', 'раньше было лучше', 'РаботаТекст', 'Зренья', 'ЦМФ', 'Развитие', 'Крыса', 'Мурр.']
Хотчу скать, шо работа в ЦМФ - ето просто супеRRR! Зарплата, конечно, выше чем в "Скиррисе", а скидки на масле в наших маслостанциях просто бомба!  💣 123  



llama_perf_context_print:        load time =   41866.94 ms
llama_perf_context_print: prompt eval time =       0.00 ms /    68 tokens (    0.00 ms per token,      inf tokens per second)
llama_perf_context_print:        eval time =       0.00 ms /    33 runs   (    0.00 ms per token,      inf tokens per second)
llama_perf_context_print:       total time =   28880.37 ms /   101 tokens
Llama.generate: 261 prefix-match hit, remaining 125 prompt tokens to eval


Generated tags: ['Теги: ЦМФ', 'Зарплата', 'Скидки', 'Маслостанция', 'РаботаТекст', 'Эгоизм', 'Раньше было лучше']
В ЦМФ, так ска3ть, зарплата вроде и не малaя, но вот возможности для роста, так ска3ть, ограничены. Я, так ска3ть, ужe полгода как технолог, но всё эшe на том же уровне, так ска3ть, как и пришел. В "Коимбрах Масел", так ска3ть, говорЯт, что продвижение по карьерной лестнице там, так ска3ть, более динамичное. Вот и думaю, так ска3ть, стоит ли менять работу. 





llama_perf_context_print:        load time =   41866.94 ms
llama_perf_context_print: prompt eval time =       0.00 ms /   125 tokens (    0.00 ms per token,      inf tokens per second)
llama_perf_context_print:        eval time =       0.00 ms /    18 runs   (    0.00 ms per token,      inf tokens per second)
llama_perf_context_print:       total time =   27384.63 ms /   143 tokens


Generated tags: ['ЦМФ', 'ЗМС', 'эгоизм', 'раньше было лучше', 'повышение квалификации', 'развитие', 'сотрудники']
