# Ассистент 1 - LM на основе n-грамм

Перед вами - первое дополнительное задание повышенной сложности, в рамках которого вам предстоит начать разработку телеграм-бота с генеративными моделями.

Цель данного ноутбука - помочь влиться в разработку ассистента. В данном ноутбуке написан код для "обучения" LM на основе n-грамм, для генерации с помощью нее текста, а также сохранение и загрузка модели и токенизатора.

Относитесь к данному заданию максимально творчески - любую часть кода можно менять под ваши нужды и желания, можно оптимизировать, добавлять методы генерации, использовать любые данные, обучать сколь угодно "большую" модель. 

При этом вам стоит быть готовыми со всеми техническими проблеми справляться самому - именно так обычно происходит в реальной жизни в реальных проектах :) 

Поэтому отдельно подчеркну:
* если что-то сломалось после ваших изменений - подразумевается, что вы сами найдете проблему и исправите
* если вы ничего не трогали, но что-то не работает у нас - подразумевается, что вы сами найдете проблему и исправите :) 

Главный критерий выполнености данного задания - телеграм-бот, генерирующий текст и использующий обозначенный в задании подход (в случае данного ноутбука - n-граммная модель в любой ее реализации).

_

Для обучения качественной модели вам потребуются датасеты. В ноутбуке составлен маленький игрушечный датасет, вам для улучшения качества потребуется данные в большем количестве и более качественные, а также другие параметры модели и генерации (например, размер контекста побольше). 

С нормальным датасетом и правильными параметрами даже такой простой моделью можно добиться адекватного качества генерации текста (возможно не очень человечный, но вполне связный текст).

Датасеты можно найти и выбрать тут (желательно на русском, вам так будет понятней качество и в целом полезней):
https://huggingface.co/datasets
  
Можете найти наиболее интересный для себя датасет (можете сделать модель как смешной, так и полезной), либо выбрать любой из этих датасетов
* https://huggingface.co/datasets/Den4ikAI/russian_dialogues
* https://huggingface.co/datasets/Georgii/russianPoetry
* https://huggingface.co/datasets/IgorVolochay/russian_jokes

In [1]:
import re
import pickle 
from itertools import chain
from datetime import datetime
from collections import defaultdict

from typing import List, Dict, Optional, Iterable, Tuple

from tqdm.notebook import tqdm
import numpy as np
import pandas as pd
from datasets import load_dataset
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

import torch
from torch import nn
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter

import tokenizers
from tokenizers import Tokenizer
from tokenizers.pre_tokenizers import Whitespace
from tokenizers.models import BPE
from tokenizers.trainers import BpeTrainer
from tokenizers.processors import TemplateProcessing

Токенизатор разбивает текст на слова. Можно попробовать другие способы токенизации

In [2]:
class Tokenizer:
    def __init__(self,
                 token_pattern: str = r'\w+|[\!\?\,\.\-\:]',
                 eos_token: str = '<EOS>',
                 pad_token: str = '<PAD>',
                 unk_token: str = '<UNK>'):
        self.token_pattern = token_pattern
        self.eos_token = eos_token
        self.pad_token = pad_token
        self.unk_token = unk_token
        
        self.special_tokens = [self.eos_token, self.pad_token, self.unk_token]
        self.vocab = None
        self.inverse_vocab = None
    
    def text_preprocess(self, input_text: str) -> str:
        """ Предобрабатываем один текст """
        input_text = str(input_text).lower()
        input_text = re.sub(r'\s+', ' ', input_text) # унифицируем пробелы
        input_text = input_text.strip()
        return input_text
    
    def build_vocab(self, corpus: List[str]) -> None:
        assert len(corpus)
        all_tokens = set()
        for text in tqdm(corpus, desc='train corpus'):
            all_tokens |= set(self._tokenize(text, append_eos_token=False))
        self.vocab = {elem: ind for ind, elem in enumerate(all_tokens)}
        special_tokens = [self.eos_token, self.unk_token, self.pad_token]
        for token in special_tokens:
            self.vocab[token] = len(self.vocab)
        self.inverse_vocab = {ind: elem for elem, ind in self.vocab.items()}
        return self
        
    def _tokenize(self, text: str, append_eos_token: bool = True) -> List[str]:
        text = self.text_preprocess(text)
        tokens = re.findall(self.token_pattern, text)
        if append_eos_token:
            tokens.append(self.eos_token)
        return tokens
    
    def encode(self, text: str, append_eos_token: bool = True) -> List[str]:
        """ Токенизируем текст """
        tokens = self._tokenize(text, append_eos_token)
        ids = [self.vocab.get(token, self.vocab[self.unk_token]) for token in tokens]
        return ids
    
    def decode(self, input_ids: Iterable[int], remove_special_tokens: bool = False) -> str:
        assert len(input_ids)
        assert max(input_ids) < len(self.vocab) and min(input_ids) >= 0
        tokens = []
        for ind in input_ids:
            token = self.inverse_vocab[ind]
            if remove_special_tokens and token in self.special_tokens:
                continue
            tokens.append(token)
        text = ' '.join( tokens )
        return text
    
    def save(self, path: str) -> bool:
        data = {
            'token_pattern': self.token_pattern,
            'eos_token': self.eos_token,
            'pad_token': self.pad_token,
            'unk_token': self.unk_token,
            'special_tokens': self.special_tokens,
            'vocab': self.vocab,
            'inverse_vocab': self.inverse_vocab,
        }
        
        with open(path, 'wb') as fout:
            pickle.dump(data, fout)
            
        return True
        
    def load(self, path: str) -> bool:
        with open(path, 'rb') as fin:
            data = pickle.load(fin)
            
        self.token_pattern = data['token_pattern']
        self.eos_token = data['eos_token']
        self.pad_token = data['pad_token']
        self.unk_token = data['unk_token']
        self.special_tokens = data['special_tokens']
        self.vocab = data['vocab']
        self.inverse_vocab = data['inverse_vocab']

Класс для задания параметров генерации, так удобней писать логику для валидации параметров и разные другие доп методы

In [3]:
class GenerationConfig:
    def __init__(self, **kwargs):
        """
        Тут можно задать любые параметры и их значения по умолчанию
        Значения для стратегии декодирования decoding_strategy: ['max', 'top-p']
        """
        self.temperature = kwargs.pop("temperature", 1.0)
        self.max_tokens = kwargs.pop("max_tokens", 32)
        self.sample_top_p = kwargs.pop("sample_top_p", 0.9)
        self.decoding_strategy = kwargs.pop("decoding_strategy", 'max')
        self.remove_special_tokens = kwargs.pop("remove_special_tokens", False)
        self.validate()
        
    def validate(self):
        """ Здесь можно валидировать параметры """
        if not (1.0 > self.sample_top_p > 0):
            raise ValueError('sample_top_p')
        if self.decoding_strategy not in ['max', 'top-p']:
            raise ValueError('decoding_strategy')

Сама LM на основе n-грамм. Тут используется сглаживание Лапласа (можно поменять на метод backoff при желании), а также есть ряд параметров, сильно влияющий на качество генерации. Один из параметров генерации - стратегия генерации. 

Когда мы получили вероятности для следующего токена, мы по этим вероятностям хотим выбрать этот следующий токен.

Можно просто семплировать из этого распределения - но тогда есть шанс, что будут очень маловероятные токены.

Можно брать самый вероятный токен - но это плохо повлияет на разнообразие и "человечность" языка

Можно воспользовать подходом top-p - семплировать только из тех токенов, которые наиболее вероятны (их вероятности суммируются в заданный p)

Можно проверить, что top-p будет генерировать более интересный текст чем max

Также обратите внимание на параметр температуры. В случае top-p и семплирования, чем больше делаешь температуру, тем меньше отличаются друг от друга вероятности (распределение стремится к равномерному, даже если исходное распределение имело вполне себе выраженные максимумы), и текст становится более случайным (и разнообразным)

In [33]:
class StatLM:
    def __init__(self, 
                 tokenizer: Tokenizer,
                 context_size: int = 2,
                 alpha: float = 0.1
                ):
        
        assert context_size >= 2
        
        self.context_size = context_size
        self.tokenizer = tokenizer
        self.alpha = alpha
        
        self.n_gramms_stat = defaultdict(int)
        self.nx_gramms_stat = defaultdict(int)
        
    def get_token_by_ind(self, ind: int) -> str:
        return self.tokenizer.inverse_vocab.get(ind)
    
    def get_ind_by_token(self, token: str) -> int:
        return self.tokenizer.vocab.get((token, self.tokenizer.vocab[self.unk_token]))
        
    def train(self, train_texts: List[str]):
        for sentence in tqdm(train_texts, desc='train lines'):
            sentence_ind = self.tokenizer.encode(sentence)
            for i in range(len(sentence_ind) - self.context_size):
                
                seq = tuple(sentence_ind[i: i + self.context_size - 1])
                self.n_gramms_stat[seq] += 1
                
                seq_x = tuple(sentence_ind[i: i + self.context_size])
                self.nx_gramms_stat[seq_x] += 1
                
            seq = tuple(sentence_ind[len(sentence_ind) - self.context_size:])
            self.n_gramms_stat[seq] += 1
            
    def sample_token(self, 
                     token_distribution: np.ndarray,
                     generation_config: GenerationConfig) -> int:
        if generation_config.decoding_strategy == 'max':
            return token_distribution.argmax()
        elif generation_config.decoding_strategy == 'top-p':
            token_distribution = sorted(list(zip(token_distribution, np.arange(len(token_distribution)))),
                                        reverse=True)
            
            total_proba = 0.0
            tokens_to_sample = []
            tokens_probas = []
            for token_proba, ind in token_distribution:
                tokens_to_sample.append(ind)
                tokens_probas.append(token_proba)
                total_proba += token_proba
                if total_proba >= generation_config.sample_top_p:
                    break
            # для простоты отнормируем вероятности, чтобы суммировались в единицу
            tokens_probas = np.array(tokens_probas) / generation_config.temperature
            tokens_probas = tokens_probas / tokens_probas.sum()
            return np.random.choice(tokens_to_sample, p=tokens_probas)
        else:
            raise ValueError(f'Unknown decoding strategy: {generation_config.decoding_strategy}')
            
    def save_stat(self, path: str) -> bool:
        stat = {
            'n_gramms_stat': self.n_gramms_stat,
            'nx_gramms_stat': self.nx_gramms_stat,
            'context_size': self.context_size,
            'alpha': self.alpha
        }
        with open(path, 'wb') as fout:
            pickle.dump(stat, fout)
            
        return True
    
    def load_stat(self, path: str) -> bool:
        with open(path, 'rb') as fin:
            stat = pickle.load(fin)
            
        self.n_gramms_stat = stat['n_gramms_stat']
        self.nx_gramms_stat = stat['nx_gramms_stat']
        self.context_size = stat['context_size']
        self.alpha = stat['alpha']
            
        return True
        
    def get_stat(self) -> Dict[str, Dict]:
        
        n_token_stat, nx_token_stat = {}, {}
        for token_inds, count in self.n_gramms_stat.items():
            n_token_stat[self.tokenizer.decode(token_inds)] = count
        
        for token_inds, count in self.nx_gramms_stat.items():
            nx_token_stat[self.tokenizer.decode(token_inds)] = count
        
        return {
            'n gramms stat': self.n_gramms_stat,
            'n+1 gramms stat': self.nx_gramms_stat,
            'n tokens stat': n_token_stat,
            'n+1 tokens stat': nx_token_stat,
        }
    
    def _get_next_token(self, 
                        tokens: List[int],
                        generation_config: GenerationConfig) -> (int, str):
        print(f'Get next token: {self.tokenizer.decode(tokens, generation_config.remove_special_tokens)}')
        denominator = self.n_gramms_stat.get(tuple(tokens), 0) + self.alpha * len(self.tokenizer.vocab)
        print(f'Stat n: {self.n_gramms_stat.get(tuple(tokens), 0)}')
        numerators = []
        for ind in self.tokenizer.inverse_vocab:
            if self.nx_gramms_stat.get(tuple(tokens + [ind]), 0) > 0:
                new_word = self.tokenizer.inverse_vocab[ind]
                print(f'Stat nx: {self.nx_gramms_stat.get(tuple(tokens + [ind]), 0)} - {new_word}')
            numerators.append(self.nx_gramms_stat.get(tuple(tokens + [ind]), 0) + self.alpha)
        
        token_distribution = np.array(numerators) / denominator
        max_proba_ind = self.sample_token(token_distribution, generation_config)
        
        next_token = self.tokenizer.inverse_vocab[max_proba_ind]
        
        return max_proba_ind, next_token
            
    def generate_token(self, 
                       text: str, 
                       generation_config: GenerationConfig
                      ) -> Dict:
        tokens = self.tokenizer.encode(text, append_eos_token=False)
        tokens = tokens[-self.context_size + 1:]
        
        max_proba_ind, next_token = self._get_next_token(tokens, generation_config)
        
        return {
            'next_token': next_token,
            'next_token_num': max_proba_ind,
        }
    
    
    def generate_text(self, text: str, 
                      generation_config: GenerationConfig
                     ) -> Dict:
        
        all_tokens = self.tokenizer.encode(text, append_eos_token=False)
        input_tokens_len = len(all_tokens)
        tokens = all_tokens[-self.context_size + 1:]
        print(f'\n----Input: {self.tokenizer.decode(tokens, generation_config.remove_special_tokens)}---\n')
        
        next_token = None
        while next_token != self.tokenizer.eos_token and len(all_tokens) < generation_config.max_tokens:
            max_proba_ind, next_token = self._get_next_token(tokens, generation_config)
            all_tokens.append(max_proba_ind)
            tokens = all_tokens[-self.context_size + 1:]
            print(f'Generation step result: {self.tokenizer.decode(tokens, generation_config.remove_special_tokens)}\n')
        
        new_text = self.tokenizer.decode(all_tokens[input_tokens_len:], generation_config.remove_special_tokens)
        
        finish_reason = 'max tokens'
        if all_tokens[-1] == self.tokenizer.vocab[self.tokenizer.eos_token]:
            finish_reason = 'end of text'
        
        return {
            'all_tokens': all_tokens,
            'total_text': new_text,
            'finish_reason': finish_reason
        }
    
    def generate(self, text: str, generation_config: Dict) -> str:
        return self.generate_text(text, generation_config)['total_text']

Эта функция напрямую используется в телеграм боте для получения модели и конфига генерации

In [14]:
def construct_model():
    config = {
        'temperature': 1.0,
        'max_tokens': 32,
        'sample_top_p': 0.9,
        'decoding_strategy': 'top-p',
    }

    stat_lm_path = 'models/stat_lm/stat_lm.pkl'
    tokenizer_path = 'models/stat_lm/tokenizer.pkl'
    
    tokenizer = Tokenizer()
    tokenizer.load(tokenizer_path)
        
    stat_lm = StatLM(tokenizer)
    stat_lm.load_stat(stat_lm_path)

    generation_config = GenerationConfig(temperature=config['temperature'],
                                         max_tokens=config['max_tokens'],
                                         sample_top_p=config['sample_top_p'],
                                         decoding_strategy=config['decoding_strategy'],
                                         remove_special_tokens=True)

    kwargs = {'generation_config': generation_config}
    return stat_lm, kwargs

### Обучаем на игрушечных данных

Для демонстрации того, что происходит, возьмем несколько коротких цитат Джейсона Стэтхема отсюда:

https://dzen.ru/a/ZRFaGN_gKhX6xTWW

In [6]:
def get_dataset(ds_name: str = 'Den4ikAI/russian_dialogues', ds_size=None, split='train'): 
    dataset = load_dataset(ds_name, split=split)
    return pd.DataFrame(dataset)

In [7]:
train_texts = get_dataset()
train_texts

Unnamed: 0,question,answer,relevance
0,как дела?,там хорошо,0
1,"вы кефир пачему не кушаете, не любите?",я ряженку лучше люблю.,1
2,если в расходную накладную забить дури и выкур...,особенно когда придет комиссия проверять докум...,1
3,покажись в шапке,ды щаз приветик,0
4,давай не будем об этом,давай поговорим о чем-нибудь другом,1
...,...,...,...
2477316,а ваша гармонь отчего поет?,"нет, просто наслаждаюсь пением.",0
2477317,а кто или что мешает вам быть истинно счастливым?,да. это просто. надо радоваться каждому мгнове...,0
2477318,как сделать визу в нигерию без справки с работы?,"безработных туда не пускают, значит никак",1
2477319,есть универсальный способ проверки состояния м...,да выжать и отпустить сцепление на заведеной н...,1


In [9]:
relevant_texts = train_texts[train_texts['relevance'] == 1]
relevant_texts

Unnamed: 0,question,answer,relevance
1,"вы кефир пачему не кушаете, не любите?",я ряженку лучше люблю.,1
2,если в расходную накладную забить дури и выкур...,особенно когда придет комиссия проверять докум...,1
4,давай не будем об этом,давай поговорим о чем-нибудь другом,1
5,препарат для лечения сильно понижает давление....,чтоб не сильно? или что? препарат принимай и к...,1
6,"мужчина, если ты занюхиваешь волосами соседки,...",предпочитаю соседкиными пирогами закусывать. -,1
...,...,...,...
2477310,вы много позиций можете применить в сексе за о...,"ха успеваем еще как, че топатся на одном месте",1
2477311,может ли взрослый человек разочаровываться? вз...,взрослый-самодостаточный. нет,1
2477315,"еще б ты коня не видел, хм",ахах нихуясе камень в мой огород,1
2477318,как сделать визу в нигерию без справки с работы?,"безработных туда не пускают, значит никак",1


In [11]:
qustino_answer_texts = (relevant_texts['question'] + ' ' + relevant_texts['answer'])[:650000].tolist()
len(qustino_answer_texts), qustino_answer_texts[:5]

(650000,
 ['вы кефир пачему не кушаете, не любите? я ряженку лучше люблю.',
  'если в расходную накладную забить дури и выкурить, то получится приходный документ? особенно когда придет комиссия проверять документацию',
  'давай не будем об этом давай поговорим о чем-нибудь другом',
  'препарат для лечения сильно понижает давление. что порекомендуете? чтоб не сильно? или что? препарат принимай и кофе пей',
  'мужчина, если ты занюхиваешь волосами соседки, то какой аромат предпочитаешь? предпочитаю соседкиными пирогами закусывать. -'])

In [12]:
tokenizer = Tokenizer().build_vocab(qustino_answer_texts)

train corpus:   0%|          | 0/650000 [00:00<?, ?it/s]

In [15]:
len(tokenizer.vocab), dict(list(tokenizer.vocab.items())[2200:2210])

(385351,
 {'напргяет': 2200,
  'трухлявыми': 2201,
  'чпокаться': 2202,
  'мономаха': 2203,
  'встретившие': 2204,
  'каратисты': 2205,
  'прилог': 2206,
  'меркантильно': 2207,
  'продизенфицирует': 2208,
  'отлежусь': 2209})

In [39]:
# класс, который позволяем строить и использовать языковую модель на основе n-грамм
stat_lm = StatLM(tokenizer, context_size=4, alpha=0.01)

# "обучаем" модель - считаем статистики
stat_lm.train(qustino_answer_texts)

train lines:   0%|          | 0/650000 [00:00<?, ?it/s]

In [40]:
for i, (tokens, stat) in enumerate(stat_lm.n_gramms_stat.items()):
    print(f' Seq_{i}: {tokenizer.decode(tokens, True)}  stat: {stat}')
    if i > 20: break

 Seq_0: вы кефир пачему  stat: 1
 Seq_1: кефир пачему не  stat: 1
 Seq_2: пачему не кушаете  stat: 1
 Seq_3: не кушаете ,  stat: 1
 Seq_4: кушаете , не  stat: 1
 Seq_5: , не любите  stat: 7
 Seq_6: не любите ?  stat: 88
 Seq_7: любите ? я  stat: 86
 Seq_8: ? я ряженку  stat: 1
 Seq_9: я ряженку лучше  stat: 1
 Seq_10: ряженку лучше люблю  stat: 1
 Seq_11: лучше люблю .  stat: 1
 Seq_12: если в расходную  stat: 1
 Seq_13: в расходную накладную  stat: 1
 Seq_14: расходную накладную забить  stat: 1
 Seq_15: накладную забить дури  stat: 1
 Seq_16: забить дури и  stat: 1
 Seq_17: дури и выкурить  stat: 1
 Seq_18: и выкурить ,  stat: 1
 Seq_19: выкурить , то  stat: 1
 Seq_20: , то получится  stat: 31
 Seq_21: то получится приходный  stat: 1


In [41]:
generation_config = GenerationConfig(temperature = 1.0, max_tokens = 16,
                                     sample_top_p = 0.01, decoding_strategy = 'top-p',
                                     remove_special_tokens=True)

In [44]:
test_text = "Расскажи историю"
print(f"{test_text} - {stat_lm.generate(test_text, generation_config)}")


----Input: расскажи историю---

Get next token: расскажи историю
Stat n: 0
Generation step result: расскажи историю превет

Get next token: расскажи историю превет
Stat n: 0
Generation step result: историю превет неньютоновской

Get next token: историю превет неньютоновской
Stat n: 0
Generation step result: превет неньютоновской граммовесли

Get next token: превет неньютоновской граммовесли
Stat n: 0
Generation step result: неньютоновской граммовесли пиздюк

Get next token: неньютоновской граммовесли пиздюк
Stat n: 0
Generation step result: граммовесли пиздюк пассажирке

Get next token: граммовесли пиздюк пассажирке
Stat n: 0
Generation step result: пиздюк пассажирке организавываем

Get next token: пиздюк пассажирке организавываем
Stat n: 0
Generation step result: пассажирке организавываем радиоприемники

Get next token: пассажирке организавываем радиоприемники
Stat n: 0
Generation step result: организавываем радиоприемники мейн

Get next token: организавываем радиоприемники мейн
Stat

In [45]:
tokenizer.save('models/stat_lm/tokenizer.pkl')
stat_lm.save_stat('models/stat_lm/stat_lm.pkl')

True

Тут мы для токенизатора сохраняем только спецтокены и словарь, для модели - параметры и статистики n-грамм и n+1-грамм. Потом в телеграм боте подгружаем именно эти параметры

Когда обучите модель на большом датасете, советую посмотреть на распределение вероятностей для следующего слова при разных входах

### смотрим как конструировать

In [115]:
model, kwargs = construct_model()

model.generate("Как дела?", **kwargs)

'как дела ? попутчик запинаем помогите уркаган явиться наезд хартенбраунгевратенштайзенгорбейстраут слоем нажратое накрылись построен бобро пересвет растрезвонит подробными подъезд увеличенными морозильнике внушительным приведены жаргон выведенный засахарилось яшике прозондирую херсонаь бологом пвх рязанский'