# Практическое задание 4
# Генерация bash команды по текстовому запросу
## курс "Математические методы анализа текстов"
### ФИО: Смирнов Александр Львович

### Постановка задачи

В этом задании вы построите систему, выдающую пользователю последовательность утилит командной строки linux (с нужными флагами) по его текстовому запросу. Вам дан набор пар текстовый запрос - команда на выходе. 

Решение этого задания будет построено на encoder-decoder архитектуре и модели transformer.


### Библиотеки

Для этого задания вам понадобятся следующие библиотеки:
* pytorch
* transformers
* sentencepiece (bpe токенизация)
* clai utils (скачать с гитхаба отсюда https://github.com/IBM/clai/tree/nlc2cmd/utils) 


### Данные

В качестве обучающей выборке используются данные, сгенерированные автоматически по запросам с сайта stack overflow. В качестве тестовых данных используются пары запросов, размеченные асессорами.

Данные можно скачать по ссылке: https://drive.google.com/file/d/1n457AAgrMwd5VbT6mGZ_rws3g2wwdEfX/view?usp=sharing

### Метрика качества

Ваш алгоритм должен выдавать пять вариантов ответа для каждого запроса. 
Для упрощения задачи метрика качества будет учитывать утилиты и флаги ответа, но не учитывать подставленные значения. Пусть $\{ u_1, \ldots, u_T \}$, $\{ f_1, \ldots, f_T \}$ --- список утилит и множества их флагов ответа алгоритма, $\{v_1, \ldots, v_T \}$, $\{ \phi_1, \ldots, \phi_T \}$ --- список утилит и множества их флагов эталонного ответа. Если ответы отличаются по длине, они дополняются `None` утилитой. 

$$ S = \frac{1}{T} \sum_{i=1}^{T} \left(\mathbb{I}[u_i = v_i]\left( 1 + \frac{1}{2}s(f_i, \phi_i)\right) - 1\right)$$

$$ s(f, \phi) = 1 + \frac{2 |f \cap \phi| - |f \cup \phi|}{\max(|f|, |\phi|)} $$

Метрика учитывает, что предсказать правильную утилиту важнее чем правильный флаг. При этом порядок флагов не важен (однако, чтобы корректно 

## Предобработка данных (2 балла)

In [1]:
import sys
PATH_TO_CLAI_UTILS = "./utils/"
sys.path.append(PATH_TO_CLAI_UTILS)

In [2]:
import numpy as np
import pandas as pd

from bashlint.data_tools import bash_parser, pretty_print, cmd2template
from metric.metric_utils import compute_metric
from functools import partial

from collections import Counter
import sentencepiece as spm

import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader

Setting bashlex grammar using file: /home/furiousteabag/Projects/NLP/04_generation/./utils/bashlint/grammar/grammar100.txt
Bashlint grammar set up (148 utilities)



Считаем данные. В столбце `invocation` находится текстовый запрос, в столбце `cmd` находится релевантная команда.

In [3]:
train_data = pd.read_csv('data/train.csv')
train_data.head()

Unnamed: 0,invocation,cmd
0,"copy loadable kernel module ""mymodule.ko"" to t...",sudo cp mymodule.ko /lib/modules/$(uname -r)/k...
1,"display all lines containing ""ip_mroute"" in th...",cat /boot/config-`uname -r` | grep IP_MROUTE
2,display current running kernel's compile-time ...,cat /boot/config-`uname -r`
3,"find all loadable modules for current kernel, ...",find /lib/modules/`uname -r` -regex .*perf.*
4,"look for any instance of ""highmem"" in the curr...",grep “HIGHMEM” /boot/config-`uname -r`


В тестовых данных столбец `origin` отвечает за источник данных, значения `handrafted` соответствуют парам, составленными людьми, а `mined` парам, собранным автоматически.

In [4]:
test_data = pd.read_csv('data/test_data.csv')
test_data.head()

Unnamed: 0,invocation,cmd,origin
0,create ssh connection to specified ip from spe...,ssh user123@176.0.13.154,handcrafted
1,"search for commands containing string ""zeppeli...",history | grep zeppelin,handcrafted
2,search for location of specified file or appli...,whereis python3,handcrafted
3,grant all rights to root folder,sudo chmod 777 -R /,handcrafted
4,search in running processes for specified name,ps -aux | grep zepp,handcrafted


**Задание**. Проведите предобработку текста. Рекомендуется:
* перевести всё в нижний регистр
* удалить стоп-слова (специфичные для выборки)
* провести стемминг токенов
* удалить все символы кроме латинских букв

In [5]:
import regex

from nltk.tokenize import WordPunctTokenizer
from nltk.stem import PorterStemmer

from sklearn.feature_extraction.text import TfidfVectorizer

In [6]:
stemmer = PorterStemmer()
tokenizer = WordPunctTokenizer()

In [7]:
# looking up for specific stop words
tfidf = TfidfVectorizer(max_df=0.3, min_df=1)
tfidf.fit(train_data["invocation"].apply(lambda x: " ".join([stemmer.stem(t) for t in x.split()])))
specific_stop_words = tfidf.stop_words_
print(specific_stop_words)

{'all', 'current', 'directori', 'the', 'and', 'file', 'in'}


In [8]:
def clean_token(token):
    token = token.lower()
    token = regex.sub(r'[^\p{Latin}]', '', token)
    token = stemmer.stem(token)
    return token if token not in specific_stop_words else ""

In [9]:
def clean_text(text):
    return " ".join([clean_token(token) for token in tokenizer.tokenize(text) if clean_token(token) != ""])

In [10]:
train_data['text_cleaned'] = train_data['invocation'].apply(clean_text)
test_data['text_cleaned'] = test_data['invocation'].apply(clean_text)

Для обработки кода воспользуемся функцией `cmd2template`:

In [14]:
train_data['cmd_cleaned'] = train_data['cmd'].apply(partial(cmd2template, loose_constraints=True))
test_data['cmd_cleaned'] = test_data['cmd'].apply(partial(cmd2template, loose_constraints=True))

In [15]:
train_data.head()

Unnamed: 0,invocation,cmd,text_cleaned,cmd_cleaned
0,"copy loadable kernel module ""mymodule.ko"" to t...",sudo cp mymodule.ko /lib/modules/$(uname -r)/k...,copi loadabl kernel modul mymodul ko to driver...,cp File $( uname -r )
1,"display all lines containing ""ip_mroute"" in th...",cat /boot/config-`uname -r` | grep IP_MROUTE,display line contain ipmrout kernel s compil t...,cat $( uname -r ) | grep Regex
2,display current running kernel's compile-time ...,cat /boot/config-`uname -r`,display run kernel s compil time config,cat $( uname -r )
3,"find all loadable modules for current kernel, ...",find /lib/modules/`uname -r` -regex .*perf.*,find loadabl modul for kernel whose name inclu...,find Path $( uname -r ) -regex Regex
4,"look for any instance of ""highmem"" in the curr...",grep “HIGHMEM” /boot/config-`uname -r`,look for ani instanc of highmem kernel s compi...,grep Regex $( uname -r )


Разделим данные на обучение и валидацию. Т.к. данных очень мало, то для валидационной выборки выделим только 100 примеров.

In [16]:
valid_data = train_data.iloc[-100:]
train_data = train_data.iloc[:-100]

**Задание**. Стандартный формат входных данных для трансформеров — BPE токены. Воспользуйтесь библиотекой sentencepiece для обучения токенайзеров для текста и кода. Используйте небольшое число токенов.

In [61]:
import sentencepiece as spm
import io

In [62]:
PAD_ID = 0
BOS_ID = 1
EOS_ID = 2
UNK_ID = 3


MAX_TEXT_LENGTH = 256
MAX_CODE_LENGTH = 40

BATCH_SIZE = 64

In [65]:
#! mkdir -p ./tokenizers

text_tokenizer = io.BytesIO()
spm.SentencePieceTrainer.Train(
    sentence_iterator=iter(train_data["text_cleaned"]),
    model_writer=text_tokenizer,
    #model_prefix='./tokenizers/sp_text',
    vocab_size=2400,
    pad_id=PAD_ID,                
    bos_id=BOS_ID,
    eos_id=EOS_ID,
    unk_id=UNK_ID
)
text_tokenizer = spm.SentencePieceProcessor(model_proto=text_tokenizer.getvalue())

cmd_tokenizer = io.BytesIO()
spm.SentencePieceTrainer.Train(
    sentence_iterator=iter(train_data["cmd_cleaned"]),
    model_writer=cmd_tokenizer,
    #model_prefix='./tokenizers/sp_cmd',
    vocab_size=500,
    pad_id=PAD_ID,                
    bos_id=BOS_ID,
    eos_id=EOS_ID,
    unk_id=UNK_ID
)
cmd_tokenizer = spm.SentencePieceProcessor(model_proto=cmd_tokenizer.getvalue())

In [66]:
text = train_data["text_cleaned"][0]
print("Initial text:")
print(text)
print("\n")

tokenized = text_tokenizer.tokenize(text, add_bos=True, add_eos=True)
print("Indexes:")
print(tokenized)
print("\n")
print("Decoded version:")
print(text_tokenizer.decode(tokenized))
print("\n")
print("Pieces:")
print(*text_tokenizer.IdToPiece(tokenized))

Initial text:
copi loadabl kernel modul mymodul ko to driver modul matchig kernel


Indexes:
[1, 96, 11, 1442, 158, 567, 447, 20, 509, 473, 200, 618, 473, 343, 79, 7, 820, 42, 509, 473, 61, 11, 135, 567, 447, 20, 2]


Decoded version:
copi loadabl kernel modul mymodul ko to driver modul matchig kernel


Pieces:
<s> ▁cop i ▁load abl ▁ker ne l ▁mod ul ▁my mod ul ▁k o ▁to ▁drive r ▁mod ul ▁match i g ▁ker ne l </s>


In [67]:
cmd = train_data["cmd_cleaned"][0]
print("Initial cmd:")
print(cmd)
print("\n")

tokenized = cmd_tokenizer.tokenize(cmd, add_bos=True, add_eos=True)
print("Indexes:")
print(tokenized)
print("\n")
print("Decoded version:")
print(cmd_tokenizer.decode(tokenized))
print("\n")
print("Pieces:")
print(*cmd_tokenizer.IdToPiece(tokenized))

Initial cmd:
cp File $( uname -r )


Indexes:
[1, 101, 4, 15, 4, 66, 41, 4, 18, 13, 5, 53, 4, 42, 2]


Decoded version:
cp File $( uname -r )


Pieces:
<s> ▁cp ▁ File ▁ $ ( ▁ u name ▁- r ▁ ) </s>


**Задание**. Задайте датасеты и лоадеры для ваших данных. Каждая последовательность должна начинаться с BOS токена и заканчиваться EOS токеном. Рекомендуется ограничить длину входных и выходных последовательностей!

In [69]:
class TextToBashDataset(Dataset):
    
    def __init__(self, texts, cmds, text_tokenizer, cmd_tokenizer,
                 max_text_length=MAX_TEXT_LENGTH, max_code_length=MAX_CODE_LENGTH):
        
        self.text_tokenizer = text_tokenizer
        self.cmd_tokenizer = cmd_tokenizer
        self.max_text_length = max_text_length
        self.max_code_length = max_code_length
        
        self.items = []
        
        for text, cmd in zip(texts, cmds):
            text_tokenized = text_tokenizer(text)
            cmd_tokenized = cmd_tokenizer(cmd)
            if #ОНИ ДЛИНЕЕ ТО ИХ НАДО ПОРЕЗАТЬ
            self.items.append((text_tokenized, cmd_tokenized))
            
    def __len__(self):
        return len(self.items)

    def __getitem__(self, idx):
        return self.items[idx]

IndentationError: expected an indented block (<ipython-input-69-53ebe646f292>, line 2)

In [None]:
train_ds = TextToBashDataset(
    texts=train_data["text_cleaned"],
    cmds=train_data["cmd_cleaned"],
    text_tokenizer=text_tokenizer,
    cmd_tokenizer=cmd_tokenizer)

valid_ds = TextToBashDataset(
    texts=valid_data["text_cleaned"],
    cmds=valid_data["cmd_cleaned"],
    text_tokenizer=text_tokenizer,
    cmd_tokenizer=cmd_tokenizer)

In [None]:
loaders = {
    'train': DataLoader(train_ds, batch_size=BATCH_SIZE, shuffle=True),
    'valid': DataLoader(valid_ds, batch_size=BATCH_SIZE),
}

## Обучение бейзлайна (2 балла)

In [None]:
from transformers import BertConfig, BertModel, EncoderDecoderConfig, EncoderDecoderModel

**Задание.** Реализуйте модель encoder-decoder ниже. В качестве моделей энкодера и декодера рекомендуется использовать BertModel из библиотеки transformers, заданную через BertConfig. В случае декодера необходимо выставить параметры is_decoder=True и add_cross_attention=True. В качестве модели, <<сцепляющей>> энкодер и декодер, в одну архитектуру рекомендуется использовать EncoderDecoderModel.

**Обратите внимание!** EncoderDecoderModel поддерживает использование кэшированных результатов при последовательной генерации. Это пригодится при реализации beam-search ниже.

Для того, чтобы удобнее задавать модели, рекомендуется реализовать задание модели через конфиг. Ниже представлены базовые параметры, при которых модель должна работать быстро и с приемлемым качеством.

In [None]:
text_model_config = {
    'vocab': text_tokenizer.vocab_size(),
    'hidden_size': 256,
    'num_layers': 2,
    'num_attention_heads': 8,
    'intermediate_size': 256 * 4,
    'hidden_dropout_prob': 0.1,
    'pad_id': PAD_ID,
}

cmd_model_config = {
    'vocab': cmd_tokenizer.vocab_size(),
    'hidden_size': 256,
    'num_layers': 2,
    'num_attention_heads': 8,
    'intermediate_size': 256 * 4,
    'hidden_dropout_prob': 0.1,
    'pad_id': PAD_ID,
}

In [None]:
class TextToBashModel(nn.Module):
    def __init__(self, text_model_config, cmd_model_config):
        super(TextToBashModel, self).__init__()
        ## YOUR CODE HERE ##
        
    def forward(self, x):
        ## YOUR CODE HERE ##        

**Задание**. Обучите вашу модель ниже.

Рекомендуется:
* в качестве лосса использовать стандартную кросс-энтропию, не забывайте игнорировать PAD токены
* использовать Adam для оптимизации
* не использовать scheduler для бейзлайна (модель легко переобучается с ним)
* использовать early stopping по валидационному лоссу

In [None]:
## YOUR CODE HERE ##

## Генерация команд (2 балла)

**Задание**. Реализуйте алгоритм beam-search в классе BeamSearchGenerator ниже. Ваша реализация должна поддерживать задание температуры софтмакса. Выходы модели, полученные на предыдущих итерациях, необходимо кэшировать для повышения скорости алгоритма. Вместо подсчёта произведения любых вероятностей необходимо считать сумму их логарифмов.

Алгоритм должен возвращать список пар из получившихся выходных последовательностей и логарифмов их вероятностей. 

In [None]:
class BeamSearchGenerator:
    def __init__(
            self, pad_id, eos_id, bos_id,
            max_length=20, beam_width=5, temperature=1,
            device='cuda',
    ):
        """
        Parameters
        ----------
        pad_id : int
        eos_id : int
        bos_id : int
        max_length : int
            Maximum length of output sequence
        beam_width : int
            Width of the beam
        temperature : float
            Softmax temperature
        device : torch.device
            Your model device
        """
        self.pad_id = pad_id
        self.eos_id = eos_id
        self.bos_id = bos_id
        
        self.max_length = max_length
        self.beam_width = beam_width
        self.temperature = temperature
        
        self.device = device
        
    def get_result(self, model, input_text_tokens):
        """
        Parameters
        ----------
        model : TextToBashModel
        input_text_tokens : torch.tensor
            One object input tensor
        """
        ## YOUR CODE HERE ##

Протестируйте на нескольких примерах работу вашего алгоритма. Если всё реализовано правильно, то как минимум на трёх примерах из 5 всё должно работать правильно.

In [None]:
beam_search_enginge = BeamSearchGenerator(
    pad_id=PAD_ID, eos_id=EOS_ID, bos_id=BOS_ID,
    max_length=MAX_CODE_LENGTH, beam_width=5,
    temperature=1, device='cuda',
)

In [None]:
with torch.no_grad():
    for i in range(5):
        print()
        print('text:', valid_data.invocation.iloc[i])
        print('true:', valid_data.cmd.iloc[i])
        print('true cleaned:', valid_data.cmd_cleaned.iloc[i])

        src = valid_ds.src[i]
        pred = beam_search_enginge.get_result(model, src)
        
        scores = []
        for x, proba in pred:
            pred_cmd = cmd_tokenizer.decode(list(map(int, x)))
            score = compute_metric(pred_cmd, 1, valid_data.cmd.iloc[i])
            scores.append(score)
            print(pred_cmd, proba)
        print(max(scores))

**Задание**. Дополните функцию для подсчёта качества. Посчитайте качество вашей модели на валидационном и тестовых датасетов.

In [None]:
def compute_all_scores(model, df, beam_engine):
    all_scores = []

    for i, (text, target_cmd) in enumerate(zip(df.text_cleaned.values, df.cmd.values)):
        input_tokens = ## YOUR CODE HERE ##
        predictions = beam_search_enginge.get_result(model, input_tokens)
        
        # get only 5 top results
        predictions = predictions[:5]
        object_scores = []
        for output_tokens, proba in predictions:
            output_cmd = cmd_tokenizer.decode(list(map(int, output_tokens)))
            score = compute_metric(output_cmd, 1, target_cmd)
            object_scores.append(score)
        
        all_scores.append(max(object_scores))
    return all_scores

Если вы всё реализовали правильно, подобрали параметры BeamSearch то ваш средний скор на валидации должен быть >= 0.25, а скор на `handcrafted` части теста >= 0.13. На `mined` части датасета скор может быть низкий, т.к. некоторых команд из датасета нет в обучении.

In [None]:
## YOUR CODE HERE ##

## Улучшение модели (4 балла)

Вы реализовали бейзлайн, пришло время улучшить качество модели. Т.к. это последнее задание, мы не будем предлагать конкретные шаги, а только дадим несколько советов.

1. Большой источник информации о работе командной строке — её документация, man. Один из способов улучшения модели - использование мана для генерации новых примеров. Структурированный ман можно найти по ссылке https://github.com/IBM/clai/blob/nlc2cmd/docs/manpage-data.md.
2. Ещё один способ улучшить модель, разделить предсказание утилит и флагов. Т.к. задача предсказания утилит более важная, вы можете натренировать модель, которая предсказывает последовательность утилит, а затем к каждой утилите генерировать флаги.
3. Можно аугментировать данные, чтобы увеличить выборку.
4. Можно в качество входа подавать не только текстовый запрос, но и описание из мана. Т.к. всё описание достаточно большое, нужно сделать дополнительную модель, которая будет выбирать команды, для которых нужно вытащить описание.
5. Найти дополнительные данные, улучшающие обучение
6. Как всегда можно просто сделать больше слоёв, увеличить размер скрытого слоя и т.д.

От вас ожидается скор на `mined` >= 0 при скоре на `handrafted` >= 0.16.

In [None]:
## YOUR CODE HERE ##

## Бонусные баллы (до 3 баллов)

При существенном улучшении качества будут назначаться бонусные баллы. На тестовых датасетах реально выбить качество >= 0.3 на каждом, но усилий потребуется немало...