### Task 1
Реализуйте простую версию byte pair encoding. Алгоритм должен работать так:
строки с текстом разбиваются на отдельные символы и далее в цикле из N итераций: а) считаются статистики встречаемости по парам символов и б) топ-K частотных пар склеиваются в один символ

Попробуйте так токенизировать текст с разными параметрами N и K. Проанализируйте словарь уникальных слов для нескольких наборов параметров - сколько уникальных слов получилось, какой токен самый длинный?

(5 баллов)


In [1]:
from collections import defaultdict, Counter
from string import punctuation

class BPEtokenizer():
    """
        a class to tokenize a dataset using BPE
    """
    def __init__(self, path):
        self.path = path # a path to a csv file
        self.text = ""
        
    def load_text(self):
        """ loads the content of the txt file """
        with open(self.path, 'r', encoding="utf-8") as f: # open in readonly mode
            self.text = f.read()
            
    def split_to_chars(self, text) -> list:
        """ split texts into single chars"""
        return(list(text.lower()))
    
    
    def merge_chars(self, chars, N=1, K=10) -> list:
        """ 
            use ngrams
                to identify K-top neigbouring elements
                then merge them
                repeat the cycle N
                Maximum ngram length is 2^N 
        """
        tmp = chars
        for _ in range(N):
            tmp = self.get_common_neighbours(tmp, K)
            
        return tmp
    
    def get_common_neighbours(self, chars, K=10) -> list:
        """
            iterate over a list of char and choose Top K neibours
        """
        pairs = [frst+scnd for frst, scnd in zip(chars[:-1], chars[1:])]
        
        filtered = self.filter_neighbours(Counter(pairs), K)
        
        output = [chars[0]]
        
        for char in chars[1:]:
            pair = output[-1] + char
            
            if pair in filtered:
                output[-1] = pair
            else:
                output.append(char)
                
        return output
            
    def filter_neighbours(self, counter, K=10) -> list:
        """ 
            filter collections.Counter to top K groups
            with > 2 occurances 
        """
        return [word for word, count in counter.most_common(K) if count > 2]


In [2]:
from collections import defaultdict

class Statistics():
        """
        a class to get basic statistics from a tokenized text
        """
        def __init__(self, tokens):
            self.tokens = tokens 

        def counter(self):
            """ calculates uniqueloads the content of the txt file """
            return Counter(self.tokens)
        
        def count_unique(self) -> int:
            """ count unique tokens """
            return len(set(self.tokens))
        
        def get_longest(self, length):
            """ get and return the length of vocavulary entries longer than a given value """
            mapping = defaultdict(int)
            
            for word in set(self.tokens):
                mapping[word] += len(word)
                
            return {k: v for k,v in mapping.items() if v>length}

In [3]:
news = BPEtokenizer('data/lenta.txt')
news.load_text()
chars = news.split_to_chars(news.text[:1000000])

### attempt 1

In [4]:
tmp = news.merge_chars(chars, 3, 500)
stat = Statistics(tmp)

In [5]:
stat.get_longest(7)

{' государ': 8,
 ' российс': 8,
 ' компани': 8,
 'правител': 8,
 'министра': 8,
 'вительст': 8,
 ', которы': 8,
 ' человек': 8,
 ' по слов': 8,
 'сегодня ': 8,
 'представ': 8,
 'российск': 8,
 ' сообщил': 8,
 ' правите': 8,
 ' "новост': 8,
 'ительств': 8,
 ' россии ': 8,
 ' предста': 8,
 'правлени': 8,
 ' министр': 8,
 'компании': 8,
 ' президе': 8,
 ' как соо': 8,
 ' сегодня': 8,
 '. как со': 8,
 'президен': 8}

In [6]:
stat.count_unique()

1574

### attempt 2

In [7]:
tmp = news.merge_chars(chars, 4, 100)
stat = Statistics(tmp)

In [8]:
stat.get_longest(7)

{'как сообщ': 9}

In [9]:
stat.count_unique()

497

### attempt 3

In [10]:
tmp = news.merge_chars(chars, 2, 300)
stat = Statistics(tmp)

In [11]:
stat.get_longest(3)

{'дент': 4,
 'лова': 4,
 'каза': 4,
 ' рос': 4,
 'ьств': 4,
 'лись': 4,
 '. ка': 4,
 'ских': 4,
 'к со': 4,
 ' пол': 4,
 'стан': 4,
 'теле': 4,
 'ных ': 4,
 'ный ': 4,
 'сего': 4,
 'общи': 4,
 'ства': 4,
 'росс': 4,
 'маци': 4,
 'родн': 4,
 'мент': 4,
 'орма': 4,
 'жени': 4,
 ' соо': 4,
 'редс': 4,
 'заяв': 4,
 'ать ': 4,
 ', чт': 4,
 'авит': 4,
 'рабо': 4,
 'ског': 4,
 'я на': 4,
 ' буд': 4,
 'врем': 4,
 'шени': 4,
 'ерал': 4,
 'ния ': 4,
 'на с': 4,
 'моск': 4,
 'ний ': 4,
 'ся в': 4,
 'нные': 4,
 'ном ': 4,
 'пост': 4,
 ', ко': 4,
 'ител': 4,
 'ции ': 4,
 'том ': 4,
 'прав': 4,
 '. пр': 4,
 'нени': 4,
 'льно': 4,
 'анны': 4,
 'на п': 4,
 'рова': 4,
 '. в ': 4,
 'альн': 4,
 ' его': 4,
 ' сво': 4,
 ' это': 4,
 'что ': 4,
 'иков': 4,
 'или ': 4,
 'того': 4,
 'ости': 4,
 'ких ': 4,
 'венн': 4,
 'цион': 4,
 'орга': 4,
 'и в ': 4,
 ' в п': 4,
 'тран': 4,
 'дет ': 4,
 'и и ': 4,
 'о пр': 4,
 'твен': 4,
 'иров': 4,
 'част': 4,
 'нию ': 4,
 ' бол': 4,
 'иден': 4,
 'вани': 4,
 ' год': 4,
 '. 

In [12]:
stat.count_unique()

696

### Task 1 extra
Чтобы получить 1 бонусный балл - зафиксируйте получившийся словарь и токенизируйте с помощью него текст, который ранее не встречался в корпусе (возьмите рандомную новость из яндекс новостей например). Проанализируйте насколько хорошо токенизировался текст.

In [13]:
from sklearn.feature_extraction.text import CountVectorizer

In [14]:
static_dict = set(tmp)
test_corpus = open('data/nplus1.txt', 'r', encoding='utf-8').readlines()

In [15]:
vectorizer = CountVectorizer(analyzer='char_wb', ngram_range=(1,4), vocabulary=static_dict)
X = vectorizer.fit_transform(test_corpus)

In [18]:
vectorizer.get_feature_names()[10:20]

[' буд', ' был', ' в', ' в п', ' в р', ' в с', ' воз', ' все', ' вы', ' г']

In [17]:
print(X.toarray()[13])

[  0 100   0   0   0   1   1   3   1   0   0   1   1   0   0   0   0   0
   0   1   0   7   5   1   0   0   0   1   1   4   0   0   4   0   0   0
   1   0   0   0   0   0   2   0   1   0   4   1   1   0   3   1   0   0
   1   0   0   1   0   0   4   1   1   0   6   0   0   1   0   0   0   0
   0   1   0   1   1   0   0   0   0   0   0   0   0   0   0   0   0   0
   0   0   9   3   0   0   0   0   0   0   0   0   0   0   0   2   2   0
   0   0   0   0   0   0   4   0   0   0   1   1   1   0   2   1   7   2
   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
   0  26   7   0   0   0   0   0   4   0   0   0   1   2   0   0   1   0
   0   0   0   0   0   1   0   0   2   2   3   0   0   0   0   0   1   1
   1   3   0   0   0   0   1   0   1   0   0   0   1  17   3   1   0   3
   1   0   2   1   0   0   1   0   1   0   2   1   0   0   0   0   0   0
   2   1   0   0   0   1   0   0   0   0  12   1   

### Task 2
Обучите токенизатор из tokenizers на текстовом корпусе. Рассчитайте статистики для idf по корпусу, используя обученный словарь (разбейте корпус на "документы" по новым строкам, каждый "документ" токенизируйте, для каждого слова посчитайте, в скольких документах оно встречается и рассчитайте idf разделив общее количество документов на это число, возьмите логарифм от полученного числа). 
Векторизуйте текст (в мешок слов) аналогично TfidfVectorizer, используя токенизатор и idf статистики (инициализируйте*** пустую матрицу размером (N документов, K слов в словаре) и в цикле по всем документам постепенно заполните ее - токенизируйте документ, рассчитайте TF каждого слова (количество вхождений в документе поделить на общее количество слов в документе), умножьте TF на IDF и, используя индексы слов в словаре, запишите получившееся значение в матрицу)

Формулу для TFIDF можете уточнить тут -  https://ru.wikipedia.org/wiki/TF-IDF

***Чтобы инициализировать разреженную матрицу используйте scipy:
from scipy.sparse import lil_matrix
X = lil_matrix(N, K)

Обучите классификатор на полученных векторах и оцените на кросс-валидации. 

(5 баллов)

In [19]:
from tokenizers import CharBPETokenizer, Tokenizer
from scipy.sparse import lil_matrix
import pandas as pd
from math import log

In [20]:
class TextProcessor():
    """
        a class to process a txt file
    """
    def __init__(self, path):
        self.path = path # a path to a csv file
        self.df = pd.DataFrame()
        
    def load_dataset(self):
        """ loads the content of the csv file """
        self.df = pd.read_csv(self.path)

data = TextProcessor('data/labeled.csv')
data.load_dataset()
data.df.head()
data.df['comment'].to_csv('data/bpe_corpus.txt')

In [21]:
tok_sub = CharBPETokenizer()
tok_sub.train('data/bpe_corpus.txt', vocab_size=2000, min_frequency=10,)
tok_sub.save('data/2k')

In [22]:
tok_sub = Tokenizer.from_file("data/2k")

In [23]:
class myBPEvectorizer():
    
    """
        a class to vectorize a corpus using
        a prepared CharBPETokenizer() model
    """
    def __init__(self, path):
        self.tokenizer = Tokenizer.from_file(path) # a path to a csv file
        self.tokenized = []
        self.tfidf = []
        
    def tokenize(self, corpus):
        """ tokenize a corpus of texts using a pre-trained model """
        self.tokenized = [self.tokenizer.encode(doc) for doc in corpus]
        
    def get_ids(self) -> list:
        """ retrieve ids of tokens for each text """
        return [doc.ids for doc in self.tokenized]
    
    def get_tokens(self) -> list:
        """ retrieve ids of tokens for each text """
        return [doc.tokens for doc in self.tokenized]
    
    def initiate_matrix(self, N):
        """ use scipy to initiate a sparce matrix """
        self.tfidf = lil_matrix((N,2000))
        
    def calculate_tfidf(self, corpus):
        """ fill in the tfidf matrix with calculated values """
        self.initiate_matrix(len(corpus))
        
        idf = self.calculate_idf(corpus)
        
        for i, doc in enumerate(corpus):
            tf = self.calculate_tf(doc)
            
            for term, value in tf.items():
                self.tfidf[i,term] = value * idf[term]            
        
    def calculate_tf(self, doc) -> defaultdict:
        """ caluclate term frequency for each term in a sentence """
        tf = dict()
        length = len(doc)
        
        for id, qty in doc.items():
            tf[id] = qty / length
            
        return tf
    
    def calculate_idf(self, corpus) -> defaultdict:
        """ calculate idf for each term in a corpus """
        idf = dict()
        length = len(corpus)
        
        for i in range(2000):
            counter = 1
            for doc in corpus:
                if i in doc:
                    counter +=1
            
            idf[i] = log(length / counter)
            
        return idf

In [24]:
docs = data.df['comment'].tolist()
bpe = myBPEvectorizer("data/2k")
bpe.tokenize(docs)
ids = bpe.get_ids()

In [25]:
counters = [Counter(doc) for doc in ids]

In [26]:
bpe.calculate_tfidf(counters)

## Classification

In [28]:
from sklearn.linear_model import SGDClassifier
from sklearn.model_selection import cross_val_score

In [29]:
clf = SGDClassifier(loss="log", max_iter=30, alpha=0.0001, class_weight='balanced')

X = bpe.tfidf
y = data.df.toxic

In [30]:
cross_val_score(clf, X, y, scoring="f1_micro")

array([0.75338189, 0.90426639, 0.90041638, 0.86363636, 0.90319223])