In [37]:
from tokenizers import Tokenizer
from tokenizers.models import BPE
from tokenizers.trainers import BpeTrainer
from tokenizers.pre_tokenizers import Whitespace


text = '''
In a hole in the ground there lived a hobbit. Not a nasty, dirty, wet hole, filled with the ends of worms and an oozy smell, nor yet a dry, bare, sandy hole with nothing in it to sit down on or to eat: it was a hobbit-hole, and that 
means comfort. 
It had a perfectly round door like a porthole, painted green, with a shiny yellow brass knob in the exact middle. The door opened on to a tube-shaped hall like a tunnel: a very comfortable tunnel without smoke, with panelled walls, and floors tiled and carpeted, provided with polished chairs, and lots and lots of pegs for hats and coats - the hobbit was fond of visitors. The tunnel wound on and on, going fairly but not quite straight into the side of the hill - The Hill, as all the people for many miles round called it - and many little round doors opened out of it, first on one side and then on another. 
No going upstairs for the hobbit: bedrooms, bathrooms, cellars, pantries (lots of these), wardrobes (he had whole 
rooms devoted to clothes), kitchens, dining-rooms, all were on the same floor, and indeed on the same passage. 
The best rooms were all on the lefthand side (going in), for these were the only ones to have windows, deep-set round windows looking over his garden, and meadows beyond, sloping down to the river. 
'''
# Сохраняю текст в файл, так как tokenizers требует файл для обучения
with open('text.txt', 'w', encoding='utf-8') as f:
    f.write(text)

# Создаю объект токенизатора, использующего модель BPE
tokenizer = Tokenizer(BPE())
# Устанавливаю претокенизатор, который разбивает текст на слова по пробелам
# Претокенизатор определяет верхний предел размера конечных токенов, чтобы не получались токены, объединяющие несколько часто встречающихся рядом слов
tokenizer.pre_tokenizer = Whitespace()
# Обучение токенизатора на подготовленном файле. Размер словаря не более 400 токенов
trainer = BpeTrainer(vocab_size=400)
tokenizer.train(files=['text.txt'], trainer=trainer)

# Извлечение и вывод словаря из токенизатора после обучения
vocab = tokenizer.get_vocab()
tokens_list = list(vocab.keys())
tokens_list.sort(key=lambda x: vocab[x])
print(tokens_list)


['(', ')', ',', '-', '.', ':', 'H', 'I', 'N', 'T', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'th', 'nd', 'the', 'le', 'or', 'in', 'and', 'it', 'on', 'ro', 'ed', 'll', 'ho', 'lo', 'wi', 'an', 'er', 'ha', 'om', 'to', 'ing', 'as', 'de', 'do', 'for', 'he', 'of', 'und', 'with', 'ar', 'ir', 'me', 'pe', 'ts', 'room', 'round', 'hole', 'rooms', 'The', 'all', 'bb', 'be', 'el', 'li', 'st', 'tu', 'led', 'hobb', 'hobbit', '),', 'et', 'go', 'ide', 'ke', 'ly', 'nn', 'no', 'ow', 'sa', 'side', 'ted', 'ut', 'ver', 'wer', 'thes', 'ors', 'lots', 'dow', 'tunn', 'going', 'were', 'tunnel', 'No', 'at', 'air', 'ct', 'com', 'es', 'ell', 'flo', 'hi', 'id', 'lled', 'man', 'ned', 'ond', 'ope', 'out', 'pan', 're', 'ri', 'sh', 'sit', 'ty', 'was', 'ndow', 'window', 'had', 'door', 'fort', 'like', 'same', 'these', 'down', 'comfort', 'many', 'opened', 'windows', 'Hi', 'In', 'It', 'ab', 'ai', 'ath', 'ain', 'ats', 'adow', 'act', 'alled', 'b

In [29]:
import re

In [30]:
email_regex = r'[a-zA-Z0-9._-]+@[a-zA-Z0-9.]+\.[a-zA-Z]{2,}'
text1 = '''
text text email@example.com text
text text text email@example.co.uk text
'''

matches = re.findall(email_regex, text1)
matches

['email@example.com', 'email@example.co.uk']

In [31]:
path_regex = r'(?:[a-zA-Z]:\\|\/)?(?:[\w\-]+[\\\/])*([\w\-]+)\.(\w+)'
text2 = '''
text text /home/user/docs/Letter.txt text
text text text C:\\user\\docs\\Letter.txt text
'''

matches = re.findall(path_regex, text2)
matches

[('Letter', 'txt'), ('Letter', 'txt')]

In [35]:
regex = r'([a-zA-Z_]+)?:? ?([^[:]+)\"([^:]+):([^:A-Z]+)?:?([^\"\]]+)'
text3 = '''
#[[Time: Обычно"обычно:#frequentative_adverbs_adj:FREQUENTATIVE"] [Experiencer_Metaphoric: бюджет"бюджет:бюджет:BUDGET"] [[ко"к:#preposition:PREPOSITION"] [OrderInTimeAndSpace: второму"второй:TWO_ORDINAL"] Object_Situation: чтению "чтение:READING_OF_THE_DRAFT_LAW"] Predicate: готовится"готовить:готовить:PREPAREDNESS" [[DegreeApproximative: непосредственно"непосредственный:DIRECT_OBLIQUE"] [в"в_Prepositional:#preposition:PREPOSITION"] Locative: Думе"дума:дума:DUMA"]#: [[Agent: депутаты"депутат:депутат:DEPUTY"] Specification_Clause: корректируют"корректировать:корректировать:TO_CORRECT" [[Agent: правительственные"правительство:правительство:GOVERNMENT"] Object_Situation: планы"план:план:SCHEDULE_FOR_ACTIVITY"]]].
'''

matches = re.findall(regex, text3)
matches

[('Time', 'Обычно', 'обычно', '#frequentative_adverbs_adj', 'FREQUENTATIVE'),
 ('Experiencer_Metaphoric', 'бюджет', 'бюджет', 'бюджет', 'BUDGET'),
 ('', 'ко', 'к', '#preposition', 'PREPOSITION'),
 ('OrderInTimeAndSpace', 'второму', 'второй', '', 'TWO_ORDINAL'),
 ('Object_Situation', 'чтению ', 'чтение', '', 'READING_OF_THE_DRAFT_LAW'),
 ('Predicate', 'готовится', 'готовить', 'готовить', 'PREPAREDNESS'),
 ('DegreeApproximative',
  'непосредственно',
  'непосредственный',
  '',
  'DIRECT_OBLIQUE'),
 ('', 'в', 'в_Prepositional', '#preposition', 'PREPOSITION'),
 ('Locative', 'Думе', 'дума', 'дума', 'DUMA'),
 ('Agent', 'депутаты', 'депутат', 'депутат', 'DEPUTY'),
 ('Specification_Clause',
  'корректируют',
  'корректировать',
  'корректировать',
  'TO_CORRECT'),
 ('Agent',
  'правительственные',
  'правительство',
  'правительство',
  'GOVERNMENT'),
 ('Object_Situation', 'планы', 'план', 'план', 'SCHEDULE_FOR_ACTIVITY')]

In [36]:
import pandas as pd

df = pd.DataFrame(matches, columns=['Семантическая роль', 'Словоформа', 'Лемма', 'Лексический класс', 'Семантический класс'])
df

Unnamed: 0,Семантическая роль,Словоформа,Лемма,Лексический класс,Семантический класс
0,Time,Обычно,обычно,#frequentative_adverbs_adj,FREQUENTATIVE
1,Experiencer_Metaphoric,бюджет,бюджет,бюджет,BUDGET
2,,ко,к,#preposition,PREPOSITION
3,OrderInTimeAndSpace,второму,второй,,TWO_ORDINAL
4,Object_Situation,чтению,чтение,,READING_OF_THE_DRAFT_LAW
5,Predicate,готовится,готовить,готовить,PREPAREDNESS
6,DegreeApproximative,непосредственно,непосредственный,,DIRECT_OBLIQUE
7,,в,в_Prepositional,#preposition,PREPOSITION
8,Locative,Думе,дума,дума,DUMA
9,Agent,депутаты,депутат,депутат,DEPUTY
