In [None]:
from gettext import install

import nltk

with open('tokxt.txt', 'r', encoding='utf-8') as f:
    text = f.read()

tokens = nltk.word_tokenize(text)

with open('output_tokens_nltk.txt', 'w', encoding='utf-8') as out_f:
    for token in tokens:
        out_f.write(token + '\n')

In [None]:
import warnings
import logging
logging.getLogger('stanza').setLevel(logging.WARNING)
warnings.filterwarnings("ignore")

import stanza

stanza.download('ru')

nlp = stanza.Pipeline('ru', processors='tokenize')

with open('tokxt.txt', 'r', encoding='utf-8') as f:
    text = f.read()

doc = nlp(text)

with open('output_tokens_stanza.txt', 'w', encoding='utf-8') as out_f:
    for sentence in doc.sentences:
        for token in sentence.tokens:
            out_f.write(token.text + '\n')

In [None]:
from razdel import tokenize

with open('tokxt.txt', 'r', encoding='utf-8') as f:
    text = f.read()

tokens = list(tokenize(text))

with open('output_tokens_razdel.txt', 'w', encoding='utf-8') as out_f:
    for token in tokens:
        out_f.write(token.text + '\n')

In [None]:
from segtok.tokenizer import word_tokenizer

with open('tokxt.txt', 'r', encoding='utf-8') as f:
    text = f.read()

tokens = list(word_tokenizer(text))

with open('output_tokens_segtok.txt', 'w', encoding='utf-8') as out_f:
    for token in tokens:
        out_f.write(token + '\n')

In [None]:
import spacy

nlp = spacy.load('ru_core_news_sm')

with open('tokxt.txt', 'r', encoding='utf-8') as f:
    text = f.read()

doc = nlp(text)

with open('output_tokens_spacy_ru.txt', 'w', encoding='utf-8') as out_f:
    for token in doc:
        out_f.write(token.text + '\n')

In [None]:
from mosestokenizer import MosesTokenizer

tokenizer = MosesTokenizer(lang='ru')

with open('tokxt.txt', 'r', encoding='utf-8') as f:
    text = f.read()

text = text.replace('\n', ' ')

tokens = tokenizer(text)

with open('output_tokens_mosestokenizer.txt', 'w', encoding='utf-8') as out_f:
    for token in tokens:
        out_f.write(token + '\n')

In [None]:
from pymorphy2.tokenizers import simple_word_tokenize

with open('tokxt.txt', 'r', encoding='utf-8') as f:
    text = f.read()

tokens = simple_word_tokenize(text)

with open('output_tokens_pymorphy2.txt', 'w', encoding='utf-8') as out_f:
    for token in tokens:
        out_f.write(token + '\n')

In [10]:
import pandas as pd

# Функция для чтения и очистки токенов из файла
def read_tokens(file_path):
    with open(file_path, 'r', encoding='utf-8') as f:
        tokens = f.readlines()
    return [token.strip() for token in tokens]

# Список файлов, которые ты хочешь объединить в таблицу
file_paths = [
    'output_tokens_stanza.txt',
    'output_tokens_spacy_ru.txt',
    'output_tokens_nltk.txt'
]

all_tokens = []

# Чтение данных из каждого файла
for file_path in file_paths:
    tokens = read_tokens(file_path)
    all_tokens.extend(tokens)

# Создание таблицы (DataFrame)
df = pd.DataFrame(all_tokens, columns=['Token'])
df.index.name = 'Index'

# Вывод первых строк таблицы
print(df.head())

          Token
Index          
0        ﻿Когда
1             я
2         писал
3           эти
4      страницы


In [None]:
# Вывод всей таблицы
print(df)

In [19]:
import pandas as pd

# Функция для чтения токенов из файла
def read_tokens(file_path):
    with open(file_path, 'r', encoding='utf-8') as f:
        tokens = f.readlines()
    return [token.strip() for token in tokens]

# Укажи пути к файлам для каждой библиотеки
file_paths = {
    'nltk': 'output_tokens_nltk.txt',
    'stanza': 'output_tokens_stanza.txt',
    'spacy': 'output_tokens_spacy_ru.txt',
    'pymorphy2': 'output_tokens_pymorphy2.txt',
    'mosestokenizer': 'output_tokens_mosestokenizer.txt',
    'razdel': 'output_tokens_razdel.txt',
    'segtok': 'output_tokens_segtok.txt'
}

# Чтение токенов из всех файлов
token_data = {}
max_length = 0

# Считываем токены из каждого файла и находим максимальную длину списка
for library, file_path in file_paths.items():
    tokens = read_tokens(file_path)
    token_data[library] = tokens
    max_length = max(max_length, len(tokens))  # Определяем максимальную длину

# Выровняем длины списков, заполнив недостающие значения пустыми строками
for library in token_data:
    tokens = token_data[library]
    if len(tokens) < max_length:
        tokens.extend([''] * (max_length - len(tokens)))  # Добавляем пустые строки
    token_data[library] = tokens

# Создание DataFrame из выровненных токенов
df = pd.DataFrame(token_data)

# Настройка pandas для вывода всех строк
pd.set_option('display.max_rows', None)

# Вывод всей таблицы
print(df.head(100))

# Вывод таблицы с фиксированной шириной колонок
print('{:20}\t{:20}\t{:20}\t{:20}\t{:20}\t{:20}\t{:20}'.format('nltk', 'razdel', 'segtok', 'spacy', 'pymorphy3', 'moses', 'ud'))
for tk in zip(df['nltk'], df['razdel'], df['segtok'], df['spacy'], df['pymorphy3'], df['moses'], df['ud']):
    print('{:20}\t{:20}\t{:20}\t{:20}\t{:20}\t{:20}\t{:20}'.format(*tk))

               nltk           stanza            spacy        pymorphy2  \
0            ﻿Когда           ﻿Когда           ﻿Когда                ﻿   
1                 я                я                я            Когда   
2             писал            писал            писал                я   
3               эти              эти              эти            писал   
4          страницы         страницы         страницы              эти   
5                 -                -                -         страницы   
6            вернее           вернее           вернее                -   
7                 ,                ,                ,           вернее   
8           большую          большую          большую                ,   
9                их               их               их          большую   
10            часть            часть            часть               их   
11                ,                ,                ,            часть   
12                -                -  

KeyError: 'pymorphy3'