<a href="https://colab.research.google.com/github/gn1dus/mosi/blob/main/%D0%9B%D0%B0%D0%B1%D0%B0_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [26]:
!pip install pymorphy3



Загружаем библиотеки

In [27]:
import nltk
import pymorphy3
from nltk.stem import SnowballStemmer
from nltk.tokenize import word_tokenize
import string

Загружаем необходимые пакеты

In [39]:
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('omw-1.4')
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

Инициализация MorphAnalyzer для лемматизации

In [40]:
morph3 = pymorphy3.MorphAnalyzer()

Функция для лемматизации текста

In [41]:
def lematize(text: str) -> list[str]:
    tokens = word_tokenize(text)
    lemmatized_words = [morph3.parse(word)[0].normal_form for word in tokens]
    return lemmatized_words

Функция для стемминга текста

In [42]:
def stemming(text: str) -> list[str]:
    stemmer = SnowballStemmer("russian")
    tokens = word_tokenize(text)
    stemmed_words = [stemmer.stem(word) for word in tokens]
    return stemmed_words

Функция для токенизации всех символов из ASCII

In [43]:
def ascii_tokenizer(text: str) -> list[str]:
    return [char for char in text if char in string.printable]

Функция для векторизации всех символов из ASCII

In [44]:
def ascii_vectorizer(text: str) -> list[int]:
    return [ord(char) for char in text if char in string.printable]

Функция для токенизации текста

In [45]:
def tokenize(text: str) -> list[str]:
    return word_tokenize(text)

Функция для векторизации текста

In [46]:
def vectorize(tokens: list[str]) -> list[int]:
    dict_vectors = {}
    result = []
    for word in tokens:
        if word in dict_vectors:
            result.append(dict_vectors[word])
        else:
            dict_vectors[word] = len(dict_vectors)
            result.append(dict_vectors[word])
    return result

Текст

In [47]:
# Основной код
text = 'Гарри потянулся к молнии и приоткрыл сумку. Внутри оказался толстый, мягкий рулон денег. — Это твои, — сказал Хагрид, улыбаясь. — На всё первое время хватит. Потом сможешь снять ещё из твоего хранилища в Гринготтсе. — У меня есть хранилище в Гринготтсе? — поразился Гарри.'
english_text = 'Harry reached into the bag and pulled out a thick wad of notes. — That’s yours, — said Hagrid, smiling. —Enough fer the basics. Yeh’ll be able ter take money outta yer vault in Gringotts. — I’ve got a vault in Gringotts? — said Harry, amazed.'

In [48]:
# Лемматизация
print('Лемматизация:')
print(lematize(text))

# Стемминг
print('Стемминг:')
print(stemming(text))

# Токенизация всех символов из ASCII
print('Токенизация всех символов из ASCII:')
print(ascii_tokenizer(english_text))

# Векторизация всех символов из ASCII
print('Векторизация всех символов из ASCII:')
print(ascii_vectorizer(english_text))

# Векторизация текста после лемматизации
print('Векторизация текста после лемматизации:')
print(vectorize(lematize(text)))

# Векторизация текста после стемминга
print('Векторизация текста после стемминга:')
print(vectorize(stemming(text)))

Лемматизация:
['гарри', 'потянуться', 'к', 'молния', 'и', 'приоткрыть', 'сумка', '.', 'внутри', 'оказаться', 'толстый', ',', 'мягкий', 'рулон', 'деньга', '.', '—', 'это', 'твой', ',', '—', 'сказать', 'хагрид', ',', 'улыбаться', '.', '—', 'на', 'всё', 'первый', 'время', 'хватить', '.', 'потом', 'смочь', 'снять', 'ещё', 'из', 'твой', 'хранилище', 'в', 'гринготтс', '.', '—', 'у', 'я', 'есть', 'хранилище', 'в', 'гринготтс', '?', '—', 'поразиться', 'гарри', '.']
Стемминг:
['гарр', 'потянул', 'к', 'молн', 'и', 'приоткр', 'сумк', '.', 'внутр', 'оказа', 'толст', ',', 'мягк', 'рулон', 'денег', '.', '—', 'эт', 'тво', ',', '—', 'сказа', 'хагрид', ',', 'улыб', '.', '—', 'на', 'все', 'перв', 'врем', 'хват', '.', 'пот', 'сможеш', 'снят', 'ещ', 'из', 'тво', 'хранилищ', 'в', 'гринготтс', '.', '—', 'у', 'мен', 'ест', 'хранилищ', 'в', 'гринготтс', '?', '—', 'пораз', 'гарр', '.']
Токенизация всех символов из ASCII:
['H', 'a', 'r', 'r', 'y', ' ', 'r', 'e', 'a', 'c', 'h', 'e', 'd', ' ', 'i', 'n', 't', 'o',