In [5]:
!pip install pymorphy3



Догружаем то, чего нет в Коллабе

In [6]:

import nltk
import pymorphy3
from nltk.stem import SnowballStemmer
from nltk.tokenize import word_tokenize
from pymorphy3 import MorphAnalyzer
import string

1. `import nltk` – Подключает библиотеку Natural Language Toolkit (NLTK) для обработки естественного языка.

2. `from nltk.stem import SnowballStemmer` – Импортирует алгоритм стемминга Snowball, который приводит слова к их основам.

3. `from nltk.tokenize import word_tokenize` – Импортирует функцию для разбиения текста на отдельные слова (токенизация).

4. `from pymorphy3 import MorphAnalyzer` – Импортирует мощный морфологический анализатор для работы с русским языком.

5. `import string` – Подключает модуль для работы со строками и знаками пунктуации.

In [7]:
nltk.download('punkt_tab')
nltk.download('wordnet')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...


True

Первое Загружает модуль токенизации `punkt_tab`, который заменил `punkt` в последних версиях NLTK.

Второе . `nltk.download('wordnet')` – Загружает базу WordNet, используемую для работы с синонимами и лемматизацией английских слов.

In [8]:
text = 'Надо мною тишина, небо полное дождя, Дождь проходит сквозь меня, но боли больше нет, под холодный шепот звезд, мы сожгли последний мост, и все в бездну сорвалось, свободным стану я , от зла и от добра, моя душа была на лезвии ножа.'
english_text = 'Somebody once told me the world is gonna roll me, i aint the sharpest tool in the shack, she was looking kind of dumb with a finger and a thumb in a shape of an L on her forehead.'

Выше указан текст, который будет подвергнут дальнейшей работе

In [9]:
def lematize(text: str) -> list[str]:
    morph3 = MorphAnalyzer()
    tokens = word_tokenize(text)
    lemmatized_words = [morph3.parse(word)[0].normal_form for word in tokens]
    return lemmatized_words


1. `def lematize(text: str) -> list[str]:` – Определяет функцию `lematize`, которая принимает строку `text` и возвращает список лемматизированных слов.

2. `morph3 = MorphAnalyzer()` – Создаёт экземпляр морфологического анализатора `pymorphy3`, который будет использоваться для приведения слов к их начальной форме.

3. `tokens = word_tokenize(text)` – Разбивает входной текст на отдельные слова (токены) с помощью `word_tokenize` из NLTK.

4. `lemmatized_words = [morph3.parse(word)[0].normal_form for word in tokens]` – Проходит по каждому токену, анализирует его с `MorphAnalyzer` и извлекает его начальную форму (`normal_form`).

5. `return lemmatized_words` – Возвращает список лемматизированных слов.

In [10]:

def stemming(text: str) -> list[str]:
    stemmer = SnowballStemmer("russian")
    tokens = word_tokenize(text)
    lemmatized_words = [stemmer.stem(word) for word in tokens]
    return lemmatized_words

1. `def stemming(text: str) -> list[str]:` – Определяет функцию `stemming`, которая принимает строку `text` и возвращает список слов после стемминга.

2. `stemmer = SnowballStemmer("russian")` – Создаёт экземпляр стеммера Snowball для русского языка, который будет использоваться для приведения слов к их основе.

3. `tokens = word_tokenize(text)` – Разбивает входной текст на отдельные слова (токены) с помощью `word_tokenize` из NLTK.

4. `lemmatized_words = [stemmer.stem(word) for word in tokens]` – Проходит по каждому токену и применяет к нему стемминг (`stem()`), который отбрасывает окончания и приводит слово к его основе.

5. `return lemmatized_words` – Возвращает список стеммированных слов.

In [11]:
def ascii_tokenizer(text: str) -> list[str]:
    return [char for char in text if char in string.printable]

1. `def ascii_tokenizer(text: str) -> list[str]:` – Определяет функцию `ascii_tokenizer`, которая принимает строку `text` и возвращает список символов, содержащихся в строке и являющихся печатными.

2. `return [char for char in text if char in string.printable]` – Генерирует список символов, которые присутствуют в строке `text` и являются печатными символами (определяется через `string.printable`).

3. `string.printable` включает все символы, которые могут быть напечатаны, включая буквы, цифры, знаки препинания и пробел.

In [12]:
def ascii_vectorizer(text: str) -> list[str]:
    return [ord(char) for char in text if char in string.printable]


1. `def ascii_vectorizer(text: str) -> list[str]:` – Определяет функцию `ascii_vectorizer`, которая принимает строку `text` и возвращает список числовых значений (кодировок) символов, являющихся печатными.

2. `return [ord(char) for char in text if char in string.printable]` – Генерирует список числовых значений (кодов ASCII) для каждого символа в строке `text`, если этот символ является печатным (определяется через `string.printable`).

3. Функция `ord(char)` преобразует символ в его числовой код (например, 'A' → 65).

4. Результат — это список числовых представлений печатных символов из строки `text`.

In [13]:

def tokenize(text: str) -> list[str]:
    return word_tokenize(text)

1. `def tokenize(text: str) -> list[str]:` – Определяет функцию `tokenize`, которая принимает строку `text` и возвращает список токенов (слов).

2. `return word_tokenize(text)` – Использует функцию `word_tokenize` из NLTK для разбиения текста на отдельные слова (токены).

3. Результат — это список слов, полученных из строки `text` с помощью токенизации.

In [14]:
def vectorize(tokens: list[str]) -> list[int]:
    dict_vectors = {}
    result = []
    for word in tokens:
        if word in dict_vectors.keys():
            result.append(dict_vectors[word])
        else:
            dict_vectors[word] = len(dict_vectors)
            result.append(dict_vectors[word])
    return result


1. `def vectorize(tokens: list[str]) -> list[int]:` – Определяет функцию `vectorize`, которая принимает список токенов `tokens` и возвращает список числовых векторов (индексов) для каждого токена.

2. `dict_vectors = {}` – Создаёт пустой словарь `dict_vectors`, который будет хранить уникальные слова и их индексы.

3. `result = []` – Инициализирует пустой список `result`, в который будут добавляться числовые представления (индексы) слов.

4. `for word in tokens:` – Проходит по каждому слову в списке токенов.

5. `if word in dict_vectors.keys():` – Проверяет, существует ли уже это слово в словаре `dict_vectors`.

6. `result.append(dict_vectors[word])` – Если слово уже есть в словаре, добавляет его индекс в список `result`.

7. `else:` – Если слово не найдено в словаре, добавляет его в словарь и присваивает ему новый индекс, равный текущей длине словаря.

8. `dict_vectors[word] = len(dict_vectors)` – Присваивает уникальный индекс слову, добавляя его в словарь.

9. `result.append(dict_vectors[word])` – Добавляет индекс нового слова в список `result`.

10. `return result` – Возвращает список индексов для каждого слова из входного списка токенов.








In [15]:
print('Лемматизация:')
print(lematize(text))

print('Стемминг:')
print(stemming(text))

print('Токенизация всех символов из ASCII:')
print(ascii_tokenizer(english_text))

print('Векторизация всех символов из ASCII:')
print(ascii_vectorizer(english_text))

print('Векторизация текста после лемматизации:')
print(vectorize(lematize(text)))

print('Векторизация текста после стемминга:')
print(vectorize(stemming(text)))

Лемматизация:
['надо', 'я', 'тишина', ',', 'небо', 'полный', 'дождь', ',', 'дождь', 'проходить', 'сквозь', 'я', ',', 'но', 'боль', 'большой', 'нет', ',', 'под', 'холодный', 'шёпот', 'звезда', ',', 'мы', 'сжечь', 'последний', 'мост', ',', 'и', 'всё', 'в', 'бездна', 'сорваться', ',', 'свободный', 'стать', 'я', ',', 'от', 'зло', 'и', 'от', 'добро', ',', 'мой', 'душа', 'быть', 'на', 'лезвие', 'нож', '.']
Стемминг:
['над', 'мно', 'тишин', ',', 'неб', 'полн', 'дожд', ',', 'дожд', 'проход', 'сквоз', 'мен', ',', 'но', 'бол', 'больш', 'нет', ',', 'под', 'холодн', 'шепот', 'звезд', ',', 'мы', 'сожгл', 'последн', 'мост', ',', 'и', 'все', 'в', 'бездн', 'сорва', ',', 'свободн', 'стан', 'я', ',', 'от', 'зла', 'и', 'от', 'добр', ',', 'мо', 'душ', 'был', 'на', 'лезв', 'нож', '.']
Токенизация всех символов из ASCII:
['S', 'o', 'm', 'e', 'b', 'o', 'd', 'y', ' ', 'o', 'n', 'c', 'e', ' ', 't', 'o', 'l', 'd', ' ', 'm', 'e', ' ', 't', 'h', 'e', ' ', 'w', 'o', 'r', 'l', 'd', ' ', 'i', 's', ' ', 'g', 'o', 'n'

Результат работы