<a href="https://colab.research.google.com/github/MrsIgnis/MOCI/blob/main/MOCI_task_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [30]:
!pip install nltk pymorphy3



In [31]:
import re
import nltk
import pymorphy3
from nltk.stem import SnowballStemmer, WordNetLemmatizer
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

In [32]:
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('wordnet')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [34]:
stop_words_ru = set(stopwords.words("russian"))
stop_words_en = set(stopwords.words("english"))

In [35]:
stemmer_ru = SnowballStemmer("russian")
stemmer_en = SnowballStemmer("english")
lemma_ru = pymorphy3.MorphAnalyzer()
lemma_en = WordNetLemmatizer()

In [36]:
with open('/content/test.txt', 'r', encoding='utf-8') as file:
    text = file.read()
print(text)

When a humble bard
Graced a ride along
With Geralt of Rivia
Along came this song.
From when the White Wolf fought
A silver-tongued devil
His army of elves...

Когда скромняга бард отдыхал от дел
С Геральтом из Ривии он песню эту пел.
Сразился Белый Волк с велиречивым чертом
Эльфов покромсал несчетные когорты.




**I. Провести на любом тексте лемматизацию и стемминг (nltk, pymorphy2, pymorphy3, natasha)**

In [37]:
def is_russian(word: str) -> bool:
    return bool(re.search('[а-яё]', word, re.IGNORECASE))

def is_english(word: str) -> bool:
    return bool(re.search('[a-z]', word, re.IGNORECASE))

In [38]:
def lemmatize_text(text: str) -> str:
    text = text.lower()
    text = re.sub(r'[^а-яёa-z\s]', '', text, flags=re.IGNORECASE)
    words = word_tokenize(text)
    lemmas = []
    for word in words:
        if word not in stop_words_ru and word not in stop_words_en:
            if is_russian(word):
                lemma = lemma_ru.parse(word)[0].normal_form
            elif is_english(word):
                lemma = lemma_en.lemmatize(word)
            else:
                lemma = word
            lemmas.append(lemma)
    return ' '.join(lemmas)

In [39]:
def stem_text(text: str) -> str:
    text = text.lower()
    text = re.sub(r'[^а-яёa-z\s]', '', text, flags=re.IGNORECASE)
    words = word_tokenize(text)
    stems = []
    for word in words:
        if word not in stop_words_ru and word not in stop_words_en:
            if is_russian(word):
                stem = stemmer_ru.stem(word)
            elif is_english(word):
                stem = stemmer_en.stem(word)
            else:
                stem = word
            stems.append(stem)
    return ' '.join(stems)

In [40]:
lemmas_text = lemmatize_text(text)
stems_text = stem_text(text)
print("Лемматизированный исходный текст:", lemmas_text, '\n')
print("Стеммированный исходный текст:", stems_text)

Лемматизированный исходный текст: humble bard graced ride along geralt rivia along came song white wolf fought silvertongued devil army elf скромняга бард отдыхать дело геральт ривия песня петь сразиться белый волк велиречивый чёрт эльф покромсать несчётный когорта 

Стеммированный исходный текст: humbl bard grace ride along geralt rivia along came song white wolf fought silvertongu devil armi elv скромняг бард отдыха дел геральт рив песн пел сраз бел волк велиречив черт эльф покромса несчетн когорт


**II. Написать функцию для токенизации всех символов из ASCII**

In [41]:
def tokenize_ascii(text: str) -> list[str]:
    return [char for char in text if not char.isspace()]

In [42]:
ascii_tokens = tokenize_ascii(text)
print("Токенизированный исходный текст:", ascii_tokens)

Токенизированный исходный текст: ['W', 'h', 'e', 'n', 'a', 'h', 'u', 'm', 'b', 'l', 'e', 'b', 'a', 'r', 'd', 'G', 'r', 'a', 'c', 'e', 'd', 'a', 'r', 'i', 'd', 'e', 'a', 'l', 'o', 'n', 'g', 'W', 'i', 't', 'h', 'G', 'e', 'r', 'a', 'l', 't', 'o', 'f', 'R', 'i', 'v', 'i', 'a', 'A', 'l', 'o', 'n', 'g', 'c', 'a', 'm', 'e', 't', 'h', 'i', 's', 's', 'o', 'n', 'g', '.', 'F', 'r', 'o', 'm', 'w', 'h', 'e', 'n', 't', 'h', 'e', 'W', 'h', 'i', 't', 'e', 'W', 'o', 'l', 'f', 'f', 'o', 'u', 'g', 'h', 't', 'A', 's', 'i', 'l', 'v', 'e', 'r', '-', 't', 'o', 'n', 'g', 'u', 'e', 'd', 'd', 'e', 'v', 'i', 'l', 'H', 'i', 's', 'a', 'r', 'm', 'y', 'o', 'f', 'e', 'l', 'v', 'e', 's', '.', '.', '.', 'К', 'о', 'г', 'д', 'а', 'с', 'к', 'р', 'о', 'м', 'н', 'я', 'г', 'а', 'б', 'а', 'р', 'д', 'о', 'т', 'д', 'ы', 'х', 'а', 'л', 'о', 'т', 'д', 'е', 'л', 'С', 'Г', 'е', 'р', 'а', 'л', 'ь', 'т', 'о', 'м', 'и', 'з', 'Р', 'и', 'в', 'и', 'и', 'о', 'н', 'п', 'е', 'с', 'н', 'ю', 'э', 'т', 'у', 'п', 'е', 'л', '.', 'С', 'р', 'а', '

**III. Написать функцию для векторизации всех символов из ASCII**

In [43]:
def vectorize_ascii(text: list[str]) -> list[int]:
    return [ord(char) for char in text if not char.isspace()]

In [44]:
ascii_vectors = vectorize_ascii(text)
print("Векторизированный исходный текст:", ascii_vectors)

Векторизированный исходный текст: [87, 104, 101, 110, 97, 104, 117, 109, 98, 108, 101, 98, 97, 114, 100, 71, 114, 97, 99, 101, 100, 97, 114, 105, 100, 101, 97, 108, 111, 110, 103, 87, 105, 116, 104, 71, 101, 114, 97, 108, 116, 111, 102, 82, 105, 118, 105, 97, 65, 108, 111, 110, 103, 99, 97, 109, 101, 116, 104, 105, 115, 115, 111, 110, 103, 46, 70, 114, 111, 109, 119, 104, 101, 110, 116, 104, 101, 87, 104, 105, 116, 101, 87, 111, 108, 102, 102, 111, 117, 103, 104, 116, 65, 115, 105, 108, 118, 101, 114, 45, 116, 111, 110, 103, 117, 101, 100, 100, 101, 118, 105, 108, 72, 105, 115, 97, 114, 109, 121, 111, 102, 101, 108, 118, 101, 115, 46, 46, 46, 1050, 1086, 1075, 1076, 1072, 1089, 1082, 1088, 1086, 1084, 1085, 1103, 1075, 1072, 1073, 1072, 1088, 1076, 1086, 1090, 1076, 1099, 1093, 1072, 1083, 1086, 1090, 1076, 1077, 1083, 1057, 1043, 1077, 1088, 1072, 1083, 1100, 1090, 1086, 1084, 1080, 1079, 1056, 1080, 1074, 1080, 1080, 1086, 1085, 1087, 1077, 1089, 1085, 1102, 1101, 1090, 1091, 1087, 1

**IV. Провести токенизацию и векторизацию текста после лемматизации и стемминга**

In [45]:
lemmas_ascii_tokens = tokenize_ascii(lemmas_text)
lemmas_ascii_vectors = vectorize_ascii(lemmas_ascii_tokens)
print("Токенизация лемм:", lemmas_ascii_tokens, '\n')
print("Векторизация лемм:", lemmas_ascii_vectors)

Токенизация лемм: ['h', 'u', 'm', 'b', 'l', 'e', 'b', 'a', 'r', 'd', 'g', 'r', 'a', 'c', 'e', 'd', 'r', 'i', 'd', 'e', 'a', 'l', 'o', 'n', 'g', 'g', 'e', 'r', 'a', 'l', 't', 'r', 'i', 'v', 'i', 'a', 'a', 'l', 'o', 'n', 'g', 'c', 'a', 'm', 'e', 's', 'o', 'n', 'g', 'w', 'h', 'i', 't', 'e', 'w', 'o', 'l', 'f', 'f', 'o', 'u', 'g', 'h', 't', 's', 'i', 'l', 'v', 'e', 'r', 't', 'o', 'n', 'g', 'u', 'e', 'd', 'd', 'e', 'v', 'i', 'l', 'a', 'r', 'm', 'y', 'e', 'l', 'f', 'с', 'к', 'р', 'о', 'м', 'н', 'я', 'г', 'а', 'б', 'а', 'р', 'д', 'о', 'т', 'д', 'ы', 'х', 'а', 'т', 'ь', 'д', 'е', 'л', 'о', 'г', 'е', 'р', 'а', 'л', 'ь', 'т', 'р', 'и', 'в', 'и', 'я', 'п', 'е', 'с', 'н', 'я', 'п', 'е', 'т', 'ь', 'с', 'р', 'а', 'з', 'и', 'т', 'ь', 'с', 'я', 'б', 'е', 'л', 'ы', 'й', 'в', 'о', 'л', 'к', 'в', 'е', 'л', 'и', 'р', 'е', 'ч', 'и', 'в', 'ы', 'й', 'ч', 'ё', 'р', 'т', 'э', 'л', 'ь', 'ф', 'п', 'о', 'к', 'р', 'о', 'м', 'с', 'а', 'т', 'ь', 'н', 'е', 'с', 'ч', 'ё', 'т', 'н', 'ы', 'й', 'к', 'о', 'г', 'о', 'р', '

In [46]:
stems_ascii_tokens = tokenize_ascii(stems_text)
stems_ascii_vectors = vectorize_ascii(stems_ascii_tokens)
print("Токенизация стеммов:", stems_ascii_tokens, '\n')
print("Векторизация стеммов:", stems_ascii_vectors)

Токенизация стеммов: ['h', 'u', 'm', 'b', 'l', 'b', 'a', 'r', 'd', 'g', 'r', 'a', 'c', 'e', 'r', 'i', 'd', 'e', 'a', 'l', 'o', 'n', 'g', 'g', 'e', 'r', 'a', 'l', 't', 'r', 'i', 'v', 'i', 'a', 'a', 'l', 'o', 'n', 'g', 'c', 'a', 'm', 'e', 's', 'o', 'n', 'g', 'w', 'h', 'i', 't', 'e', 'w', 'o', 'l', 'f', 'f', 'o', 'u', 'g', 'h', 't', 's', 'i', 'l', 'v', 'e', 'r', 't', 'o', 'n', 'g', 'u', 'd', 'e', 'v', 'i', 'l', 'a', 'r', 'm', 'i', 'e', 'l', 'v', 'с', 'к', 'р', 'о', 'м', 'н', 'я', 'г', 'б', 'а', 'р', 'д', 'о', 'т', 'д', 'ы', 'х', 'а', 'д', 'е', 'л', 'г', 'е', 'р', 'а', 'л', 'ь', 'т', 'р', 'и', 'в', 'п', 'е', 'с', 'н', 'п', 'е', 'л', 'с', 'р', 'а', 'з', 'б', 'е', 'л', 'в', 'о', 'л', 'к', 'в', 'е', 'л', 'и', 'р', 'е', 'ч', 'и', 'в', 'ч', 'е', 'р', 'т', 'э', 'л', 'ь', 'ф', 'п', 'о', 'к', 'р', 'о', 'м', 'с', 'а', 'н', 'е', 'с', 'ч', 'е', 'т', 'н', 'к', 'о', 'г', 'о', 'р', 'т'] 

Векторизация стеммов: [104, 117, 109, 98, 108, 98, 97, 114, 100, 103, 114, 97, 99, 101, 114, 105, 100, 101, 97, 108,