<a href="https://colab.research.google.com/github/SolarMeIster/Math_linguistics/blob/main/Lab5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
!pip install pymorphy3

Collecting pymorphy3
  Downloading pymorphy3-2.0.3-py3-none-any.whl.metadata (1.9 kB)
Collecting dawg2-python>=0.8.0 (from pymorphy3)
  Downloading dawg2_python-0.9.0-py3-none-any.whl.metadata (7.5 kB)
Collecting pymorphy3-dicts-ru (from pymorphy3)
  Downloading pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl.metadata (2.0 kB)
Downloading pymorphy3-2.0.3-py3-none-any.whl (53 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m53.8/53.8 kB[0m [31m2.3 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dawg2_python-0.9.0-py3-none-any.whl (9.3 kB)
Downloading pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl (8.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.4/8.4 MB[0m [31m40.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pymorphy3-dicts-ru, dawg2-python, pymorphy3
Successfully installed dawg2-python-0.9.0 pymorphy3-2.0.3 pymorphy3-dicts-ru-2.4.417150.4580142


In [2]:
import nltk
import pandas as pd
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import SnowballStemmer
from sklearn.feature_extraction.text import CountVectorizer
from pymorphy3 import MorphAnalyzer
from collections import Counter

nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [3]:
text = """
В тексте посчитать количество различных слов, для чего потребуется
выполнить токенизацию по словам любым способом. Далее использовать
готовый стеммер и лемматизатор из любой библиотеки.
Произвести удаление стоп-слов из текста.
Посчитать количество различных слов в тесте до и после каждого
процесса, а также всех их комбинаций.
Субъективно оценить понятность текста после стемминга, лемматизации
и удаления стоп-слов.
Написать код для векторизации текста, используя различный размер
словаря, который выводит результат векторизации, а также производит
обратный процесс — заменяет все численные значения, которые есть в
словаре, на слова.
Оценить понятность текста, прошедшего векторизацию и обратное
преобразование, если перед векторизацией выполнялись или не выполнялись
стемминг, лемматизация и удаление стоп-слов. Определить оптимальную
комбинацию для вашего текста.
"""

In [4]:
def words_freq(words):
  words_counts = Counter(words)
  df = pd.DataFrame(words_counts.items(), columns=["Слово", "Частота"])
  print(df)

## Токенизация слов

In [5]:
words = word_tokenize(text.lower(), language='russian')
unique_words = set(words)

print(f"Количество слов до обработки: {len(words)}")
print(f"Количество различных слов до обработки: {len(unique_words)}")
words_freq(words)

Количество слов до обработки: 129
Количество различных слов до обработки: 85
           Слово  Частота
0              в        3
1         тексте        1
2      посчитать        2
3     количество        2
4      различных        2
..           ...      ...
80  лемматизация        1
81    определить        1
82   оптимальную        1
83    комбинацию        1
84        вашего        1

[85 rows x 2 columns]


## Стеминг слов

In [6]:
stemmer = SnowballStemmer("russian")
stemmed_words = [stemmer.stem(word) for word in words]
unique_stemmed_words = set(stemmed_words)

print(f"Количество слов после стемминга: {len(stemmed_words)}")
print(f"Количество различных слов после стемминга: {len(unique_stemmed_words)}")
words_freq(stemmed_words)

Количество слов после стемминга: 129
Количество различных слов после стемминга: 70
        Слово  Частота
0           в        3
1       текст        6
2     посчита        2
3   количеств        2
4     различн        3
..        ...      ...
65         ил        1
66         не        1
67    определ        1
68  оптимальн        1
69        ваш        1

[70 rows x 2 columns]


## Лематизация слов

In [7]:
morph = MorphAnalyzer()
lemmatized_words = [morph.parse(word)[0].normal_form for word in words]
unique_lemmatized_words = set(lemmatized_words)

print(f"Количество слов после лемматизации: {len(lemmatized_words)}")
print(f"Количество различных слов после лемматизации: {len(unique_lemmatized_words)}")
words_freq(lemmatized_words)

Количество слов после лемматизации: 129
Количество различных слов после лемматизации: 69
          Слово  Частота
0             в        3
1         текст        6
2     посчитать        2
3    количество        2
4     различный        3
..          ...      ...
64          или        1
65           не        1
66   определить        1
67  оптимальный        1
68          ваш        1

[69 rows x 2 columns]


## Удаление стоп-слов

In [8]:
stop_words = set(stopwords.words('russian'))
filtered_words = [word for word in words if word not in stop_words]
unique_filtered_words = set(filtered_words)

print(f"Количество слов после удаления стоп-слов: {len(filtered_words)}")
print(f"Количество различных слов после удаления стоп-слов: {len(unique_filtered_words)}")
words_freq(filtered_words)

Количество слов после удаления стоп-слов: 100
Количество различных слов после удаления стоп-слов: 67
           Слово  Частота
0         тексте        1
1      посчитать        2
2     количество        2
3      различных        2
4           слов        2
..           ...      ...
62  лемматизация        1
63    определить        1
64   оптимальную        1
65    комбинацию        1
66        вашего        1

[67 rows x 2 columns]


## Комбинации методов

In [9]:
stemmed_filtered_words = [stemmer.stem(word) for word in filtered_words]
unique_stemmed_filtered_words = set(stemmed_filtered_words)

print(f"Количество слов после стемминга и удаления стоп-слов: {len(stemmed_filtered_words)}")
print(f"Количество различных слов после стемминга и удаления стоп-слов: {len(unique_stemmed_filtered_words)}")
words_freq(stemmed_filtered_words)

Количество слов после стемминга и удаления стоп-слов: 100
Количество различных слов после стемминга и удаления стоп-слов: 52
           Слово  Частота
0          текст        6
1        посчита        2
2      количеств        2
3        различн        3
4           слов        4
5              ,       11
6         потреб        1
7         выполн        1
8      токенизац        1
9            люб        2
10        способ        1
11             .        8
12           дал        1
13    использова        1
14         готов        1
15       стеммер        1
16  лемматизатор        1
17     библиотек        1
18     произвест        1
19        удален        3
20       стоп-сл        3
21          тест        1
22          кажд        1
23       процесс        2
24          такж        2
25      комбинац        2
26    субъективн        1
27          оцен        2
28        понятн        2
29      стемминг        2
30    лемматизац        2
31        написа        1
32           код 

In [10]:
lemmatized_filtered_words = [morph.parse(word)[0].normal_form for word in filtered_words]
unique_lemmatized_filtered_words = set(lemmatized_filtered_words)

print(f"Количество слов после лемматизации и удаления стоп-слов: {len(lemmatized_filtered_words)}")
print(f"Количество различных слов после лемматизации и удаления стоп-слов: {len(unique_lemmatized_filtered_words)}")
words_freq(lemmatized_filtered_words)

Количество слов после лемматизации и удаления стоп-слов: 100
Количество различных слов после лемматизации и удаления стоп-слов: 51
             Слово  Частота
0            текст        6
1        посчитать        2
2       количество        2
3        различный        3
4            слово        4
5                ,       11
6    потребоваться        1
7        выполнить        1
8      токенизация        1
9            любой        2
10          способ        1
11               .        8
12           далее        1
13    использовать        2
14         готовый        1
15        стеммера        1
16    лемматизатор        1
17      библиотека        1
18      произвести        1
19        удаление        3
20     стопа-слово        3
21            тест        1
22          каждый        1
23         процесс        2
24           также        2
25      комбинация        2
26     субъективно        1
27         оценить        2
28      понятность        2
29        стемминг        2
3

In [11]:
lemmatized_text = ' '.join(lemmatized_words)
stemmed_text = ' '.join(stemmed_words)
filtered_text = ' '.join(filtered_words)

## Векторизация слов

In [12]:
def vectorize_text(text, vocab_size):
    vectorizer = CountVectorizer(max_features=vocab_size)
    X = vectorizer.fit_transform([text])
    return X, vectorizer

def inverse_transform(X, vectorizer):
    return vectorizer.inverse_transform(X)

In [17]:
# векторизации лематизированных слов
X, vectorizer = vectorize_text(lemmatized_text, 70)
print("Результат векторизации:")
print(X.toarray())

inverse_text = inverse_transform(X, vectorizer)
print("Обратное преобразование:")
print(inverse_text)

Результат векторизации:
[[1 1 4 1 1 1 1 2 1 1 3 1 1 1 1 1 2 1 2 1 1 2 2 2 1 2 2 1 1 1 2 1 1 1 2 1
  1 2 2 2 1 1 1 1 2 1 3 1 1 2 7 1 1 2 3 1 2 6 1 1 3 1 1]]
Обратное преобразование:
[array(['текст', 'посчитать', 'количество', 'различный', 'слово', 'для',
       'что', 'потребоваться', 'выполнить', 'токенизация', 'по', 'любой',
       'способ', 'далее', 'использовать', 'готовый', 'стеммера',
       'лемматизатор', 'из', 'библиотека', 'произвести', 'удаление',
       'стопа', 'тест', 'до', 'после', 'каждый', 'процесс', 'также',
       'весь', 'они', 'комбинация', 'субъективно', 'оценить',
       'понятность', 'стемминг', 'лемматизация', 'написать', 'код',
       'векторизация', 'размер', 'словарь', 'который', 'выводить',
       'результат', 'производить', 'обратный', 'заменять', 'всё',
       'численный', 'значение', 'есть', 'на', 'прошедшее',
       'преобразование', 'если', 'перед', 'выполняться', 'или', 'не',
       'определить', 'оптимальный', 'ваш'], dtype='<U14')]


In [19]:
# векторизации стемминговых слов
X, vectorizer = vectorize_text(stemmed_text, 70)
print("Результат векторизации:")
print(X.toarray())

inverse_text = inverse_transform(X, vectorizer)
print("Обратное преобразование:")
print(inverse_text)

Результат векторизации:
[[1 1 4 1 1 1 1 2 1 1 3 1 1 1 1 1 2 1 1 1 1 1 1 2 2 2 1 2 2 1 1 1 2 1 1 2
  1 1 2 2 2 1 1 1 1 2 1 3 1 1 3 4 2 1 1 2 3 1 2 6 1 1 3 1 1]]
Обратное преобразование:
[array(['текст', 'посчита', 'количеств', 'различн', 'слов', 'для', 'чег',
       'потреб', 'выполн', 'токенизац', 'по', 'люб', 'способ', 'дал',
       'использова', 'готов', 'стеммер', 'лемматизатор', 'из',
       'библиотек', 'произвест', 'удален', 'стоп', 'сл', 'тест', 'до',
       'посл', 'кажд', 'процесс', 'такж', 'всех', 'их', 'комбинац',
       'субъективн', 'оцен', 'понятн', 'стемминг', 'лемматизац', 'написа',
       'код', 'векторизац', 'использу', 'размер', 'словар', 'котор',
       'вывод', 'результат', 'производ', 'обратн', 'заменя', 'все',
       'числен', 'значен', 'ест', 'на', 'прошедш', 'преобразован', 'есл',
       'перед', 'выполня', 'ил', 'не', 'определ', 'оптимальн', 'ваш'],
      dtype='<U12')]


In [15]:
# векторизации отфильтрованных слов (после удаления стоп-слов)
X, vectorizer = vectorize_text(filtered_text, 50)
print("Результат векторизации:")
print(X.toarray())

inverse_text = inverse_transform(X, vectorizer)
print("Обратное преобразование:")
print(inverse_text)

Результат векторизации:
[[1 1 1 2 1 1 1 2 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 1 1
  1 1 1 1 1 1 2 5 1 1 3 2 5 2]]
Обратное преобразование:
[array(['посчитать', 'количество', 'различных', 'слов', 'потребуется',
       'выполнить', 'словам', 'любым', 'далее', 'использовать', 'готовый',
       'лемматизатор', 'любой', 'библиотеки', 'произвести', 'удаление',
       'стоп', 'текста', 'каждого', 'процесса', 'также', 'комбинаций',
       'оценить', 'понятность', 'лемматизации', 'написать', 'код',
       'векторизации', 'используя', 'различный', 'который', 'выводит',
       'производит', 'обратный', 'процесс', 'заменяет', 'значения',
       'которые', 'слова', 'прошедшего', 'векторизацию', 'обратное',
       'преобразование', 'векторизацией', 'выполнялись', 'лемматизация',
       'определить', 'оптимальную', 'комбинацию', 'вашего'], dtype='<U14')]


## Оценка методов работы с текстом

In [16]:
def evaluate_text_understandability(text):
    # Субъективная оценка понятности текста
    print(f"Текст: {text}")
    understandability = input("Оцените понятность текста (1-10): ")
    return int(understandability)

# Оценка понятности после стемминга
print("Оценка понятности после стемминга:")
stemmed_score = evaluate_text_understandability(stemmed_text)

# Оценка понятности после лемматизации
print("Оценка понятности после лемматизации:")
lemmatized_score = evaluate_text_understandability(lemmatized_text)

# Оценка понятности после удаления стоп-слов
print("Оценка понятности после удаления стоп-слов:")
filtered_score = evaluate_text_understandability(filtered_text)

# Оценка понятности после векторизации и обратного преобразования
inverse_text_str = ' '.join([' '.join(words) for words in inverse_text])
print("Оценка понятности после векторизации и обратного преобразования:")
inverse_score = evaluate_text_understandability(inverse_text_str)

Оценка понятности после стемминга:
Текст: в текст посчита количеств различн слов , для чег потреб выполн токенизац по слов люб способ . дал использова готов стеммер и лемматизатор из люб библиотек . произвест удален стоп-сл из текст . посчита количеств различн слов в тест до и посл кажд процесс , а такж всех их комбинац . субъективн оцен понятн текст посл стемминг , лемматизац и удален стоп-сл . написа код для векторизац текст , использу различн размер словар , котор вывод результат векторизац , а такж производ обратн процесс — заменя все числен значен , котор ест в словар , на слов . оцен понятн текст , прошедш векторизац и обратн преобразован , есл перед векторизац выполня ил не выполня стемминг , лемматизац и удален стоп-сл . определ оптимальн комбинац для ваш текст .


KeyboardInterrupt: Interrupted by user