# Основы программирования на Python - Экзамен

Загружаем файл для анализа по предоставленной ссылке;

In [2]:
!wget https://raw.githubusercontent.com/brunoklein99/deep-learning-notes/master/shakespeare.txt

--2023-12-25 16:10:41--  https://raw.githubusercontent.com/brunoklein99/deep-learning-notes/master/shakespeare.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 94275 (92K) [text/plain]
Saving to: ‘shakespeare.txt’


2023-12-25 16:10:41 (44.8 MB/s) - ‘shakespeare.txt’ saved [94275/94275]



Импортируем библиотеку nltk.

В первую очередь устанавливаем пакет **popular** - он уже содержит большую часть нужных нам инструментов.

Дополнительно загружаем (под)модули/функции **stopwords**, **FreqDist** и **word_tokenize**;

In [3]:
import nltk
nltk.download('popular')
from nltk.corpus import stopwords
from nltk.probability import FreqDist
from nltk.tokenize import word_tokenize

[nltk_data] Downloading collection 'popular'
[nltk_data]    | 
[nltk_data]    | Downloading package cmudict to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/cmudict.zip.
[nltk_data]    | Downloading package gazetteers to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/gazetteers.zip.
[nltk_data]    | Downloading package genesis to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/genesis.zip.
[nltk_data]    | Downloading package gutenberg to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/gutenberg.zip.
[nltk_data]    | Downloading package inaugural to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/inaugural.zip.
[nltk_data]    | Downloading package movie_reviews to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping corpora/movie_reviews.zip.
[nltk_data]    | Downloading package names to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/names.zip.
[nltk_data]    | Downloading package shakespeare to /root/nltk_data...
[nlt

# Экзаменационное задание. Часть I

Библиотека импортирована, файл добавлен на диск и находится в директории /content/sample_data.

Теперь напишем последовательность инструкций для:
 - открытия файла
 - токенизации текста файла
 - удаления стоп-слов
 - составления частотного словаря

Откроем файл с помощью **with open** и поместим его в переменную **shake**.

In [4]:
with open('/content/shakespeare.txt') as text_file:
 shake = text_file.read()

Далее воспользуемся функцией **word_tokenize** для пословного извлечения токенов из текста.

Посчитаем количество токенов с помощью встроенной функции **len**.


In [5]:
tokenized_shake = word_tokenize(shake)
print(len(tokenized_shake))

20532


20532 токенов - это много. Скорее всего, большая часть из них входит в список стоп-слов.

Создадим множества стоп-слов и знаков пунктуации.

Объединим названные множества и напишем цикл для их извлечения.

Чтобы упростить код воспользуемся списковым включением (list comprehesion).

In [7]:
to_remove = set(stopwords.words('english'))
punctuation = {',', '.', '!', '-', '?', ':', ':'}
to_remove.update(punctuation)
ultratokenized_shake = [word for word in tokenized_shake if not word in to_remove]
print(len(ultratokenized_shake))

11850


Для частотного анализа применим класс FreqDist (frequency distributions).

С помощью метода most_common получим список кортежей с самыми частыми токенами и их количеством.

In [8]:
frequency_shake = FreqDist(ultratokenized_shake)
frequency_shake.most_common(10)

[('I', 351),
 ('thy', 258),
 ('And', 242),
 ('thou', 209),
 ("'s", 202),
 ('love', 176),
 ('thee', 161),
 ('But', 89),
 ('That', 84),
 ('doth', 82)]

# Экзаменационное задание. Часть II

Теперь напишем функцию, которая могла бы совмещать в себе все ранее созданные "программы".

Как и предложено, назовём функцию *word_frequency_analysis*.

Для универсальности переименуем переменную **shake** в переменную **text**.

In [13]:
def word_frequency_analysis(file_path, n=5):
  with open(file_path) as text_file:
    text = text_file.read()

  tokenized_text = word_tokenize(text)

  to_remove = set(stopwords.words('english'))
  punctuation = {',', '.', '!', '-', '?', ':', ':'}
  to_remove.update(punctuation)
  ultratokenized_text = [word for word in tokenized_text if not word in to_remove]

  frequency_text = FreqDist(ultratokenized_text)
  return('Частотный словарь:', frequency_text.most_common(n))

In [18]:
file_path = '/content/shakespeare.txt'
word_frequency_analysis(file_path, 10)

('Частотный словарь:',
 [('I', 351),
  ('thy', 258),
  ('And', 242),
  ('thou', 209),
  ("'s", 202),
  ('love', 176),
  ('thee', 161),
  ('But', 89),
  ('That', 84),
  ('doth', 82)])

Готово!