## **Анализ текстовых данных**

### **1: датасет**

Задание: найдите датасет в формате *.txt для выполнения этого задания

Условия: датасет должен представлять собой набор текстов, состоять из строк

Тема: которая вас интересует, либо поищите датасеты с текстами киносубтитров

**Ресурсы для поиска данных:**
1. **Kaggle** (kaggle.com/datasets)
2. **GitHub** - репозитории с NLP датасетами
3. **Google Dataset Search**

In [19]:
# скачайте и загрузите датасет через файловую систему
# либо используйте wget/curl
!wget https://raw.githubusercontent.com/cobanov/shakespeare-dataset/refs/heads/main/text/shakespeares-sonnets_TXT_FolgerShakespeare.txt -O data.txt

--2025-12-15 18:04:22--  https://raw.githubusercontent.com/cobanov/shakespeare-dataset/refs/heads/main/text/shakespeares-sonnets_TXT_FolgerShakespeare.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 99272 (97K) [text/plain]
Saving to: ‘data.txt’


2025-12-15 18:04:22 (5.89 MB/s) - ‘data.txt’ saved [99272/99272]



### **2: загрузка данных**

Напишите функцию, которая загружает текстовый файл и возвращает его содержимое

Протестируйте функцию: выведите на экран первые 200 символов

In [20]:
# здесь нужно задать функцию load_dataset()
def load_dataset(data):
      with open(data, 'r', encoding='utf-8') as file:
        data = file.read()
      return data

In [21]:
# тестирование (не меняем эту строку, просто запускаем)
data = load_dataset("data.txt")
print(f"Длина файла: {len(data)}")
print("Первые 200 символов:", data[:200])

Длина файла: 96597
Первые 200 символов: Sonnets
by William Shakespeare
Edited by Barbara A. Mowat and Paul Werstine
  with Michael Poston and Rebecca Niles
Folger Shakespeare Library
https://shakespeare.folger.edu/shakespeares-works/shakesp


### **3: предобработка текста**

Напишите функцию, которая чистит текст от HTML-тегов, спецсимволов (т.е. оставляем основные знаки препинания) и цифр, приводит текст к нижнему регистру и удаляет двойные пробелы

Протестируйте её, прогнав свои данные

In [24]:
# здесь пишем функцию preprocess_text
# функция принимает на вход текст и возвращает очищенный текст
# убедитесь в том, что функция выполняет всё по требованиям:
import re
def preprocess_text(data):
  data = re.sub(r'<[^>]+>', '', data) # 1. удаляет HTML-теги
  data = re.sub(r'[^a-zA-Zа-яА-ЯёЁ0-9\s.,!?:;-]', ' ', data) # 2. удаляет специальные символы
  data = data.lower() # 3. приводит текст к нижнему регистру
  data = re.sub(r'\s+', ' ', data) # 4. заменяет множественные пробелы на один
  return data

In [25]:
# тестирование (не меняем этот блок, только запускаем)
cleaned = preprocess_text(data)
print("До очистки:", data[200:])
print()
print("После очистки:", cleaned[200:])

До очистки: eares-sonnets/
Created on Jul 31, 2015, from FDT version 0.9.0.1




1

From fairest creatures we desire increase,
That thereby beauty's rose might never die,
But, as the riper should by time decease,
His tender heir might bear his memory.
But thou, contracted to thine own bright eyes,
Feed'st thy light's flame with self-substantial fuel,
Making a famine where abundance lies,
Thyself thy foe, to thy sweet self too cruel.
Thou that art now the world's fresh ornament
And only herald to the gaudy spring
Within thine own bud buriest thy content
And, tender churl, mak'st waste in niggarding.
  Pity the world, or else this glutton be--
  To eat the world's due, by the grave and thee.

2

When forty winters shall besiege thy brow
And dig deep trenches in thy beauty's field,
Thy youth's proud livery, so gazed on now,
Will be a tattered weed of small worth held.
Then being asked where all thy beauty lies,
Where all the treasure of thy lusty days,
To say within thine own deep-sunken 

### **4: частотный словарь**

Перед вами стандартный образец создания частотного словаря:

```python
from collections import Counter

freq_dict = Counter(words)
```

В этом примере в переменной words хранится список слов текста

Counter автоматически считает, сколько раз каждое слово встречается в этом списке, и возвращает словарь вида

```
{
    word: count
}
```

\- где word - слово

\- count - его частотность в списке words

Напишите функцию, которая применяет Counter к вашему очищенному списку слов

Запустите её

In [32]:
# напишите функцию get_word_frequencies,
# которая принимает на выход текст
# делит его на слова и возвращает частотный словарь
from collections import Counter

def get_word_frequencies(text):
  words = text.split()
  freq_dict = Counter(words)
  return freq_dict

In [33]:
# тестирование (запускаем, не меняем)
freq_dict = get_word_frequencies(cleaned)
print("Самые частые слова:", freq_dict.most_common(5))

Самые частые слова: [('and', 485), ('the', 439), ('to', 415), ('my', 374), ('of', 373)]


### **5: скрипт `text_analysis.py`**

Создайте файл text_analysis.py, который будет представлять собой модуль для анализа текстовых данных

Структура text_analysis.py:

```python
1. импорт re
2. from collections import Counter
3. def load_data(filename):
4. def clean_text(text):
5. def tokenize_text(text):
6. def create_frequency_dict(tokens):
7. if __name__ == "__main__":
    # внутри этого блока выполняем запуск всех созданных вами функций в правильном порядке с выбранным файлом
```

Сдаём **только** скрипт text_analysis.py

In [None]:
# скрипт сдан отдельно, подгружен в папку с домашними заданиями