# Программирование на Python

*Алла Тамбовцева, НИУ ВШЭ*

## Практикум 4: работа с текстовыми файлами

### Задача 1

В файле `ducks.txt` хранятся цитаты героев "Утиных историй" с указанием автора цитаты (одна строка в файле – цитата и имя героя, разделенные табуляцией).

Глобальная задача: написать игру-угадайку, где пользователю на экран последовательно выводятся цитаты и в ответ на каждую цитату предлагается ввести с клавиатуры имя соответствующего героя.

Для простоты давайте считать, что набор имен ограничен, пользователь должен вводить имена героев из следующего списка: Скрудж, Зигзаг, Клювдия.

Пошаговый алгоритм решения:

1. Считать строки из файла и сохранить их в список.

2. Перебрать строки в списке, разбить каждую по символу табуляции, результаты сохранить в виде кортежей с парами (цитата, герой) в список `results`.

3. Создать переменную `score`, равную нулю. Для каждой пары из `results` вывести на экран цитату (первый элемент пары), запросить ответ, и если он совпадает с автором цитаты (вторым элементом пары), добавить к `score` 1 балл. В конце вывести общий набранный балл в следующем формате:

        Ваш результат: [score]/7.

In [1]:
file = open("ducks.txt", encoding = "UTF-8")
lines = file.readlines()
lines = [line.rstrip() for line in lines]
results = [tuple(line.split("\t")) for line in lines]
score = 0
for phrase, hero in results:
    print(phrase)
    answer = input()
    if answer == hero:
        score += 1
print(f"Ваш результат: {score}/7.")

Были бы крылья, разбиться сумеем!
Зигзаг
Не волнуйтесь, ребята, все мечтают, чтобы я потерялся, но я всегда возвращаюсь!
Зигзаг
На моей кухне я привидений не потерплю!
Клювдия
ГРАБИТЕЛИ! ВОРЫ! ПОЛИТИКИ!

Катастрофа, которую можно избежать — приятная катастрофа.
Зигзаг
Если авария неизбежна, то пусть она будет хотя бы красивой.

Что лучше: богатый селезень или мертвый?

Ваш результат: 4/7.


### Задача 2

Напишите программу, которая приводит текст, сохранённый в файле `text.txt`, к нормальному виду и записывает его в файл `text_norm.txt`. Нормальный вид текста: текст состоит только из слов в начальной форме, записанных маленькими буквами через пробел, нет никаких посторонних символов.

Алгоритм работы после считывания текста в строку:

1. Привести все буквы к нижнему регистру.
2. Заменить все знаки препинания на пробелы.
3. Разбить текст на слова и получить список слов.
4. Избавиться от лишних пробелов в словах внутри полученного списка.
5. Привести каждое слово в списке к начальной форме.
6. Склеить все слова в начальной форме в одну строку с текстом.

**Полезный код 1.** Знаки препинания можно извлечь из строки `punctuation`, которая хранится в модуле `string`. Однако там не все знаки препинания, например, нет русских кавычек-ёлочек и длинного тире. Их можно добавить самостоятельно!

In [None]:
from string import punctuation
print(punctuation)

**Полезный код 2.** Привести слова к начальной форме без специальных библиотек не получится. Можно установить библиотеку `pymorphy2`, в неё встроен морфологический анализатор – программа, которая позволяет выполнять морфологический разбор слова.

Установка библиотеки:

In [None]:
!pip install pymorphy2

Пример работы:

In [2]:
from pymorphy2 import MorphAnalyzer

# создаем анализатор
morph = MorphAnalyzer()

# делаем разбор и забираем начальную форму
print(morph.parse('программистами')[0].normal_form)

программист


In [3]:
morph.parse('стекло')

[Parse(word='стекло', tag=OpencorporaTag('NOUN,inan,neut sing,nomn'), normal_form='стекло', score=0.690476, methods_stack=((DictionaryAnalyzer(), 'стекло', 157, 0),)),
 Parse(word='стекло', tag=OpencorporaTag('NOUN,inan,neut sing,accs'), normal_form='стекло', score=0.285714, methods_stack=((DictionaryAnalyzer(), 'стекло', 157, 3),)),
 Parse(word='стекло', tag=OpencorporaTag('VERB,perf,intr neut,sing,past,indc'), normal_form='стечь', score=0.023809, methods_stack=((DictionaryAnalyzer(), 'стекло', 1015, 3),))]

### Задача 3

Напишите программу, которая на основе текста в нормализованном виде строит облако слов с помощью библиотеки `wordcloud`.

Устанавливаем библиотеку:

In [None]:
!pip install wordcloud

Импортируем оттуда функцию `WordCloud()`, а также модуль `pyplot` для отрисовки графиков (библиотека `matplotlib` установлена вместе с Anaconda):

In [None]:
from wordcloud import WordCloud
from matplotlib import pyplot as plt

In [None]:
# text: a string with normalised text

wordcloud = WordCloud().generate(text)
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

Чтобы убрать стоп-слова (частые слова вроде предлогов, союзов и местоимений, которые не несут большой смысловой нагрузки), загрузим их из текстового файла со словами на Github:

In [2]:
import requests

# отправляем запрос по ссылке
url = "https://raw.githubusercontent.com/stopwords-iso/stopwords-ru/master/stopwords-ru.txt"
response = requests.get(url)

# забираем текст с веб-страницы
stop_text = response.text

Получите на основе `stop_text` список стоп-слов и используйте его в качестве аргумента аргумент `stopwords` в коде ниже:

In [None]:
# заодно сделаем цвет фона белым

wordcloud = WordCloud(stopwords = stop_words, 
                     background_color="white").generate(final)

plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()