# Программирование для всех (основы работы с Python)

*Алла Тамбовцева, НИУ ВШЭ*

## Практикум 3.2: предварительная обработка текста и построение облака слов

### Подготовка к работе

В этом практикуме мы будем работать с текстом, в частности, построим на основе текста облако слов (*word cloud*), которое показывает, какие слова встречаются в тексте чаще, а какие – реже.

Установим необходимые библиотеки:

* библиотека `wordcloud` для построения облака слов ([тьюториал](https://www.datacamp.com/tutorial/wordcloud-python) по работе с библиотекой);
* библиотека `pymorphy3` для морфологического анализа текстов, понадобится для приведения слов к начальной форме ([документация](https://pymorphy2.readthedocs.io/en/stable/)).

In [None]:
!pip install --upgrade pip
!pip install --upgrade wordcloud 
!pip install --upgrade pymorphy3

Команда `pip install ...` используется для установки библиотек, к ней можно добавить опцию `--upgrade` на случай, если библиотека на компьютере уже установлена в более старой версии, а мы хотим её обновить. Символ `!` в начале строки сообщает Jupyter, что это особая операция, как будто бы запускаемая с командной строки или из терминала, а не код Python с соответствующим синтаксисом. Строка с установкой `pip` в самом начале нужна для обновления самого установщика `pip` (если версия установщика старая, логично, что он не все новые версии библиотек сможет корректно поставить).

Импортируем библиотеки, чтобы убедиться, что всё установилось (для надёжности можно перезапустить ядро через *Kernel - Restart* и после импортировать):

In [None]:
import wordcloud
import pymorphy3

Также импортируем модуль `pyplot` с сокращённым названием `plt` из библиотеки `matplotlib` для отрисовки графиков:

In [None]:
from matplotlib import pyplot as plt

Глобальная задача практикума – построить облако слов для текстов песен Владимира Высоцкого, сохраненных в txt-файле, и сделать его в форме гитары.

Наши первые шаги:

1. Скачать файл `songs.txt` и поместить его в рабочую папку Jupyter через *Upload*.
2. Считать все строки в файле и сохранить их единым текстом – одной огромной строкой `text`.

In [None]:
### YOUR CODE HERE ###

### Задания

### Задача 1

Напишите программу, которая приводит текст, сохранённый в переменной `text`, к *нормальному виду*. Нормальный вид текста: текст состоит только из слов в начальной форме, записанных маленькими буквами через пробел, нет никаких посторонних символов.

Алгоритм работы:

1. Привести все буквы к нижнему регистру.
2. Заменить все знаки препинания и цифры на пробелы.
3. Разбить текст на слова и получить список слов. При необходимости избавиться от лишних пробелов в словах.
4. Привести каждое слово в списке к начальной форме.
5. Склеить все слова в начальной форме в одну строку с текстом.

**Подсказка:** из модуля `punctuation` можно забрать строки со знаками пунктуации и цифрами.

In [None]:
from string import punctuation, digits
print(punctuation, digits)

# еще "–«»—…"

In [None]:
### YOUR CODE HERE ###

### Задача 2

Создайте список `stop_ru` из *стоп-слов* для русского языка для дальнейшей работы с текстом. Для этого скачайте файл `stopwords-ru.txt` и преобразуйте его содержимое.

Стоп-слова – часто встречающиеся в языке слова вроде предлогов, союзов и местоимений, которые не несут большой смысловой нагрузки и которые обычно исключают при визуализации и частотном анализе текстов.

In [None]:
file = open("stopwords-ru.txt", encoding = "UTF-8")
lines = file.readlines()

In [None]:
### YOUR CODE HERE ###

### Задача 3

С помощью библиотеки `wordcloud` постройте облако слов для текста, предварительно обработанного в задаче 1. Исключите при его построении стоп-слова. 

Построим облако слов с помощью `WordCloud()`. Импортируем эту фунцию отдельно, чтобы не таскать длинное название библиотеки за собой:

In [None]:
from wordcloud import WordCloud

In [None]:
wcloud = WordCloud(stopwords = stop_ru).generate(text_norm)

plt.imshow(wcloud)
plt.axis("off")
plt.show()

Если выводятся странные ошибки, попробуйте установить более старую версию библиотеки `Pillow`, от неё зависят некоторые процедуры в wordcloud: `!pip install Pillow==9.5.0`.

In [None]:
fig, ax = plt.subplots(figsize = (16, 9), dpi = 300)
ax.imshow(wcloud)
ax.axis("off")

In [None]:
wcloud = WordCloud(stopwords = stop_ru, 
                  background_color = "white",
                  width = 1600,
                  height = 900).generate(text_norm)

fig, ax = plt.subplots(figsize = (16, 9), dpi = 300)
ax.imshow(wcloud)
ax.axis("off")

# fig.savefig("wordcloud.png")

### Задача 4

Используя изображение из файла `guitar.jpeg`, добавьте маску для облака слов, чтобы сделать его в форме гитары.

В качестве основы для облака слов можно взять изображение, это прекрасно описано в тьюториале [здесь](https://www.datacamp.com/tutorial/wordcloud-python). Мы возьмём векторное изображение с [Freepik](https://ru.freepik.com/). Импортируем набор функций для обработки изображения из библиотеки `PIL` (*Python Imaging Library*) и библиотеку `numpy`, чтобы потом преобразовать изображение в числовой массив:

In [None]:
from PIL import Image
import numpy as np

In [None]:
my_mask = np.array(Image.open("guitar.jpeg"))
print(my_mask)

In [None]:
wcloud = WordCloud(stopwords = stop_ru, 
                  background_color = "white",
                  mask = my_mask,
                  colormap = "magma").generate(text_norm)

fig, ax = plt.subplots(dpi = 300)
ax.imshow(wcloud)
ax.axis("off")

Про палитры в `matplotlib` можно почитать [здесь](https://matplotlib.org/stable/users/explain/colors/colormaps.html).