# Web-scraping: сбор данных из баз данных и интернет-источников

*Алла Тамбовцева, НИУ ВШЭ*

## Порядок создания приложения с помощью `streamlit` 

### Шаг 1: установка библиотеки

Устанавливаем библиотеку `streamlit`:

In [None]:
!pip install streamlit

Если при установке возникает ошибка, два пути:
    
* прочитать в сообщении об ошибке, из-за установки каких зависимостей (других библиотек для успешной работы `streamlit`) возникают проблемы и попробовать установить их отдельно;

* поставить более раннюю версию `streamlit` (например, версия 0.62), которая требует установки меньшего числа вспомогательных библиотек.

Ради экономии времени мы пойдем по второму пути. Это не очень классно, потому что так мы теряем многие интересные возможности новых версий, но для простых приложений этого будет достаточно:

In [None]:
!pip install streamlit==0.62

### Шаг 2: создание исполняемого файла с кодом для приложения

Возвращаемся на главную страницу *Home Page* в *Jupyter Notebook*, создаем новый текстовый файл (*New – Text file*), переименовываем его в `myapp.py`, вписываем в него следующие строки и сохраняем изменения:

In [None]:
import streamlit as st
st.title("Now we will generate wordclouds for Shakespeare's plays!")

Этот код импортирует библиотеку и добавит на страницу с приложением заголовок с введенным текстом.

**Важно:** проверьте, что вы создали текстовый файл (не ipynb-файл) и что в конце названия этого файла стоит расширение `.py`. 

Что такой исполняемый файл? Файл с программой на Python, которую интерпретатор этого языка может считать и выполнить. Ранее мы сохраняли код внутри ячейки Jupyter Notebook, теперь мы можем код из этой ячейки «вынести» в отдельный файл безо всяких излишеств. 

Почему ipynb-файл не подходит? Файл с расширением `.ipynb` предназначен для хранения красивого размеченного текста и кода в виде ячеек с возможностью последующего запуска кода из этих ячеек в Jupyter или аналогичной среде, не для обработки и исполнения кода на «чистом» Python. Формально ipynb-файл – текстовый файл, который внутри выглядит как сложная JSON-строка. 

Для сравнения. Внутри созданного нами файла `myapp.py` только две строки кода, больше ничего. А если создать аналогичный ipynb-файл с одной ячейкой с теми же строками кода, изнутри он будет выглядеть так:

```{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "import streamlit as st\n",
    "st.title(\"Now we will generate wordclouds for Shakespeare's plays!\")"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.7.4"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}
```

### Шаг 3: запуск исполняемого файла с приложением

Исполняемые файлы запускаются из командной строки (терминала). 

* На Windows: заходим в *Пуск* в папку *Anaconda*, находим *Anaconda Command Prompt*, запускаем.
* На Mac: находим в *Launchpad* или через поиск *Терминал* (обычно в папке *Другие*), запускаем.

**Важно:** это должно быть новое окно командной строки, не то окно, которое открывается при запуске Jupyter Notebook. Если выполнять последующие действия в окне терминала, где выдаются сообщение о процессах Jupyter Notebook, ничего не сработает, плюс, Jupyter перестанет исполнять команды и сохранять изменения в файлах (мы «перебьем» своим вмешательством соединение Jupyter с ядром Python).

После запуска командной строки в окне вводим строку и нажимаем *Enter*:

    streamlit run myapp.py
    
При первом запуске обычно запрашивается e-mail, его можно пропустить, просто нажав *Enter*. Если все нормально, в командной строке будет указана ссылка на страницу с приложением на компьютере (например, `http://localhost:8501`), плюс, скорее всего, эта страница откроется в новой вкладке браузера. Пока это просто страница с заголовком.
    
Если выводится ошибка вида `File does not exist`, а файл `myapp.py` точно создан, проверьте, в какой папке он сохранен. Три пути решения:

* смотрим, из какой папки запускается командная строка (путь перед `>` или долларом в строке, где мы вводили команду с `run`), перемещаем/копируем файл `myapp.py` туда; туда же потом надо будет сохранить файлы с данными для работы;

* находим файл `myapp.py` на компьютере, забираем из свойств файла полный путь к нему и запускаем приложение, указав этот путь в кавычках (тогда потом придется полностью прописывать пути ко всем файлам с данными):

        streamlit run "C://Users/student/Documents/myapp.py" 
    
* узнаем, какая папка является рабочей, переходим к ней в командной строке и потом снова запускаем строку с `run`, например:

        cd "C://Users/student/Documents"
        streamlit run myapp.py
        
Здесь `cd` – команда для того, чтобы сделать папку рабочей (от *current directory*). Это довольно удобное решение, потому что тогда мы сможем спокойно хранить все необходимые файлы в этой папке и не перемещать их туда, куда «удобнее» командной строке.

Рабочая папка – папка, где находится файл `myapp.py`. Раз мы создаем его через Jupyter, если рядом с этим файлом есть ipynb-файл, в нем можно запустить код для получения пути к этой папке:

    import os
    os.getcwd()


### Шаг 4:  редактируем приложение

Открываем файл `myapp.py` и делаем приложение более осмысленным. Наше приложение будет предлагать пользователю выбрать одно из произведений У.Шекспира и цвет для фона облака слов по этому произведению, а затем строить облако слов прямо на странице приложения. 

Для начала создадим словарь `files` с названиями файлов и более красивыми названиями произведений У.Шекспира и заберем значения в словаре (`values`) – они будут использоваться в качестве опций в выпадающем меню для выбора произведения.

In [None]:
files = {"hamlet.txt" : "Hamlet",
         'macbeth.txt': "Macbeth", 
         'midsummer.txt' : "Romeo and Juliet", 
         "romeo-juliet.txt" : "A Midsummer Night's Dream"}
plays = list(files.values())

Добавим меню разного вида:

* `selectbox()`: выпадающее меню;
* `radio()`: радио-кнопки с выбором одного ответа;
* `button()`: кнопка для построения облака слов.

In [None]:
box = st.selectbox('Choose a play', plays)
color = st.radio('Choose backgroud color', ['white', 'black'])
button = st.button("Get the cloud!")

Итого: в файле `myapp.py` должны быть следующие строки:

In [None]:
import streamlit as st

files = {"hamlet.txt" : "Hamlet",
         'macbeth.txt': "Macbeth", 
         'midsummer.txt' : "A Midsummer Night's Dream", 
         "romeo-juliet.txt" : "Romeo and Juliet"}
plays = list(files.values())

st.title("Now we will generate wordclouds for Shakespeare's plays!")
box = st.selectbox('Choose a play', plays)
color = st.radio('Choose backgroud color', ['white', 'black'])
button = st.button("Get the cloud!")

Перезагружаем страницу с приложением (обновляем страницу в браузере) и смотрим на изменения. Теперь на странице должны быть два меню с выбором опций и кнопка (и, конечно, заголовок). 

Для построения облака слов ранее был написан код, который загружает тексты из txt-файлов и отрисовывает графики с помощью библиотек `wordcloud` и `matplotlib`. Чтобы посмотреть, как он работает:

* скачайте txt-файлы с текстами У.Шекспира со страницы курса;
* скопируйте код с файла `myapp.py` в свой исполняемый файл и сохраните изменения;
* обновите страницу с приложением. 

Все должно работать, если необходимые библиотеки (здесь только `wordcloud` из не идущего вместе с Anaconda по умолчанию) установлены.

### Пояснения к некоторым фрагментам кода

Импорт необходимых библиотек и функций:

In [None]:
from string import punctuation
from wordcloud import WordCloud, STOPWORDS
from matplotlib import pyplot as plt

Функция для считывания строк из файла по названию файла:
    
* открываем файл через `open()`, считываем строки в список `lines`;
* удаляем лишние отступы (переходы на новую строку `\n`) в каждой строке;
* фильтруем список строк – убираем пустые через `filter()` и превращаем результат в список через `list()`;
* склеиваем строки в один большой текст.

In [None]:
def read_clean_text(filename):
    file = open(filename)
    lines = file.readlines()
    clean = [line.strip() for line in lines]
    final = list(filter(lambda x: x != '', clean))
    text = "\n".join(final)
    return text

Применяем эту функцию ко всем файлам в `files` и создаем новый словарь `texts`, где ключи – названия произведений, значения – их тексты единой строкой.

In [None]:
texts = {}
for file, name in files.items():
    texts[name] = read_clean_text(file)

Функция для предварительной обработки текста (минимальная обработка, для примера):

* делаем все буквы строчными;
* убираем знаки пунктуации – заменяем их на пробелы;
* разбиваем все на слова по пробелу или нескольким пробелам;
* склеиваем слова в новый единый текст для облака слов.

В эту функцию можно добавить код для приведения слов к начальной форме и вообще для более грамотного разбиения на слова (чтобы сокращения обрабатывались правильно). Как вариант – библиотека `nltk` для обработки текста.

In [None]:
def get_cleaned_words(text):
    text = text.lower()
    for p in punctuation:
        text = text.replace(p, " ")
    words = text.split()
    words_str = " ".join(words)
    return words_str

Применяем эту функцию ко всем файлам в `texts` и создаем новый словарь `words`, где ключи – названия произведений, значения – слова через пробел единой строкой.

In [None]:
words = {}
for name, text in texts.items():
    words[name] = get_cleaned_words(text)

Функция для построения облака слов:
    
* аргументы – название текста `choice` и цвет фона `color`;
* улучшаем настройки рисунка – размер и разрешение `dpi`;
* строим облако слов, учитываем стоп-слова;
* сохраняем рисунок в png-файл.

In [None]:
def show_cloud(choice, color):
    fig, ax = plt.subplots(figsize = (8, 4.5), dpi = 200) 
    wcloud = WordCloud(stopwords = STOPWORDS, 
                       background_color = color,
                       max_words=50).generate(words[choice])
    plt.imshow(wcloud, interpolation="bilinear")
    plt.axis("off")
    fig.savefig("cloud.png")

Описываем, что должно происходить, если кнопка `button` нажата (пользователь кликнул на нее):

In [None]:
# если кликнул – запускаем функцию для облака слов
# выводим на страницу изображение с этим облаком
# use_column_width=True – чтобы ширина картинки подстраивалась под меню
# если еще не кликнул – выводим на страницу текст

if button:
    show_cloud(box, color)
    st.image('cloud.png', use_column_width=True)
else:
    st.write("Just wait")