_Данный файл является приложением к статье Жучкова С., Ротмистров А. Автоматическое извлечение текстовых и числовых веб-данных для целей социальных наук. Социология: методология, методы, математическое моделирование_

### Базовый минимум программирования

Для веб-скрапинга достаточно освоить некоторые классы данных и действия с ними. Классы данных – это про то, как организовано хранение данных, их представление и доступ к ним. Действия – это про то, как данные обрабатывать. Рассмотрим только те из них, которые наиболее полезны для веб-скрапинга.

#### Переменные и классы данных: числа и тексты, списки и словари

По-человечески, создание переменной в Питоне – это указание компьютеру хранить с своей оперативной памяти некоторую информацию. Информация бывает разного вида. В обыденном восприятии она, скорее всего, представлена в виде чисел и текстов. В терминологии работы с Питоном вид информации называется классом данных. Классов данных в нём очень много, но рассмотрим только наиболее часто используемые.  

В Питоне числа не просто числа; они бывают `int` (от integer) – целые – и `float` – с плавающей точкой (для хранения информации о числе с точностью до какого-либо знака). Создадим\* переменные `a` и `b` и одновременно отнесём их в классы `int` и `float` соответственно:

_\* - но переменная не создастся, если назвать её неправильно. Рекомендации по наименованию: а) использовать латинские буквы, цифры и нижнее подчёркивание, б) начинать с букв, в) не использовать имена, зарезервированные самим Питоном (такие как `int`, `print`, `type`, `for`, `True` и т.п.). В Jupyter Notebook зарезервированные имена подсвечиваются зелёным._

In [1]:
a = 4
print(type(a)) # встроенная функция type() показывает тип интересующей переменной

<class 'int'>


In [2]:
b = 4.0
print(type(b))

<class 'float'>


Отсутствие в числе точки и цифр после неё показывает Питону, что мы хотим, чтобы переменная `a` относилась к классу `int`. А их наличие в случае переменной `b` показывает, что мы хотим, чтобы она относилась к классу `float` (даже если после точки идут только нули).

Тексты в Питоне – это «строки» (`str`; от string). Распознать «строки» среди любых других классов данных можно по кавычкам – одинарным или двойным. Опять же, чтобы «строка» сохранилась в оперативной памяти и с ней было удобно работать, она записывается в переменную.

In [3]:
a = 'python'
print(type(a))

<class 'str'>


In [4]:
b = '4.0'
print(type(b))

<class 'str'>


«Строки» можно индексировать (т.е. извлекать из них отдельные символы, или «подстроки») посредством квадратных скобок: к самой «строке» или к переменной, содержащей «строку», добавляют квадратные скобки, содержащие индекс (порядковый номер) желаемого символа.

Индексирование в Питоне начинается с нуля, т.е. первый элемент всегда имеет индекс 0, второй – 1 и т.д.

Если нужно извлечь последовательность символов, используют т.н. срезы: в тех же квадратных скобках через двоеточие указывают индекс нижней границы желаемой подстроки, индекс верхней границы и «шаг» (необязательный аргумент). Если нижнюю или верхнюю границы опустить, то по умолчанию извлекутся все символы до или с указанной границы соответственно. Можно опустить и обе границы – тогда будут извлечены все символы строки. Нижняя граница в Питоне включается в результат, а верхняя нет.

In [5]:
a = 'python'
print(a[0])
print(a[-1]) #так можно обратиться к последнему символу
print(a[:3])
print(a[2:])
print(a[::2]) #все символы с шагом два

p
n
pyt
thon
pto


Переменные классов `int`, `float`, `str` «способны» хранить в себе единовременно только одно значение, тогда как бывает удобнее записать в переменную много значений сразу. Для этого служат классы списков (`list`) и словарей (`dict`).

**Список** задаётся с помощью квадратных скобок, в которых через запятую указываются его элементы. Он может включать в себе данные различных классов, в т.ч. `int`, `float`, `str`, другие списки и др. Он может быть пустым; может содержать в себе только одно значение. Индексирование списков осуществляется по порядковому номеру (как и в случае «строк»):

In [6]:
[1, 4, 6, 33, 89] #список с данными одного типа
['python', 4, 36.6] #список с данными разного типа
[] #пустой список
[1, 3, 4, [1, 3, 4]] #список со вложенным списком

list_example = [1, 4, 6, 33, 89] #запись списка в переменную
print(list_example[0]) #индексирование списка
print(list_example[:3])
      
list_example.append(3) #добавление элемента в конец списка
print(list_example)

list_example.extend([1, 2]) #расширение списка другим списком
print(list_example)

1
[1, 4, 6]
[1, 4, 6, 33, 89, 3]
[1, 4, 6, 33, 89, 3, 1, 2]


**Словари** состоят из пар «ключ – его значение». Это полезно для хранения данных в привязке к какой-либо характеристике. Допустим, есть задача организовать хранение ответов респондентов на вопрос об их возрасте; оптимальное решение – создать словарь, в котором ключами будут ID респондентов, а значениями – их возраст. Словарь задаётся с помощью фигурных скобок, внутри которых располагаются ключ и его значение, разделённые двоеточием; если пар «ключ-значение» более одной, то они перечисляются через запятую. Индексирование словарей осуществляется не по порядковому номеру (как в списке), а по значению ключа:

In [7]:
dict_example = {'respondent_1': 17, 'respondent_2': 24, 'respondent_3': 33} #запись словаря в переменную
print(dict_example['respondent_1']) #индексирование словаря

17


В Питоне есть ещё более сложные классы данных. Так, модули `requests` и `beautifulsoup4` порождают данные своих собственных классов. Эти данные настолько сложно организованы, что по умолчанию многие их атрибуты не выводятся на экран; чтобы получить эти атрибуты, приходится вводить специальный код (который тоже называется атрибутом). В практике веб-скрапинга работа с такими атрибутами встречается редко – преимущественно при работе с модулем `requests`, что показано ниже.

Веб-данные, как правило, организованы в виде структур из списков и словарей. Чтобы извлечь из них полезную информацию, приходится, во-первых, разбираться в их структуре и корректно индексировать; во-вторых – применять к ним релевантные действия по обработке с учётом класса и структуры данных.

#### Действия с веб-данными: базовые операции и функции, циклы и условия, обработка исключений

Базовые операции для решения простейших задач легко воспроизводятся «с нуля» даже новичком в программировании. Более сложные задачи требуют более сложных действий. Чтобы не писать одно и то же много раз, более опытные программисты оформляют сложные действия в виде функций и хранят их на своих компьютерах или прибегают к встроенным в Питон функциям, или к содержащимся в модулях.

Акцент статьи несколько смещён в пользу действий для классов и структур данных, содержащих тексты, поскольку, как показывает опыт, текстовые веб-данные представляют для социальных учёных особый интерес и при этом их трудно обрабатывать.

Базовые операции – арифметические и операции сравнений; операторы (команды, по-обыденному) для их вызова встроены в Питон; их код и результат (результат сравнения – всегда булево значение `True` или `False`) приведены в табл. 1 и 2 соответственно.  

<div align="right" ><i>Таблица 1</i></div>
<div align="center" ><b>Основные арифметические операторы</b></div>


| Оператор | Действие              | Пример |Результат|
|:--------:|-----------------------|:-------|:-------:|
|`+`       | Сложение              |`5 + 2` |`7`      |
|`-`       | Вычитание             |`5 - 2` |`3`      |
|`*`       | Умножение             |`5 * 2` |`10`     |
|`/`       | Деление               |`5 / 2` |`2.5`    |
|`**`      | Возведение в степень  |`5 ** 2`|`25`     |
|`//`      | Целочисленное деление |`5 // 2`|`2`      |
|`%`       | Остаток от деления    |`5 % 2` |`1`      |

<div align="right" ><i>Таблица 2</i></div>
<div align="center" ><b>Операторы сравнения</b></div>


| Оператор | Описание              | Пример |Результат|
|:--------:|-----------------------|:-------|:-------:|
|`<`       | Меньше                |`6 < 7` |`True`   |
|`<=`      | Меньше или равно      |`6 <= 7`|`True`   |
|`>`       | Больше                |`6 > 7` |`False`   |
|`>=`      | Больше или равно      |`6 >= 6`|`True`   |
|`==`      | Равно                 |`6 == 6.0`|`True`   |
|`!=`      | Не равно              |`6 != 5`|`True`   |

Рассмотренные операторы применимы и к «строкам», но смысл и результат будут отличаться. Например, оператор `+`, применённый к «строкам», приводит к конкатенации («склеиванию»):

In [8]:
'2' + '2'

'22'

Из базовых операций составлены все функции. Многие функции применимы только к тому классу данных, для которого они разработаны. Скажем, среди функций для «строк» есть перевод первого символа «строки» в верхний регистр:

In [9]:
a = 'python'
b = a.capitalize()
print(b)

Python


Эта функция применима только к «строкам». Для разных типов данных бывают похожие функции, но по названию и по содержанию они различаются. В табл. 3 приведены наиболее актуальные в веб-скрапинге функции для «строк». Полный список функций для «строк» с описаниями можно без труда найти в Интернете (по запросу, например "методы строк").

<div align="right" ><i>Таблица 3</i></div>
<div align="center" ><b>Функции для «строк»</b></div>


| Синтаксис             | Действие              | Пример при `a = 'web scraping'` |Результат|
|:----------------------|:----------------------|--------|---|
|`.replace(x, y)`       | Заменить символ(ы) х на символ(ы) у                |`a.replace(' ','-')` |`'web-scraping'`|
|`.capitalize()`        | Привести первый символ к верхнему регистру      |`a.capitalize()`|`'Web scraping'`|
|`.upper()`             | Привести все символы к верхнему регистру                |`a.upper()` |`'WEB SCRAPING'`|
|`.lower()`             | Привести все символы к нижнему регистру      |`a.lower()`|`'web scraping'`|
|`.count(х)`            | Посчитать количество вхождений «подстроки» х в «строку»                 |`a.count('p')`|`1`|
|`.split(х)`            | Разбить «строку» на список по символу х (по умолчанию – по пробелу)           |`a.split()`|`['web', 'scraping']`|
|`.strip()`             | Удалить пробелы с начала и конца «строки»!             |`'  web scraping  '.strip()`|`'web scraping'`|
|`.format(х)`           | Отформатировать «строку»: подставить х в нужное место строки (оно определяется фигурными скобками на этом месте в исходной «строке»)              |`'web{}scraping'.format('-')`|`'web-scraping'`|

Функции для списков: добавление элемента в конец (`.append()`) или любое другое место списка (`.insert()`), удаление элементов (`.remove()`), расширение списка элементами другого списка (`.extend()`), сортировка (`.sort()`) и др.

Функции для словарей: вызов находящихся в них ключей (`.keys()`), их значений (`.values()`), ключей и значений одновременно (`.items()`).

Важно: если применить любую релевантную функцию к «строке» и не записать это действие в переменную, то результат не сохранится даже в оперативной памяти компьютера. Например, если снова применить функцию перевода первого символа «строки» в верхний регистр (как в предыдущем коде), но без записи в переменную:

In [1]:
a = 'python'
a.capitalize()
print(a)

python


Поэтому «строки» в Питоне называются неизменяемым классом. А списки – изменяемый класс. Т.е. если применить любую релевантную функцию к списку и не записать это действие в переменную, то результат всё равно сохранится в оперативной памяти компьютера. В этом свете дополним сказанное выше о словарях: их ключами могут выступать только неизменяемые классы данных, а значениями – любые классы.

Обычно исследователя интересуют не все данные в рамках некоторого источника, а отвечающие характеристикам объекта исследования (допустим, только молодые блогеры из России, пишущие на политические темы). Чтобы автоматически отбирать релевантные объекты, важно уметь писать в Питоне условия; для этого в нём есть операторы:

-	`if` – отвечает за проверку первого условия
-	`elif` – за проверку последующих условий (их может быть сколько угодно; для каждого используется свой оператор `elif`)
-	`else` – за случаи, не удовлетворяющие ни одному предыдущему условию.

`if` – обязательный оператор условия, остальные – опциональные. Примеры синтаксиса (в кодах Питона порядок, двоеточие, отступы – крайне важны):

In [3]:
age = 22
if age <= 35:
    print('Молодой блогер')
elif age <= 50:
    print('Блогер среднего возраста')
else:
    print('Пожилой блогер')

Молодой блогер


In [6]:
age = 36
if age <= 35:
    print('Молодой блогер')
    
#если условие не выполняется, а альтернативного условия нет, то не произойдёт ничего

Если оператор содержит несколько условий, используются операторы `or` и `and`, и их работа подчиняется законам формальной логики. При наличии последовательности операторов условий и при выполнении условия для какого-то из этих операторов проверка завершается (т.е. следующие операторы игнорируются).

Допустим, URL-адреса всех искомых блогеров собраны (сформирован список релевантных «строк»). Допустим также, что страницы этих блогеров структурированы одинаково (что реально, если эти блогеры пишут на одном и том же Интернет-ресурсе). Хорошо бы написать некоторое действие, применимое к странице одного блогера, а потом применить её к страницам остальных блогеров, меняя только URL-адрес… Вызов каждого нового URL-адреса из списка и передача его на вход написанного универсального действия осуществляются посредством цикла. В Питоне есть цикл `for` – позволяет перебрать все элементы из какой-то структуры данных и выполнить с ними некоторое однотипное действие; пример синтаксиса:

In [9]:
URLs = ['http…', ..., 'http…'] #URL-адреса страниц блогеров
for URL in URLs: #URL – название итератора, в который по очереди записываются все элементы из списка URLs
    ... # действие по выгрузке текстов постов со страницы блогера с применением модулей requests и bs4

Текст из блога 1
Текст из блога 2
Текст из блога 3
Текст из блога 4
Текст из блога 5


Цикл `for` может обращаться не к содержимому структуры данных (в нашем примере – к элементам списка `URLs`), а к некоторому числовому диапазону. Допустим, мы захотели узнать число страниц блогеров в собранной базе и сделать механическую выборку из этой базы с шагом 100; для этого подходят функции `len()` и `range()` соответственно.

In [10]:
URLs = ['http…', ..., 'http…']
num = len(URLs) #узнаём длину списка URLs
print(num)

9883


In [11]:
sample_list = [] #создаём пустой список для внесения в него номеров блогеров, попавших в выборку
for i in range(0, num, 100): #цикл «пройдётся» по элементам из числового диапазона 
                             #с первого по последний (невключительно) с шагом 10; 
                             #i – название счётчика, в который по очереди записываются все релевантные элементы: 
                             #0, 100, 200, ..., 9800)
    sample_list.append(i)
print(sample_list)

[0, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1100, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 2000, 2100, 2200, 2300, 2400, 2500, 2600, 2700, 2800, 2900, 3000, 3100, 3200, 3300, 3400, 3500, 3600, 3700, 3800, 3900, 4000, 4100, 4200, 4300, 4400, 4500, 4600, 4700, 4800, 4900, 5000, 5100, 5200, 5300, 5400, 5500, 5600, 5700, 5800, 5900, 6000, 6100, 6200, 6300, 6400, 6500, 6600, 6700, 6800, 6900, 7000, 7100, 7200, 7300, 7400, 7500, 7600, 7700, 7800, 7900, 8000, 8100, 8200, 8300, 8400, 8500, 8600, 8700, 8800, 8900, 9000, 9100, 9200, 9300, 9400, 9500, 9600, 9700, 9800]


Допустим, мы запустили первый цикл – для выгрузки текстов. Это не быстрый процесс – может занять несколько часов, – который к тому же может неожиданно прерваться. Это постоянная проблема веб-скрапинга, имеющая множество причин, среди которых временный разрыв соединения с нужным Интернет-ресурсом, ограничения со стороны ресурса на скорость или объём выгружаемых данных и пр. Если к ней не подготовиться, то, как минимум, придётся перезапускать цикл с той итерации, на которой он прервался; как максимум – все выгруженные данные потеряются. Для предупреждения такой проблемы в Питоне предусмотрен комплекс операторов `try` и `except`, работа которых называется «обработкой исключений». Вставим их в синтаксис цикла из предыдущего кода: 

In [13]:
URLs = ['http…', …, 'http…']

for URL in URLs:
    try:
        # действие по выгрузке текстов постов со страницы блогера с применением модулей requests и bs4
    except:
        print('Ошибка; URL-адрес: ', URL)

Текст из блога 1
Текст из блога 2
Текст из блога 3
Ошибка; URL-адрес: 'www…'
Текст из блога 5


В Питоне есть дугой цикл – `while`. Это цикл с условием, он не привязан ни к каким элементам, а повторяет заложенные в него действия до тех пор, пока истинно условие цикла. Синтаксис цикла `while` схож с синтаксисом условных операторов `if` и `elif`: после оператора `while` идёт условие, которое должно быть проверено, за ним двоеточие и после – с новой строки и через отступ идёт действие, которое должно повторяться в ходе цикла до тех пор, пока выполняется заданное условие. 

По нашему опыту, изложенный минимум программирования в Питоне достаточен, чтобы решать бОльшую часть задач, сопряжённых с веб-скрапингом, получать веб-данные, проводить на них исследования и писать статьи. При этом важно не бояться экспериментировать с кодами и не лениться искать в Интернете дополнительные знания для программирования.