## Python. Сrawling

Данный семинар посвящен выкачиванию страниц с помощью Python

Для скачивания HTML-страниц в питоне есть специальный модуль [urllib.request](https://docs.python.org/3.0/library/urllib.request.html)

**Пример. ** Скачаем главную страницу https://habrahabr.ru/

In [3]:
import urllib.request 

req = urllib.request.Request('https://habrahabr.ru/')
with urllib.request.urlopen(req) as response:
    html = response.read().decode('utf-8')

Посмотрим, что мы скачали

In [16]:
print(html[:228])


<!DOCTYPE html>
<html lang="ru" class="no-js">
  <head>
    <meta http-equiv="content-type" content="text/html; charset=utf-8" />
<meta content='width=1024' name='viewport'>
<title>Лучшие публикации за сутки / Хабрахабр</title>


Скачали html-код страницы

In [17]:
req = urllib.request.Request('https://ru.wikipedia.org')
with urllib.request.urlopen(req) as response:
    html = response.read().decode('utf-8')

Иногда сайт блокирует запросы, если их посылает не настоящий браузер с пользователем, а какой-то бот. Иногда сайты присылают разные версии страниц, разным браузерам.

По этим причинам полезно бывает писать скрипт, который умеет притворяться то одним, то другим браузером. Когда мы пытаемся получить страницу с помощью urllib, наш код по умолчанию честно сообщает серверу, что он является программой на питоне, но можно, например, представиться Мозиллой.

In [20]:
url = 'https://habrahabr.ru/'
user_agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64)'

req = urllib.request.Request('https://habrahabr.ru/', 
                             headers={'User-Agent':user_agent})  

with urllib.request.urlopen(req) as response:
    html = response.read().decode('utf-8')

Мы получили код страницы, теперь нам нужно вытащить из неё информацию, например заголовки статей 

Для начала нужно посмотреть в исходник и заметить, что заголовки хранятся в тэге h2 с классом post__title

Далее следует воспользоваться регулярными выражениями и модулям [re](https://docs.python.org/2/library/re.html)

In [38]:
import re

regPostTitle = re.compile('<h2 class="post__title">.*?</h2>', 
                          re.DOTALL)
titles = regPostTitle.findall(html)

print('Количество заголовков на данной странице %d'%len(titles))
print('Посмотрим на первый заголовок:')
print(titles[0])

Количество заголовков на данной странице 10
Посмотрим на первый заголовок:
<h2 class="post__title">
    <a href="https://habrahabr.ru/post/344616/" class="post__title_link">Критика 1С</a>
  </h2>


Далее нужно отчистить заголовки от лишних тегов

In [34]:
def titles_cleaner(title):
    title = re.sub(r'<[^<>]*>', '', title)
    title = re.sub(r'\n', '', title)
    return title.strip()

titles_clean = [titles_cleaner(title) for title in titles]

Посмотрим на то, что у нас получилось

In [37]:
for i, title in enumerate(titles_clean):
    print('%d. %s'%(i, title))

0. Критика 1С
1. Рожденный перехватывать трафик
2. Vivaldi Sync — первое знакомство
3. Интернет вещей: Arduino в связке с облаком
4. Когда биткоин перестанет расти: токены — настоящая альтернатива коинам
5. Интеллектуальные чат-боты на ChatScript: основы
6. Разработка через приемочные тесты (ATDD). Что это такое, и с чем его едят
7. Битва за сетевой нейтралитет: история вопроса
8. Итальянская забастовка роботов
9. Фэйковый дизайн


**Задача 1. ** Скачать главную страницу Яндекс.Погоды и сделать следующее: (1) распечатать сегодняшнюю температуру и облачность, (2) распечатать время восхода и заката, (3) погоду на завтра

**Задача 2.** Скачать главную страницу waitbutwhy.com. Распечатать заголовки популярных постов (которые в колонке справа с надписью Popular Posts) и колличество комментариев у каждого из них.

Далее мы научимся выкачивать содержимое не одной страницы, а целого сайта или даже многих сайтов. Понятно, что перечислить все интересующие нас адреса вручную, чтобы выкачать их по отдельности, в таком случае не получится.

Основной проблемой сотоит в том, как узнать адреса всех страниц, которые требуется скачать. Рассмотрим два подхода:

1. *Первый подход* обычно применяется, когда нужно загрузить все страницы какого-нибудь крупного ресурса --- например, газеты или форума. Адреса страниц на таких сайтах нередко устроены довольно просто: начинаются они все одинаково, а заканчиваются разными числами. Если внимательно посмотреть на адреса нескольких произвольных страниц, можно довольно быстро выяснить, так ли это и каков допустимый диапазон номеров страниц. В этом случае закачка всех страниц будет представлять собой простой цикл, в котором будут перебираться все номера страниц из этого диапазона.

2. *Второй подход* обычно применяется в краулерах --- программах, которые обходят какой-то фрагмент интернета, собирая информацию с разных сайтов. Краулерами, например, пользуются поисковые системы, чтобы индексировать содержимое сайтов. Краулер начинает работу с одной или нескольких страниц, адреса которых задаются вручную, а затем переходит по всем ссылкам из этих страниц. Каждый раз, когда краулер загружает очередную страницу, он находит на ней не только нужную ему информацию, но и все ссылки, которые добавляются в очередь. Важно при этом помнить, где краулер уже побывал, чтобы не переходить по нескольку раз на одни и те же страницы. В настоящих краулерах применяют и другие ухищрения, например, чтобы выяснить, по каким ссылкам лучше переходить сначала, но мы этого касаться не будем.

**Пример. ** Допустим хотим скачать все посты главного албанского форума http://www.forumishqiptar.com

С ходу трудно разобраться, что там к чему, но если присмотреться, станет понятно, что перед нами список тем. Нажав на какую-нибудь тему, мы попадём на страницу со списком тредов, а нажав на тред, обнаружим страницу с постами. Это, видимо, и есть та страница нижнего уровня, которые мы хотим скачивать.

Посмотрим на адреса нескольких таких страниц. Выглядят они примерно так:

http://www.forumishqiptar.com/threads/79403-%C3%87far%C3%AB-%C3%ABsht%C3%AB-dashuria

http://www.forumishqiptar.com/threads/41551-P%C3%ABrkufizimi-i-dashuris%C3%AB%21%21

http://www.forumishqiptar.com/threads/160424-Mos-luaj-me-dashurin

Обратим внимание, на то что начало у всех ссылок одинаковое, а далее идёт номер. Если бы дело ограничелось только номером, то их можно было бы с лёгкостью перебрать их все, но мы видим, что после номера идёт ещё и текст, а вот это уже проблема. Одним из решений было бы загрузить сначала страницы с темами и найти в них полные ссылки на треды. 

Однако мы применим хитрость, которая срабатывает в 90% случаев вроде этого. Попробуем взять адрес какой-нибудь страницы, вручную убрать в нём всё после числа и ввести это в адресную строку браузера. 
Вуаля! Всё работает и без заголовка (точнее, происходит автоматическое перенаправление). Это значит, что мы можем пользоваться перебором номеров. Для этого нам достаточно узнать диапазон -- номера самой первой и самой последней (по времени) страницы -- это остаётся в качестве **упражнения**.

In [39]:
import urllib.request
from tqdm import tqdm_notebook as tqdm

def download_page(pageUrl):
    try:
        page = urllib.request.urlopen(pageUrl)
        html = page.read().decode('ISO-8859-1')
        keywords = re.findall('<meta name="keywords" .* />', html)[0]
        keywords = keywords.replace('<meta name="keywords" content="'
                                    , '')
        keywords = keywords.replace('" />', '')
        return keywords
    except urllib.request.HTTPError:
        return 'Error at %s'%pageUrl

commonUrl = 'http://www.forumishqiptar.com/threads/'
for i in tqdm(range(160400, 160425)):
    pageUrl = commonUrl + str(i)
    print('%d: %s'%(i, download_page(pageUrl)))
    print()

A Jupyter Widget

160400: kalohet, artikulli, http://zeri.info/aktuale/19017/40-kosovare-te-ngujuar-ne-meksike-kerkojne-ndihmen-e-qeverise-kosoves, kushton, artikull, meksika, http://www.reporter.al/nga-bjeshket-ne-bronks-udhetimi-ilegal-i-shqiptareve-drejt-amerikes, veshtiresite

160401: perdoret, amerike, legalisht, kuptohet, kalimin, meksike, shqipetar, perkohsisht, pershkak

160402: meksike, shqipetar, shqiptare

160403: shqiptari, https://www.youtube.com/watch?v=j_y4gljvga0, bubrrec, kelmendi

160404: dashuria, dashuri, dashurinë, ndoshta, njerëzit, keqardhje, vetvetes, instikt, padobishëm, jetojmë, këshillë, mallkuar, shekullin, kërkesa, ekzistonte, konceptohet, dëshira, rrënjët, rastësia, vërtetë, dëbohesh, problemin, instikti, ndihesha, ndryshe, nevojën, kurrësesi, arsyeshëm, shqetësohesha, partnere, instiktivisht, sugjeroj, jetojnë, shqetëson, kundërta, saktësi, kërkosh

160405: erdoganit, vellazerise, harroni, mbeshtesin, mbeshtesni, erdoganin, padrejtesia, myslimane, njerezve, trajtim, postim

**Замечание. ** Когда Ваша программа выкачивает много страниц сразу, она создаёт нагрузку на сервер выкачиваемого сайта -- и эта нагрузка намного больше, чем нагрузка от обычного посещения сайта людьми. Если Вы выкачиваете содержимое крупного сайта с одного компьютера, то ничего страшного в этом, скорее всего, нет. Но если это не какой-то крупный ресурс, который владеет мощными серверами, и тем более если страницы с него скачивают несколько человек одновременно, это может создать реальные проблемы владельцам выкачиваемого ресурса. Поэтому, во-первых, нужно всегда выяснять, не доступно ли всё содержимое нужного Вам ресурса по отдельной ссылке (например, так обстоит дело с Википедией), а во-вторых, ставить между обращениями к серверу искуственный временной интервал хотя бы в пару секунд:

In [40]:
import time

time.sleep(2)

**Замечание.** Нужно не забывать, что для отображения на html-странице символов, которых нет на клавиатуре, применяются специальные последовательности символов, начинающиеся с амперсанда (&) и заканчивающиеся точкой с запятой (;). Чтобы получить текст не с такими последовательностями, а с нормальными символами, используется специальная функция в питоне unescape:

In [45]:
import html

print( html.unescape('Петя &amp; Вася'))
print( html.unescape('Специальные символы: &quot; &laquo; &raquo; &spades; &hearts; &clubs; &diams; и так далее'))

Петя & Вася
Специальные символы: " « » ♠ ♥ ♣ ♦ и так далее


**Задача 3.** Вообще-то в длинных постах бывает по многу страниц, например, как тут: http://www.forumishqiptar.com/threads/79403 Нужно написать код, который умеет скачивать все страницы треда, а не только первую.