# Семинар 1. Выкачиваем Интернет.

## Введение
Современный Интернет предоставляет лингвистам большое количество языковых данных: электронные газеты и журналы, блоги, форумы, социальные сети и т.д. Например, можно найти в сети много-много текстов и собрать корпус, или найти все газетные статьи и блог-посты про какую-нибудь корпорацию и проанализировать тональность сообщений. Сейчас мы научимся заниматься выкачиванием страниц из интернета с помощью Python.

Для скачивания HTML-страниц в питоне есть специальный модуль **urllib.request**. 

## Минимальный пример
Допустим, мы хотим скачать главную страницу Хабрахабра.  
На самом деле, когда мы хотим открыть какую-то страницу в интернете, наш браузер отправляет на сервер запрос ("Привет, сервер! я хочу код страницы по вот такому адресу!"), а сервер затем отправляет ответ ("Привет! Вот код страницы: ...").
Чтобы получить страницу через питон, нужно сформировать запрос на сервер так же, как это делает браузер:

In [1]:
import urllib.request  # импортируем модуль 
req = urllib.request.Request('https://habrahabr.ru/')
with urllib.request.urlopen(req) as response:
   html = response.read().decode('utf-8')

В переменной **req** у нас как раз находится запрос.
Функция **urlopen** получает ответ сервера и скачивает страницу по ссылке https://habrahabr.ru/ в переменную **response**. **response** ведет себя как файл: например мы можем прочитать его содержимое с помощью **.read()** в другую переменную. 
Вот так просто мы сохранили код страницы в переменной **html**. Убедимся, что в там лежит html-код:

In [2]:
print(html[:210])

<!DOCTYPE html>
<html lang="ru" class="no-js">
  <head>
    <meta http-equiv="content-type" content="text/html; charset=utf-8" />
<meta content='width=1024' name='viewport'>
<title>Лучшие публикации за сутки / 


Иногда сайт блокирует запросы, если их посылает не настоящий браузер с пользователем, а какой-то бот (например, так делает Гугл или Википедия). Иногда сайты присылают разные версии страниц, разным браузерам.  
По этим причинам полезно бывает писать скрипт, который умеет притворяться то одним, то другим браузером.
Когда мы пытаемся получить страницу с помощью **urllib**, наш код по умолчанию честно сообщает серверу, что он является программой на питоне. Он говорит что-то вроде "Привет, я Python-urllib/3.5". 
Но можно, например, представиться Мозиллой:

In [3]:
url = 'https://habrahabr.ru/'  # адрес страницы, которую мы хотим скачать
user_agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64)'  # хотим притворяться браузером

req = urllib.request.Request(url, headers={'User-Agent':user_agent})  
# добавили в запрос информацию о том, что мы браузер Мозилла

with urllib.request.urlopen(req) as response:
   html = response.read().decode('utf-8')

## Напоминание: как найти на странице что-нибудь
Теперь предположим, что мы хотим выкачивать заголовки статей с главной страницы Хабрахабра. Код страницы у нас уже есть, но как из него что-то вытащить. Для начала нужно посмотреть в [исходник](view-source:https://habrahabr.ru/) и заметить, что заголовки хранятся в тэге **h2** с классом **post__title**. Заголовок выглядит примерно так:

<h2 class="post__title">
      <a href="https://habrahabr.ru/flows/admin/" class="post__flow"  onclick="if (typeof ga === 'function') { ga('send', 'event', 'flow', 'feed page', 'Администрирование'); }">Администрирование</a><span class="post__title-arrow">&nbsp;&rarr;</span>
      <a href="https://habrahabr.ru/company/okmeter/blog/309600/" class="post__title_link">Мониторинг сетевого стэка linux</a>
    </h2>
 
А код у него такой:

In [5]:
<h2 class="post__title">
      <a href="https://habrahabr.ru/flows/admin/" class="post__flow"  onclick="if (typeof ga === 'function') { ga('send', 'event', 'flow', 'feed page', 'Администрирование'); }">Администрирование</a><span class="post__title-arrow">&nbsp;&rarr;</span>
      <a href="https://habrahabr.ru/company/okmeter/blog/309600/" class="post__title_link">Мониторинг сетевого стэка linux</a>
    </h2>

Чтобы вытащить все такие заголовки, воспользуемся регулярным выражением.

In [7]:
import re
regPostTitle = re.compile('<h2 class="post__title">.*?</h2>', flags= re.DOTALL)
titles = regPostTitle.findall(html)

Посмотрим, сколько там заголовков. И взглянем, например, на первые три.

In [8]:
print(len(titles))

18


In [9]:
print(titles[:3])

['<h2 class="post__title">\n    <a href="https://habr.com/company/crossover/blog/424701/" class="post__title_link">Невыдуманные IT-истории о самозванцах и почему появились эти непонятные практики на собеседованиях</a>\n  </h2>', '<h2 class="post__title">\n    <a href="https://habr.com/company/mosigra/blog/424675/" class="post__title_link">Что происходит в рознице</a>\n  </h2>', '<h2 class="post__title">\n    <a href="https://habr.com/post/424767/" class="post__title_link">Делаем из Хабра торт. Снова</a>\n  </h2>']


Теперь давайте очистим заголовки от лишних переносов строк, лишних тэгов и распечатаем их подряд.

In [10]:
new_titles = []
regTag = re.compile('<.*?>', re.DOTALL)
regSpace = re.compile('\s{2,}', re.DOTALL)
for t in titles:
    clean_t = regSpace.sub("", t)
    clean_t = regTag.sub("", clean_t)
    new_titles.append(clean_t)
for t in new_titles:
    print(t)

Невыдуманные IT-истории о самозванцах и почему появились эти непонятные практики на собеседованиях
Что происходит в рознице
Делаем из Хабра торт. Снова
Как поступить на PhD программу по машинному обучению
Краткая история цифровой клавиатуры
Frontend Conf — с заботой о пользователе
Все люди не умеют писать код
42-й протокол жизни, вселенной и всего такого: «напутственная речь»
«У нас есть идеи для Maven 4 и даже Maven 5» — интервью с Robert Scholte, ключевым участником проекта Maven
Деньги любят счёт: как машины сортируют купюры
Использование Consul для масштабирования stateful-сервисов
Топ-10 докладов Mobius 2018 Piter
Антенна из пульверизатора: миниатюрность, гибкость и производительность
Как расширять Kubernetes
Горячая история техподдержки, или Почему AutoCAD удаляет прокси-объекты?
Почему компилятор превратил мой цикл с условием в бесконечный?
Дайджест событий для HR-специалистов в сфере IT на октябрь 2018
ДНК. Механизмы хранения и обработки информации. Часть I


Ну и осталось убрать некрасивые кусочки html, а именно заменить специальные html-последовательности nbsp и rarr на стрелочку, например.

In [11]:
for t in new_titles:
    print(t.replace("&nbsp;&rarr;", " -> "))

Невыдуманные IT-истории о самозванцах и почему появились эти непонятные практики на собеседованиях
Что происходит в рознице
Делаем из Хабра торт. Снова
Как поступить на PhD программу по машинному обучению
Краткая история цифровой клавиатуры
Frontend Conf — с заботой о пользователе
Все люди не умеют писать код
42-й протокол жизни, вселенной и всего такого: «напутственная речь»
«У нас есть идеи для Maven 4 и даже Maven 5» — интервью с Robert Scholte, ключевым участником проекта Maven
Деньги любят счёт: как машины сортируют купюры
Использование Consul для масштабирования stateful-сервисов
Топ-10 докладов Mobius 2018 Piter
Антенна из пульверизатора: миниатюрность, гибкость и производительность
Как расширять Kubernetes
Горячая история техподдержки, или Почему AutoCAD удаляет прокси-объекты?
Почему компилятор превратил мой цикл с условием в бесконечный?
Дайджест событий для HR-специалистов в сфере IT на октябрь 2018
ДНК. Механизмы хранения и обработки информации. Часть I


## Некоторые объяснения про регулярные выражения

* Что такое `re.compile`? <br><br>
Грубо говоря, `compile()` позволяет запомнить регулярное выражение и использовать его несколько раз. Суть в том, что перед тем как прогнать регулярку через строку, питон должен ее "скомпилировать" - превратить **строку** с регулярным выражением в специальный **объект**.<br>
Строчка `re.search(..., ...)` сначала компилирует регулярное выражение, а потом выполняет поиск. Если нужно поискать что-то один раз, то такая строчка очень удобна. А если нужно поискать что-то много раз, то получится что одно и то же выражение мы компилируем много раз. А хочется один раз скомпилировать и потом много раз пользоваться. Поэтому пишут так:

In [None]:
text = 'тут текст, внутри которого мы что-то ищем'
regName = re.compile('тут регулярное выражение') # скомпилировали
toSearch = regName.search(text) # теперь можно искать в тексте
toFindAll = regName.findall(text)  # можно использовать скомпилированное выражение много раз
toSub = regName.sub('на.что.заменить', text) # и так тоже можно использовать

* Что делает `regName.sub(..., ...)`?<br><br>
Выражение  `regName.sub('на_что_заменить', text)` значит: возьми скомпилированное выражение из переменной `regName`, и замени все, что соответствует этому выражению в переменной `text`, на строку `'на_что_заменить'`. Если первый аргумент в этом случае - пустая строка, то все найденные регуляркой куски заменятся на пустую строку, короче говоря, удалятся.<br><br>

* Что такое `re.DOTALL`?<br><br>
Обычно точка в регулярном выражении означает любой символ КРОМЕ символа новой строки.  Чтобы изменить такое поведение, в компиляцию регулярки можно добавить параметры-флаги вот так: `flags = re.DOTALL`, и тогда точка будет ловить вообще любой символ, включая новую строку. Эти флаги слегка меняют поведение функции, вот и все.<br><br>

* Что такое `re.U`?<br><br>
Про эту штуку нужно знать, если вы работаете с регулярками на втором питоне. Дело в том, что во втором питоне по умолчанию выражения типа `\w`, `\W`, `\s` и подобные работают только на строках ASCII, и чтобы они работали на юникодных строках нужно поставить флаг re.U. В третьем питоне все строки и так юникодные, поэтому необходимости в таком флаге нет.


## Задания

1. Скачать главную страницу Яндекс.Погоды и <br>
    
    &nbsp;&nbsp;&nbsp;&nbsp;а) распечатать сегодняшнюю температуру и облачность<br>
    
    &nbsp;&nbsp;&nbsp;&nbsp;б) распечатать время восхода и заката<br>
    
    &nbsp;&nbsp;&nbsp;&nbsp;в) погоду на завтра<br>
    
2. Скачать главную страницу waitbutwhy.com. Распечатать заголовки популярных постов (которые в колонке справа с надписью Popular Posts) и колличество комментариев у каждого из них.