## Internet data

To download a page from the Internet you can use the `urllib.request` module. (Here are some alternative modules: https://stackoverflow.com/questions/7191337/python-better-network-api-than-urllib)

When we try to open a webpage, our browser sends a request to the server ("Hi server! I would like to get the code of the page with the following address!"), and the server sends its answer ("Hi! Here is the requested code: ..."). To get a webpage using python, you need to formulate your request to the server:

In [18]:
import urllib.request #importing module
import re
req = urllib.request.Request('https://habr.com/')
with urllib.request.urlopen(req) as response:
   html = response.read().decode('utf-8')

The variable `req` contains our request. The function `urlopen` gets the answer from the server and downloads the page the has the link https://habr.com/ into the `response` variable. The `response` variable acts as a file: for example, we can read its content into a new variable with the function `.read()`. In our example we ended up saving the contents of the web page into the variable `html`. Let's make sure that we have the html-code stored in this variable:

In [19]:
print(html[:210])

<!DOCTYPE html>
<html lang="ru" class="no-js">
  <head>
    <meta http-equiv="content-type" content="text/html; charset=utf-8" />
<meta content='width=1024' name='viewport'>
<title>Лучшие публикации за сутки / 


Sometimes the server blocks unfriendly (in its opinion) requests. Instead of saying to the server 'Hi! I am Python-urllib/3.5' your program can pretend to be a well-respected browser:

In [20]:
url = 'https://habr.com/'
user_agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64)' 
req = urllib.request.Request(url, headers={'User-Agent':user_agent})  

with urllib.request.urlopen(req) as response:
   html = response.read().decode('utf-8')

Imagine that we want to extract specific information from the code we've got, e.g., to extract all the article titles. We can view the source code of the page we've downloaded <view-source:https://habr.com/> and notice that the article titles are tagged **h2** with the **post__title** class. The article title looks like that:

<h2 class="post__title">
    <a href="https://habr.com/company/google/blog/425279/" class="post__title_link">Как собеседует Google: чему быть, чего не миновать</a>
  </h2>

To extract all the article titles, let's use a regular expression.

In [21]:
regPostTitle = re.compile('<h2 class="post__title">.*?</h2>', flags= re.DOTALL)
titles = regPostTitle.findall(html)

Let's see how many titles there are and let's print the first three titles.

In [22]:
print(len(titles))

20


In [26]:
print(titles[:3])

['<h2 class="post__title">\n    <a href="https://habr.com/company/badoo/blog/425325/" class="post__title_link">Интерпретаторы байт-кодов своими руками</a>\n  </h2>', '<h2 class="post__title">\n    <a href="https://habr.com/company/mailru/blog/423409/" class="post__title_link">Как сделать самому Луноход</a>\n  </h2>', '<h2 class="post__title">\n    <a href="https://habr.com/post/425359/" class="post__title_link">Китайцы использовали микрочип, чтобы контролировать американские компьютеры</a>\n  </h2>']


Now let's clean the titles and delete all the line breaks and tags and print the prettified version.

In [24]:
new_titles = []
regTag = re.compile('<.*?>', re.DOTALL)
regSpace = re.compile('\s{2,}', re.DOTALL)
for t in titles:
    clean_t = regSpace.sub("", t)
    clean_t = regTag.sub("", clean_t)
    new_titles.append(clean_t)
for t in new_titles:
    print(t)

Интерпретаторы байт-кодов своими руками
Как сделать самому Луноход
Китайцы использовали микрочип, чтобы контролировать американские компьютеры
286 и сеть
Scrum is dead
КТРУ (Каталог товаров, работ, услуг) или смерть IT госзакупкам
Firecore — нескучная игра на AVR
Измерение времени с наносекундной точностью
Что такое ZFS? И почему люди от неё без ума?
﻿Perl 5: как в макросах ошибки прятались
10 физических фактов, которые вы должны были узнать в школе, но, возможно, не узнали
Бэкендеры всех стран объединились. Рассказываем, как прошел Backend United #2
Автор книги «Ведьмак» потребовал у CD Projekt Red минимум $16 млн
Алиса поможет разработчикам найти объекты в запросах пользователей. NER в Диалогах
Так ли хороши джуны?
Видео докладов с Deerploy DevOps MeetUp
Люди-батарейки: теоретический анализ наногенераторов на базе трибоэлектрического эффекта
Конкурс, новые курсы и фичи (осенние новости Хекслета)
Обновление до Windows 1809 (иногда) уничтожает все файлы в профиле
Как добавить остроты л

Now let's replace html-sequences nbsp and rarr with an arrow:

In [16]:
for t in new_titles:
    print(t.replace("&nbsp;&rarr;", " -> "))

Интерпретаторы байт-кодов своими руками
Как сделать самому Луноход
Китайцы использовали микрочип, чтобы контролировать американские компьютеры
286 и сеть
Scrum is dead
КТРУ (Каталог товаров, работ, услуг) или смерть IT госзакупкам
Firecore — нескучная игра на AVR
Измерение времени с наносекундной точностью
Что такое ZFS? И почему люди от неё без ума?
﻿Perl 5: как в макросах ошибки прятались
10 физических фактов, которые вы должны были узнать в школе, но, возможно, не узнали
Бэкендеры всех стран объединились. Рассказываем, как прошел Backend United #2
Автор книги «Ведьмак» потребовал у CD Projekt Red минимум $16 млн
Алиса поможет разработчикам найти объекты в запросах пользователей. NER в Диалогах
Так ли хороши джуны?
Видео докладов с Deerploy DevOps MeetUp
Люди-батарейки: теоретический анализ наногенераторов на базе трибоэлектрического эффекта
Конкурс, новые курсы и фичи (осенние новости Хекслета)
Обновление до Windows 1809 (иногда) уничтожает все файлы в профиле
Как добавить остроты л

+ What does `re.compile` do?

Roughly speaking, `compile()` let's us compile the regular expression (turn a regular expression string into a special object) and use it multiple times. `re.search(..., ...)` first compiles the regular expression and then searches for the matching sequences -- great if we search just once. 

In [None]:
text = 'our text'
regName = re.compile('our regular expression') # compiling our regular expression
toSearch = regName.search(text) 
toFindAll = regName.findall(text)  
toSub = regName.sub('replacement', text) 

+ What does `regName.sub(..., ...)` do?

`regName.sub('replacement', text)` means: take the compiled regular expression from the `regName` variable, and replace everything that corresponds to this regular expression in the variable `text` with 'replacement'. 

+ What is `re.DOTALL`?

A dot in a regular expression means any symbol except for the new line symbol.  By adding `flags = re.DOTALL` we ensure that the dot will mean any symbol including the new line symbol.