# Лекция 2:  Web  

## Intro

### Работа с HTTP-запросами 
- библиотека `requests` (recommended)
- библиотека `urllib` 
- библиотека `bs4.BeautifulSoup` (recommended)
- библиотека `lxml` 
- библиотека `scrapy`

#### `requests`  &  `urllib.request`

```python
import requests
```

Маркером того, что страница существует и успешно загрузилась, является _Response [200]_
```python
url = 'https://www.hse.ru'
requests.get(url)

> <Response [200]>
```

То же самое с `urllib.request`:
```python
import urllib
urllibreq = urllib.request.urlopen(url)
print(urllibreq.getcode())

> 200
```

Посмотреть все методы того класса, к которому принадлежит ваш объект, можно несколькими способами:
 1. открыв документацию
 2. открыв непосредственно код класса
 3. либо прям в коде с помощью метода _dir(  )_

In [239]:
url = 'https://www.hse.ru'
req = requests.get(url)

dir(req)

['__attrs__',
 '__bool__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__nonzero__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setstate__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_content',
 '_content_consumed',
 'apparent_encoding',
 'close',
 'connection',
 'content',
 'cookies',
 'elapsed',
 'encoding',
 'headers',
 'history',
 'is_permanent_redirect',
 'is_redirect',
 'iter_content',
 'iter_lines',
 'json',
 'links',
 'ok',
 'raise_for_status',
 'raw',
 'reason',
 'request',
 'status_code',
 'text',
 'url']

In [243]:
print(req.encoding)
print(req.url)
print(req.status_code)

utf-8
https://www.hse.ru/en/
200


In [249]:
# пример чтения страницы с requests
req.text

'<!DOCTYPE html>\n<html lang="en">\n\n\n\n\n\n\n\n\n\n\n<head>\n\t<title>National Research University Higher School of Economics</title>\n\t<meta charset="utf-8" />\n\t<meta name="viewport" content="width=device-width, initial-scale=1">\n\t<meta http-equiv="X-UA-Compatible" content="IE=Edge" />\n\t<meta name="yandex-verification" content="25e3420f8bfc397e" />\n\t<meta name="theme-color" content="#1658DA"/>\n\t<meta name="sputnik-verification" content="SB2V6wrEtxYZNqgs" />\n\t<link rel="manifest" href="https://www.hse.ru/f/src/manifest/manifest_en.json">\n\t\n\t\t<link href="//www.hse.ru/en/" rel="canonical">\n\t\n\t<link rel="stylesheet" href="/f/src/global/css/main_fonts.css" />\n\t<link rel="stylesheet" href="/f/src/global/css/main_icons.css" />\n\t<link rel="stylesheet" href="/f/src/global/css/main_forms.css" />\n\t<link rel="stylesheet" href="/f/src/global/css/fotorama.css" />\n\t<link rel="stylesheet" href="/f/src/global/css/sitemap.css" />\n\t<link rel="stylesheet" href="/f/src/g

Я рекомендую работать с _requests_. Она не так нагружена как _urllib_, при этом удовлетворяет всему, что вам  может быть необходимо для парсинга сайтов, ведь по сути она является оберткой над urllib3.   
Для понимания, вот пример одного и того же вывода для двух этих библиотек.

![](pics/urllib_req.png)

### BeautifulSoup  &  lxml

In [80]:
from bs4 import BeautifulSoup

In [250]:
# скачиваем страницу
url = 'https://www.hse.ru'
req = requests.get(url)
html = req.text

In [254]:
# к тексту страницы применяем BeautifulSoup
soup = BeautifulSoup(html, "lxml")
soup

<!DOCTYPE html>
<html lang="en">
<head>
<title>National Research University Higher School of Economics</title>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<meta content="IE=Edge" http-equiv="X-UA-Compatible"/>
<meta content="25e3420f8bfc397e" name="yandex-verification"/>
<meta content="#1658DA" name="theme-color"/>
<meta content="SB2V6wrEtxYZNqgs" name="sputnik-verification"/>
<link href="https://www.hse.ru/f/src/manifest/manifest_en.json" rel="manifest"/>
<link href="//www.hse.ru/en/" rel="canonical"/>
<link href="/f/src/global/css/main_fonts.css" rel="stylesheet"/>
<link href="/f/src/global/css/main_icons.css" rel="stylesheet"/>
<link href="/f/src/global/css/main_forms.css" rel="stylesheet"/>
<link href="/f/src/global/css/fotorama.css" rel="stylesheet"/>
<link href="/f/src/global/css/sitemap.css" rel="stylesheet"/>
<link href="/f/src/global/css/main_hse.css" rel="stylesheet"/>
<link href="/f/src/home/main_en.css" rel="stylesheet"/>
<l

In [255]:
# можно добавить форматирование, чтобы стало красиво
print(soup.prettify())

<!DOCTYPE html>
<html lang="en">
 <head>
  <title>
   National Research University Higher School of Economics
  </title>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1" name="viewport"/>
  <meta content="IE=Edge" http-equiv="X-UA-Compatible"/>
  <meta content="25e3420f8bfc397e" name="yandex-verification"/>
  <meta content="#1658DA" name="theme-color"/>
  <meta content="SB2V6wrEtxYZNqgs" name="sputnik-verification"/>
  <link href="https://www.hse.ru/f/src/manifest/manifest_en.json" rel="manifest"/>
  <link href="//www.hse.ru/en/" rel="canonical"/>
  <link href="/f/src/global/css/main_fonts.css" rel="stylesheet"/>
  <link href="/f/src/global/css/main_icons.css" rel="stylesheet"/>
  <link href="/f/src/global/css/main_forms.css" rel="stylesheet"/>
  <link href="/f/src/global/css/fotorama.css" rel="stylesheet"/>
  <link href="/f/src/global/css/sitemap.css" rel="stylesheet"/>
  <link href="/f/src/global/css/main_hse.css" rel="stylesheet"/>
  <link href="/f/src

In [262]:
# давайте поищем в soup
soup.find_all('ul', attrs={'class':'main_menu'})

[<ul class="main_menu">
 <li class="js-dropdown main_menu__item main_menu__item--red"><a class="js-dropdown_link" href="https://www.hse.ru/en/info/">About</a>
 <i class="fa-sidemenu__arr"></i>
 <div class="main_menu__sub js-dropdown__sub">
 <ul class="main_menu__sublist">
 <li class="main_menu__subitem"><a href="http://www.hse.ru/en/figures/">Facts and Figures</a></li>
 <li class="main_menu__subitem"><a href="https://strategy.hse.ru/en/rating/">HSE in Rankings</a></li>
 <li class="main_menu__subitem"><a href="http://strategy.hse.ru/en/">Development Strategy</a></li>
 <li class="main_menu__subitem"><a href="https://www.hse.ru/en/buildinghse/">HSE Buildings</a></li>
 </ul>
 </div>
 </li>
 <li class="js-dropdown main_menu__item main_menu__item--brown"><a class="js-dropdown_link" href="http://www.hse.ru/en/education/">Programmes &amp; Courses</a>
 </li>
 <li class="js-dropdown main_menu__item main_menu__item--green"><a class="js-dropdown_link" href="http://www.hse.ru/admissions">Admissions

In [282]:
# и на другом примере
def get_soup(url):
    req = requests.get(url)
    html = req.text
    soup = BeautifulSoup(html, 'lxml')
    return soup

url = 'https://www.hse.ru/en/news/'
soup = get_soup(url)

for item in soup.find_all('h2', attrs={'class':'first_child'}):
    url = item.find('a').get('href')
    root = 'https://www.hse.ru'
    if not 'hse.ru' in url:
        url =  root + url
    print(url)

https://www.hse.ru/en/success/bebutov/
https://www.hse.ru/en/news/research/223024738.html
https://www.hse.ru/en/news/edu/222999781.html
https://www.hse.ru/en/news/campus/222966241.html
https://www.hse.ru/en/news/society/222960527.html
https://www.hse.ru/en/news/research/222945488.html
https://iq.hse.ru/en/news/222793842.html
https://www.hse.ru/en/news/research/222910514.html
https://www.hse.ru/en/news/edu/222825800.html
https://www.hse.ru/en/news/research/222825675.html


### Поиск в google

In [299]:
# теперь выведем  кликабельные ссылки
google = 'https://google.com/search?q='
query = 'щшгнпеа'

soup = get_soup(google + query)

In [231]:
# теперь выведем не сами ссылки, а их TITLE

from IPython.display import HTML, display


In [233]:
def google(query):
    google = 'http://google.com/search?q=' 

    return

google('hse')

### Обход блокировки

Когда вы слишком подозрительно по мнению владельца сайта себя ведете, вам предлагают разгадать капчу, чтобы подтвердить, что вы человек, а не робот, парсящий данные (наш случай)    
Вы, в данном случае, это ваш IP адрес     
Следовательно, обойти капчу можно двумя способами: 
    - разгадать ее умным алгоритмом (нейронки на изображениях)
    - сменить айпишник. Именно это происходит, когда вы заходите на запрещенные ресурсы через TOR или пользуетесь телеграмом через VPN. Ваш IP меняется таким образом, будто вы находитесь не в России    
    - использовать sleep(n) для имитации медлительности человека. При этом, n хорошо бы делать рандомным числом в разумных пределах, например от 1 до 4


In [239]:
# надежно, просто, не быстро

import time
time.sleep(2)

> Ну что, приступим в сложной части - настройка прокси соединения    
Действуем по инструкции - https://gist.github.com/ifnull/9026823   

1. Cкачиваем privoxy (открываем инстукцию, заходим в настройки компьютера, включаем прокси)
2. Cкачиваем tor
3. Cоздаем файл config — 
```
sudo vi /usr/local/etc/privoxy/config
```
и вставляем туда 
```
forward-socks5 / 127.0.0.1:9050 .
```
4. Cтартуем Privoxy
   ``` sudo /Applications/Privoxy/stopPrivoxy.sh
   sudo /Applications/Privoxy/startPrivoxy.sh 
   ```
5. Cтартуем Tor ```sudo tor```

Если не работает, попробуйте сменить версию пакетов (но это не точно):   
``` 
pip install pysocks==1.5.6
pip install requests==2.10.0
``` 

Проверим    
Создадим пустую сессию

In [216]:
session = requests.session()
session.proxies = {}

И узнаем свой IP адрес, обратившись к _httpbin.org_

In [223]:
r = session.get('http://httpbin.org/ip')
print(r.text)

{
  "origin": "178.140.23.156"
}



Теперь создадим сессию и добавим к ней прокси

In [12]:
import requests

proxies = {
  "http": "http://127.0.0.1:8118"
}

headers = {
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_1) AppleWebKit/537.73.11 (KHTML, like Gecko) Version/7.0.1 Safari/537.73.11'
}

session = requests.session()
r = session.get("http://www.httpbin.org/ip", proxies=proxies, headers=headers)

print(r.text)

{
  "origin": "185.220.101.27"
}



Если ваш IP изменился, поздравляю!