# Собираем данные в python

<br>

<center>
<img src="https://i.imgur.com/3vgttDj.jpg" width="800"> 

## Agenda 

* Азы всех азов
* Блокировки и их обходы 
* Что такое API 
* Что такое Selenium 
* Несколько кейсов из жизни Экономиста

# Азы всех азов

## Зачем собирать данные автоматически? 

<br>

<br>

<center>
<img src="https://hsto.org/webt/cg/bw/ps/cgbwpskfdnsiyv7yfnrj5fugcaq.png" width="800"> 

## Что такое HTML? 

````
<html>
<head> Заголовок </head>
<body>
    <div>
        Первый кусок текста со своими свойствами
    </div>
    <div>
        Второй кусок текста
            <b>
                Третий, жирный кусок
            </b>
    </div>
    Четвёртый кусок текста
</body>
</html>
````

<center>
<img src="https://hsto.org/webt/d9/6y/et/d96yet3figm2dgzqwxvd9kncc8c.png" width="800"> 

## Пример 

* Хотим собрать [цены на книги](http://books.toscrape.com)
* Руками долго, напишем код на питоне

In [1]:
import requests

url = 'http://books.toscrape.com/catalogue/page-1.html'
response = requests.get(url)
response

<Response [200]>

In [2]:
response.content[:1000]

b'\n\n<!DOCTYPE html>\n<!--[if lt IE 7]>      <html lang="en-us" class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->\n<!--[if IE 7]>         <html lang="en-us" class="no-js lt-ie9 lt-ie8"> <![endif]-->\n<!--[if IE 8]>         <html lang="en-us" class="no-js lt-ie9"> <![endif]-->\n<!--[if gt IE 8]><!--> <html lang="en-us" class="no-js"> <!--<![endif]-->\n    <head>\n        <title>\n    All products | Books to Scrape - Sandbox\n</title>\n\n        <meta http-equiv="content-type" content="text/html; charset=UTF-8" />\n        <meta name="created" content="24th Jun 2016 09:30" />\n        <meta name="description" content="" />\n        <meta name="viewport" content="width=device-width" />\n        <meta name="robots" content="NOARCHIVE,NOCACHE" />\n\n        <!-- Le HTML5 shim, for IE6-8 support of HTML elements -->\n        <!--[if lt IE 9]>\n        <script src="//html5shim.googlecode.com/svn/trunk/html5.js"></script>\n        <![endif]-->\n\n        \n            <link rel="shortcut icon"

In [3]:
from bs4 import BeautifulSoup

tree = BeautifulSoup(response.content, 'html.parser')
prices = tree.find_all('div', {'class' : 'product_price'})
prices[0]

<div class="product_price">
<p class="price_color">£51.77</p>
<p class="instock availability">
<i class="icon-ok"></i>
    
        In stock
    
</p>
<form>
<button class="btn btn-primary btn-block" data-loading-text="Adding..." type="submit">Add to basket</button>
</form>
</div>

In [4]:
prices[0].p

<p class="price_color">£51.77</p>

In [5]:
prices[0].p.text

'£51.77'

## Весь код целиком

In [6]:
import requests
from bs4 import BeautifulSoup

url = 'http://books.toscrape.com/catalogue/page-1.html'
response = requests.get(url)
tree = BeautifulSoup(response.content, 'html.parser')
prices = tree.find_all('div', {'class' : 'product_price'})
prices = [pr.p.text for pr in prices]
prices[:5]

['£51.77', '£53.74', '£50.10', '£47.82', '£54.23']

* Осталось только пройтись по всем страничкам от `page-1` до `page-50`.

# Обходы блокировок

__Примечание:__ следущая серия слайдов сворована у моего соавтора Димы из его презентации с датафеста

Почему я это сделал? 

__Потому что в библии написано "не кради", но не написано "не воруй".__

## Зачем? 

* Вы решили собрать себе немного данных 
* Сервер не в восторге от ковровой бомбардировки автоматическими запросами 
* Error 403, 404, 504, $\ldots$ 
* Капча, требования зарегистрироваться
* Заботливые сообщения, что с вашего устройства обнаружен подозрительный трафик

## Как не разозлить сервер? 

<center>
<img src="https://pp.userapi.com/c856024/v856024613/1cb94/d4n-cTCAoZ8.jpg" width="600"> 

## Быть терпеливым 

* Слишком частые запросы раздражают сервер
* Ставьте между ними временные задержки 

In [7]:
import time
time.sleep(3) # и пусть весь мир подождёт! 

## Быть похожим на человека

<center>
<img src="https://pp.userapi.com/c856024/v856024613/1cbbf/3vG490XTQqY.jpg" width="600"> 

## Запрос нормального человека


<center>
<img src="https://hsto.org/webt/ug/-h/ht/ug-hhtcefyvc7bgfsdlzcvvepm8.png" width="900"> 

## Запрос курильщика

<center>
<img src=" https://pp.userapi.com/c856024/v856024613/1cbd2/tucWQLwbSXU.jpg" width="400"> 
 


In [8]:
from fake_useragent import UserAgent
UserAgent().chrome

'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.67 Safari/537.36'

In [9]:
url = 'http://books.toscrape.com/catalogue/page-1.html'

response = requests.get(url, headers={'User-Agent': UserAgent().chrome})
response

<Response [200]>

## Общаться через посредников

<center>
<img src="https://tse3.mm.bing.net/th?id=OIP.NYooeUNoZIfpweXM0Amd_QHaFj&pid=15.1" width="500"> 

In [None]:
proxy = {'http': 'http://102.32.3.1:8080',
         'https': 'https://102.32.3.1:4444'}

response = requests.get(url, proxies = proxy)

__Где раздобыть списки прокси:__ 

* https://www.myprivateproxy.net/


## Уходить глубже 

<center>
<img src="https://end3r.github.io/Gamepad-API-Content-Kit/talk/slides/img/go-deeper.jpg" width="500"> 


<center>
<img src="https://pp.userapi.com/c854428/v854428594/1b810/LH-4b7V5vuc.jpg" width="900"> 

In [None]:
import socks
import socket

# задаём порт для питона, у тора это по умолчанию 9150
socks.set_default_proxy(socks.SOCKS5, "localhost", 9150)
socket.socket = socks.socksocket

Про тор лучше подробно почитать в нашей статье на Хабре. Ссылка на неё в конце презы.

## Совместить всё? 

1. Начните с малого 
2. Если продолжает банить, накидывайте новые примочки
3. Каждая новая примочка бьёт по скорости 
4. [Разные примочки для requests](http://docs.python-requests.org/en/v0.10.6/user/advanced/)

# API

## Что такое API 

__API (Application Programming Interface__ это уже готовый код, который можно всунуть в свой код! Многие разработчики, в том числе Google и Вконтакте, предоставляют свои уже готовые решения для вашей разработки.

# Примеры API: 

* [Контактовский API](https://vk.com/dev/methods)
* [API twitter](https://developer.twitter.com/en/docs.html) 
* [API youtube](https://developers.google.com/youtube/v3/)
* [API google maps](https://developers.google.com/maps/documentation/) 
* [Создай свой собственный aviasales с блэкджеком и фичами](https://www.aviasales.ru/API)

## API vk

* Любое исследование аудитории социальных сеток, общественного мнения.

In [None]:
token = 'e474b956e98722943c5853fdc2e0f4255cf498e27f832b4eef1b2be9dec81e8f8c6811238b324447ea14e'

method = 'users.get'
parameters = 'user_ids=6045249'

url = 'https://api.vk.com/method/' + method + '?' + parameters + '&v=5.7&access_token=' + token

response = requests.get(url) 
response.json()

## API google-maps

* Хотим проверить гипотезу о том, что хороший кофе повышает цену квартиры. Одним из регрессоров хотим взять число кофеен в окрестностях. 

In [None]:
mainpage = 'https://maps.googleapis.com/maps/api/place/nearbysearch/json?'

my_own_key = 'AIzaSyD8UrHX2uXh6KaRUOXXzOT57Q0y2ZK83-8'
location = '55.86,37.54'
radius = '3000'
keyword = 'кофейня'

parameters = 'location='+location+'&radius='+radius+'&keyword='+keyword+'&language=ru-Ru'+'&key='+ my_own_key

itog_url = mainpage + parameters 
itog_url

In [None]:
response = requests.get(itog_url)
[item['name'] for item in response.json()['results']]

# Selenium

* Инструмент для роботизированного управления браузером

In [29]:
from selenium import webdriver

driver = webdriver.Chrome()

In [30]:
ref = 'http://google.com'
driver.get(ref)

In [31]:
stroka = driver.find_element_by_name("q")
stroka.click()

In [33]:
stroka.send_keys('Вконтакте')

In [36]:
# находим кнопку для гугления и жмём её
button = driver.find_element_by_name('btnK')
button.click()

In [37]:
bs = BeautifulSoup(driver.page_source)

dirty_hrefs = bs.find_all('h3',attrs={'class':'r'})
clean_hrefs = [href.a['href'] for href in dirty_hrefs]
clean_hrefs

['https://vk.com/page-777107_28406709',
 'https://vk.com/ria',
 'https://m.vk.com/login',
 'https://vk.com/ohlobistin',
 'https://m.vk.com/main.php?subdir=login&m=1&email=',
 'https://vk.com/rpl']

## Когда используют для парсинга 

* Много разнородных по структуре сайтов с похожим внешним видом 
* Очень очень очень очень не получается обмануть сервер через requests 
* Специфические защиты от ботов 

# Кейсы из жизни экономиста

## Ссылки 

* [Статья Фили и Димы](https://habr.com/ru/company/ods/blog/346632/) с ввдением в парсеры на примере мемов
* [Гайд по парсинг вконтакте](https://nbviewer.jupyter.org/github/FUlyankin/ekanam_grand_research/blob/master/0.%20vk_parser_tutorial.ipynb)
* [Страничка с моими парсерами](https://fulyankin.github.io/Parsers/)
     * [Подробное введение в selenium](https://nbviewer.jupyter.org/github/FUlyankin/Parsers/blob/master/sems/3_Selenium_and_Tor/4.1%20Selenium%20.ipynb)
     * [Про API и google maps](https://nbviewer.jupyter.org/github/FUlyankin/Parsers/blob/master/Parsers%20/Google_maps_API.ipynb)

## Призыв 

* Открытый доступ — это прекрасно! Если вы собрали какой-то крутой датасет, поделитесь им с остальным миром. Создайте для этого страничку на github и залейте туда код и ссылку на данные. 

* Вы — великолепны! 
* Ну а ещё у вас есть свой проект, которым можно похвастаться при найме на работу.

## Проект 

* Раз уж мы все тут собрались, давайте замутим большой проект! 
* 
