# Собираем данные в python

<br>

<center>
<img src="https://i.imgur.com/3vgttDj.jpg" width="800"> 

## Agenda 

* Азы всех азов
* Блокировки и их обходы 
* Что такое API 
* Что такое Selenium 
* Несколько кейсов из жизни Экономиста по имени Лёша :) 

# Азы всех азов

## Зачем собирать данные автоматически? 

<br>

<br>

<center>
<img src="https://hsto.org/webt/cg/bw/ps/cgbwpskfdnsiyv7yfnrj5fugcaq.png" width="800"> 

## Что такое HTML? 

````
<html>
<head> Заголовок </head>
<body>
    <div>
        Первый кусок текста со своими свойствами
    </div>
    <div>
        Второй кусок текста
            <b>
                Третий, жирный кусок
            </b>
    </div>
    Четвёртый кусок текста
</body>
</html>
````

<center>
<img src="https://hsto.org/webt/d9/6y/et/d96yet3figm2dgzqwxvd9kncc8c.png" width="800"> 

## Пример 

* Хотим собрать [цены на книги](http://books.toscrape.com)
* Руками долго, напишем код на питоне

In [5]:
import requests

url = 'http://books.toscrape.com/catalogue/page-1.html'
response = requests.get(url)
response

<Response [200]>

In [2]:
response.content[:1000]

b'\n\n<!DOCTYPE html>\n<!--[if lt IE 7]>      <html lang="en-us" class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->\n<!--[if IE 7]>         <html lang="en-us" class="no-js lt-ie9 lt-ie8"> <![endif]-->\n<!--[if IE 8]>         <html lang="en-us" class="no-js lt-ie9"> <![endif]-->\n<!--[if gt IE 8]><!--> <html lang="en-us" class="no-js"> <!--<![endif]-->\n    <head>\n        <title>\n    All products | Books to Scrape - Sandbox\n</title>\n\n        <meta http-equiv="content-type" content="text/html; charset=UTF-8" />\n        <meta name="created" content="24th Jun 2016 09:30" />\n        <meta name="description" content="" />\n        <meta name="viewport" content="width=device-width" />\n        <meta name="robots" content="NOARCHIVE,NOCACHE" />\n\n        <!-- Le HTML5 shim, for IE6-8 support of HTML elements -->\n        <!--[if lt IE 9]>\n        <script src="//html5shim.googlecode.com/svn/trunk/html5.js"></script>\n        <![endif]-->\n\n        \n            <link rel="shortcut icon"

In [9]:
from bs4 import BeautifulSoup

tree = BeautifulSoup(response.content, 'html.parser')
prices = tree.find_all('div', {'class' : 'product_price'})
prices[0]

<div class="product_price">
<p class="price_color">£51.77</p>
<p class="instock availability">
<i class="icon-ok"></i>
    
        In stock
    
</p>
<form>
<button class="btn btn-primary btn-block" data-loading-text="Adding..." type="submit">Add to basket</button>
</form>
</div>

In [4]:
prices[0].p

<p class="price_color">£51.77</p>

In [5]:
prices[0].p.text

'£51.77'

## Весь код целиком

In [6]:
import requests
from bs4 import BeautifulSoup

url = 'http://books.toscrape.com/catalogue/page-1.html'
response = requests.get(url)
tree = BeautifulSoup(response.content, 'html.parser')
prices = tree.find_all('div', {'class' : 'product_price'})
prices = [pr.p.text for pr in prices]
prices[:5]

['£51.77', '£53.74', '£50.10', '£47.82', '£54.23']

* Осталось только пройтись по всем страничкам от `page-1` до `page-50`.

# Обходы блокировок

__Примечание:__ следущая серия слайдов сворована у моего соавтора Димы из его презентации с датафеста

Почему я это сделал? 

__Потому что в библии написано "не кради", но не написано "не воруй".__

## Зачем? 

* Вы решили собрать себе немного данных 
* Сервер не в восторге от ковровой бомбардировки автоматическими запросами 
* Error 403, 404, 504, $\ldots$ 
* Капча, требования зарегистрироваться
* Заботливые сообщения, что с вашего устройства обнаружен подозрительный трафик

## Как не разозлить сервер? 

<center>
<img src="https://pp.userapi.com/c856024/v856024613/1cb94/d4n-cTCAoZ8.jpg" width="600"> 

## Быть терпеливым 

* Слишком частые запросы раздражают сервер
* Ставьте между ними временные задержки 

In [7]:
import time
time.sleep(3) # и пусть весь мир подождёт! 

## Быть похожим на человека

<center>
<img src="https://pp.userapi.com/c856024/v856024613/1cbbf/3vG490XTQqY.jpg" width="900"> 

## Запрос нормального человека


<center>
<img src="https://hsto.org/webt/ug/-h/ht/ug-hhtcefyvc7bgfsdlzcvvepm8.png" width="900"> 

## Запрос курильщика

<center>
<img src=" https://pp.userapi.com/c856024/v856024613/1cbd2/tucWQLwbSXU.jpg" width="400"> 
 


In [8]:
from fake_useragent import UserAgent
UserAgent().chrome

'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.67 Safari/537.36'

In [9]:
url = 'http://books.toscrape.com/catalogue/page-1.html'

response = requests.get(url, headers={'User-Agent': UserAgent().chrome})
response

<Response [200]>

## Общаться через посредников

<center>
<img src="https://tse3.mm.bing.net/th?id=OIP.NYooeUNoZIfpweXM0Amd_QHaFj&pid=15.1" width="700"> 

In [None]:
proxy = {'http': 'http://102.32.3.1:8080',
         'https': 'https://102.32.3.1:4444'}

response = requests.get(url, proxies = proxy)

__Где раздобыть списки прокси:__ 

* https://www.myprivateproxy.net/
* https://hidemyna.me/ru/proxy-list/?maxtime=300&ports=3128&type=s&anon=1#list


## Уходить глубже 

<center>
<img src="https://end3r.github.io/Gamepad-API-Content-Kit/talk/slides/img/go-deeper.jpg" width="700"> 


<center>
<img src="https://pp.userapi.com/c854428/v854428594/1b810/LH-4b7V5vuc.jpg" width="1100"> 

In [None]:
import socks
import socket

# задаём порт для питона, у тора это по умолчанию 9150
socks.set_default_proxy(socks.SOCKS5, "localhost", 9150)
socket.socket = socks.socksocket

Про тор лучше подробно почитать в нашей статье на Хабре. Ссылка на неё в конце презы.

## Совместить всё? 

1. Начните с малого 
2. Если продолжает банить, накидывайте новые примочки
3. Каждая новая примочка бьёт по скорости 
4. [Разные примочки для requests](http://docs.python-requests.org/en/v0.10.6/user/advanced/)

# API

## Что такое API 

__API (Application Programming Interface__ это уже готовый код, который можно всунуть в свой код! Многие разработчики, в том числе Google и Вконтакте, предоставляют свои уже готовые решения для вашей разработки.

# Примеры API: 

* [Контактовский API](https://vk.com/dev/methods)
* [API twitter](https://developer.twitter.com/en/docs.html) 
* [API youtube](https://developers.google.com/youtube/v3/)
* [API google maps](https://developers.google.com/maps/documentation/) 
* [Создай свой собственный aviasales с блэкджеком и фичами](https://www.aviasales.ru/API)

## API vk

* Любое исследование аудитории социальных сеток, общественного мнения.

In [46]:
token = '0a9f039b1103eea850c20eefe8c530495ad4391d98fde8ea7dd9507dc06e3b5da787ed797f350ad7a6454'

method = 'users.get'
parameters = 'user_ids=6045249'

url = 'https://api.vk.com/method/' + method + '?' + parameters + '&v=5.7&access_token=' + token

response = requests.get(url) 
response.json()

{'response': [{'id': 6045249,
   'first_name': 'Филипп',
   'last_name': 'Ульянкин'}]}

## API google-maps

* Хотим проверить гипотезу о том, что хороший кофе повышает цену квартиры. Одним из регрессоров хотим взять число кофеен в окрестностях. 

In [47]:
mainpage = 'https://maps.googleapis.com/maps/api/place/nearbysearch/json?'

my_own_key = 'AIzaSyD8UrHX2uXh6KaRUOXXzOT57Q0y2ZK83-8'

location = '55.86,37.54'
radius = '3000'
keyword = 'кофейня'

parameters = 'location='+location+'&radius='+radius+'&keyword='+keyword+'&language=ru-Ru'+'&key='+ my_own_key

itog_url = mainpage + parameters 
itog_url

'https://maps.googleapis.com/maps/api/place/nearbysearch/json?location=55.86,37.54&radius=3000&keyword=кофейня&language=ru-Ru&key=AIzaSyD8UrHX2uXh6KaRUOXXzOT57Q0y2ZK83-8'

In [48]:
response = requests.get(itog_url)
[item['name'] for item in response.json()['results']]

['Кофейня Varim',
 'Свежий НОМЕР',
 'Coffee and the City в БЦ Алтуфьево',
 'Шоколадница',
 'Кофейня "КофЕнот"',
 'Кофейня Bistro 3.6',
 'Кофейня LOFT COFFEE',
 'TAMPER & PITCHER',
 'Loft Кофейня',
 'Caramel coffee',
 'Кофейня Вектор кофе',
 'Любава фирменный магазин кофейня',
 'Kafema']

# Selenium

* Инструмент для роботизированного управления браузером

In [49]:
from selenium import webdriver

driver = webdriver.Chrome()

In [50]:
ref = 'http://google.com'
driver.get(ref)

In [51]:
stroka = driver.find_element_by_name("q")
stroka.click()

In [52]:
stroka.send_keys('Вконтакте')

In [53]:
# находим кнопку для гугления и жмём её
button = driver.find_element_by_name('btnK')
button.click()

In [37]:
bs = BeautifulSoup(driver.page_source)

dirty_hrefs = bs.find_all('h3',attrs={'class':'r'})
clean_hrefs = [href.a['href'] for href in dirty_hrefs]
clean_hrefs

['https://vk.com/page-777107_28406709',
 'https://vk.com/ria',
 'https://m.vk.com/login',
 'https://vk.com/ohlobistin',
 'https://m.vk.com/main.php?subdir=login&m=1&email=',
 'https://vk.com/rpl']

In [54]:
driver.close()

## Когда используют для парсинга 

* Много разнородных по структуре сайтов с похожим внешним видом 
* Очень очень очень очень не получается обмануть сервер через requests 
* Специфические защиты от ботов 

## Ссылки 

* [Статья Фили и Димы](https://habr.com/ru/company/ods/blog/346632/) с ввдением в парсеры на примере мемов
* [Гайд по парсинг вконтакте](https://nbviewer.jupyter.org/github/FUlyankin/ekanam_grand_research/blob/master/0.%20vk_parser_tutorial.ipynb)
* [Страничка с моими парсерами](https://fulyankin.github.io/Parsers/)
     * [Подробное введение в selenium](https://nbviewer.jupyter.org/github/FUlyankin/Parsers/blob/master/sems/3_Selenium_and_Tor/4.1%20Selenium%20.ipynb)
     * [Про API и google maps](https://nbviewer.jupyter.org/github/FUlyankin/Parsers/blob/master/Parsers%20/Google_maps_API.ipynb)

## Призыв 

* Открытый доступ — это прекрасно! Если вы собрали какой-то крутой датасет, поделитесь им с остальным миром. Создайте для этого страничку на github и залейте туда код и ссылку на данные. 

* Вы — великолепны! 
* Ну а ещё у вас есть свой проект, которым можно похвастаться при найме на работу.

# Кейсы из жизни экономиста по имени Лёша :)

# Росстат

* Ресурс: [центральная база статистических данных](http://www.gks.ru/dbscripts/cbsd/DBInet.cgi)

<center>
<img src="https://pp.userapi.com/c849332/v849332099/168826/u79orIHJnYI.jpg" width="1000"> 


* Хотим получить данные по индексу потребительских цен


<center>
<img src="https://pp.userapi.com/c849332/v849332099/168837/fy9m07y_9Ms.jpg" width="900"> 

<center>
<img src="https://pp.userapi.com/c849332/v849332099/16883f/k46HleOyE_A.jpg" width="1000"> 

<center>
<img src="https://pp.userapi.com/c849332/v849332099/168847/kfn2GQzx-hU.jpg" width="1000"> 

In [2]:
# подготовка запроса
# берём это из data form

values = {
    'rdLayoutType': 'Au',
    '_Pokazateli': 'on',
    '_okato': 'on',
    '_grtov': 'on',
    '_god': 'on',
    '_period': 'on',
    'a_Pokazateli': '1',
    'a_okato': '2',
    'a_period': '3',
    'a_grtov': '4',
    #выбрать наименования, год и период
    'Qry': 'Pokazateli:1902001;okato:643;grvdtov:1;viddata:2;god:2019;period:1,2,3,13,4,5,6,14,7,8,9,15,10,11,12,16;', 
    'QryGm': 'Pokazateli_z:1;grvdtov_z:2;viddata_z:3;okato_z:4;god_s:1;period_b:1;',
    'QryFootNotes': ';',
    'YearsList': '2002;2003;2004;2005;2006;2007;2008;2009;2010;2011;2012;2013;2014;2015;2016;2017;2018;2019;',
}

In [3]:
import urllib
data = urllib.parse.urlencode(values)  

In [11]:
# отправляем наш запрос с нужной кодировкой
url = 'http://www.gks.ru/dbscripts/cbsd/DBInet.cgi' 
r = requests.post(url, data=data)                               
r.encoding = 'cp1251'
html = r.text

html[:1000]

'<HTML>\r\n<HEAD>\r\n<META content="text/html; charset=windows-1251" http-equiv=Content-Type>\r\n<TITLE>Результат запроса</TITLE>\r\n<style type=text/css>@import url(/db/1CDBSS.css);</style>\r\n\r\n<script type="text/javascript">\r\n\r\n  var _gaq = _gaq || [];\r\n  _gaq.push([\'_setAccount\', \'UA-31240410-1\']);\r\n  _gaq.push([\'_trackPageview\']);\r\n\r\n  (function() {\r\n    var ga = document.createElement(\'script\'); ga.type = \'text/javascript\'; ga.async = true;\r\n    ga.src = (\'https:\' == document.location.protocol ? \'https://ssl\' : \'http://www\') + \'.google-analytics.com/ga.js\';\r\n    var s = document.getElementsByTagName(\'script\')[0]; s.parentNode.insertBefore(ga, s);\r\n  })();\r\n\r\n</script>\r\n\r\n</HEAD><BODY  onLoad="focus();return(true);">\r\n\r\n<p><img border="0" src="/db/Banner_new.jpg" width="800" height="113"></p>\r\n<div STYLE="font-family:Arial; color:darkblue; font-size:12; font-weight:bold; position:absolute; top:60; left:120;">\r\nФЕДЕРАЛЬНАЯ С

<center>
<img src="https://pp.userapi.com/c849332/v849332099/168857/2bPDFd6ogkw.jpg" width="1000"> 

In [13]:
# находим нужное на полученной в результате запроса странице
soup = BeautifulSoup(html, 'html.parser')                              
inflation_table = soup.find('table', {'class': 'OutTbl'})
inflation_table

<table border="1" bordercolor="darkgray" cellspacing="0" class="OutTbl" width="380">
<caption><div class="ZagTbl">Индексы потребительских цен на товары и услуги, процент,<br/>Все товары и услуги,<br/>в % к предыдущему месяцу,<br/>Российская Федерация</div></caption>
<tr><td border="0" class="TblShap" rowspan="1" width="53%"></td><td class="TblShap" colspan="0">2019</td></tr>
<tr><td class="TblBok"><p align="left" class="bL0">январь</p></td><td align="right">101,01</td></tr>
<tr><td class="TblBok"><p align="left" class="bL0">февраль</p></td><td align="right">100,44</td></tr>
<tr><td class="TblBok"><p align="left" class="bL0">март</p></td><td align="right">100,32</td></tr>
</table>

<center>
<img src="https://pp.userapi.com/c849332/v849332099/16893f/wfWzBgusR48.jpg" width="1000"> 

In [15]:
inflation_list_divs = inflation_table.find_all('tr')
inflation_list_divs

[<tr><td border="0" class="TblShap" rowspan="1" width="53%"></td><td class="TblShap" colspan="0">2019</td></tr>,
 <tr><td class="TblBok"><p align="left" class="bL0">январь</p></td><td align="right">101,01</td></tr>,
 <tr><td class="TblBok"><p align="left" class="bL0">февраль</p></td><td align="right">100,44</td></tr>,
 <tr><td class="TblBok"><p align="left" class="bL0">март</p></td><td align="right">100,32</td></tr>]

## Итоговая таблица

In [25]:
import re
import pandas as pd

def wspex_space(x):
    return re.sub(u'\u200a', '', ' '.join(str(x).split()))

def wspex(x):
    """
    White SPace EXclude
    :param x: string
    :return: string x without any whitespaces
    """
    return re.sub(u'\u200a', '', ''.join(x.split()))

def tofloat(s):
    return float(wspex(s.replace(',', '.')))

In [26]:
result = []

for elem in inflation_list_divs:
    tds = elem.find_all('td');

    if tds[0].get('class') != 'TblShap' and wspex_space(tds[0].text) and tds[1].text!='':
        inflation_dict = dict()
        inflation_dict['month'] = tds[0].text
        inflation_dict['inflation_level'] = tofloat(tds[1].text)
        result.append(inflation_dict);

df = pd.DataFrame(result, columns=['month','inflation_level'])
df

Unnamed: 0,month,inflation_level
0,январь,101.01
1,февраль,100.44
2,март,100.32


# Перекрёсток

<center>
<img src="https://pp.userapi.com/c851028/v851028390/f7062/05BSsrc8ePA.jpg" width="1000"> 

In [34]:
from selenium import webdriver
driver = webdriver.Chrome()

In [35]:
driver.get('https://www.perekrestok.ru/catalog/moloko-syr-yaytsa?page=1')

## Каталог

<center>
<img src="https://pp.userapi.com/c851028/v851028390/f706a/nnCF12PAhIw.jpg" width="900"> 

* Находим элементы страницы с информацией о продуктах 

<center>
<img src="https://pp.userapi.com/c851028/v851028390/f7073/PZL_8ERngF0.jpg" width="1000"> 

* Находим элементы с информацией о каждом продукте

<center>
<img src="https://pp.userapi.com/c851028/v851028390/f707c/KFneJtIZPEc.jpg" width="1000"> 

In [36]:
pageSource = driver.page_source
soup = BeautifulSoup(pageSource, 'html.parser')

products_div = soup.find('div', {'class': 'js-catalog-wrap'})

total_amount = int(soup.find('span', {'class': 'js-list-total__total-count'}).text)
total_amount

1770

In [42]:
price_list = products_div.find_all('div', {'class': 'xf-product js-product'})
len(price_list)

24

* Собираем данные по всем продуктам в табличку

In [45]:
res = pd.DataFrame(columns=['site_title', 'unit_cost', 'site_unit', 'site_link'])
for price_elem in price_list:
    price_dict = dict()

    aref = price_elem.find('div', {'class': 'xf-product__title xf-product-title'}).\
        find('a', {'class': 'xf-product-title__link js-product__title'})

    price_dict['site_title'] = aref.text.strip()
    cost_div = price_elem.find('div', {'class': 'xf-product__cost xf-product-cost'})
    price_dict['unit_cost'] = int(cost_div.find('span', {'class': 'xf-price__rouble'}).text)
    pennies_cost_div = cost_div.find('span', {'class': 'xf-price__penny'})
    if pennies_cost_div is not None:
        pennies_cost = float(pennies_cost_div.text.strip().replace(',','.',1))
    else:
        pennies_cost = 0.0

    site_unit_div = cost_div.find('span', {'class': 'xf-price__unit'})

    if site_unit_div is not None:
        site_unit = site_unit_div.text.split(r'/')[-1].split()[0]
    else:
        site_unit = 'шт'
    price_dict['unit_cost'] += pennies_cost
    price_dict['site_unit'] = site_unit
    price_dict['site_link'] = aref.get('href')
    res=res.append(price_dict,ignore_index=True)

res.head()

Unnamed: 0,site_title,unit_cost,site_unit,site_link
0,Молоко Искренне Ваш 1.5% 930г,67.9,шт,/catalog/moloko-syr-yaytsa/moloko/is-v-molok-p...
1,Йогурт Агуша Непроливайка Я Сам Ягодное ассорт...,33.9,шт,/catalog/moloko-syr-yaytsa/yogurty-i-deserty/a...
2,Каша молочная Сваля рисовая с ванилью 6% 200г,85.9,шт,/catalog/moloko-syr-yaytsa/yogurty-i-deserty/s...
3,Молоко Село Зеленое 3.2% 950мл,75.9,шт,/catalog/moloko-syr-yaytsa/moloko/sel-zel-molo...
4,Ряженка Б.Ю.Александров 3.5-6.0% 500мл,105.0,шт,/catalog/moloko-syr-yaytsa/kislomolochnye-prod...
