# Регулярные выражения

<img width='450px' src="images/use-regex.jpg"></img>

Некоторые люди, когда сталкиваются с проблемой, думают:

    «Я знаю, я решу её с помощью регулярных выражений.»

Теперь у них **ДВЕ** проблемы.

## Что почитать?

1. Хороший [«быстрый старт»](https://tproger.ru/translations/regular-expression-python/) с задачками от TProger.
2. Отличный [туториал](https://habr.com/post/349860/) с задачками на Хабре.
3. [Документация](https://docs.python.org/3/library/re.html) к стандартной библиотеке.

In [1]:
import re

# Структура URL

http://www.example.com:80/path/to/myfile.html?key1=value1&key2=value2#SomewhereInTheDocument

<img width='480px' src="https://mdn.mozillademos.org/files/8013/mdn-url-protocol@x2.png"></img>
<img width='480px' src="https://mdn.mozillademos.org/files/8015/mdn-url-protocol@x2.png"></img>
<img width='480px' src="https://mdn.mozillademos.org/files/8017/mdn-url-protocol@x2.png"></img>
<img width='480px' src="https://mdn.mozillademos.org/files/8019/mdn-url-protocol@x2.png"></img>
<img width='480px' src="https://mdn.mozillademos.org/files/8021/mdn-url-protocol@x2.png"></img>
<img width='480px' src="https://mdn.mozillademos.org/files/8023/mdn-url-protocol@x2.png"></img>

https://developer.mozilla.org/ru/docs/Learn/Understanding_URLs

# Типы HTTP запросов и ответов

<img width='500px' src="images/swagger-petstore-endpoint-methods.png"></img>

<img width='800px' src="images/responses.jpg"></img>

Табличка с типами ответов: [клац раз](https://www.steveschoger.com/status-code-poster/img/status-code.png) и [клац два](https://ru.wikipedia.org/wiki/%D0%A1%D0%BF%D0%B8%D1%81%D0%BE%D0%BA_%D0%BA%D0%BE%D0%B4%D0%BE%D0%B2_%D1%81%D0%BE%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D1%8F_HTTP).

# Работа с JSON

In [2]:
import requests

[Документация](http://docs.python-requests.org/) по библиотеке requests.

In [3]:
import json

Prepare token: https://developer.spotify.com/console/get-track/?id=3n3Ppam7vgaVa1iaRUc9Lp

In [4]:
with open('spotify-api-token.key', mode='r') as f_key:
    spotify_api_token = f_key.readline()
    

class SpotifyAPI:    
    def __init__(self, token):
        self._token = token

    def get_track_info(self, track_id, market='US'):
        # посылаем get запрос, указываем аргументы и заголовки
        ret = requests.get("https://api.spotify.com/v1/tracks/{}".format(track_id),
                           params={'market': market,},
                           headers={'Authorization': f'Bearer {self._token}'})
        return ret


spotify = SpotifyAPI(spotify_api_token)
r = spotify.get_track_info('3n3Ppam7vgaVa1iaRUc9Lp')
r.status_code

200

In [5]:
r.headers

{'Content-Type': 'application/json; charset=utf-8', 'Cache-Control': 'public, max-age=7200', 'Access-Control-Allow-Origin': '*', 'Access-Control-Allow-Headers': 'Accept, Authorization, Origin, Content-Type, Retry-After', 'Access-Control-Allow-Methods': 'GET, POST, OPTIONS, PUT, DELETE, PATCH', 'Access-Control-Allow-Credentials': 'true', 'Access-Control-Max-Age': '604800', 'Content-Encoding': 'gzip', 'Date': 'Fri, 29 Mar 2019 09:26:26 GMT', 'Via': '1.1 google', 'Alt-Svc': 'clear', 'Transfer-Encoding': 'chunked'}

In [6]:
print(r.text)

{
  "album" : {
    "album_type" : "album",
    "artists" : [ {
      "external_urls" : {
        "spotify" : "https://open.spotify.com/artist/0C0XlULifJtAgn6ZNCW2eu"
      },
      "href" : "https://api.spotify.com/v1/artists/0C0XlULifJtAgn6ZNCW2eu",
      "id" : "0C0XlULifJtAgn6ZNCW2eu",
      "name" : "The Killers",
      "type" : "artist",
      "uri" : "spotify:artist:0C0XlULifJtAgn6ZNCW2eu"
    } ],
    "external_urls" : {
      "spotify" : "https://open.spotify.com/album/4OHNH3sDzIxnmUADXzv2kT"
    },
    "href" : "https://api.spotify.com/v1/albums/4OHNH3sDzIxnmUADXzv2kT",
    "id" : "4OHNH3sDzIxnmUADXzv2kT",
    "images" : [ {
      "height" : 640,
      "url" : "https://i.scdn.co/image/ac68a9e4a867ec3ce8249cd90a2d7c73755fb487",
      "width" : 629
    }, {
      "height" : 300,
      "url" : "https://i.scdn.co/image/d0186ad64df7d6fc5f65c20c7d16f4279ffeb815",
      "width" : 295
    }, {
      "height" : 64,
      "url" : "https://i.scdn.co/image/7c3ec33d478f5f517eeb5339c2f75f1

In [7]:
r.content

b'{\n  "album" : {\n    "album_type" : "album",\n    "artists" : [ {\n      "external_urls" : {\n        "spotify" : "https://open.spotify.com/artist/0C0XlULifJtAgn6ZNCW2eu"\n      },\n      "href" : "https://api.spotify.com/v1/artists/0C0XlULifJtAgn6ZNCW2eu",\n      "id" : "0C0XlULifJtAgn6ZNCW2eu",\n      "name" : "The Killers",\n      "type" : "artist",\n      "uri" : "spotify:artist:0C0XlULifJtAgn6ZNCW2eu"\n    } ],\n    "external_urls" : {\n      "spotify" : "https://open.spotify.com/album/4OHNH3sDzIxnmUADXzv2kT"\n    },\n    "href" : "https://api.spotify.com/v1/albums/4OHNH3sDzIxnmUADXzv2kT",\n    "id" : "4OHNH3sDzIxnmUADXzv2kT",\n    "images" : [ {\n      "height" : 640,\n      "url" : "https://i.scdn.co/image/ac68a9e4a867ec3ce8249cd90a2d7c73755fb487",\n      "width" : 629\n    }, {\n      "height" : 300,\n      "url" : "https://i.scdn.co/image/d0186ad64df7d6fc5f65c20c7d16f4279ffeb815",\n      "width" : 295\n    }, {\n      "height" : 64,\n      "url" : "https://i.scdn.co/image/7

In [8]:
answer = json.loads(r.content)
type(answer)

dict

In [9]:
answer = r.json()
type(answer)

dict

In [10]:
answer_cut = {
    'artist':   answer['artists'][0]['name'],
    'name':     answer['name'],
    'duration': answer['duration_ms'] / 1000.0,
    'href':     answer['href'],
    'id':       answer['id'],
}
answer_cut

{'artist': 'The Killers',
 'name': 'Mr. Brightside',
 'duration': 222.586,
 'href': 'https://api.spotify.com/v1/tracks/7oK9VyNzrYvRFo7nQEYkWN',
 'id': '7oK9VyNzrYvRFo7nQEYkWN'}

In [11]:
# компактно сериализуем json в строку
json.dumps(answer_cut, separators=(',', ':'))

'{"artist":"The Killers","name":"Mr. Brightside","duration":222.586,"href":"https://api.spotify.com/v1/tracks/7oK9VyNzrYvRFo7nQEYkWN","id":"7oK9VyNzrYvRFo7nQEYkWN"}'

In [12]:
# pretty print для json
print(json.dumps(answer_cut, indent=4, sort_keys=True))

{
    "artist": "The Killers",
    "duration": 222.586,
    "href": "https://api.spotify.com/v1/tracks/7oK9VyNzrYvRFo7nQEYkWN",
    "id": "7oK9VyNzrYvRFo7nQEYkWN",
    "name": "Mr. Brightside"
}


In [13]:
with open('/tmp/answer_cut.json', mode='w') as f_json:
    json.dump(answer_cut, f_json)

In [14]:
!cat /tmp/answer_cut.json

{"artist": "The Killers", "name": "Mr. Brightside", "duration": 222.586, "href": "https://api.spotify.com/v1/tracks/7oK9VyNzrYvRFo7nQEYkWN", "id": "7oK9VyNzrYvRFo7nQEYkWN"}

In [15]:
!cat /tmp/answer_cut.json | python -m json.tool

{
    "artist": "The Killers",
    "name": "Mr. Brightside",
    "duration": 222.586,
    "href": "https://api.spotify.com/v1/tracks/7oK9VyNzrYvRFo7nQEYkWN",
    "id": "7oK9VyNzrYvRFo7nQEYkWN"
}


In [16]:
with open('/tmp/answer_cut.json', mode='r') as f_json:
    answer_cut = json.load(f_json)
answer_cut

{'artist': 'The Killers',
 'name': 'Mr. Brightside',
 'duration': 222.586,
 'href': 'https://api.spotify.com/v1/tracks/7oK9VyNzrYvRFo7nQEYkWN',
 'id': '7oK9VyNzrYvRFo7nQEYkWN'}

## А можно ли как-то ускорить процесс обкачки?

Какая разница между процессом и потоками (threads)?

<img width='600px' src="https://joearms.github.io/images/con_and_par.jpg"></img>

Глобальная блокировка интерпретатора ( global interpreter lock , **GIL** ) Python. Если два или более потока попытаются манипулировать одним и тем же объектом в одно и то же время, то неизбежно возникнут проблемы. Глобальная блокировка интерпретатора исправляет это. В любой момент времени действия может выполнять только один поток. Python автоматически переключается между потоками, когда в этом возникает необходимость.

GIL в Python реализован как обычный lock.

Скачивание данных через библиотеку requsets – I/O операция, поэтому большую часть времени процессор не выполняет никаких задач, потому что ждёт, пока данные придут по сети.

In [17]:
from tqdm import tqdm

In [18]:
%%time

n_post_first, n_post_final = 349000, 349200

r = [requests.get('https://habrahabr.ru/post/{}/'.format(post_id))
     for post_id in tqdm(range(n_post_first, n_post_final, 2))]

100%|██████████| 100/100 [00:56<00:00,  1.78it/s]

CPU times: user 4.67 s, sys: 303 ms, total: 4.97 s
Wall time: 56.2 s





In [19]:
from multiprocessing.dummy import Pool as ThreadPool

In [20]:
%%time

n_post_first, n_post_final = 349000, 349200

def get_habr_post(post_id):
    return requests.get('https://habrahabr.ru/post/{}/'.format(post_id))

pool = ThreadPool(10)
r = pool.map(get_habr_post, range(n_post_first, n_post_final, 2))
pool.close()
pool.join()

CPU times: user 3.31 s, sys: 321 ms, total: 3.64 s
Wall time: 3.11 s


In [21]:
from multiprocessing import Pool

In [22]:
%%time

n_post_first, n_post_final = 349000, 349200

def get_habr_post(post_id):
    return requests.get('https://habrahabr.ru/post/{}/'.format(post_id))

pool = Pool(processes=10)
r = pool.map(get_habr_post, range(n_post_first, n_post_final, 2))
pool.close()
pool.join()

CPU times: user 32.3 ms, sys: 77.7 ms, total: 110 ms
Wall time: 2.73 s


# Парсинг HTML-страничек

<img width='800px' src="https://q-bit.biz/uploads/article/Tegs_1539003896.png"></img>

## robots.txt

1. Валидаторы:
    * https://webmaster.yandex.ru/tools/robotstxt/
    * https://technicalseo.com/seo-tools/robots-txt/
2. Все о robots.txt:
    * https://help.mail.ru/webmaster/indexing/robots.txt
    * https://yandex.ru/support/webmaster/controlling-robot/

## HTMLParser

https://www.kinopoisk.ru/film/garri-potter-i-taynaya-komnata-2002-688/

In [23]:
from html.parser import HTMLParser

In [24]:
film_url = 'https://www.kinopoisk.ru/film/garri-potter-i-taynaya-komnata-2002-688/'
film_html = requests.get(film_url).text

In [25]:
class KinoPoiskParser(HTMLParser):
    """
    Парсер страниц КиноПоиска с фильмами.

    Извлекает следующую информацию:
        1. название;
        2. оригинальное название;
        3. страны производители;
        4. длительность;
        5. описание;
        6. рейтинг.
    """

    def __init__(self):
        super().__init__()
        self.film_info = dict()
        self.status = None
        
    def handle_starttag(self, tag, attrs):
        attrs = dict(attrs)
        self.status = None
        
        # HTML Parser не умеет сплитить значения атрибутов по пробелу
        if 'class' in attrs:
            attrs['class'] = attrs['class'].split()
        else:
            attrs['class'] = []
        
        if tag == 'h1' and 'moviename-big' in attrs['class']:
            # 1. Название фильма
            self.status = 'title'
        elif tag == 'span':
            if attrs.get('itemprop', '') == 'alternativeHeadline':
                # 2. Оригинальное название фильма
                self.status = 'title-original'
            elif 'rating_ball' in attrs['class']:
                # 6. Рейтинг фильма
                self.status = 'rating'
        elif tag == 'div':
            if 'flag' in attrs['class']:
                # 3. Страны производители
                if 'countries' not in self.film_info:
                    self.film_info['countries'] = []
                
                country = attrs.get('title')
                if country:
                    self.film_info['countries'].append(country)
            elif attrs.get('itemprop') == 'description':
                # 5. Описание фильма
                self.status = 'description'
        elif tag == 'td' and 'time' in attrs['class'] and \
                attrs.get('id', '') == 'runtime':
            # 4. Длительность фильма
            self.status = 'time'
            
    def handle_data(self, data):
        data = data.strip()
        
        if not data:
            return
        
        if self.status is not None:
            if self.status == 'rating':
                # приводим рейтинг к float
                data = float(data)
            elif self.status == 'time':
                # форматируем дату
                data = re.search('\d+', data)
                data = int(data.group(0))
                data = "{:02}:{}".format(data // 60, data % 60)
            else:
                # в остальных случаях убираем лишние пробелы
                data = re.sub('\s+', ' ', data)
            self.film_info[self.status] = data 
            
    def clear():
        # очищаем информацию о фильме, перед обработкой
        # новой страницы
        self.film_info = {}

In [26]:
parser = KinoPoiskParser()

In [27]:
parser.feed(film_html)
parser.film_info

{'title': 'Гарри Поттер и Тайная комната',
 'title-original': 'Harry Potter and the Chamber of Secrets',
 'countries': ['Великобритания', 'США', 'Германия'],
 'time': '02:41',
 'description': 'Гарри Поттер переходит на второй курс Школы чародейства и волшебства Хогвартс. Эльф Добби предупреждает Гарри об опасности, которая поджидает его там, и просит больше не возвращаться в школу.',
 'rating': 8.031}

## Beautiful Soup
https://www.crummy.com/software/BeautifulSoup/bs4/doc/

<img width = '330px' src="images/bsoup.jpg">

In [28]:
from bs4 import BeautifulSoup

In [29]:
soup = BeautifulSoup(film_html, 'html.parser')

### Соберем основную информацию о фильме

In [30]:
film_info = {
    'title': soup.find('h1', class_='moviename-big').text,
    'title-original': soup.find('span', itemprop='alternativeHeadline').text,
    'countries': list(map(lambda e: e.attrs['title'], soup.find_all('div', class_='flag'))),
    'time': re.search('\d\d:\d\d', soup.find('td', class_='time').text).group(0),
    'rating': float(soup.select_one('.rating_ball').text) # поддержка CSS-селекторов
}

film_info

{'title': 'Гарри Поттер и Тайная комната',
 'title-original': 'Harry Potter and the Chamber of Secrets',
 'countries': ['Великобритания', 'США', 'Германия'],
 'time': '02:41',
 'rating': 8.031}

In [31]:
desc = soup.find('div', itemprop='description')
desc

<div class="brand_words film-synopsys" itemprop="description">Гарри Поттер переходит на второй курс Школы чародейства и волшебства Хогвартс. Эльф Добби предупреждает Гарри об опасности, которая поджидает его там, и просит больше не возвращаться в школу.<br/><br/>Юный волшебник не следует совету эльфа и становится свидетелем таинственных событий, разворачивающихся в Хогвартсе. Вскоре Гарри и его друзья узнают о существовании Тайной Комнаты и сталкиваются с новыми приключениями, пытаясь победить темные силы.</div>

In [32]:
desc.text

'Гарри Поттер переходит на\xa0второй курс Школы чародейства и\xa0волшебства Хогвартс. Эльф Добби предупреждает Гарри об\xa0опасности, которая поджидает его\xa0там, и\xa0просит больше не\xa0возвращаться в\xa0школу.Юный волшебник не\xa0следует совету эльфа и\xa0становится свидетелем таинственных событий, разворачивающихся в\xa0Хогвартсе. Вскоре Гарри и\xa0его друзья узнают о\xa0существовании Тайной Комнаты и\xa0сталкиваются с\xa0новыми приключениями, пытаясь победить темные силы.'

In [33]:
for br in desc.find_all("br"):
    br.replace_with("\n")
desc

<div class="brand_words film-synopsys" itemprop="description">Гарри Поттер переходит на второй курс Школы чародейства и волшебства Хогвартс. Эльф Добби предупреждает Гарри об опасности, которая поджидает его там, и просит больше не возвращаться в школу.

Юный волшебник не следует совету эльфа и становится свидетелем таинственных событий, разворачивающихся в Хогвартсе. Вскоре Гарри и его друзья узнают о существовании Тайной Комнаты и сталкиваются с новыми приключениями, пытаясь победить темные силы.</div>

In [34]:
film_info['description'] = re.sub('\s+', ' ', desc.text)
film_info

{'title': 'Гарри Поттер и Тайная комната',
 'title-original': 'Harry Potter and the Chamber of Secrets',
 'countries': ['Великобритания', 'США', 'Германия'],
 'time': '02:41',
 'rating': 8.031,
 'description': 'Гарри Поттер переходит на второй курс Школы чародейства и волшебства Хогвартс. Эльф Добби предупреждает Гарри об опасности, которая поджидает его там, и просит больше не возвращаться в школу. Юный волшебник не следует совету эльфа и становится свидетелем таинственных событий, разворачивающихся в Хогвартсе. Вскоре Гарри и его друзья узнают о существовании Тайной Комнаты и сталкиваются с новыми приключениями, пытаясь победить темные силы.'}

### Извлечем таблицу

In [35]:
table = soup.find('table', class_='info')
rows = table.find_all('tr')

In [36]:
data = [list(map(lambda x: x.text, row.find_all('td'))) for row in rows]
data

[['год', '\n2002\n'],
 ['страна', '\nВеликобритания, США, Германия\n'],
 ['слоган', '«Зло вернулось в Хогвартс»'],
 ['режиссер', 'Крис Коламбус'],
 ['сценарий', 'Стивен Кловз, Дж.К. Роулинг'],
 ['продюсер', 'Дэвид Хейман, Майкл Барнатан, Дэвид Баррон, ...'],
 ['оператор', 'Роджер Прэтт'],
 ['композитор', 'Джон Уильямс'],
 ['художник', 'Стюарт Крэйг, Эндрю Эклэнд-Сноу, Марк Бартоломью, ...'],
 ['монтаж', 'Питер Хонесс'],
 ['жанр', '\nфэнтези, детектив, приключения, семейный, ...\nслова\n'],
 ['бюджет', '\n$100\xa0000\xa0000\n'],
 ['маркетинг', '\n$50\xa0000\xa0000\n'],
 ['сборы в США',
  '\n\n$261\xa0988\xa0482\n\n\n var is_usa_box_popup = true; \n'],
 ['сборы в мире',
  '\n\n+\xa0$616\xa0991\xa0152\xa0=\xa0$878\xa0979\xa0634\nсборы\n\n var is_world_box_popup = false; \n'],
 ['сборы в России',
  '\n\n$8\xa0000\xa0000\n\n\n var is_rus_box_popup = true; \n'],
 ['зрители',
  '\n\xa0\xa045.1 млн,\xa0\xa0\xa0\xa0\xa0\xa013.9 млн,\xa0\xa0\xa0\xa0\xa0\xa012.2 млн, ...\n'],
 ['премьера (мир)', 

In [37]:
data = [list(map(lambda x: re.sub("\s+", ' ', x.text.strip()), row.find_all('td')))
        for row in rows]
data

[['год', '2002'],
 ['страна', 'Великобритания, США, Германия'],
 ['слоган', '«Зло вернулось в Хогвартс»'],
 ['режиссер', 'Крис Коламбус'],
 ['сценарий', 'Стивен Кловз, Дж.К. Роулинг'],
 ['продюсер', 'Дэвид Хейман, Майкл Барнатан, Дэвид Баррон, ...'],
 ['оператор', 'Роджер Прэтт'],
 ['композитор', 'Джон Уильямс'],
 ['художник', 'Стюарт Крэйг, Эндрю Эклэнд-Сноу, Марк Бартоломью, ...'],
 ['монтаж', 'Питер Хонесс'],
 ['жанр', 'фэнтези, детектив, приключения, семейный, ... слова'],
 ['бюджет', '$100 000 000'],
 ['маркетинг', '$50 000 000'],
 ['сборы в США', '$261 988 482 var is_usa_box_popup = true;'],
 ['сборы в мире',
  '+ $616 991 152 = $878 979 634 сборы var is_world_box_popup = false;'],
 ['сборы в России', '$8 000 000 var is_rus_box_popup = true;'],
 ['зрители', '45.1 млн, 13.9 млн, 12.2 млн, ...'],
 ['премьера (мир)', '3 ноября 2002, ...'],
 ['премьера (РФ)', '26 декабря 2002, «Каро-Премьер»'],
 ['релиз на DVD', '22 апреля 2003, «Premier Digital», ...'],
 ['релиз на Blu-ray', '20 янв

In [38]:
for row in rows:
    for script in row.find_all("script"):
        script.replace_with('')
        
data = [list(map(lambda x: re.sub("\s+", ' ', x.text.strip()), row.find_all('td')))
        for row in rows]
data

[['год', '2002'],
 ['страна', 'Великобритания, США, Германия'],
 ['слоган', '«Зло вернулось в Хогвартс»'],
 ['режиссер', 'Крис Коламбус'],
 ['сценарий', 'Стивен Кловз, Дж.К. Роулинг'],
 ['продюсер', 'Дэвид Хейман, Майкл Барнатан, Дэвид Баррон, ...'],
 ['оператор', 'Роджер Прэтт'],
 ['композитор', 'Джон Уильямс'],
 ['художник', 'Стюарт Крэйг, Эндрю Эклэнд-Сноу, Марк Бартоломью, ...'],
 ['монтаж', 'Питер Хонесс'],
 ['жанр', 'фэнтези, детектив, приключения, семейный, ... слова'],
 ['бюджет', '$100 000 000'],
 ['маркетинг', '$50 000 000'],
 ['сборы в США', '$261 988 482'],
 ['сборы в мире', '+ $616 991 152 = $878 979 634 сборы'],
 ['сборы в России', '$8 000 000'],
 ['зрители', '45.1 млн, 13.9 млн, 12.2 млн, ...'],
 ['премьера (мир)', '3 ноября 2002, ...'],
 ['премьера (РФ)', '26 декабря 2002, «Каро-Премьер»'],
 ['релиз на DVD', '22 апреля 2003, «Premier Digital», ...'],
 ['релиз на Blu-ray', '20 января 2009, «Юниверсал Пикчерс Рус», ...'],
 ['возраст', 'зрителям, достигшим 12 лет'],
 ['рей

In [39]:
import pandas as pd

In [40]:
# Внимание! Из таблицы все равно придется убрать скрипты

df = pd.read_html(str(table))[0]
df

Unnamed: 0,0,1
0,год,2002
1,страна,"Великобритания, США, Германия"
2,слоган,«Зло вернулось в Хогвартс»
3,режиссер,Крис Коламбус
4,сценарий,"Стивен Кловз, Дж.К. Роулинг"
5,продюсер,"Дэвид Хейман, Майкл Барнатан, Дэвид Баррон, ..."
6,оператор,Роджер Прэтт
7,композитор,Джон Уильямс
8,художник,"Стюарт Крэйг, Эндрю Эклэнд-Сноу, Марк Бартолом..."
9,монтаж,Питер Хонесс


### Пройдемся по спискам

In [41]:
actors, actors_dub = soup.find('div', id='actorList').find_all('ul')

In [42]:
[row.text for row in actors.children if row.text != '...']

['Дэниэл Рэдклифф',
 'Руперт Гринт',
 'Эмма Уотсон',
 'Том Фелтон',
 'Кеннет Брана',
 'Бонни Райт',
 'Алан Рикман',
 'Ричард Харрис',
 'Мэгги Смит',
 'Робби Колтрейн']

In [43]:
[row.text for row in actors_dub.children if row.text != '...']

['Николай Быстров',
 'Ольга Сирина',
 'Лина Иванова',
 'Александр Скрывля',
 'Вадим Андреев']

### Обкачаем картинки

In [44]:
film_photos_html = requests.get(
    'https://www.kinopoisk.ru/film/garri-potter-i-taynaya-komnata-2002-688/stills/').content

In [45]:
soup = BeautifulSoup(film_photos_html, 'html.parser')

In [46]:
list(map(lambda s: s.attrs['src'], soup.find('table', class_='fotos').findAll("img")))[:10]

['https://st.kp.yandex.net/images/kadr/sm_2094224.jpg',
 'https://st.kp.yandex.net/images/kadr/sm_2005184.jpg',
 'https://st.kp.yandex.net/images/kadr/sm_2005183.jpg',
 'https://st.kp.yandex.net/images/kadr/sm_2005182.jpg',
 'https://st.kp.yandex.net/images/kadr/sm_2005181.jpg',
 'https://st.kp.yandex.net/images/kadr/sm_1558456.jpg',
 'https://st.kp.yandex.net/images/kadr/sm_1558455.jpg',
 'https://st.kp.yandex.net/images/kadr/sm_1558454.jpg',
 'https://st.kp.yandex.net/images/kadr/sm_1558453.jpg',
 'https://st.kp.yandex.net/images/kadr/sm_1558452.jpg']

## Заголовки

https://www.dafont.com/

In [47]:
r = requests.get('https://www.dafont.com/')
len(r.text)

0

https://pypi.org/project/fake-useragent/

In [48]:
headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) ' +
                         'AppleWebKit/537.36 (KHTML, like Gecko) ' +
                         'Chrome/42.0.2311.90 Safari/537.36'}

r = requests.get('https://www.dafont.com/', headers=headers)
len(r.text)

19824

## Cookie

Cookie (куки) — это небольшие текстовые файлы, в которые браузер записывает данные с посещенных вами сайтов. Файлы cookie позволяют сайтам «запоминать» своих посетителей, например, чтобы каждый раз не переспрашивать их логин и пароль.

chrome://settings/cookies/detail?site=sphere.mail.ru (sessionid_gtp)

In [49]:
r = requests.get('https://sphere.mail.ru/people/', params={'q': 'BD-11'})
r.ok

True

In [50]:
soup = BeautifulSoup(r.content, 'html.parser')

table = soup.find('div', class_='people-list')
table is not None

False

In [51]:
with open('sphere-cookies.json', mode='r') as f_cookies:
    cookies = json.load(f_cookies)
    
r = requests.get('https://sphere.mail.ru/people/', params={'q': 'BD-11'}, cookies=cookies)
r.ok

True

In [52]:
soup = BeautifulSoup(r.content, 'html.parser')

table = soup.find('div', class_='people-list')
table is not None

True

In [53]:
from urllib.parse import urlparse

In [54]:
rows = table.find('table', class_='table-users').find('tbody').find_all('tr')

users = [{'name': row.find('p', class_='realname').text,
          'nick': urlparse(row.find('p', class_='username').find('a').attrs['href']).\
              path.split('/')[2],
          'type': row.find('span', class_='user-group').text,
          'power': row.find('td', class_='cell-skill').text,
          'rating': row.find('td', class_='cell-rating').text.strip()}
         for row in rows]

df = pd.DataFrame(users)
df.head(10)

Unnamed: 0,name,nick,power,rating,type
0,Дмитрий Малов,d.malov,0,1.93,Студент
1,Кирилл Бухтеев,k.buhteev,0,1.51,Студент
2,Дмитрий Мержвинский,d.merzhvinskij,0,1.51,Студент
3,Георгий Броницкий,g.bronitskij,0,1.51,Студент
4,Василий Висков,v.viskov,0,1.51,Студент
5,Олег Шевченко,ol.shevchenko,0,1.51,Студент
6,Сергей Стариков,s.starikov,0,1.09,Студент
7,Георгий Русанов,r.georgij,0,1.09,Студент
8,Елисей Питанов,el.pitanov,0,1.09,Студент
9,Андрей Тюняткин,a.tyunyatkin,0,1.09,Студент


## Proxy

In [55]:
r = requests.get('https://yandex.ru/internet/')

soup = BeautifulSoup(r.content, 'html.parser')

ip = soup.find('li', class_='client__item_type_ipv4').\
    find('div', class_='client__desc').text
loc = soup.find('li', class_='client__item_type_location').\
    find('div', class_='client__desc').text
loc = re.sub('\s?Настроить', '', loc)

ip, loc

('–', 'Москва')

http://spys.one/proxys/DE/

In [56]:
proxies = { 'https': '207.180.233.72:80' }
r = requests.get('https://yandex.ru/internet/', proxies=proxies)

soup = BeautifulSoup(r.content, 'html.parser')

ip = soup.find('li', class_='client__item_type_ipv4').\
    find('div', class_='client__desc').text
loc = soup.find('li', class_='client__item_type_location').\
    find('div', class_='client__desc').text
loc = re.sub('\s?Настроить', '', loc)

ip, loc

('207.180.233.72', 'Берлин')

## Selenium

<img width = '500px' src="https://cdn-a.william-reed.com/var/wrbm_gb_food_pharma/storage/images/publications/food-beverage-nutrition/nutraingredients.com/news/research/selenium-may-protect-against-epileptic-seizures-mouse-study-suggests/7690019-1-eng-GB/Selenium-may-protect-against-epileptic-seizures-mouse-study-suggests_wrbm_large.jpg">

http://selenium-python.readthedocs.io/

https://kreisfahrer.gitbooks.io/selenium-webdriver/

In [56]:
url_format = "http://www.banki.ru/banks/map/{city}/#/!b1:{bank_ids}!s3:{bank_types}!s4:list!p1:{page}"

In [57]:
url_params = {
    'city': 'lyubertssyi',
    'bank_ids': 'all',
    'bank_types': 'all',
    'page': 1,
}

In [58]:
url_current = url_format.format(**url_params)
url_current

'http://www.banki.ru/banks/map/lyubertssyi/#/!b1:all!s3:all!s4:list!p1:1'

https://www.banki.ru/banks/map/lyubertssyi/#/!b1:all!s3:all!s4:list!p1:1

In [59]:
r = requests.get(url_current).content

In [60]:
# find '<script id="list-template">'

soup = BeautifulSoup(r, "html.parser")
print(soup.prettify())

<!DOCTYPE doctype html>
<html class="env-no-js env-desktop " prefix="ya: http://webmaster.yandex.ru/vocabularies/
og: http://ogp.me/ns#" xmlns="http://www.w3.org/1999/xhtml" xmlns:fb="http://www.facebook.com/2008/fbml" xmlns:og="http://opengraphprotocol.org/schema/">
 <head>
  <link href="/favicon.ico?_v=1553792368" rel="icon" type="image/x-icon"/>
  <meta content="app-id=597405601" name="apple-itunes-app"/>
  <meta content="telephone=no" name="format-detection"/>
  <title>
   Банкоматы Люберец, список отделений банков в г. Люберцы на карте | Банки.ру
  </title>
  <meta content="банк, Люберцы, банкоматы, филиалы, карта, телефон, режим работы" name="keywords">
   <meta content="Актуальный список банкоматов, отделений, офисов и филиалов банков Люберец: адреса, телефоны, режим работы и расположение на карте" name="description"/>
   <meta content="index, follow" name="robots"/>
   <meta content="243196695801552" property="fb:app_id"/>
   <meta content="Банки.ру" property="og:site_name"/>
 

In [61]:
from selenium import webdriver

import html
from time import sleep

In [62]:
with webdriver.Firefox() as driver:
    driver.get("https://mail.ru/")
    sleep(3)

In [63]:
def get_banks_info(driver, url, t_sleep=1):
    driver.get(url)
    sleep(t_sleep)
    
    result = []
    items = driver.find_elements_by_class_name("list__item")
    
    for item in items:
        classes = item.get_attribute('class').split()
        if 'list__item--header' in classes:
            continue
            
        bank_info = {
            'name': item.get_attribute("data-name"),
            'type': item.get_attribute("data-type"),
            'address': item.get_attribute("data-address"),
            'lat': item.get_attribute("data-latitude"),
            'lon': item.get_attribute("data-longitude"),
            'name_bank': item.find_element_by_class_name("item__name__bank").text,
            'access24h': 'круглосуточно' in
                item.find_element_by_class_name("item__schedule").text.lower(),
        }

        if bank_info['lat'] is not None:
            bank_info['lat'] = float(bank_info['lat'])

        if bank_info['lon'] is not None:
            bank_info['lon'] = float(bank_info['lon'])
            
        for f in ['address', 'name', 'name_bank']:
            if bank_info[f] is None:
                continue
            bank_info[f] = html.unescape(bank_info[f])

        result.append(bank_info)
        
    return result


with webdriver.Firefox() as driver:
    result = get_banks_info(driver, url_current)

In [64]:
result = pd.DataFrame(result)
result.head()

Unnamed: 0,access24h,address,lat,lon,name,name_bank,type
0,False,"Московская обл., г. Люберцы, ул. Красная, д. 4",55.681925,37.891755,Отделение,Абсолют Банк,office
1,False,"г. Люберцы, ул. Красная, д. 4",55.681923,37.891758,Банкомат,Абсолют Банк,atm
2,False,"Московская обл., г. Люберцы, ул. 3-е Почтовое ...",55.682166,37.868119,Офис «Авангард-Экспресс» № 8835,Авангард,office
3,False,"Московская обл., г. Люберцы, ш. Новорязанское,...",55.669862,37.871511,Офис «Авангард-Экспресс» № 8939,Авангард,office
4,False,"Московская обл., г. Люберцы, ул. Побратимов, д. 7",55.692013,37.896669,Офис «Авангард-Экспресс» № 8944,Авангард,office


### А как можно эту задачу решать по умному?

Идем в консольку браузера 😉

In [65]:
offset, limit = 0, 1000

df_banks_coords = []

while True:
    data = {
        'jsonrpc': '2.0',
        'method': 'bankGeo/getObjectsByFilter',
        'params': {
            'offset': offset,
            'limit': limit,
            'type': ['office', 'branch', 'atm', 'cash', 'self_office'],
            'bank_id': ['36119', '325', '63520', '327', '2764', '4389', '3697', '4725'],
        },
        'id': ''
    }
    
    r = requests.post('https://www.banki.ru/api/', json=data)
    if r.status_code != 200:
        raise Exception('Request has failed.')
    
    r = r.json()
    df_banks_coords.extend(r['result']['data'])
    
    if not len(df_banks_coords) < r['result']['total']:
        break
        
    offset += limit
        
df_banks_coords = pd.DataFrame(df_banks_coords)

In [66]:
df_banks_coords.head()

Unnamed: 0,active,address,bank_id,icon_url,id,is_main,latitude,longitude,name,region_id,sort,type
0,True,"г. Красноярск, ул. Урицкого, д. 117",36119,/upload/iblock/8e2/akbars.gif,10754015,True,56.008715,92.864829,Банкомат,657,0,atm
1,True,"Тюменская обл., с. Шорохово, ул. Кленовая, д. 8",36119,/upload/iblock/8e2/akbars.gif,10756739,True,56.679337,65.391451,Банкомат,4174,0,atm
2,True,"Республика Марий Эл, п. Медведево, ул. Логинов...",36119,/upload/iblock/8e2/akbars.gif,10754132,True,56.637838,47.816631,Банкомат,3293,0,atm
3,True,"г. Нижнекамск, ул. Бызова, д. 20",36119,/upload/iblock/8e2/akbars.gif,10755700,True,55.660712,51.828893,Банкомат,483,0,atm
4,True,"г. Нижнекамск, просп. Вахитова, д. 47",36119,/upload/iblock/8e2/akbars.gif,10755649,True,55.651714,51.821194,Банкомат,483,0,atm


### А что ещё умеет Selenium?

In [67]:
import random

def random_sleep(offset=1.5, length=4):
    sleep(random.random() * length + offset)

with webdriver.Firefox() as driver:
    driver.get("https://music.yandex.ru/artist/184100")
    random_sleep()
    
    # можно исполнять свой javascript код
    driver.execute_script("window.scrollTo(0, 250);")
    random_sleep(0)
    
    # можно использовать CSS-селекторы или XPath
    # лучше использовать Firefox, он лучше подсказывает пути
    # стоит использовать, если путь выглядит лаконичным
    # пример плохого CSS-селектора
    elem = driver.find_element_by_css_selector(
        'div.d-tabs__tab:nth-child(3) > a:nth-child(1)')
    
    # можно кликать по объектам
    # [ переходим на страничку с альбомами группы ]
    elem.click()
    random_sleep()
    
    # можно искать по классам
    albums = driver.find_element_by_class_name('page-artist__albums').\
        find_elements_by_class_name('album_selectable')
    album = albums[4]
    # [ прокручиваем до нужного альбома ]
    driver.execute_script("return arguments[0].scrollIntoView();", album)
    random_sleep()
    # [ переходим на страничку с выбранным альбомом ]
    album.find_element_by_class_name('d-link').click()
    random_sleep()
    
    driver.execute_script("window.scrollTo(0, 340);")
    random_sleep(0)
    
    # [ кликаем на play ]
    play = driver.find_element_by_class_name('button-play__type_album')
    play.click()
    
    # [ прокликиваем на 5 трек ]
    # пример хорошего CSS-селектора
    next_ = driver.find_element_by_css_selector('.d-icon_track-next')
    for i in range(4):
        next_.click()
        random_sleep(1, 1)
        
    # [ выводим информацию о треке ]
    # пример хорошего CSS-селектора
    elem = driver.find_element_by_css_selector('.track__name')
    artist = elem.find_element_by_class_name('track__artists').text
    title = elem.find_element_by_class_name('track__title').text
    
    tracks = driver.find_element_by_css_selector('.page-album__tracks').\
        find_elements_by_class_name('d-track')
    
    for track_i, track in enumerate(tracks, 1):
        if 'd-track_playing' in track.get_attribute("class").split(' '):
            break
    
    print("Now playing: {} - {}".format(artist, title))
    print("{}th track of {} tracks".format(track_i, len(tracks)))
    
    sleep(15)

Now playing: Three Days Grace - Tell Me Why
5th track of 12 tracks


И многое, многое другое... 😊

## Selenium — инструмент тестирования

[Katalon Recorder](https://www.katalon.com/) (Selenium IDE): [Chrome Extension](https://chrome.google.com/webstore/detail/katalon-recorder-selenium/ljdobmomdgdljniojadhoplhkpialdid), [Firefox Extension](https://addons.mozilla.org/en-US/firefox/addon/katalon-automation-record/)

chrome://extensions/

https://mail.ru/ --> "кто такой филантроп?"