# Регулярные выражения

**Регулярные выражения** _\(regular expressions, RegExp\)_ — это формальный язык для операций \(поиск, замена и т.п.\) с подстроками в тексте. Иными словами, это способ задать некоторый паттерн и найти / заменить на что-либо те кусочки текста, которые с ним совпадают.

<img width='450px' src="images/use-regex.jpg"></img>

Некоторые люди, когда сталкиваются с проблемой, думают:

    «Я знаю, я решу её с помощью регулярных выражений.»

Теперь у них **ДВЕ** проблемы.

## Что почитать и посмотреть?

1. Хороший [«быстрый старт»](https://tproger.ru/translations/regular-expression-python/) с задачками от TProger.
2. Отличный [туториал](https://habr.com/post/349860/) с задачками на Хабре.
3. Регулярные выражения за 20 минут [видео на YouTube](https://www.youtube.com/watch?v=_pLpx6btq6U).
4. [Документация](https://docs.python.org/3/library/re.html) к стандартной библиотеке.

In [1]:
import re

Отладчики регулярных выражений:
* https://www.debuggex.com/ ;
* https://regex101.com/ .

`bash`-утилиты, использующие регулярные выражения: [`sed`](https://losst.ru/komanda-sed-linux), [`grep`](https://losst.ru/gerp-poisk-vnutri-fajlov-v-linux).

`IDE -> Find & Replace -> RegExp`

### re.search

Эта функция, ищет заданный шаблон в **любом** месте строки, но возвращает только первое найденное совпадение. 

Аргументы: что найти, где найти.

In [2]:
re.search(r'cat', 'the fat cat is on the mat')

<re.Match object; span=(8, 11), match='cat'>

In [3]:
re.search(r'cat', 'the fat cat is on the mat').group(0)

'cat'

### re.findall

Эта функция возвращает список **всех** найденных совпадений в любом месте строки. Аргументы у нее те же, что и у предыдущей функции.

**Замечание:** если вы уверены, что в строке только одно вхождение, предпочитайте `re.search`.

In [4]:
re.findall(r'the', 'the fat cat is on the mat')

['the', 'the']

### re.sub

Эта функция ищет шаблон в строке и заменяет его на указанную подстроку. Если шаблон не найден, строка остается неизменной.

Аргументы: что заменить; на что заменить; где заменить.

Заменяются все подстроки, которые нашлись по шаблону.

In [5]:
re.sub(r'the', 'my', 'the fat cat is on the mat')

'my fat cat is on my mat'

### Как задать регулярное выражение?

* `\d` – любая цифра (`[0-9]`);
* `\w` – любая цифра, любая латинская буква или символ `_` (`[0-9a-zA-Z_]`);
* `\s` – любой пробельный символ;
* `[...]` – любой из перечисленных символов, например, `[12345]` (или диапазоны, см. выше);
* `[^...]` – любой символ кроме перечисленных;
* `^` – символ начала строки;
* `$` – символ конца строки;
* `\b` – граница слова.

In [6]:
# найти все слова из 3-х букв, кончающиеся на at

re.findall(r'\b\wat\b', 'the fat cat is on the mat')

['fat', 'cat', 'mat']

In [7]:
# найти слово из 3-х букв, кончающееся на at и стоящее в конце строки

re.findall(r'\b\wat$', 'the fat cat is on the mat')

['mat']

Группировка выражений выполняется с поомощью операторов `(...)` и `|`.

In [8]:
# найти все слова из 3-х букв, начинающиеся или заканчивающиеся с символа t

re.findall(r'\b(t\w\w|\w\wt)\b', 'the fat cat is on the mat')

['the', 'fat', 'cat', 'the', 'mat']

Кроме того, можно задавать длину строки, которую мы ищем:

* `?` — предыдущий символ/группа может быть, а может не быть;
* `+` — предыдущий символ/группа может повторяться 1 и более раз;
* `*` — предыдущий символ/группа может повторяться 0 и более раз;
* `{n,m}` — предыдущий символ/группа может повторяться от от n до m включительно;
* `{n,}` — предыдущий символ/группа в скобках может повторяться n и более раз;
* `{,m}` — предыдущий символ/группа может повторяться до m раз;
* `{n}` — предыдущий символ/группа повторяется n раз.

In [9]:
# найти все слова из 2-х букв, начинающиеся или заканчивающиеся с символа t

re.findall(r'\b\w{2}\b', 'the fat cat is on the mat')

['is', 'on']

In [10]:
# найти все слова из 3-х букв, начинающиеся или заканчивающиеся с символа t

re.findall(r'\b(t\w{2}|\w{2}t)\b', 'the fat cat is on the mat')

['the', 'fat', 'cat', 'the', 'mat']

### Еще несколько примеров

Найти число с плавающей точкой

In [11]:
re.search('\d+(\.\d+)?', '123')

<re.Match object; span=(0, 3), match='123'>

In [12]:
re.search('\d+(\.\d+)?', '12.3')

<re.Match object; span=(0, 4), match='12.3'>

In [13]:
re.search('\d+(\.\d+)?', '12.')

<re.Match object; span=(0, 2), match='12'>

Определение языка: украинский или русский

In [14]:
records = [
    'Знову до справи: як отримати роботу після тривалої перерви',
    'Гендерные «качели»: карьерные провалы и зарплатная недостаточность',
    'Агроперспективні пропозиції на ринку праці: 15 актуальних вакансій',
    'Переговори: як досягти бажаного результату?',
    'Не досягненнями єдиними: як хобі допоможе отримати роботу',
    'Работа в рекламе: три неочевидные профессии',
]

In [15]:
def is_ukraine(s):
    is_ok = re.search(r'\b[а-я]*[іїє][а-я]*\b', s, flags=re.IGNORECASE) is not None
    is_ok = is_ok or re.search(r'\b(як|де)\b', s, flags=re.IGNORECASE) is not None
    return is_ok

In [16]:
for s in records:
    print(is_ukraine(s), s, sep='\t')

True	Знову до справи: як отримати роботу після тривалої перерви
False	Гендерные «качели»: карьерные провалы и зарплатная недостаточность
True	Агроперспективні пропозиції на ринку праці: 15 актуальних вакансій
True	Переговори: як досягти бажаного результату?
True	Не досягненнями єдиними: як хобі допоможе отримати роботу
False	Работа в рекламе: три неочевидные профессии


Удаление лишней обвязки

In [17]:
s = '''
<script>
    window._io_config = window._io_config || {};
    window._io_config["0.2.0"] = window._io_config["0.2.0"] || [];
    window._io_config["0.2.0"].push({
      page_url: window.location.href,
      page_url_canonical: "https://perito-burrito.com/posts/russia-2020",
      page_title: "Как 2020 год навсегда изменит путешествия по России",
      page_type: "article",
      page_language: "en",
      article_authors: ["Саша Воробьев"],
      article_categories: ["Россия","Советы"],
      article_word_count: "1731",
      article_publication_date: "Mon, 27 Jul 2020 10:04:08 +0000"
    });
</script>
'''

print(s)


<script>
    window._io_config = window._io_config || {};
    window._io_config["0.2.0"] = window._io_config["0.2.0"] || [];
    window._io_config["0.2.0"].push({
      page_url: window.location.href,
      page_url_canonical: "https://perito-burrito.com/posts/russia-2020",
      page_title: "Как 2020 год навсегда изменит путешествия по России",
      page_type: "article",
      page_language: "en",
      article_authors: ["Саша Воробьев"],
      article_categories: ["Россия","Советы"],
      article_word_count: "1731",
      article_publication_date: "Mon, 27 Jul 2020 10:04:08 +0000"
    });
</script>



In [18]:
r = re.search(r'push\((.*?)\);', s, flags=re.DOTALL).group(1)
r = r.strip('\n{}')

print(r)

      page_url: window.location.href,
      page_url_canonical: "https://perito-burrito.com/posts/russia-2020",
      page_title: "Как 2020 год навсегда изменит путешествия по России",
      page_type: "article",
      page_language: "en",
      article_authors: ["Саша Воробьев"],
      article_categories: ["Россия","Советы"],
      article_word_count: "1731",
      article_publication_date: "Mon, 27 Jul 2020 10:04:08 +0000"
    


# Структура URL

http://www.example.com:80/path/to/myfile.html?key1=value1&key2=value2#SomewhereInTheDocument

<img width='480px' src="https://mdn.mozillademos.org/files/8013/mdn-url-protocol@x2.png"></img>
<img width='480px' src="https://mdn.mozillademos.org/files/8015/mdn-url-protocol@x2.png"></img>
<img width='480px' src="https://mdn.mozillademos.org/files/8017/mdn-url-protocol@x2.png"></img>
<img width='480px' src="https://mdn.mozillademos.org/files/8019/mdn-url-protocol@x2.png"></img>
<img width='480px' src="https://mdn.mozillademos.org/files/8021/mdn-url-protocol@x2.png"></img>
<img width='480px' src="https://mdn.mozillademos.org/files/8023/mdn-url-protocol@x2.png"></img>

https://developer.mozilla.org/ru/docs/Learn/Understanding_URLs

In [19]:
from urllib.parse import urlparse, parse_qsl, parse_qs

url = "http://www.example.com:80/path/to/myfile.html?key1=value1&key2=value2#SomewhereInTheDocument"
url_parsed = urlparse(url)
url_parsed

ParseResult(scheme='http', netloc='www.example.com:80', path='/path/to/myfile.html', params='', query='key1=value1&key2=value2', fragment='SomewhereInTheDocument')

In [20]:
url_parsed.path

'/path/to/myfile.html'

In [21]:
dict(parse_qsl(url_parsed.query))

{'key1': 'value1', 'key2': 'value2'}

# Типы HTTP запросов и ответов

<img width='500px' src="images/swagger-petstore-endpoint-methods.png"></img>

<img width='800px' src="images/responses.jpg"></img>

Табличка с типами ответов: [клац раз](https://www.steveschoger.com/status-code-poster/img/status-code.png) и [клац два](https://ru.wikipedia.org/wiki/%D0%A1%D0%BF%D0%B8%D1%81%D0%BE%D0%BA_%D0%BA%D0%BE%D0%B4%D0%BE%D0%B2_%D1%81%D0%BE%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D1%8F_HTTP).

[Документация](http://docs.python-requests.org/) по библиотеке requests.

In [22]:
import requests

Пример: [oshi.at](https://oshi.at/) (аналог transfer.sh)

In [23]:
r_put = requests.put('https://oshi.at/arg.txt', data='Bonjour le monde!')
r_put

<Response [200]>

In [24]:
r_put.ok, r_put.status_code

(True, 200)

In [25]:
print(r_put.text)


https://oshi.at/a/3faac9a3bb558328e46c99a48968c7e9c88c6b87 [Admin]
https://oshi.at/BWswHg [CDN download]
https://oshi.at/BWswHg [Direct IP download]
http://oshiatwowvdbshka.onion/BWswHg [Tor download]




In [26]:
r_get = requests.get('https://oshi.at/hxcRXY')
r_get

<Response [404]>

In [27]:
r_get.text

'<!DOCTYPE html>\n<html lang="en">\n\n<head>\n\n  <meta charset="utf-8">\n  <meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no">\n  <meta name="description" content="Secure file sharing. Encrypted server. No logs. TCP and Curl uploads.">\n  <meta name="author" content="Undisclosed">\n\n  <title>O shi-, 404</title>\n\n  <link href="/static/vendor/bootstrap/css/bootstrap.min.css" rel="stylesheet">\n  <link href="/static/css/main.css" rel="stylesheet">\n  <script async type="text/javascript" src="/minified.js"></script>\n\n</head>\n\n<body>\n\n  <nav class="navbar navbar-expand-sm fixed-bottom navbar-inverse navbar-light bg-transparent">\n    <div class="container">\n      <button class="navbar-toggler" type="button" data-toggle="collapse" data-target="#navbarResponsive" aria-controls="navbarResponsive" aria-expanded="false" aria-label="Toggle navigation">\n        <span class="navbar-toggler-icon"></span>\n      </button>\n      <div class="collapse navb

Пример: [controlc.com](https://controlc.com/) (аналог pastebin.com)

In [28]:
page = requests.post('https://controlc.com/index.php?act=submit', data={
    'subdomain': '',
    'antispam': 1,
    'website': '',
    'paste_title': 'Заметка',
    'input_text': 'Привет, Техносфера!',
    'timestamp': 'ba68753935524ba7096650590c86633b',
    'paste_password': '',
    'code': 0,
}, headers={'accept-encoding': 'identity', 'referer': 'https://controlc.com/'})
page

<Response [200]>

In [29]:
from lxml import html as lhtml

tree = lhtml.fromstring(page.text)
urls = tree.xpath('//a[text()="Paste submitted successfully! (view)"]/attribute::href')
print(*urls)




# Работа с JSON

In [30]:
import json

prepare token: https://developer.spotify.com/console/get-track/?id=3n3Ppam7vgaVa1iaRUc9Lp

In [31]:
with open('spotify-api-token.key', mode='r') as f_key:
    spotify_api_token = f_key.readline().strip()
    

class SpotifyAPI:    
    def __init__(self, token):
        self._token = token

    def get_track_info(self, track_id, market='US'):
        # посылаем get запрос, указываем аргументы и заголовки
        ret = requests.get("https://api.spotify.com/v1/tracks/{}".format(track_id),
                           params={'market': market,},
                           headers={'Authorization': f'Bearer {self._token}'})
        return ret


spotify = SpotifyAPI(spotify_api_token)
r = spotify.get_track_info('7gVGBGI4ZqvkYBlh2LdrQy', market='RU')
r.status_code

401

In [32]:
print(r.text)

{
  "error": {
    "status": 401,
    "message": "The access token expired"
  }
}


In [33]:
answer = json.loads(r.text)
type(answer)

dict

In [34]:
answer = r.json()
type(answer)

dict

In [35]:
answer_cut = {
    'artist':   answer['artists'][0]['name'],
    'name':     answer['name'],
    'duration': answer['duration_ms'] / 1000.0,
    'href':     answer['href'],
    'id':       answer['id'],
    'preview':  answer['preview_url'],
}
answer_cut

KeyError: 'artists'

In [None]:
filename = urlparse(answer_cut['preview']).path.rsplit('/', 1)[-1] + '.mp3'

# NOTE: используем атрибут content для бинарных данных

with open(filename, 'wb') as f:
    data = requests.get(answer_cut['preview']).content
    f.write(data)
    
print(filename)

In [None]:
import IPython.display as ipd

ipd.Audio(filename) 

In [None]:
# компактно сериализуем json в строку

json.dumps(answer_cut)

In [None]:
# pretty print для json

print(json.dumps(answer_cut, indent=4, sort_keys=True))

In [None]:
with open('/tmp/answer_cut.json', mode='w') as f_json:
    json.dump(answer_cut, f_json)

In [None]:
with open('/tmp/answer_cut.json', mode='r') as f_json:
    answer_cut = json.load(f_json)

answer_cut

In [None]:
!cat /tmp/answer_cut.json

In [None]:
!cat /tmp/answer_cut.json | python -m json.tool

In [None]:
!cat /tmp/answer_cut.json | jq .

## А можно ли как-то ускорить процесс обкачки?

<span style="color:blue;font-weight:bold">Вопрос:</span> какая разница между процессами и потоками (threads)?

Глобальная блокировка интерпретатора ( global interpreter lock , **GIL** ) Python. Если два или более потока попытаются манипулировать одним и тем же объектом в одно и то же время, то неизбежно возникнут проблемы. Глобальная блокировка интерпретатора исправляет это. В любой момент времени действия может выполнять только один поток. Python автоматически переключается между потоками, когда в этом возникает необходимость.

GIL в Python реализован как обычный lock.

Скачивание данных через библиотеку requsets – I/O операция, поэтому большую часть времени процессор не выполняет никаких задач, потому что ждёт, пока данные придут по сети.

In [None]:
from tqdm.notebook import tqdm

In [None]:
%%time

n_post_first, n_post_final = 349000, 349200

pages = [requests.get('https://habr.com/post/{}/'.format(post_id))
         for post_id in tqdm(range(n_post_first, n_post_final, 2))]

In [None]:
from multiprocessing.dummy import Pool as ThreadPool

In [None]:
%%time

n_post_first, n_post_final = 349000, 349200

def get_habr_post(post_id):
    return requests.get('https://habrahabr.ru/post/{}/'.format(post_id))

with ThreadPool(10) as pool:
    pages = pool.map(get_habr_post, range(n_post_first, n_post_final, 2))

pool.join()   # same as wait pid

In [None]:
from multiprocessing import Pool

In [None]:
%%time

n_post_first, n_post_final = 349000, 349200

def get_habr_post(post_id):
    return requests.get('https://habrahabr.ru/post/{}/'.format(post_id))

with Pool(processes=10) as pool:
    pages = pool.map(get_habr_post, range(n_post_first, n_post_final, 2))

pool.join()   # same as wait pid

# robots.txt и sitemap.xml

1. Валидаторы:
    * https://webmaster.yandex.ru/tools/robotstxt/
    * https://technicalseo.com/seo-tools/robots-txt/
2. Все о robots.txt:
    * https://help.mail.ru/webmaster/indexing/robots.txt
    * https://yandex.ru/support/webmaster/controlling-robot/
    
**Пример 1:** https://tproger.ru/robots.txt

**Пример 2:** https://tjournal.ru/robots.txt

# Парсинг HTML-страничек

<img width='800px' src="https://q-bit.biz/uploads/article/Tegs_1539003896.png"></img>

Example: https://www.kinopoisk.ru/film/689066/

## lxml

<img width = '250px' src="images/lxml.png">

https://lxml.de/tutorial.html

In [None]:
from lxml import etree, html as lhtml

In [None]:
tree = lhtml.fromstring(open('data/689066_2.html', 'r').read())

Так как html и xml имеют древовидную структуру, до любого элемента всегда существет единственный путь, XPath.

https://www.w3schools.com/xml/xpath_intro.asp

```bash
pip install cssselect   # для подержки CSS селекторов
```

In [None]:
film_info = {
    'title': tree.xpath('//h1[@itemprop="name"]/span/text()')[0],
    'title-original': tree.xpath('//span[starts-with(@class, "styles_originalTitle__")]')[0].text,
    'rating': float(tree.cssselect('a.film-rating-value')[0].text),   # поддержка CSS-селекторов
#     'rating': float(tree.xpath('//a[contains(@class, "film-rating-value")]/text()')[0])
}

film_info

Найдем ссылку на просмотр фильма.

In [None]:
watch = tree.xpath('//a[contains(@class, "kinopoisk-watch-online-button")]/attribute::href')
watch

In [None]:
film_info['watch'] = watch
film_info

Вытащим ссылки на постеры.

In [None]:
image = tree.xpath('//img[contains(@class, "film-poster")]//attribute::srcset')
image

In [None]:
image = tree.xpath('//img[contains(@class, "film-poster")]//attribute::srcset')[0]
image = image.split(', ')
image = ['https:' + img.split(' ', 1)[0] for img in image]
image

In [None]:
film_info['posters'] = image
film_info

Распарсим описание фильма.

In [None]:
info_desc = tree.xpath('//div[starts-with(@class, "styles_synopsisSection")]//text()')
info_desc

In [None]:
info_desc = tree.xpath('//div[starts-with(@class, "styles_synopsisSection")]//text()')

film_info['description'] = '\n'.join(info_desc)
film_info

## Beautiful Soup
https://www.crummy.com/software/BeautifulSoup/bs4/doc/

<img width = '330px' src="images/bsoup.jpg">

In [None]:
from bs4 import BeautifulSoup

In [None]:
soup = BeautifulSoup(open('data/689066_2.html', 'r').read(), 'html.parser')

In [None]:
soup = BeautifulSoup(open('data/689066_2.html', 'r').read(), 'lxml')

In [None]:
from operator import attrgetter, itemgetter

### Соберем основную информацию о фильме

In [None]:
film_info = {
    'title': soup.find('h1', itemprop='name').find('span').text,
    'title-original': soup.find('span', class_=lambda s: s and s.startswith('styles_originalTitle__')).text,
    'rating': float(soup.select_one('a.film-rating-value').text)   # поддержка CSS-селекторов
}

film_info

In [None]:
desc = soup.find('div', itemprop='description')
desc = soup.find('div', class_=lambda s: s and s.startswith("styles_synopsisSection")).find_all('p')
desc

In [None]:
desc[0].text

In [None]:
film_info['description'] = '\n'.join(map(attrgetter('text'), desc))
film_info

### Извлечем таблицу

In [None]:
import pandas as pd

In [None]:
header = soup.find('h3', class_="film-page-section-title")
table = header.next_sibling
rows = table.find_all('div', recursive=False)

len(rows)

In [None]:
data = []

for row in rows:
    cols = map(lambda x: x.text, row.find_all('div'))
    data.append(cols)

data = pd.DataFrame(data)
data

Пример с таблицей и pandas

In [None]:
import requests

page = requests.get(
    'https://www.championat.com/football/_russiapl/tournament/2973/statistic/player/bombardir/',
    headers={
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.14; rv:82.0) Gecko/20100101 Firefox/82.0', 
    },
)
page

In [None]:
pd.read_html(page.text)[0].head()

### Пройдемся по спискам актеров...

In [None]:
actors, actors_dub = soup.find(class_="film-crew-block").find_all('div', {'data-tid': True})
actors, actors_dub = map(lambda s: s.find('ul'), [actors, actors_dub])

In [None]:
[row.text for row in actors.children]

In [None]:
[row.text for row in actors_dub.children]

### Обкачаем картинки

https://www.kinopoisk.ru/film/689066/stills/

In [None]:
soup = BeautifulSoup(open('data/689066_stills_2.html', 'r').read(), 'html.parser')

In [None]:
list(map(lambda s: s.attrs['src'], soup.find('table', class_='fotos').find_all("img")))[:10]

# О проблемах...

## Кодировки

In [None]:
page = requests.get('https://www.povarenok.ru/recipes/show/163694/')

In [None]:
print(page.content.decode('utf8')[:315])

In [None]:
print(page.content.decode('cp1251')[:315])

In [None]:
print(page.text[:315])

<img width='800px' src="https://w3techs.com/diagram/history_overview/character_encoding/ms/y">

https://w3techs.com/technologies/history_overview/character_encoding/ms/y

Обычно информация о кодировке расположена здесь:

```html
<meta http-equiv="Content-Type" content="text/html; charset=windows-1251">

<meta charset="windows-1251">
```

## Заголовки

https://www.dafont.com/

In [None]:
page = requests.get('https://www.dafont.com/')

len(page.content)

Библиотека для подстановки UserAgent: https://pypi.org/project/fake-useragent/

Что у меня за браузер: https://developers.whatismybrowser.com/useragents/parse/?analyse-my-user-agent=yes

In [None]:
headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6)'
                         'AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.1 Safari/605.1.15'}
page = requests.get('https://www.dafont.com/', headers=headers)

len(page.content)

## Cookie

Cookie (куки) — это небольшие текстовые файлы, в которые браузер записывает данные с посещенных вами сайтов. Файлы cookie позволяют сайтам «запоминать» своих посетителей, например, чтобы каждый раз не переспрашивать их логин и пароль.

chrome://settings/cookies/detail?site=sphere.mail.ru (sessionid_gtp)

https://sphere.mail.ru/people/?q=BD-11

In [None]:
page = requests.get('https://sphere.mail.ru/people/', params={'q': 'BD-11'})
page.status_code

In [None]:
soup = BeautifulSoup(page.content, 'html.parser')

table = soup.find('div', class_='people-list')
table is not None

In [None]:
print(page.url)

In [None]:
for page_ in page.history:
    print(page_.status_code, page_.url, sep='\t')

print(page.status_code, page.url, sep='\t')

In [None]:
with open('sphere-cookies.json', mode='r') as f_cookies:
    cookies = json.load(f_cookies)

page = requests.get('https://sphere.mail.ru/people/', params={'q': 'BD-11'}, cookies=cookies)
page.status_code

In [None]:
print(page.url)

In [None]:
soup = BeautifulSoup(page.content, 'html.parser')

table = soup.find('div', class_='people-list')
table is not None

In [None]:
from urllib.parse import urlparse

In [None]:
rows = table.find('table', class_='table-users').find('tbody').find_all('tr')

users = [{'name': row.find('p', class_='realname').text,
          'nick': urlparse(row.find('p', class_='username').find('a').attrs['href']).\
              path.split('/')[2],
          'type': row.find('span', class_='user-group').text,
          'power': row.find('td', class_='cell-skill').text,
          'rating': row.find('td', class_='cell-rating').text.strip()}
         for row in rows]

df = pd.DataFrame(users)
df.head(10)

## Proxy

In [None]:
def browser_stats_from_yandex(**params):
    page = requests.get('https://yandex.ru/internet/', **params)
    soup = BeautifulSoup(page.content, 'html.parser')

    params = {}
    for e in soup.find('ul', class_='general-info').find_all('li'):
        key = e.find('h3').text
        val = e.find('div', {'class': None})
        val = val.text if val else '–'
        params[key] = val
    return params

In [None]:
browser_stats_from_yandex()

http://spys.one/proxys/DE/

In [None]:
proxies = { 'https': '62.171.177.80:3129', }

browser_stats_from_yandex(proxies=proxies)

In [None]:
browser_stats_from_yandex(proxies=proxies, headers={'User-Agent': 'TwitterBot'})

## JavaScript

<img width = '350px' src="images/javascript.jpg">

https://www.glamour.ru/trends/5-sposobov-nosit-bryuki-chtoby-byt-samoj-modnoj-etoj-vesnoj

In [None]:
page = requests.get('https://www.glamour.ru/trends/5-sposobov-nosit-bryuki-chtoby-byt-samoj-modnoj-etoj-vesnoj')
page

In [None]:
print(page.text)

### Selenium

<img width = '500px' src="https://cdn-a.william-reed.com/var/wrbm_gb_food_pharma/storage/images/publications/food-beverage-nutrition/nutraingredients.com/news/research/selenium-may-protect-against-epileptic-seizures-mouse-study-suggests/7690019-1-eng-GB/Selenium-may-protect-against-epileptic-seizures-mouse-study-suggests_wrbm_large.jpg">

http://selenium-python.readthedocs.io/

https://kreisfahrer.gitbooks.io/selenium-webdriver/

In [None]:
from selenium import webdriver

import html
from time import sleep

In [None]:
with webdriver.Firefox() as driver:
    sleep(10)
    driver.get("https://mail.ru/")
    sleep(3)

In [None]:
with webdriver.Firefox() as driver:
    sleep(10)
    
    driver.get('https://www.glamour.ru/beauty-news/kunzhutnoe-moloko-novinki-dlya-lica-ot-erborian')
    sleep(1)

    title = driver.find_element_by_tag_name('h1').text
    
    description = driver.find_element_by_xpath('//div[@itemprop="description"]').text

    image = driver.find_element_by_xpath('//meta[@property="og:image"]').get_attribute('content')
    
    rubric = (e.text for e in driver.find_elements_by_class_name('article-detail-top__info-line'))
    rubric = list(filter(None, map(str.lower, rubric)))

    tags = (e.text for e in driver.find_elements_by_xpath('//ul[@class="tag-list__list"]//a[@itemprop="name"]'))
    tags = list(filter(None, map(str.lower, tags)))
    
    info = {
        'title': title,
        'description': description,
        'tags': tags,
        'rubric': rubric,
        'preview': image,
    }
    
info

### А как можно решить эту задачу по-умному?

Идем в консольку браузера 😉

In [None]:
url_raw = 'https://www.glamour.ru/beauty-news/kunzhutnoe-moloko-novinki-dlya-lica-ot-erborian'

url = urlparse(url_raw).path.rsplit('/', 1)[-1]
url = 'https://api.glamour.ru/article/' + url

page = requests.get(url)
    
tree = page.json()
tree

In [None]:
title = tree['name']

description = tree['preview_text']

image = tree['preview_image']['preview_url']

rubric = [tree['main_tag']['name']]
rubric = list(filter(None, map(str.lower, rubric)))

tags = (r['tag']['name'] for r in tree['tag_elements'])
tags = list(filter(None, map(str.lower, tags)))

info = {
    'title': title,
    'description': description,
    'tags': tags,
    'rubric': rubric,
    'preview': image,
}

info

### А что ещё умеет Selenium?

In [None]:
import random

def random_sleep(offset=1.5, length=4):
    sleep(random.random() * length + offset)

with webdriver.Firefox() as driver:
    sleep(12)
    
    driver.get("https://music.yandex.ru/artist/184100")
    random_sleep()
    
    # можно исполнять свой javascript код
    driver.execute_script("window.scrollTo(0, 250);")
    random_sleep(0)
    
    # можно использовать CSS-селекторы или XPath
    # лучше использовать Firefox, он лучше подсказывает пути
    # стоит использовать, если путь выглядит лаконичным
    # пример плохого CSS-селектора
    elem = driver.find_element_by_css_selector(
        'div.d-tabs__tab:nth-child(3) > a:nth-child(1)')
    
    # можно кликать по объектам
    # [ переходим на страничку с альбомами группы ]
    elem.click()
    random_sleep()
    
    # можно искать по классам
    albums = driver.find_element_by_class_name('page-artist__albums').\
        find_elements_by_class_name('album_selectable')
    album = albums[3]
    # [ прокручиваем до нужного альбома ]
    driver.execute_script("return arguments[0].scrollIntoView();", album)
    random_sleep()
    # [ переходим на страничку с выбранным альбомом ]
    album.find_element_by_class_name('d-link').click()
    random_sleep()
    
    driver.execute_script("window.scrollTo(0, 340);")
    random_sleep(0)
    
    # [ кликаем на play ]
    play = driver.find_element_by_class_name('button-play__type_album')
    play.click()
    
    # [ прокликиваем на 5 трек ]
    # пример хорошего CSS-селектора
    next_ = driver.find_element_by_css_selector('.d-icon_track-next')
    for i in range(4):
        next_.click()
        random_sleep(1, 1)
        
    # [ выводим информацию о треке ]
    # пример хорошего CSS-селектора
    elem = driver.find_element_by_css_selector('.track__name')
    artist = elem.find_element_by_class_name('track__artists').text
    title = elem.find_element_by_class_name('track__title').text
    
    tracks = driver.find_element_by_css_selector('.page-album__tracks').\
        find_elements_by_class_name('d-track')
    
    for track_i, track in enumerate(tracks, 1):
        if 'd-track_playing' in track.get_attribute("class").split(' '):
            break
    
    print("Now playing: {} - {}".format(artist, title))
    print("{}th track of {} tracks".format(track_i, len(tracks)))
    
    sleep(10)

И многое, многое другое... 😊

## Selenium — инструмент тестирования

[Katalon Recorder](https://www.katalon.com/) (Selenium IDE): [Chrome Extension](https://chrome.google.com/webstore/detail/katalon-recorder-selenium/ljdobmomdgdljniojadhoplhkpialdid), [Firefox Extension](https://addons.mozilla.org/en-US/firefox/addon/katalon-automation-record/)

chrome://extensions/

https://mail.ru/ --> "кто такой филантроп?"