# 1. Регулярные выражения

[Статья TProger](https://tproger.ru/translations/regular-expression-python/)

[Статья Хабр](https://habr.com/ru/post/349860/)

📌 **Регулярное выражение** — это строка, задающая шаблон поиска подстрок в тексте. 

In [1]:
import re

In [2]:
text = "Карта map  и объект bitmap - это разные вещи"
match = re.findall(r"\bmap\b", text)
print(match)

['map']


>`\b` означает границу слова (с одной стороны буква, а с другой — нет)

📌 Регулярные выражения имеют **спецсимволы** `.^$*+?{}[]\|()`, которые в регулярках являются **управляющими конструкциями**. Для написания их просто как символов требуется их **экранировать**, для чего нужно поставить перед ними знак `\`

In [3]:
text = "(еда), беда, победа"
match = re.findall(r"\(еда\)", text)
print(match)

['(еда)']


## 1.1. Символьный класс

`[..]` - Один из символов в скобках,

In [4]:
text = "Еда, беду, победа"
match = re.findall(r"[Ее]д[ау]", text)
print(match)

['Еда', 'еду', 'еда']


`-` - дефис на первое место ставим, если его надо найти

In [5]:
text = "Еда, беду, -6 78 победа"
match = re.findall(r"[-0-9][0-9]", text)
print(match)

['-6', '78']


`[^..]` - Любой символ, кроме перечисленных (инвертация)

In [6]:
text = "Еда, беду, -5 78 победа"
match = re.findall(r"[^0-9]", text)
print(match)

['Е', 'д', 'а', ',', ' ', 'б', 'е', 'д', 'у', ',', ' ', '-', ' ', ' ', 'п', 'о', 'б', 'е', 'д', 'а']


## 1.2. Квантификаторы (указание количества повторений)

*Общая запись:* `{m,n}` - где, 

`m` - минимальное число совпадений с выражением, 

`n` - максимальное число совпадений с выражением.

*Краткая форма записи:*
+ `{m}` - повторение выражения ровно `m` раз
+ `{m,}` - повторение от `m` и более раз
+ `{,n}` - повторение не более `n` раз

*Особые:*
+ `?` - аналог `{0,1}`
+ `*` - аналог `{0,}`
+ `+` - аналог `{1,}`

### 1.2.1. Мажорный квантификатор (жадный)

📌 По умолчанию квантификаторы жадные — захватывают максимально возможное число символов.

In [7]:
text = "Google,  Gooogle, Goooooogle"
match = re.findall(r"o{2,5}", text)
print(match)

['oo', 'ooo', 'ooooo']


### 1.2.2. Минорный квантификатор (ленивый)

📌 Добавление `?` делает их ленивыми, они захватывают минимально возможное число символов

`{m,n}?`

In [8]:
text = "Google,  Gooogle, Goooooogle"
match = re.findall(r"o{2,5}?", text)
print(match)

['oo', 'oo', 'oo', 'oo', 'oo']


### Пример 1. Проверить правильность записи номера телефона

In [9]:
text = "87654561290"
match = re.findall(r"8\d{10}", text)
print(match)

['87654561290']


### Пример 2. Выделить тег

#### - мажорный

In [10]:
text = "<p>Картинка <img src='bq.jpg'> в тексте</p>"
match = re.findall(r"<img.*>", text)
print(match)

["<img src='bq.jpg'> в тексте</p>"]


#### - ленивый

In [11]:
text = "<p>Картинка <img src='bq.jpg'> в тексте</p>"
match = re.findall(r"<img.*?>", text)
print(match)

["<img src='bq.jpg'>"]


## 1.3. Группировка

### 1.3.1. Не сохраняющие скобки `(?:)`

📌 **REGEXP** — шаблон, то **(?:REGEXP)** — эквивалентный ему шаблон. Разница только в том, что теперь к **(?:REGEXP)** можно применять квантификаторы, указывая, сколько именно раз должна повториться группа

In [12]:
text = " 01:23:45:67:89:ab"
match = re.findall(r"[0-9a-fA-F]{2}(?:[:-][0-9a-fA-F]{2}){5}", text)
print(match)

['01:23:45:67:89:ab']


📌 Также скобки `(?:...)` позволяют локализовать часть шаблона, внутри которого происходит перечисление.

> `|` - ИЛИ

In [13]:
text = "lat = 5, lon=7, a=9"
match = re.findall(r"(?:lat|lon)\s*=\s*\d+", text)
print(match)

['lat = 5', 'lon=7']


### 1.3.2. Сохраняющие скобки `()`

In [14]:
text = "lat = 5, lon=7, a=9"
match = re.findall(r"(lat|lon)\s*=\s*\d+", text)
print(match)

['lat', 'lon']


In [15]:
text = "lat = 5, lon=7, a=9"
match = re.findall(r"(lat|lon)\s*=\s*(\d+)", text)
print(match)

[('lat', '5'), ('lon', '7')]


### Пример. Сохранить путь к файлу

In [16]:
text = "<p>Картинка <img src='bq.jpg'> в тексте</p>"
match = re.findall(r"<img\s+[^>]*src=[\"'](.+?)[\"']", text)
print(match)

['bq.jpg']


### 1.3.3. Обращение к сохраняющей скобке 

+ Нумерованное. `\i` (i - натуральное число: 1, 2, 3...). Подставляет значение `i` сохраняющей скобки
+ Именнованное. `(?P<name>...)` -> `(?P=<name>)`

In [17]:
text = "<p>Картинка <img src='bq.jpg'> в тексте</p>"
match = re.findall(r"<img\s+[^>]*src=(?P<my_name>[\"'])(.+?)(?P=my_name)", text)
print(match)

[("'", 'bq.jpg')]


# 2. URL, HTTP запросы, API

## 2.1. Структура URL

https://developer.mozilla.org/ru/docs/Learn/Understanding_URLs

In [18]:
from urllib.parse import urlparse, parse_qsl

url = "https://developer.mozilla.org/ru/search?key1=url&key2=API"
urlparse(url)

ParseResult(scheme='https', netloc='developer.mozilla.org', path='/ru/search', params='', query='key1=url&key2=API', fragment='')

In [19]:
dict(parse_qsl(urlparse(url).query))

{'key1': 'url', 'key2': 'API'}

## 2.2. Типы HTTP запросов и ответов

[HTTP запросы](https://developer.mozilla.org/ru/docs/Web/HTTP/Methods)

[Коды HTTP ответов](https://developer.mozilla.org/ru/docs/Web/HTTP/Status)

## 2.3. API

📌 __API__ (англ. Application Programming Interface — программный интерфейс приложения) — это набор способов и правил, по которым различные программы общаются между собой и обмениваются данными.

📌 С помощью интерфейса можно использовать возможности разных систем, не задумываясь о том, как они обрабатывают наши запросы и что у них «под капотом».

📌 Чаще всего __API__ аппилирует данными в формате __JSON__ (XML еще)

https://skillbox.ru/media/code/chto_takoe_api/

## 2.4. Работа с JSON

Spotify API сайт - 
https://developer.spotify.com/console/get-track/?id=&market=

In [1]:
import requests
import json

In [28]:
with open('Spotify/spotify_api_token.key', mode='r') as f_key:
    spotify_api_token = f_key.readline().strip()
    
class SpotifyAPI:
    def __init__(self, token):
        self._token = token
        
    def get_track_info(self, track_id, market='US'):
        # посылаем get запрос, указываем аргуметнты и заголовки
        ret = requests.get('https://api.spotify.com/v1/tracks/{}'.format(track_id),
                          params={'market': market,},
                          headers={'Authorization': f"Bearer {self._token}"})
        return ret
    
spotify = SpotifyAPI(spotify_api_token)
r = spotify.get_track_info('4HcxwEqJIqtC5RE7oQtW32') 
r.status_code

200

Получим ответ в __JSON__

In [29]:
r.headers

{'content-type': 'application/json; charset=utf-8', 'cache-control': 'public, max-age=73307', 'x-robots-tag': 'noindex, nofollow', 'access-control-allow-origin': '*', 'access-control-allow-headers': 'Accept, App-Platform, Authorization, Content-Type, Origin, Retry-After, Spotify-App-Version, X-Cloud-Trace-Context, client-token', 'access-control-allow-methods': 'GET, POST, OPTIONS, PUT, DELETE, PATCH', 'access-control-allow-credentials': 'true', 'access-control-max-age': '604800', 'content-encoding': 'gzip', 'strict-transport-security': 'max-age=31536000', 'x-content-type-options': 'nosniff', 'date': 'Tue, 17 Nov 2020 10:05:48 GMT', 'server': 'envoy', 'Via': 'HTTP/2 edgeproxy, 1.1 google', 'Alt-Svc': 'clear', 'Transfer-Encoding': 'chunked'}

Извлечение текстовой информации

In [30]:
print(r.text)

{
  "album" : {
    "album_type" : "compilation",
    "artists" : [ {
      "external_urls" : {
        "spotify" : "https://open.spotify.com/artist/5EbRh58Y7BVaEeUY7slkl7"
      },
      "href" : "https://api.spotify.com/v1/artists/5EbRh58Y7BVaEeUY7slkl7",
      "id" : "5EbRh58Y7BVaEeUY7slkl7",
      "name" : "Demo",
      "type" : "artist",
      "uri" : "spotify:artist:5EbRh58Y7BVaEeUY7slkl7"
    } ],
    "external_urls" : {
      "spotify" : "https://open.spotify.com/album/6b6BZZ5gYfNJqUEaPx9Vzv"
    },
    "href" : "https://api.spotify.com/v1/albums/6b6BZZ5gYfNJqUEaPx9Vzv",
    "id" : "6b6BZZ5gYfNJqUEaPx9Vzv",
    "images" : [ {
      "height" : 640,
      "url" : "https://i.scdn.co/image/ab67616d0000b2732d6cbf9ae6f4a8b556644775",
      "width" : 640
    }, {
      "height" : 300,
      "url" : "https://i.scdn.co/image/ab67616d00001e022d6cbf9ae6f4a8b556644775",
      "width" : 300
    }, {
      "height" : 64,
      "url" : "https://i.scdn.co/image/ab67616d000048512d6cbf9ae6f4a8b5

Сконвертируем __JSON__ в словарь

In [31]:
# 1 способ
answer = json.loads(r.text)
type(answer)

dict

In [32]:
# 2 способ
answer = r.json()
type(answer)

dict

In [33]:
answer_cut = {
    'artist': answer['artists'][0]['name'],
    'name': answer['name'],
    'duration': answer['duration_ms'] / 1000.0,
    'href': answer['href'],
    'id': answer['id'],
    'preview': answer['preview_url'],
}
answer_cut

{'artist': 'Demo',
 'name': 'Солнышко',
 'duration': 258.896,
 'href': 'https://api.spotify.com/v1/tracks/4HcxwEqJIqtC5RE7oQtW32',
 'id': '4HcxwEqJIqtC5RE7oQtW32',
 'preview': 'https://p.scdn.co/mp3-preview/6bd1c869558d96087847d4d690220a4bd108b545?cid=774b29d4f13844c495f206cafdad9c86'}

Превью закодировано в бинарном формате. При помощи `content` извлечем информацию

Сохраним превью отдельно

In [34]:
urlparse(answer_cut['preview']).path

'/mp3-preview/6bd1c869558d96087847d4d690220a4bd108b545'

In [35]:
filename = urlparse(answer_cut['preview']).path.split('/')[-1] + '.mp3'

with open(f'Spotify/{filename}', 'wb') as f:
    data = requests.get(answer_cut['preview']).content
    f.write(data)
    
print(filename)     

6bd1c869558d96087847d4d690220a4bd108b545.mp3


### В Юпитере есть возможность проиграть мелодию

In [36]:
import IPython.display as ipd

ipd.Audio(f'Spotify/{filename}')

Сериализуем словарь в  __JSON__ строку

In [37]:
json.dumps(answer_cut, separators=(',', ':'))

'{"artist":"Demo","name":"\\u0421\\u043e\\u043b\\u043d\\u044b\\u0448\\u043a\\u043e","duration":258.896,"href":"https://api.spotify.com/v1/tracks/4HcxwEqJIqtC5RE7oQtW32","id":"4HcxwEqJIqtC5RE7oQtW32","preview":"https://p.scdn.co/mp3-preview/6bd1c869558d96087847d4d690220a4bd108b545?cid=774b29d4f13844c495f206cafdad9c86"}'

In [38]:
# pretty print для json
print(json.dumps(answer_cut, indent=4, sort_keys=True))

{
    "artist": "Demo",
    "duration": 258.896,
    "href": "https://api.spotify.com/v1/tracks/4HcxwEqJIqtC5RE7oQtW32",
    "id": "4HcxwEqJIqtC5RE7oQtW32",
    "name": "\u0421\u043e\u043b\u043d\u044b\u0448\u043a\u043e",
    "preview": "https://p.scdn.co/mp3-preview/6bd1c869558d96087847d4d690220a4bd108b545?cid=774b29d4f13844c495f206cafdad9c86"
}


Сериализация в файл

In [39]:
with open('tmp/answer_cut.json', mode='w') as f_json:
    json.dump(answer_cut, f_json)

Распарсить содержимое файлика

In [40]:
with open('tmp/answer_cut.json', mode='r') as f_json:
    answer_cut = json.load(f_json)
    
print(type(answer_cut), answer_cut, sep='\n\n')    

<class 'dict'>

{'artist': 'Demo', 'name': 'Солнышко', 'duration': 258.896, 'href': 'https://api.spotify.com/v1/tracks/4HcxwEqJIqtC5RE7oQtW32', 'id': '4HcxwEqJIqtC5RE7oQtW32', 'preview': 'https://p.scdn.co/mp3-preview/6bd1c869558d96087847d4d690220a4bd108b545?cid=774b29d4f13844c495f206cafdad9c86'}


## 2.5. А можноли как-то ускорить процесс обкачки?

## Процессы и потоки

📌 __Процессы__ использют своё конкретное адрессное пространство, в которое никто другой звлезть не может. В этои адрессном пространстве храняться данные процесса и исполняемый код.

📌 __Потоки (threads)__ - это сущности которые порождаются внутри процесса, соответственно у них общее адрессное пространство, потому что они работают внутри процесса

Встроенная библиотка  `asyncio`

In [41]:
# визуальное отображение процесса работы
from tqdm.notebook import tqdm

In [42]:
%%time

n_post_first, n_post_final = 349000, 349200

r = [requests.get('https://habr.com/ru/post/{}/'.format(post_id))
    for post_id in tqdm(range(n_post_first, n_post_final, 2))]

HBox(children=(FloatProgress(value=0.0), HTML(value='')))


Wall time: 1min 17s


Параллелизация с помощью __ПОТОКОВ__

In [43]:
# библиотека для распаралелевания с помощью процессов и потоков
from multiprocessing.dummy import Pool as ThreadPool

In [44]:
%%time

n_post_first, n_post_final = 349000, 349200

def get_habr_post(post_id):
    return requests.get('https://habr.com/ru/post/{}/'.format(post_id))
                        
with ThreadPool(10) as pool:
    r = pool.map(get_habr_post, range(n_post_first, n_post_final, 2))

pool.join()    

Wall time: 4.54 s


Параллелизация с помощью __ПРОЦЕССОВ__

Не хочет работать

In [45]:
from multiprocessing import Pool

In [46]:
# %%time

# n_post_first, n_post_final = 349000, 349200

# def get_habr_post(post_id):
#     return requests.get('https://habr.com/ru/post/{}/'.format(post_id))
                        
# with Pool(10) as pool:
#     r = pool.map(get_habr_post, range(n_post_first, n_post_final, 2))
    
# pool.join() 

# 3. Парсинг HTML-страничек

Способы парсинга:
+ HTMLParser
+ lxml (древовидное, позволяет использовать XPath)
+ Beautiful Soup

In [47]:
from html.parser import HTMLParser

In [48]:
from lxml import etree, html as lhtml

In [2]:
from bs4 import BeautifulSoup

## Пример. BeautifulSoup

https://www.crummy.com/software/BeautifulSoup/bs4/doc.ru/bs4ru.html#id28

In [137]:
film_url = 'https://www.kinopoisk.ru/film/322/'
film_html = requests.get(film_url).text

In [138]:
soup = BeautifulSoup(film_html, 'html.parser')

In [139]:
soup = BeautifulSoup(film_html, 'lxml')

### Соберем основную информацию о фильме

In [166]:
film_info = {
    'title': soup.find('span', class_='styles_title__2l0HH').text,
    'title_original': soup.find('span', class_='styles_originalTitle__31aMS').text,
    'countries': [e.text for e in soup.find_all('div', class_='styles_valueDark__3dsUz styles_value__2F1uj')[3] if e.name == 'a'],
    'time': re.search('\d\d:\d\d', soup.find_all('div', class_='styles_valueDark__3dsUz styles_value__2F1uj')[-1].text).group(0),
    'rating': float(soup.select_one('a.film-rating-value').text),
    'description': soup.find('div', class_='styles_synopsisSection__OZA_d').text
}

film_info

{'title': 'Гарри Поттер и узник Азкабана',
 'title_original': 'Harry Potter and the Prisoner of Azkaban',
 'countries': ['Великобритания', 'США'],
 'time': '02:22',
 'rating': 8.146,
 'description': 'В третьей части истории о юном волшебнике полюбившиеся всем герои — Гарри Поттер, Рон и Гермиона — возвращаются уже на третий курс школы чародейства и волшебства Хогвартс. На этот раз они должны раскрыть тайну узника, сбежавшего из зловещей тюрьмы Азкабан, чье пребывание на воле создает для Гарри смертельную опасность...'}

### Извлечем таблицу

In [167]:
import pandas as pd

In [177]:
table = soup.select_one('div.styles_topLine__37rG1:nth-child(2) > div:nth-child(1) > div:nth-child(2)').contents
table

[<div class="styles_rowDark__2qC4I styles_row__2ee6F" data-tid="a25321e6"><div class="styles_titleDark__3-gXe styles_title__a0_0F">Год производства</div><div class="styles_valueDark__3dsUz styles_value__2F1uj" data-tid="a189db02"><a class="styles_linkDark__3aytH styles_link__1N3S2" href="/lists/navigator/2004/?quick_filters=films">2004</a></div></div>,
 <div class="styles_rowDark__2qC4I styles_row__2ee6F" data-tid="a25321e6"><div class="styles_titleDark__3-gXe styles_title__a0_0F">Страна</div><div class="styles_valueDark__3dsUz styles_value__2F1uj" data-tid="df943f2f"><a class="styles_linkDark__3aytH styles_link__1N3S2" data-tid="60f1c547" href="/lists/navigator/country-11/?quick_filters=films">Великобритания</a>, <a class="styles_linkDark__3aytH styles_link__1N3S2" data-tid="60f1c547" href="/lists/navigator/country-1/?quick_filters=films">США</a></div></div>,
 <div class="styles_rowDark__2qC4I styles_row__2ee6F" data-tid="a25321e6"><div class="styles_titleDark__3-gXe styles_title__a0_

In [196]:
data = {}
data['Название'] = soup.find('span', class_='styles_title__2l0HH').text

for row in table:
    col = row.select_one('div.styles_titleDark__3-gXe.styles_title__a0_0F').text
    data[col] = row.select_one('div.styles_valueDark__3dsUz.styles_value__2F1uj').text
    
data    

{'Название': 'Гарри Поттер и узник Азкабана',
 'Год производства': '2004',
 'Страна': 'Великобритания, США',
 'Жанр': 'фэнтези, приключения, семейныйслова',
 'Слоган': '«Всё изменится»',
 'Режиссер': 'Альфонсо Куарон',
 'Сценарий': 'Стивен Кловз, Дж.К. Роулинг',
 'Продюсер': 'Крис Коламбус, Дэвид Хейман, Марк Рэдклифф, ...',
 'Оператор': 'Майкл Серезин',
 'Композитор': 'Джон Уильямс',
 'Художник': 'Стюарт Крэйг, Эндрю Эклэнд-Сноу, Алан Гилмор, ...',
 'Монтаж': 'Стивен Вайсберг',
 'Бюджет': '$130\xa0000\xa0000',
 'Маркетинг': '$50\xa0000\xa0000',
 'Сборы в США': '$249\xa0541\xa0069',
 'Сборы в мире': '+ $546\xa0093\xa0000 = $795\xa0634\xa0069сборы',
 'Зрители': '40.2 млн , 11 млн , 10.3 млн , ...',
 'Сборы в России': '$7\xa0800\xa0000',
 'Премьера в Росcии': '3 июня 2004,\xa0«Каро-Премьер»',
 'Премьера в мире': '23 мая 2004, ...',
 'Релиз на DVD': '16 сентября 2004, «Premier Digital»',
 'Релиз на Blu-ray': '23 декабря 2008, «Юниверсал Пикчерс Рус»',
 'Возраст': '12+',
 'Рейтинг MPAA': '

In [198]:
df = pd.DataFrame(data, index=[0])
df

Unnamed: 0,Название,Год производства,Страна,Жанр,Слоган,Режиссер,Сценарий,Продюсер,Оператор,Композитор,...,Сборы в мире,Зрители,Сборы в России,Премьера в Росcии,Премьера в мире,Релиз на DVD,Релиз на Blu-ray,Возраст,Рейтинг MPAA,Время
0,Гарри Поттер и узник Азкабана,2004,"Великобритания, США","фэнтези, приключения, семейныйслова",«Всё изменится»,Альфонсо Куарон,"Стивен Кловз, Дж.К. Роулинг","Крис Коламбус, Дэвид Хейман, Марк Рэдклифф, ...",Майкл Серезин,Джон Уильямс,...,+ $546 093 000 = $795 634 069сборы,"40.2 млн , 11 млн , 10.3 млн , ...",$7 800 000,"3 июня 2004, «Каро-Премьер»","23 мая 2004, ...","16 сентября 2004, «Premier Digital»","23 декабря 2008, «Юниверсал Пикчерс Рус»",12+,PGрекомендуется присутствие родителей,142 мин. / 02:22


### Пройдемся по спискам актеров

In [221]:
actors, actors_dublyazh = soup.select('ul.styles_list__I97eu')
print(actors, actors_dublyazh, sep='\n\n')

<ul class="styles_list__I97eu"><li class="styles_root__-coRa styles_rootInLight__33a_D" data-tid="615a7f9d"><a class="styles_link__1dkjp" href="/name/40778/" itemprop="actor">Дэниэл Рэдклифф</a></li><li class="styles_root__-coRa styles_rootInLight__33a_D" data-tid="615a7f9d"><a class="styles_link__1dkjp" href="/name/40780/" itemprop="actor">Руперт Гринт</a></li><li class="styles_root__-coRa styles_rootInLight__33a_D" data-tid="615a7f9d"><a class="styles_link__1dkjp" href="/name/40779/" itemprop="actor">Эмма Уотсон</a></li><li class="styles_root__-coRa styles_rootInLight__33a_D" data-tid="615a7f9d"><a class="styles_link__1dkjp" href="/name/24216/" itemprop="actor">Робби Колтрейн</a></li><li class="styles_root__-coRa styles_rootInLight__33a_D" data-tid="615a7f9d"><a class="styles_link__1dkjp" href="/name/26071/" itemprop="actor">Том Фелтон</a></li><li class="styles_root__-coRa styles_rootInLight__33a_D" data-tid="615a7f9d"><a class="styles_link__1dkjp" href="/name/6650/" itemprop="actor"

In [222]:
[row.text for row in actors.children]

['Дэниэл Рэдклифф',
 'Руперт Гринт',
 'Эмма Уотсон',
 'Робби Колтрейн',
 'Том Фелтон',
 'Гари Олдман',
 'Дэвид Тьюлис',
 'Майкл Гэмбон',
 'Ричард Гриффитс',
 'Пэм Феррис']

In [223]:
[row.text for row in actors_dublyazh.children]

['Николай Быстров',
 'Ольга Сирина',
 'Лина Иванова',
 'Рогволд Суховерко',
 'Александр Скрывля']

### Обкачаем картинки

In [224]:
url = 'https://www.kinopoisk.ru/film/322/stills/'
film_photo_html = requests.get(url).content

In [226]:
print(url)

https://www.kinopoisk.ru/film/322/stills/


In [227]:
soup = BeautifulSoup(film_photo_html, 'html.parser')

In [233]:
images = list(map(lambda s: s.attrs['src'], soup.find('table', class_='fotos').find_all('img')[:10]))
images

['https://st.kp.yandex.net/images/kadr/sm_2117012.jpg',
 'https://st.kp.yandex.net/images/kadr/sm_2117011.jpg',
 'https://st.kp.yandex.net/images/kadr/sm_2117010.jpg',
 'https://st.kp.yandex.net/images/kadr/sm_2117009.jpg',
 'https://st.kp.yandex.net/images/kadr/sm_2117008.jpg',
 'https://st.kp.yandex.net/images/kadr/sm_2117007.jpg',
 'https://st.kp.yandex.net/images/kadr/sm_2117006.jpg',
 'https://st.kp.yandex.net/images/kadr/sm_2117005.jpg',
 'https://st.kp.yandex.net/images/kadr/sm_2117004.jpg',
 'https://st.kp.yandex.net/images/kadr/sm_2116950.jpg']

In [236]:
for i in range(len(images)):
    filename = urlparse(images[i]).path.split('/')[-1]

    with open(f'Kinopoisk/{filename}', 'wb') as f:
        data = requests.get(images[i]).content
        f.write(data)

    print(filename) 

sm_2117012.jpg
sm_2117011.jpg
sm_2117010.jpg
sm_2117009.jpg
sm_2117008.jpg
sm_2117007.jpg
sm_2117006.jpg
sm_2117005.jpg
sm_2117004.jpg
sm_2116950.jpg


# 4. Заголовки

База шрифтов - https://www.dafont.com/

In [239]:
r = requests.get('https://www.dafont.com/')
len(r.text)

0

В ответе ничего нет. __НЕОБХОДИМО__ передать заголовок - информацию о браузере

Библиотека для подстановки UserAgent: https://pypi.org/project/fake-useragent/

Что у меня за браузер: https://developers.whatismybrowser.com/useragents/parse/?analyse-my-user-agent=yes#parse-useragent

In [7]:
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:82.0) Gecko/20100101 Firefox/82.0'}
r = requests.get('https://www.dafont.com/', headers=headers)
len(r.text)

23019

# 5. Cookie

https://www.unisender.com/ru/support/about/glossary/chto-takoe-cookies/

📌 **Cookie (куки)**- это небольшие текстовые файлы, в которые браузер записывает данные с посещенных вами сайтов. Файлы **cookie** позваляют сайтам "запоминать" своих посетителей, например, чтобы каждый раз не переспрашивать их логин и пароль.

In [245]:
r = requests.get('https://sphere.mail.ru/people/', params={'q': 'BD-11'})
r.status_code

200

In [246]:
soup = BeautifulSoup(film_photo_html, 'html.parser')

table = soup.find('div', class_='people-list')
table is not None

False

In [247]:
print(r.url)

https://sphere.mail.ru/pages/index/?next=/people/%3Fq%3DBD-11#auth


In [248]:
r = r.history[0]
r.status_code, r.is_redirect

(302, True)

In [249]:
print(r.url)

https://sphere.mail.ru/people/?q=BD-11


Если бы были куки, то можно было зайти на сайт без явной авторизации

In [250]:
# r = requests.get('https://sphere.mail.ru/people/', params={'q': 'BD-11'}, cookies=cookies)

# 6. Proxy

📌 **Proxy** - сторонний сервер, через который передаётся трафик

In [3]:
def browser_status_from_yandex(**params):
    r = requests.get('https://yandex.ru/internet/', **params)
    soup = BeautifulSoup(r.content, 'html.parser')
    
    params = {}
    for e in soup.find('ul', class_='general-info').find_all('li'):
        key = e.find('h3').text
        val = e.find('div', {'class': None})
        val = val.text if val else '-'
        params[key] = val
    return params    

In [289]:
browser_status_from_yandex()

{'IPv4-адрес': '95.26.50.205',
 'IPv6-адрес': '–',
 'Браузер': 'Неизвестный браузер',
 'Разрешение экрана': '–',
 'Регион': '-',
 'JavaScript отключен': 'В вашем браузере отсутствует или выключена поддержка JavaScript.'}

https://spys.one/proxys/DE/

In [4]:
proxies = {'htpps': '179.185.35.229:3128'}
browser_status_from_yandex(proxies=proxies)

{'IPv4-адрес': '95.26.50.205',
 'IPv6-адрес': '–',
 'Браузер': 'Неизвестный браузер',
 'Разрешение экрана': '–',
 'Регион': '-',
 'JavaScript отключен': 'В вашем браузере отсутствует или выключена поддержка JavaScript.'}

Почему-то IP адрес не поменялся

In [8]:
browser_status_from_yandex(proxies=proxies, headers=headers)

{'IPv4-адрес': '95.26.50.205',
 'IPv6-адрес': '–',
 'Браузер': 'Firefox 82.0 (Gecko 82.0)',
 'Разрешение экрана': '–',
 'Регион': '-',
 'JavaScript отключен': 'В вашем браузере отсутствует или выключена поддержка JavaScript.'}

In [9]:
# изменили браузер на хром
headers = {'User-Agent': 'User-Agent: Mozilla/5.0 (Linux; Android 9; Pixel 2 XL Build/PPP3.180510.008) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Mobile Safari/537.36'}
browser_status_from_yandex(proxies=proxies, headers=headers)

{'IPv4-адрес': '95.26.50.205',
 'IPv6-адрес': '–',
 'Браузер': 'Google Chrome Mobile 67.0.3396 (WebKit 537.36)',
 'Разрешение экрана': '–',
 'Регион': '-',
 'JavaScript отключен': 'В вашем браузере отсутствует или выключена поддержка JavaScript.'}

# 7. Selenium

📌 Создавалась для Автоматизации тестирования вебсайтов

Мы будем использовать как средство управления браузера

In [12]:
url_format = 'https://www.banki.ru/banks/map/{city}/#/!b1:{bank_ids}!s3:{bank_types}!s4:list!m4:1!p1:{page}'

In [19]:
url_params = {
    'city': 'drugie/lyubertssyi',
    'bank_ids': 'all',
    'bank_types': 'all',
    'page': 1,
}

In [20]:
url_current = url_format.format(**url_params)
print(url_current)

https://www.banki.ru/banks/map/drugie/lyubertssyi/#/!b1:all!s3:all!s4:list!m4:1!p1:1


In [21]:
r = requests.get(url_current).content

In [22]:
soup = BeautifulSoup(r, 'html.parser')
print(soup.find('div', {'class': 'branches__list'}))

<div class="branches__list branches__list--hidden" id="branches__list"></div>


Получили пустой тег, хотя он на самом деле не пустой. Все дело в **JavaScript**. Когда браузер загружает страницу он выполняет скрипт и появляется информация.

Нам поможет **Selenium**

In [24]:
!pip install selenium

Collecting selenium
  Downloading selenium-3.141.0-py2.py3-none-any.whl (904 kB)
Installing collected packages: selenium
Successfully installed selenium-3.141.0


In [25]:
from selenium import webdriver

import html
from time import sleep

In [26]:
with webdriver.Firefox() as driver:
    driver.get("https://mail.ru/")
    sleep(3)

WebDriverException: Message: 'geckodriver' executable needs to be in PATH. 


selenium может нажимать кнопки, прокручивать страницы и т.д. в браузере...