# Python web parsing

## На этой практике:
* Через Jupyter Notebook создадим виртуальную среду для Python
* Научимся делать REST запросы к web-сервисам 
* Обработаем контет страниц через Beautifull soup 
* Поработаем с системой автоматического тестирования Selenium
* Обернем все это в докер для удобства :)



Мы используем Anaconda, которая сама умееет создавать среды для Python, а так же ставить пакеты не через pip.

Для того, чтобы создать новую виртуальную среду нам необходимо выполнить следущую команду:
```
conda create -n web_parsing_env python=3.9 bs4 selenium requests
```
где *web_parsing_env* - название нашей виртуальной среды, далее вы можете указать конкретную версию питона для вашей среды, а так же сразу же поставить нужные вам пакеты

данная команда создам нам среду с нужными для веб парсинга пакеты.
После этого мы можем ее активировать у нас в консоли при помощи команды:
```
сonda activate web_parsing_env
```

Далее нам необходимо сделать так, чтобы jupyter notebook смог увидеть наш venv, для этого поставим в нашу виртуальную среду один доп пакет. Перед этим убедитесь, что вы активировали ваш venv и вы сейчас в нем. Ставим пакет:
```
pip install --user ipykernel
```
после этого мы добавим ссылку на наш venv в Jupyter:
```
python -m ipykernel install --user --name=web_parsing_env
```
Заходим снова в нашу тетрадку, перезагружам страницу и видим, что по вкладке Kernel->Change Kernel в списке появился наш venv, выбираем его

Проверим, что мы точно запускаемся с этого venv, запустив код ниже

In [None]:
import platform
print(platform.python_version())

Если вы видите версию 3.9, значит все отлично!

## REST запросы из Python
********* 
### В Данном разделе разберем базовые GET, POST запросы через библиотеку *requests*

Для начала проверим, что у нас стоит библиотека *requests*

Если вы используете ранее созданный venv, то она уже есть у вас, иначе запустим следущую команду: 
```
pip install requests
```

Для начала разберемся с GET запросом, он нам больше всего понадобится)
Импортируем библиотеку

In [None]:
import requests

Для запроса GET в библиотеке ест ьсоответсвующая функция. выполним на тестовом сайте:

In [None]:
response = requests.get("http://api.open-notify.org/astros.json")
print(response)

В обьекте response содержится вся информация, отправленная нам сервером в ответ, включая хэдеры, куки и тп.
В нашем случае при выводе в консоль мы видим статус код нашего запроса.
Посмотрим на контент, который нам вернул сервер

In [None]:
print(response.content)

Как мы видим, это байтовая строка, в ней может быть как HTML контент станицы, так и JSON данные с бэк-энда. Как раз в нашем случае мы видим JSON. В библиотеку есть встроенная функция .json(). Получим же этот json в новую переменную

In [None]:
json_data = response.json()
json_data

In [None]:
type(json_data)

как мы видим, функция в библиотеке преобразовывает json в dict. Это позволит вам быстро работать с данными, вот пример:

In [None]:
people = json_data['people']
print(people[0]['name'])

С запросами можно отправлять query параметры, они описываются как **key:value**

In [None]:
query = {'username':'Bret'}
response = requests.get('https://jsonplaceholder.typicode.com/users', params=query)
response.json()

Аналогично query параметрам запроса, вы можете использовать аргумент data для добавления данных для запросов методов PUT и POST.

In [None]:
# Создаем новую запись через POST
response = requests.post('https://httpbin.org/post', data = {'key':'value'})
# Обновляем существующую запись через PUT
requests.put('https://httpbin.org/put', data = {'key':'value'})

## BS4 для анализа контента страницы
****** 

Мы можем использовать библиотеку BeautifulSoup для разбора этого документа и извлечения текста из pтега.

Сначала нам нужно импортировать библиотеку и создать экземпляр BeautifulSoup класса для анализа нашего документа:

In [None]:
import requests
page = requests.get("https://dataquestio.github.io/web-scraping-pages/simple.html")
page.content

In [None]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(page.content, 'html.parser')

Теперь мы можем распечатать HTML-содержимое страницы, красиво отформатированное, используя prettify метод для BeautifulSoup объекта.

In [None]:
print(soup.prettify())

Этот шаг не является строго обязательным, и мы не всегда будем с ним связываться, но может быть полезно взглянуть на преттифицированный HTML, чтобы было легче увидеть структуру тегов и места их вложения.
Поскольку все теги вложены друг в друга, мы можем перемещаться по структуре по одному уровню за раз. Мы можем сначала выбрать все элементы на верхнем уровне страницы, используя childrenсвойство soup.

Обратите внимание, что childrenвозвращается генератор списка, поэтому нам нужно вызвать для него listфункцию:

In [None]:
list(soup.children)

Вышеизложенное говорит нам о том, что на верхнем уровне страницы есть два тега — начальный <!DOCTYPE html>тег и <html> тег. В списке также есть символ новой строки n. Давайте посмотрим, каков тип каждого элемента в списке:

In [None]:
[type(item) for item in list(soup.children)]

Как мы видим, все элементы являются BeautifulSoupобъектами:

* Первый — это Doctypeобъект, который содержит информацию о типе документа.
* Второй — это NavigableString, который представляет текст, найденный в HTML-документе.
* Последний элемент — это Tag объект, который содержит другие вложенные теги.

Наиболее важным типом объекта, с которым мы будем иметь дело чаще всего, является Tag объект.

Объект Tag позволяет нам перемещаться по HTML-документу и извлекать другие теги и текст. Вы можете узнать больше о различных BeautifulSoup объектах [здесь](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#kinds-of-objects).

Теперь мы можем выбрать html тег и его дочерние элементы, взяв третий элемент в списке:

In [None]:
html = list(soup.children)[2]

Каждый элемент в списке, возвращаемом children свойством, также является BeautifulSoup объектом, поэтому мы также можем вызывать children метод для html.

Теперь мы можем найти детей внутри html тега:

In [None]:
list(html.children)

Как мы видим выше, здесь есть два тега head, и body. Мы хотим извлечь текст внутри p тега, поэтому мы углубимся в тело:

In [None]:
body = list(html.children)[3]
list(body.children)

Теперь мы можем изолировать тег p:

In [None]:
p = list(body.children)[1]
p.get_text()

Как только мы изолировали тег, мы можем использовать get_text метод для извлечения всего текста внутри тега

#### Поиск всех экземпляров тега одновременно
То, что мы сделали выше, было полезно для выяснения того, как перемещаться по странице, но потребовалось много команд, чтобы сделать что-то довольно простое.

Если мы хотим извлечь один тег, мы можем вместо этого использовать find_all метод, который найдет все экземпляры тега на странице.
Обратите внимание, что find_all возвращается список

In [None]:
soup = BeautifulSoup(page.content, 'html.parser')
soup.find_all('p')

Если вместо этого вы хотите найти только первый экземпляр тега, вы можете использовать find метод, который вернет один BeautifulSoup объект:

In [None]:
soup.find('p')

#### Поиск тегов по классу и id
Мы представили классы и идентификаторы ранее, но, вероятно, было неясно, почему они были полезны.

Классы и идентификаторы используются CSS для определения того, к каким элементам HTML следует применять определенные стили. Но когда мы очищаем, мы также можем использовать их для указания элементов, которые мы хотим очистить.

Чтобы проиллюстрировать этот принцип, мы будем работать со следующей страницей:

In [None]:
page = requests.get("https://dataquestio.github.io/web-scraping-pages/ids_and_classes.html")
soup = BeautifulSoup(page.content, 'html.parser')
print(soup.prettify())

Мы можем использовать find_all метод для поиска элементов по классу или по идентификатору. В приведенном ниже примере мы будем искать любой p тег, который имеет класс outer-text:

In [None]:
soup.find_all('p', class_='outer-text')

Мы также можем искать элементы по id:

In [None]:
soup.find_all(id="first")

Мы также можем искать элементы с помощью селекторов CSS. Эти селекторы — это то, как язык CSS позволяет разработчикам указывать теги HTML для стиля. Вот некоторые примеры:

* p a — находит все a теги внутри p тега.
* body p a — находит все a теги внутри p тега внутри body тега.
* html body — находит все body теги внутри html тега.
* p.outer-text — находит все p теги с классом outer-text.
* p#first — находит все p теги с id first.
* body p.outer-text — находит любые p теги с классом outer-text внутри body тега.

Подробнее о селекторах CSS можно узнать [здесь](https://developer.mozilla.org/en-US/docs/Web/Guide/CSS/Getting_started/Selectors)

BeautifulSoup объекты поддерживают поиск на странице с помощью селекторов CSS с использованием select метода. Мы можем использовать селекторы CSS, чтобы найти все p теги на нашей странице, которые находятся внутри div вот так:

In [None]:
soup.select("div p")

## Selenium и Selenoid
****** 

Иногда не все сайты захотят с вами делиться их содержимым так же, как если бы вы заходили из под браузера. Но как же тогда получить данные? Взять браузер и управлять им при помощи кода!

Selenium как раз инструмент, что бы контролировать браузер через ваши скрипты. Вы пихаете определенный драйвер браузеру, и он становится послушным. Но свой бразуер на компе использовать не всегда удобно, особенно если у вас сервер :)

Для этого есть selenoid - система, которая через docker создает браузеры, которые уже готовы, что бы им управлял selenium. Причем можно открыть не один, не два, а до 25 браузеров сразу и ими ~~додосить~~ парсить сайт

Для начала нам нужно поставить selenoid 
По [ссылке](https://aerokube.com/selenoid/latest/) скачайте конфигурационный менеджер для вашей платформы (для винды берите amd64, но лучше качнуть линуксовый и запустить )

Для мака или линукса после скачивания нужно дать права на исполнение:
```
chmod +x cm
```

Запускаем селеноид:
```
./cm selenoid start --vnc
```

Запустим ui для диагностики
```
./cm selenoid-ui start
```

он будет доступен по адресу http://localhost:8080/

Для начала мы подключимся к виртуальному браузеру:

In [None]:
from selenium import webdriver
capabilities = {
    "browserName": "firefox",
    "version": "95.0",
    "enableVNC": True,
    "enableVideo": False
}

driver = webdriver.Remote(
    command_executor="http://localhost:4444/wd/hub",
    desired_capabilities=capabilities)
driver.close() # закрываем драйвер(браузер), чтоб не занимал память

Вы так же можете сменить браузер и его версию (подробнее в ui селеноида)

Разберем главные функции селениума

функция get откроет в браузере сайт

Запустите код ниже, зайдите в ui и увидите новый браузер, можно открыть виртуалку и увидеть браузер. Кликните на синюю кнопку сверху слева и сможете тыкать браузер вручную!

In [None]:
from selenium import webdriver
capabilities = {
    "browserName": "firefox",
    "version": "95.0",
    "enableVNC": True,
    "enableVideo": False
}

driver = webdriver.Remote(
    command_executor="http://localhost:4444/wd/hub",
    desired_capabilities=capabilities)
driver.get("https://www.lambdatest.com")
driver.implicitly_wait(20) # ждем 20 с для того, чтобы вы потыкали виртуалку
driver.close()

Теперь мы можем искать элементы
******* 
В основном локаторы в Selenium используются для определения местоположения веб-элементов из DOM. Соответствующие взаимодействия (или действия) в дальнейшем выполняются относительно найденных веб-элементов. Несколько популярных локаторов в Selenium - ID, Name, Link Text, Partial Link Text, CSS Selectors, XPath, TagName и т.д.

Поиск элемента по атрибуту ID
В этом методе поиск элемента в DOM производится по ID. ID уникален для каждого элемента на странице. Таким образом, с помощью ID можно однозначно идентифицировать элемент. Например, ниже показано использование атрибута ID для поиска веб-элементов на странице входа в систему LambdaTest:

In [54]:
from selenium import webdriver
capabilities = {
    "browserName": "firefox",
    "version": "95.0",
    "enableVNC": True,
    "enableVideo": False
}

driver = webdriver.Remote(
    command_executor="http://localhost:4444/wd/hub",
    desired_capabilities=capabilities)
driver.get("https://www.lambdatest.com")
email_form = driver.find_element_by_id("testing_form")
print(email_form)
driver.close()

<selenium.webdriver.remote.webelement.WebElement (session="81ea75b5-2dd3-49dc-9b2f-e819b79acb4d", element="3974a732-3f2c-4f64-9ce8-b3ad5743e3ad")>


С остальными все очень похоже, разобраться очень легко

Вот большая шпаргалка по селениуму
([тык](https://habr.com/ru/company/otus/blog/596071/)) 

Неявное ожидание в Selenium Python
***** 
Неявное ожидание информирует Selenium WebDriver о необходимости проверять DOM в течение определенного периода времени при попытке найти веб-элемент, который не доступен сразу после загрузки страницы.

По умолчанию неявное ожидание равно нулю. Однако, как только мы определяем его, оно устанавливается на время жизни объекта WebDriver.

In [None]:
from selenium import webdriver
capabilities = {
    "browserName": "firefox",
    "version": "95.0",
    "enableVNC": True,
    "enableVideo": False
}

driver = webdriver.Remote(
    command_executor="http://localhost:4444/wd/hub",
    desired_capabilities=capabilities)
driver.implicitly_wait(10) # в сек.
driver.get("https://www.lambdatest.com/")
element = driver.find_element_by_id("testing_form")

Явное ожидание в Selenium Python
***** 
Явное ожидание в Selenium с Python используется, когда мы хотим дождаться выполнения определенного условия, прежде чем продолжить работу.

В Selenium WebDriver есть несколько удобных методов, которые позволяют подождать, пока не будет выполнено определенное условие. Например, явное ожидание можно получить с помощью класса webdriverWait в сочетании с ожидаемыми условиями в Selenium.

Вот некоторые из ожидаемых условий, которые можно использовать в сочетании с явным ожиданием в Selenium Python:

* presence_of_all_elements_located

* text_to_be_present_in_element

* text_to_be_present_in_element_value

* frame_to_be_available_and_switch_to_it

* invisibility_of_element_located

* title_is

* title_contains

* presence_of_element_located

* visibility_of_element_located

* visibility_of

* element_located_selection_state_to_be

* alert_is_present

* element_to_be_clickable

* staleness_of

* element_to_be_selected

* element_located_to_be_selected

* Element_selection_state_to_be

Ниже есть пример, демонстрирующий использование явного ожидания, при котором выполняется неблокирующее ожидание продолжительностью 10 секунд до тех пор, пока не будет найден требуемый веб-элемент (с использованием его атрибута ID):

In [56]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

capabilities = {
    "browserName": "firefox",
    "version": "95.0",
    "enableVNC": True,
    "enableVideo": False
}

driver = webdriver.Remote(
    command_executor="http://localhost:4444/wd/hub",
    desired_capabilities=capabilities)
driver.get("https://www.lambdatest.com/")
try:
    element = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.ID, "testing_form"))
    )
except:
    print("some error happen !!")

Теперь попробуем сделать что-то сами!