# Python для анализа данных. Selenium


Посмотрим на примеры использования `selenium`. 

**Пример.** Зайдем на сайт книжного магазина и найдем все книги про Python. Загрузим библиотеку, веб-драйвер и откроем страницу в браузере через Python.

In [1]:
import requests 
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import Select
from time import sleep
import pandas as pd

driver = webdriver.Chrome()

In [2]:
# открываем страницу в Chrome в автоматическом режиме
driver.get("http://www.biblio-globus.ru/")

Найдем с помощью CSS Selector'а (*SelectorGadget*) поле для ввода названия книги или автора.

In [3]:
field = driver.find_element("css selector","#SearchBooks") 

Сохраним запрос:

In [4]:
author = "Python"  # переменная author - условность

Введем запрос в поле для поиска (`.send_keys`) и подождем чуть-чуть:

In [5]:
field.send_keys(author)
driver.implicitly_wait(2)  # подождем пару секунд

Теперь найдем кнопку для поиска (значок *лупа* рядом со строкой поиска) :

In [6]:
submit = driver.find_element("css selector","#SearchButton") 

Кликнем на нее:

In [7]:
submit.click() 

Сохраним первую страницу с результатами в переменную `page1`.

In [8]:
page1 = driver.page_source

In [9]:
page1



Теперь обработаем эту страницу через `BeautifulSoup`:

In [10]:
from bs4 import BeautifulSoup

In [11]:
soup1 = BeautifulSoup(page1, 'html')

In [12]:
soup1

<html prefix="og: http://ogp.me/ns#"><head><meta content="Az520Inasey3TAyqLyojQa8MnmCALSEU29yQFW8dePZ7xQTvSt73pHazLFTK5f7SyLUJSo2uKLesEtEa9aUYcgMAAACPeyJvcmlnaW4iOiJodHRwczovL2dvb2dsZS5jb206NDQzIiwiZmVhdHVyZSI6IkRpc2FibGVUaGlyZFBhcnR5U3RvcmFnZVBhcnRpdGlvbmluZyIsImV4cGlyeSI6MTcyNTQwNzk5OSwiaXNTdWJkb21haW4iOnRydWUsImlzVGhpcmRQYXJ0eSI6dHJ1ZX0=" http-equiv="origin-trial"/>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="fd9a658378927472" name="mailru-verification"/>
<title>Результаты поиска: «Python»</title>
<meta content="" name="description"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<meta content="all,follow" name="robots"/>
<script async="" src="https://mc.yandex.ru/metrika/tag.js"></script><script async="" src="https://www.googletagmanager.com/gtag/destination?id=G-XQBB831D6S&amp;l=dataLayer&amp;cx=c" type="text/javascript"></script><script async="" src="https://www.googletagmanager.com/gtm.js?id=GTM-KK65ZMJ"><

Найдем все названия книг на этой странице. По исходному коду можно увидеть, что они имеют тэг `a` с атрибутом `class`, равным `name`:

In [13]:
print(soup1.prettify())

<html prefix="og: http://ogp.me/ns#">
 <head>
  <meta content="Az520Inasey3TAyqLyojQa8MnmCALSEU29yQFW8dePZ7xQTvSt73pHazLFTK5f7SyLUJSo2uKLesEtEa9aUYcgMAAACPeyJvcmlnaW4iOiJodHRwczovL2dvb2dsZS5jb206NDQzIiwiZmVhdHVyZSI6IkRpc2FibGVUaGlyZFBhcnR5U3RvcmFnZVBhcnRpdGlvbmluZyIsImV4cGlyeSI6MTcyNTQwNzk5OSwiaXNTdWJkb21haW4iOnRydWUsImlzVGhpcmRQYXJ0eSI6dHJ1ZX0=" http-equiv="origin-trial"/>
  <meta charset="utf-8"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta content="fd9a658378927472" name="mailru-verification"/>
  <title>
   Результаты поиска: «Python»
  </title>
  <meta content="" name="description"/>
  <meta content="width=device-width, initial-scale=1" name="viewport"/>
  <meta content="all,follow" name="robots"/>
  <script async="" src="https://mc.yandex.ru/metrika/tag.js">
  </script>
  <script async="" src="https://www.googletagmanager.com/gtag/destination?id=G-XQBB831D6S&amp;l=dataLayer&amp;cx=c" type="text/javascript">
  </script>
  <script async="" src="https://www.googl

In [14]:
soup_books = soup1.find_all('div',{'class':"product"})

In [15]:
soup_books[0]

<div class="product">
<a class="img_link" href="/product/10829080"><img alt="" class="img-fluid" src="https://static1.bgshop.ru/imagehandler.ashx?fileName=10829080.jpg&amp;width=200"/></a>
<div class="text">
<div class="product-sm-used-placeholder"></div>
<div class="author">Северанс Ч. Р.</div>
<h3><a href="/product/10829080" id="p_title_10829080">PYTHON для всех</a></h3>
<div class="prices_item">
<div class="price_item_wrapper"><span class="price_item_title">Цена на сайте:</span> <div class="price_item_block"> <span class="price_item_new">1839 ₽</span></div></div>
</div>
<p class="status im_status_title">
<span style="color: #3ba155;"> в наличии</span>
<span class="product-qty">1 шт.</span>
</p>
<div class="buttons row">
<div class="col-9 pl-0">
<span class="btn btn-block btn-primary" id="add_10829080" onclick="AddToBasket(10829080)">В корзину</span>
<a class="btn btn-primary add_but" href="/Basket/Detail" id="added_10829080">Оформить <i aria-hidden="true" class="fa fa-chevron-right"

In [16]:
soup_books[0].find('div', {'class': 'author'}).text

'Северанс Ч. Р.'

In [17]:
soup_books[0].find('h3').text

'PYTHON для всех'

In [20]:
soup_books[0].find('span', class_='price_item_new').text.split()[0]

'1839'

In [21]:
books_all = []

for s in soup_books:
    book = s.find('div', class_='author').text
    name = s.find('h3').text
    price = s.find('span', class_='price_item_new').text.split()[0]
    
    books_all.append((book, name, price))

In [22]:
books_all

[('Северанс Ч. Р.', 'PYTHON для всех', '1839'),
 ('Лейси Н.', 'Python, например', '1569'),
 ('Антао Т.', 'Сверхбыстрый PYTHON', '4719'),
 ('Виафоре П.', 'Надежный Python', '1239'),
 ('Саммерфильд М.', 'Python на практике', '2099'),
 ('Зумштейн Ф.', 'Python для Excel', '1112'),
 ('Бейдер Д.', 'Знакомство с Python', '2119'),
 ('Левашов П. Ю.', 'Python с нуля', '1959'),
 ('Хилпиш И.', 'Python для финансистов', '2039'),
 ('Азиф М.', 'Python для гиков', '1180'),
 ('Доусон М.', 'Программируем на Python', '1399'),
 ('Седер Н.', 'Python. Экспресс-курс', '2039')]

Осталось импортировать библиотеку `pandas` и создать датафрейм.

In [23]:
import pandas as pd

In [24]:
df = pd.DataFrame(books_all, columns=['Автор', 'Название', 'Цена'])

In [25]:
df.head()

Unnamed: 0,Автор,Название,Цена
0,Северанс Ч. Р.,PYTHON для всех,1839
1,Лейси Н.,"Python, например",1569
2,Антао Т.,Сверхбыстрый PYTHON,4719
3,Виафоре П.,Надежный Python,1239
4,Саммерфильд М.,Python на практике,2099


In [26]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12 entries, 0 to 11
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Автор     12 non-null     object
 1   Название  12 non-null     object
 2   Цена      12 non-null     object
dtypes: object(3)
memory usage: 416.0+ bytes


In [27]:
df['Цена'] = pd.to_numeric(df['Цена'])

Теперь можем расположить книги по цене в порядке возрастания:

In [28]:
df = df.sort_values('Цена')

In [31]:
df.reset_index(drop=True, inplace=True)

In [32]:
df

Unnamed: 0,Автор,Название,Цена
0,Зумштейн Ф.,Python для Excel,1112
1,Азиф М.,Python для гиков,1180
2,Виафоре П.,Надежный Python,1239
3,Доусон М.,Программируем на Python,1399
4,Лейси Н.,"Python, например",1569
5,Северанс Ч. Р.,PYTHON для всех,1839
6,Левашов П. Ю.,Python с нуля,1959
7,Хилпиш И.,Python для финансистов,2039
8,Седер Н.,Python. Экспресс-курс,2039
9,Саммерфильд М.,Python на практике,2099


И сохраним всю таблицу в csv-файл:

In [31]:
df.to_csv("books.csv", index=False)