# Python для анализа данных. Selenium


Посмотрим на примеры использования `selenium`. 

**Пример.** Зайдем на сайт книжного магазина и найдем все книги про Python. Загрузим библиотеку, веб-драйвер и откроем страницу в браузере через Python.

In [1]:
import requests 
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import Select
from time import sleep
import pandas as pd

driver = webdriver.Chrome()

In [2]:
# открываем страницу в Chrome в автоматическом режиме
driver.get("http://www.biblio-globus.ru/")

Найдем с помощью CSS Selector'а (*SelectorGadget*) поле для ввода названия книги или автора. 

In [3]:
field = driver.find_element("css selector","#SearchBooks") 

Сохраним запрос:

In [4]:
author = "Python"  # переменная author - условность

Введем запрос в поле для поиска (`.send_keys`) и подождем чуть-чуть:

In [5]:
field.send_keys(author)
driver.implicitly_wait(2)  # подождем пару секунд

Теперь найдем кнопку для поиска (значок *лупа* рядом со строкой поиска) :

In [6]:
submit = driver.find_element("css selector","#SearchButton") 

Кликнем на нее:

In [7]:
submit.click()

Сохраним первую страницу с результатами в переменную `page1`.

In [8]:
page1 = driver.page_source

In [9]:
page1



Теперь обработаем эту страницу через `BeautifulSoup`:

In [10]:
from bs4 import BeautifulSoup

In [11]:
soup1 = BeautifulSoup(page1, 'html')

In [12]:
soup1

<html prefix="og: http://ogp.me/ns#"><head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="fd9a658378927472" name="mailru-verification"/>
<title>Результаты поиска: «Python»</title>
<meta content="" name="description"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<meta content="all,follow" name="robots"/>
<link href="/favicon.png" rel="icon" type="image/png"/>
<link href="/favicon.ico" rel="icon" type="image/x-icon"/>
<link href="/searchprovider.xml" rel="search" title="Biblio-Globus" type="application/opensearchdescription+xml"/>
<link href="https://static1.bgshop.ru" rel="dns-prefetch"/>
<link href="https://static2.bgshop.ru" rel="dns-prefetch"/>
<link href="https://fonts.googleapis.com" rel="dns-prefetch"/>
<link href="https://www.google.com" rel="dns-prefetch"/>
<link href="https://www.googletagmanager.com" rel="dns-prefetch"/>
<link href="https://www.gstatic.com" rel="dns-prefetch"/>
<link href="https://mc.yan

Найдем все названия книг на этой странице. По исходному коду можно увидеть, что они имеют тэг `a` с атрибутом `class`, равным `name`:

In [13]:
print(soup1.prettify())

<html prefix="og: http://ogp.me/ns#">
 <head>
  <meta charset="utf-8"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta content="fd9a658378927472" name="mailru-verification"/>
  <title>
   Результаты поиска: «Python»
  </title>
  <meta content="" name="description"/>
  <meta content="width=device-width, initial-scale=1" name="viewport"/>
  <meta content="all,follow" name="robots"/>
  <link href="/favicon.png" rel="icon" type="image/png"/>
  <link href="/favicon.ico" rel="icon" type="image/x-icon"/>
  <link href="/searchprovider.xml" rel="search" title="Biblio-Globus" type="application/opensearchdescription+xml"/>
  <link href="https://static1.bgshop.ru" rel="dns-prefetch"/>
  <link href="https://static2.bgshop.ru" rel="dns-prefetch"/>
  <link href="https://fonts.googleapis.com" rel="dns-prefetch"/>
  <link href="https://www.google.com" rel="dns-prefetch"/>
  <link href="https://www.googletagmanager.com" rel="dns-prefetch"/>
  <link href="https://www.gstatic.com" rel="d

In [14]:
soup_books = soup1.find_all('div',{'class':"product"})

In [15]:
soup_books[0]

<div class="product">
<a class="img_link" href="/product/10829080"><img alt="" class="img-fluid" src="https://static1.bgshop.ru/imagehandler.ashx?fileName=10829080.jpg&amp;width=200"/></a>
<div class="text">
<div class="author">Северанс Ч. Р.</div>
<h3><a href="/product/10829080" id="p_title_10829080">PYTHON для всех</a></h3>
<div class="prices_item">
<div class="price_item_wrapper"><span class="price_item_title">Цена на сайте:</span> <div class="price_item_block"><s>1839 ₽</s> <span class="price_item_new price_item_with_discount">1655 ₽</span></div></div>
<div class="price_item_wrapper bt-divider"><span class="price_item_title">Цена в магазине:</span> <div class="price_item_block"><span class="price_item_new">1839 ₽</span></div></div>
</div>
<p class="status im_status_title"><span style="color: #3ba155;"> в наличии</span>
<span class="product-qty">2 шт.</span>
</p>
<div class="buttons row">
<div class="col-9 pl-0">
<span class="btn btn-block btn-primary" id="add_10829080" onclick="Add

In [16]:
soup_books[0].find('div', class_='author').text

'Северанс Ч. Р.'

In [17]:
soup_books[0].find('h3').text

'PYTHON для всех'

In [19]:
soup_books[0].find('span', class_='price_item_new').text

'1655\xa0₽'

In [30]:
import re

In [31]:
books_all = []

for s in soup_books:
    book = s.find('div', class_='author').text
    name = s.find('h3').text
    price = re.match(r'\d+', s.find('span', class_='price_item_new').text).group()
    
    books_all.append((book, name, price))

In [32]:
books_all

[('Северанс Ч. Р.', 'PYTHON для всех', '1655'),
 ('Зумштейн Ф.', 'Python для Excel', '1243'),
 ('Бейдер Д.', 'Знакомство с Python', '2119'),
 ('Шуман Х.-Г.', 'Python для детей', '2226'),
 ('Виафоре П.', 'Надежный Python', '1177'),
 ('Саммерфильд М.', 'Python на практике', '1889'),
 ('Доусон М.', 'Программируем на Python', '1399'),
 ('Азиф М.', 'Python для гиков', '1319'),
 ('Хилпиш И.', 'Python для финансистов', '2039'),
 ('Бизли Д.', 'Python. Исчерпывающее руководство', '2219'),
 ('Чан Д.', 'Python: быстрый старт', '1069'),
 ('Стивенсон Б.', 'Python. Сборник упражнений', '1655')]

Осталось импортировать библиотеку `pandas` и создать датафрейм.

In [23]:
import pandas as pd

Для разнообразия создадим датафрейм не из списка списков, а из словаря. Ключами словаря будут названия столбцов в таблице, а значениями – списки с сохраненной информацией (названия книг, цены и проч.).

In [33]:
df = pd.DataFrame(books_all, columns=['Автор', 'Название', 'Цена'])

In [34]:
df.head()

Unnamed: 0,Автор,Название,Цена
0,Северанс Ч. Р.,PYTHON для всех,1655
1,Зумштейн Ф.,Python для Excel,1243
2,Бейдер Д.,Знакомство с Python,2119
3,Шуман Х.-Г.,Python для детей,2226
4,Виафоре П.,Надежный Python,1177


In [35]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12 entries, 0 to 11
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Автор     12 non-null     object
 1   Название  12 non-null     object
 2   Цена      12 non-null     object
dtypes: object(3)
memory usage: 416.0+ bytes


In [36]:
df['Цена'] = pd.to_numeric(df['Цена'])

Теперь можем расположить книги по цене в порядке возрастания:

In [37]:
df = df.sort_values('Цена')

In [38]:
df.reset_index(drop=True)

Unnamed: 0,Автор,Название,Цена
0,Чан Д.,Python: быстрый старт,1069
1,Виафоре П.,Надежный Python,1177
2,Зумштейн Ф.,Python для Excel,1243
3,Азиф М.,Python для гиков,1319
4,Доусон М.,Программируем на Python,1399
5,Северанс Ч. Р.,PYTHON для всех,1655
6,Стивенсон Б.,Python. Сборник упражнений,1655
7,Саммерфильд М.,Python на практике,1889
8,Хилпиш И.,Python для финансистов,2039
9,Бейдер Д.,Знакомство с Python,2119


И сохраним всю таблицу в csv-файл:

In [45]:
df.to_csv("books.csv", index=False)