Let's take a look at other usage examples of `selenium`. 

**Example.** Go to the bookstore's website and find all the books about Python. Download the library and web driver and open the page in the browser using Python.

In [1]:
from selenium import webdriver

br = webdriver.Chrome()

# открываем страницу в Chrome в автоматическом режиме
br.get("http://www.biblio-globus.ru/")

Найдем с помощью CSS Selector'а (*SelectorGadget*) поле для ввода названия книги или автора. 

In [2]:
from selenium.webdriver.common.by import By

In [3]:
field = br.find_element(By.CSS_SELECTOR, "#SearchBooks")

Сохраним запрос:

In [4]:
author = "Python"  # переменная author - условность

Введем запрос в поле для поиска (`.send_keys`) и подождем чуть-чуть:

In [5]:
field.send_keys(author)
br.implicitly_wait(2)  # подождем пару секунд

Теперь найдем кнопку для поиска (значок *лупа* рядом со строкой поиска) через CSS Selector:

In [6]:
submit = br.find_element(By.CSS_SELECTOR, "#SearchButton > i")

Кликнем на нее:

In [7]:
submit.click()

In [8]:
type(br)

selenium.webdriver.chrome.webdriver.WebDriver

Сохраним первую страницу с результатами в переменную `page1`.

In [9]:
page1 = br.page_source #разметка сайта

In [10]:
page1

'<html prefix="og: http://ogp.me/ns#"><head><meta http-equiv="origin-trial" content="A/kargTFyk8MR5ueravczef/wIlTkbVk1qXQesp39nV+xNECPdLBVeYffxrM8TmZT6RArWGQVCJ0LRivD7glcAUAAACQeyJvcmlnaW4iOiJodHRwczovL2dvb2dsZS5jb206NDQzIiwiZmVhdHVyZSI6IkRpc2FibGVUaGlyZFBhcnR5U3RvcmFnZVBhcnRpdGlvbmluZzIiLCJleHBpcnkiOjE3NDIzNDIzOTksImlzU3ViZG9tYWluIjp0cnVlLCJpc1RoaXJkUGFydHkiOnRydWV9">\n    <meta charset="utf-8">\n    <meta http-equiv="X-UA-Compatible" content="IE=edge">\n    <meta name="mailru-verification" content="fd9a658378927472">\n\n    <title>Результаты поиска: «Python»</title>\n        <meta name="description" content="">\n\n\n\n    <meta name="viewport" content="width=device-width, initial-scale=1">\n\n        <meta name="robots" content="all,follow">\n\n    \n    <script async="" src="https://mc.yandex.ru/metrika/tag.js"></script><script type="text/javascript" async="" src="https://www.googletagmanager.com/gtag/js?id=G-XQBB831D6S&amp;l=dataLayer&amp;cx=c&amp;gtm=45He4bk0v895486594za200"></scr

Теперь обработаем эту страницу через `BeautifulSoup`:

In [11]:
from bs4 import BeautifulSoup

In [12]:
soup1 = BeautifulSoup(page1) #library XML

In [13]:
type(soup1)

bs4.BeautifulSoup

Найдем все названия книг на этой странице. По исходному коду можно увидеть, что они имеют тэг `a` с атрибутом `class`, равным `name`:

In [14]:
books1 = []
titles = soup1.find_all('h3')
for title in titles:
    if 'p_title' in str(title):
        books1.append(title.text)
print(books1)

['Символьные математические вычисления средствами SymPy Python', 'Изучаем Python: программирование игр, визуализация данных, веб-приложения. ', 'Python для начинающих: учимся программировать с помощью мини-игр и загадок', 'Быстрый доступ. Python: советы, функции, подсказки. Шпаргалка-буклет для начинающих (215х285 мм, 6 полос компактного буклета в европодвесе)', 'Python, например', 'Надежный Python', 'Сверхбыстрый PYTHON', 'Знакомство с Python', 'Python с нуля', 'Python для Excel', 'Python для гиков', 'Python для чайников']


Теперь аналогичным образом сгрузим информацию об авторах:

In [78]:
# [a.text for a in soup1.find_all('div', {'class': 'author'})]
# то же самое что и
authors1 = []
for a in soup1.find_all('div', {'class': 'author'}):
    authors1.append(a.text)

In [56]:
authors1

['Лейси Н.',
 'Виафоре П.',
 'Антао Т.',
 'Зумштейн Ф.',
 'Левашов П. Ю.',
 'Азиф М.',
 'Мюллер Дж. ',
 'Гэддис Т.',
 'Фаррелл Д.',
 'Голиков Д. В.',
 'Кольцов Д. М.',
 ' ']

In [25]:
soup1.find_all('div', {'class': 'author'})

[<div class="author">Лейси Н.</div>,
 <div class="author">Виафоре П.</div>,
 <div class="author">Антао Т.</div>,
 <div class="author">Зумштейн Ф.</div>,
 <div class="author">Левашов П. Ю.</div>,
 <div class="author">Азиф М.</div>,
 <div class="author">Мюллер Дж. </div>,
 <div class="author">Гэддис Т.</div>,
 <div class="author">Фаррелл Д.</div>,
 <div class="author">Голиков Д. В.</div>,
 <div class="author">Кольцов Д. М.</div>,
 <div class="author"> </div>]

In [79]:
authors1 = [a.text for a 
            in soup1.find_all('div', {'class': 'author'})]

In [80]:
authors1

['Лейси Н.',
 'Виафоре П.',
 'Антао Т.',
 'Зумштейн Ф.',
 'Левашов П. Ю.',
 'Азиф М.',
 'Мюллер Дж. ',
 'Гэддис Т.',
 'Фаррелл Д.',
 'Голиков Д. В.',
 'Кольцов Д. М.',
 ' ']

И, конечно, цену:

In [81]:
price1 = []
for p in soup1.find_all('span'):
    if 'price_item_new' in str(p) or 'price-item' in str(p):
        price1.append(p.text)
print(price1)

['1569\xa0₽', '1115\xa0₽', 'Нет в наличии', '1178\xa0₽', '1959\xa0₽', '1250\xa0₽', '1907\xa0₽', '2501\xa0₽', '1115\xa0₽', '953\xa0₽', '872\xa0₽', '1160\xa0₽']


In [None]:
for p in soup1.find('span')

In [68]:
price1 = [p.text for p in soup1.find_all('span', {'class':'price_item_new price_item_with_discount'})]

In [69]:
price1

['1115\xa0₽',
 '1178\xa0₽',
 '1250\xa0₽',
 '1907\xa0₽',
 '2501\xa0₽',
 '1115\xa0₽',
 '953\xa0₽',
 '872\xa0₽',
 '1160\xa0₽']

Осталось пройтись по всем страницам, которые были выданы в результате поиска. Для примера перейдем на страницу 2 и на этом остановимся.

In [82]:
next_p = br.find_element(By.CSS_SELECTOR, '#content > div > div > div.col-lg-9 > div.pages > ul > li:nth-child(4) > a > span:nth-child(1)')

In [83]:
next_p.click()

Проделаем то же самое, что и с первой страницей. По-хорошему нужно написать функцию, которая будет искать на странице названия книг, их расположение и цену. Но оставим это в качестве задания читателю :)

In [85]:
page2 = br.page_source
soup2 = BeautifulSoup(page2)
books2 = []
titles = soup1.find_all('h3')
for title in titles:
    if 'p_title' in str(title):
        books2.append(title.text)
author2 = [a.text for a in soup2.find_all('div', {'class': 'author'})]
price2 = []
for p in soup1.find_all('span'):
    if 'price_item_new' in str(p) or 'price-item' in str(p):
        price2.append(p.text)
print(price2)

['1569\xa0₽', '1115\xa0₽', 'Нет в наличии', '1178\xa0₽', '1959\xa0₽', '1250\xa0₽', '1907\xa0₽', '2501\xa0₽', '1115\xa0₽', '953\xa0₽', '872\xa0₽', '1160\xa0₽']


Расширим списки результатов с первой страницы данными, полученными со второй страницы, используя метод `.extend()`.

In [86]:
len(price1)

24

In [87]:
books1.extend(books2) # books1 + books2
authors1.extend(books2)
# price1.extend(price2)

In [88]:
price1

['1569\xa0₽',
 '1115\xa0₽',
 'Нет в наличии',
 '1178\xa0₽',
 '1959\xa0₽',
 '1250\xa0₽',
 '1907\xa0₽',
 '2501\xa0₽',
 '1115\xa0₽',
 '953\xa0₽',
 '872\xa0₽',
 '1160\xa0₽',
 '1569\xa0₽',
 '1115\xa0₽',
 'Нет в наличии',
 '1178\xa0₽',
 '1959\xa0₽',
 '1250\xa0₽',
 '1907\xa0₽',
 '2501\xa0₽',
 '1115\xa0₽',
 '953\xa0₽',
 '872\xa0₽',
 '1160\xa0₽']

Осталось импортировать библиотеку `pandas` и создать датафрейм.

In [92]:
import pandas as pd

In [89]:
len(books1)

24

In [90]:
len(authors1)

24

In [91]:
len(price1)

24

Для разнообразия создадим датафрейм не из списка списков, а из словаря. Ключами словаря будут названия столбцов в таблице, а значениями – списки с сохраненной информацией (названия книг, цены и проч.).

In [93]:
df = pd.DataFrame({'book': books1, 'author': authors1,
                   'price': price1})

In [94]:
df.head(10)

Unnamed: 0,book,author,price
0,"Python, например",Лейси Н.,1569 ₽
1,Надежный Python,Виафоре П.,1115 ₽
2,Сверхбыстрый PYTHON,Антао Т.,Нет в наличии
3,Python для Excel,Зумштейн Ф.,1178 ₽
4,Python с нуля,Левашов П. Ю.,1959 ₽
5,Python для гиков,Азиф М.,1250 ₽
6,Python для чайников,Мюллер Дж.,1907 ₽
7,Начинаем программировать на Python,Гэддис Т.,2501 ₽
8,Python. Как стать профессионалом,Фаррелл Д.,1115 ₽
9,Python для юных программистов,Голиков Д. В.,953 ₽


In [95]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   book    24 non-null     object
 1   author  24 non-null     object
 2   price   24 non-null     object
dtypes: object(3)
memory usage: 704.0+ bytes


In [96]:
df['price'] = df['price'].apply(lambda x: str(x).split()[0])

In [98]:
df.head(10)

Unnamed: 0,book,author,price
0,"Python, например",Лейси Н.,1569
1,Надежный Python,Виафоре П.,1115
2,Сверхбыстрый PYTHON,Антао Т.,Нет
3,Python для Excel,Зумштейн Ф.,1178
4,Python с нуля,Левашов П. Ю.,1959
5,Python для гиков,Азиф М.,1250
6,Python для чайников,Мюллер Дж.,1907
7,Начинаем программировать на Python,Гэддис Т.,2501
8,Python. Как стать профессионалом,Фаррелл Д.,1115
9,Python для юных программистов,Голиков Д. В.,953


In [99]:
df['price'] = df['price'].apply(lambda x: 
                                0 if x =='Нет' else x)

In [102]:
df['price'] = df['price'].astype(int)

In [103]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   book    24 non-null     object
 1   author  24 non-null     object
 2   price   24 non-null     int64 
dtypes: int64(1), object(2)
memory usage: 704.0+ bytes


In [104]:
df['price'].mean()

1298.25

In [68]:
df.info() #object ~ string

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   book    24 non-null     object
 1   author  24 non-null     object
 2   price   24 non-null     int64 
dtypes: int64(1), object(2)
memory usage: 704.0+ bytes


In [69]:
df.head()

Unnamed: 0,book,author,price
0,"Python, например",Лейси Н.,1115
1,Надежный Python,Виафоре П.,4247
2,Сверхбыстрый PYTHON,Антао Т.,1178
3,Python для Excel,Зумштейн Ф.,1250
4,Python с нуля,Левашов П. Ю.,1907


Давайте приведем столбец с ценой к числовому типу. Уберем слова *Цена* и *руб*, а потом сконвертируем строки в числа с плавающей точкой. Напишем функцию `get_price()`,

In [None]:
#iloc = index location

In [105]:
df.iloc[1:4]

Unnamed: 0,book,author,price
1,Надежный Python,Виафоре П.,1115
2,Сверхбыстрый PYTHON,Антао Т.,0
3,Python для Excel,Зумштейн Ф.,1178


In [108]:
df.iloc[1:4]['price']

1    1115
2       0
3    1178
Name: price, dtype: int64

In [109]:
df.iloc[1, -1] #срез - первое значение номер строки 
        #по конкретному индесу, 2е – номер колонки

1115

In [66]:
df.iloc[1, 3].split()

['Цена:', '2239,00', 'руб.']

In [67]:
df.iloc[1, 3].split()[1]

'2239,00'

In [68]:
df.iloc[1, 3].split()[1].replace(',','.')

'2239.00'

In [75]:
float(df.iloc[1, 3].split()[1].replace(',', '.'))

2239.0

In [81]:
import re

In [79]:
'.'.join(re.findall(r'\d+', df.iloc[1, 3]))

'2239.00'

In [80]:
float('.'.join(re.findall(r'\d+', df.iloc[1, 3])))

2239.0

In [None]:
re.findall(r'\d+', df.iloc[1, 3])

In [None]:
float(df.iloc[1, 3].split()[1].replace(',', '.'))

In [81]:
def get_price(price):
    book_price = price.split(' ')[1]  # разобьем строку по пробелу и возьмем второй элемент
    book_price = book_price.replace(',', '.')  # заменим запятую на точку
    price_num = float(book_price)  # сконвертируем в float
    return price_num

In [82]:
def price(x):
    return float('.'.join(re.findall(r'\d+',x)))

In [83]:
# проверка
get_price(df.price[0])

2619.0

In [84]:
price(df.price[0])

2619.0

Всё отлично работает! Применим функцию к столбцу *price* и создадим новый столбец *nprice*.

In [85]:
df.head(2)

Unnamed: 0,book,author,placement,price
0,Практическое введение в решение дифференциальн...,Н. М. Ершов,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 2619,00 руб."
1,Python. Чистый код для продолжающих,Э. Свейгарт,,"Цена: 2239,00 руб."


In [88]:
df['nprice'] = df.price.apply(get_price)

In [89]:
df.head()

Unnamed: 0,book,author,placement,price,nprice
0,Практическое введение в решение дифференциальн...,Н. М. Ершов,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 2619,00 руб.",2619.0
1,Python. Чистый код для продолжающих,Э. Свейгарт,,"Цена: 2239,00 руб.",2239.0
2,Python - это просто. Пошаговое руководство по ...,Н. Нисчал,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 1189,00 руб.",1189.0
3,Python.Создаем программы и игры,Д. М. Кольцов,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 679,00 руб.",679.0
4,Алгоритмы Data Science и их практическая реали...,"А. В. Протодьяконов, П. А. Пылов, В. Е. Садовн...","Расположение в торговом зале: Уровень 1, зал №...","Цена: 3459,00 руб.",3459.0


In [90]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   book       20 non-null     object 
 1   author     20 non-null     object 
 2   placement  19 non-null     object 
 3   price      20 non-null     object 
 4   nprice     20 non-null     float64
dtypes: float64(1), object(4)
memory usage: 928.0+ bytes


In [91]:
df.describe() #для количеств признаков возвращает статистики

Unnamed: 0,nprice
count,20.0
mean,1846.5
std,1113.561735
min,499.0
25%,1046.5
50%,1514.0
75%,2334.0
max,4459.0


Теперь можем расположить книги по цене в порядке возрастания:

In [93]:
df.sort_values('nprice', ascending=False)

Unnamed: 0,book,author,placement,price,nprice
14,"Изучаем Python, том 1","Изучаем Python, том 1","Расположение в торговом зале: Уровень 1, зал №...","Цена: 4459,00 руб.",4459.0
17,Стандартная библиотека Python 3,Стандартная библиотека Python 3,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 4109,00 руб.",4109.0
4,Алгоритмы Data Science и их практическая реали...,"А. В. Протодьяконов, П. А. Пылов, В. Е. Садовн...","Расположение в торговом зале: Уровень 1, зал №...","Цена: 3459,00 руб.",3459.0
0,Практическое введение в решение дифференциальн...,Н. М. Ершов,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 2619,00 руб.",2619.0
7,Начинаем программировать на Python,Т. Гэддис,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 2619,00 руб.",2619.0
1,Python. Чистый код для продолжающих,Э. Свейгарт,,"Цена: 2239,00 руб.",2239.0
13,Простой Python. Современный стиль программиров...,Простой Python. Современный стиль программиров...,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 2019,00 руб.",2019.0
9,Изучаем программирование на Python,П. Бэрри,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 1859,00 руб.",1859.0
19,Большая книга проектов Python,Большая книга проектов Python,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 1669,00 руб.",1669.0
6,Python для детей : самоучитель по программиров...,Дж. Бриггс,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 1569,00 руб.",1569.0


И сохраним всю таблицу в csv-файл:

In [94]:
df.to_csv("books.csv", index=False)

In [95]:
df.to_excel("books.xlsx", index=False)

In [96]:
br.close()

In [None]:
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager

br = webdriver.Chrome(ChromeDriverManager().install())

# открываем страницу в Chrome в автоматическом режиме
br.get("http://www.biblio-globus.ru/")

In [None]:
books = '//*[@id="TableMRight"]/tbody/tr/td/table/tbody/tr[2]/td[2]/a'

In [None]:
books_el = br.find_element_by_xpath(books)

In [None]:
books_el.click()

In [None]:
det_css = 'body > table > tbody > tr:nth-child(2) > td.column_right > div > div.card-columns > div:nth-child(1) > div > ul > li > ul > li:nth-child(2) > ul > li:nth-child(2) > a'

In [None]:
det_el = br.find_element_by_css_selector(det_css)

In [None]:
det_el.click()

In [None]:
page1 = BeautifulSoup(br.page_source)

In [None]:
books_p1 = page1.find_all('div', {'class': 'details_1'})

In [None]:
len(books_p1)

In [None]:
books_p1[0]

In [None]:
books_p1[0].div is not None

In [None]:
books_p1[0].find('div', {'class': 'author'}).text

In [None]:
books_p1[0].a.text

In [None]:
books_p1[0].find('div', {'class': 'placement'}).text

In [None]:
books_p1[0].find('div', {'class': 'title_data price'}).text

In [None]:
books_p1[0].find('div', {'class': 'title_data pricee'}) is None

In [None]:
titles = []
authors = []
prices = []
for book in books_p1:
    if book.find('div', {'class': 'author'}) is not None:
        authors.append(book.find('div', {'class': 'author'}).text)
    else:
        authors.append('')
        
    if book.a is not None:
        titles.append(book.a.text)
    else:
        titles.append('')
        
    if book.find('div', {'class': 'title_data price'}) is not None:
        prices.append(book.find('div', {'class': 'title_data price'}).text)
    else:
        prices.append('')

In [None]:
titles

In [None]:
def get_page_info(books_p):
    titles = []
    authors = []
    places = []
    prices = []
    for book in books_p:
        if book.div is not None:
            authors.append(book.div.text)
        else:
            authors.append('')

        if book.a is not None:
            titles.append(book.a.text)
        else:
            titles.append('')

        if book.find('div', {'class': 'placement'}) is not None:
            places.append(book.find('div', {'class': 'placement'}).text)
        else:
            places.append('')

        if book.find('div', {'class': 'title_data price'}) is not None:
            prices.append(book.find('div', {'class': 'title_data price'}).text)
        else:
            prices.append('')
            
    return titles, authors, places, prices

In [None]:
next_page = '//*[@id="main_wrapper"]/ul/li[4]/a'

In [None]:
page2 = br.find_element_by_xpath(next_page)

In [None]:
page2.click()

In [None]:
# next_page_2 = '//*[@id="main_wrapper"]/ul/li[8]/a'
# next_page_2 = br.find_element_by_xpath(next_page_2)
# next_page_2.click()

In [None]:
from time import sleep

In [None]:
np_xpath = '//*[@id="main_wrapper"]/ul/li[8]/a/span[1]'

In [113]:
a = [2]
a += [2, 3]
a

[2, 2, 3]

In [None]:
for _ in range(3):
    try:
        page = BeautifulSoup(br.page_source)
        books = page.find_all('div', {'class': 'details_1'})
        t, a, pl, pr = get_page_info(books)
        titles.extend(t)
        authors.extend(a)
        places.extend(pl)
        prices.extend(pr)
        np = br.find_element_by_xpath(np_xpath)
        sleep(3)
        np.click()
    except:
        print('all pages parsed')
        break

In [None]:
df = pd.DataFrame({'book': titles, 'author': authors,
                   'placement': places, 'price': prices})

In [None]:
df.head()

In [None]:
df.shape

In [85]:
br.close()