# Python для анализа данных

## Web-scraping: поисковые запросы с Selenium

*Автор: Алла Тамбовцева, НИУ ВШЭ*  

Посмотрим на другие примеры использования `selenium`. 

**Пример.** Зайдем на сайт книжного магазина и найдем все книги про Python. Загрузим библиотеку, веб-драйвер и откроем страницу в браузере через Python.

In [85]:
from selenium import webdriver as wb
br = wb.Chrome('/home/ifomichev/Downloads/chromedriver')

# открываем страницу в Chrome в автоматическом режиме
br.get("http://www.biblio-globus.ru/")

Найдем с помощью CSS Selector'а (*SelectorGadget*) поле для ввода названия книги или автора. 

In [87]:
field = br.find_element_by_css_selector("#search_string")

Сохраним запрос:

In [88]:
topic = "Python"  

Введем запрос в поле для поиска (`.send_keys`) и подождем чуть-чуть:

In [89]:
field.send_keys(topic)
br.implicitly_wait(2)  # подождем пару секунд

Теперь найдем кнопку для поиска (значок *лупа* рядом со строкой поиска) через CSS Selector:

In [90]:
submit = br.find_element_by_css_selector("#search_submit")

Кликнем на нее:

In [91]:
submit.click()

Сохраним первую страницу с результатами в переменную `page1`.

In [60]:
page1 = br.page_source

In [61]:
# page1

Теперь обработаем эту страницу через `BeautifulSoup`:

In [62]:
from bs4 import BeautifulSoup

In [63]:
soup1 = BeautifulSoup(page1, 'lxml')

Найдем все названия книг на этой странице. По исходному коду можно увидеть, что они имеют тэг `a` с атрибутом `class`, равным `name`:

In [64]:
soup1.find_all('a', {'class':'name'})

[<a class="name" href="/search/catalog/details/10703284">Генетические алгоритмы на Python</a>,
 <a class="name" href="/search/catalog/details/10597875">Изучаем Python, том 1</a>,
 <a class="name" href="/search/catalog/details/10545061">Python и машинное обучение: машинное и глубокое обучение с использованием Python, scikit-learn и TenFlow</a>,
 <a class="name" href="/search/catalog/details/10399903">Введение в машинное обучение с помощью Python</a>,
 <a class="name" href="/search/catalog/details/10507653">Автоматизация рутинных задач с помощью Python</a>,
 <a class="name" href="/search/catalog/details/9419720">Программирование на Python 3</a>,
 <a class="name" href="/search/catalog/details/10655162">Криптография и взлом шифров на Python</a>,
 <a class="name" href="/search/catalog/details/10621759">Сумка-шоппер ErichKrause® 10L Purple Python</a>,
 <a class="name" href="/search/catalog/details/10526544">Python. Справочник. Полное описание языка</a>,
 <a class="name" href="/search/catalog

С помощью списковых включений выберем из ссылок с тэгом `<a>` текст (так мы уже делали, и не раз).

In [65]:
books1 = [b.text for b in soup1.find_all('a', {'class':'name'})]

In [66]:
books1

['Генетические алгоритмы на Python',
 'Изучаем Python, том 1',
 'Python и машинное обучение: машинное и глубокое обучение с использованием Python, scikit-learn и TenFlow',
 'Введение в машинное обучение с помощью Python',
 'Автоматизация рутинных задач с помощью Python',
 'Программирование на Python 3',
 'Криптография и взлом шифров на Python',
 'Сумка-шоппер ErichKrause® 10L Purple Python',
 'Python. Справочник. Полное описание языка',
 'Стандартная библиотека Python 3']

Теперь аналогичным образом сгрузим информацию об авторах:

In [67]:
authors1 = [a.text for a in soup1.find_all('div', {'class': 'author'})]

Сгрузим расположение:

In [68]:
place1 = [p.text for p in soup1.find_all('div', {'class':'placement'})]

In [69]:
place1

['Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 85, полка 05',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 76, полка 01',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 76, полка 01',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 85, полка 05',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 76, полка 06',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 76, полка 05',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 76, полка 08',
 'Расположение в торговом зале: Уровень 1, зал № 09, секция 05, шкаф 31, полка 01',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 76, полка 01',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 76, полка 01']

И, конечно, цену:

In [70]:
price1 = [p.text for p in soup1.find_all('div', 
                                         {'class':'title_data price'})]

In [71]:
price1

['Цена: 2469,00 руб.',
 'Цена: 2769,00 руб.',
 'Цена: 2769,00 руб.',
 'Цена: 2769,00 руб.',
 'Цена: 1659,00 руб.',
 'Цена: 2879,00 руб.',
 'Цена: 1659,00 руб.',
 'Цена: 419,00 руб.',
 'Цена: 2769,00 руб.',
 'Цена: 3319,00 руб.']

Осталось пройтись по всем страницам, которые были выданы в результате поиска. Для примера перейдем на страницу 2 и на этом остановимся.

In [50]:
# next_p = br.find_element_by_css_selector('.next_page')

In [51]:
# next_p.click()

Проделаем то же самое, что и с первой страницей. По-хорошему нужно написать функцию, которая будет искать на странице названия книг, их расположение и цену. Но оставим это в качестве задания читателю :)

In [22]:
# page2 = br.page_source
# soup2 = BeautifulSoup(page2, 'lxml')
# books2 = [b.text for b in soup2.find_all('a', {'class':'name'})]
# author2 = [a.text for a in soup2.find_all('div', {'class': 'author'})]
# place2 = [p.text for p in soup2.find_all('div', {'class':'placement'})]
# price2 = [p.text for p in soup2.find_all('div', {'class':'title_data price'})]

In [92]:
from time import sleep

In [134]:
def page_scrap(url):
    soup = BeautifulSoup(url, 'lxml')
    books = [b.text for b in soup.find_all('a', {'class':'name'})]
    author = [a.text for a in soup.find_all('div', {'class': 'author'})]
    while len(books) != len(author):
            books.extend(' ') 
    place = [p.text for p in soup.find_all('div', {'class':'placement'})]
    while len(place) != len(books):
            place.extend(' ') 
    price = [p.text for p in soup.find_all('div', {'class':'title_data price'})]
    while len(price) != len(place):
            price.extend(' ') 
    return books, author, place, price

In [133]:
page = br.page_source
soup = BeautifulSoup(page, 'lxml')
books = [b.text for b in soup.find_all('a', {'class':'name'})]
place = [p.text for p in soup.find_all('div', {'class':'placement'})]
while len(place) != len(books):
            place.extend(' ') 
place

['Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 85, полка 01',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 76, полка 06',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 76, полка 07',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 76, полка 07',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 76, полка 07',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ']

In [135]:
allbooks = []
allauthors = []
allplaces = []
allprices =[]

In [136]:
lastpage = False
while lastpage == False:
    try:
        page = br.page_source
        books, authors, places, prices = page_scrap(page)
        allbooks.extend(books)
        allauthors.extend(authors)
        allplaces.extend(places)
        allprices.extend(prices)
        next_p = br.find_element_by_css_selector('.next_page')
        next_p.click()
        sleep(2)
    except Exception as e:
        
        print(e)
        lastpage = True
    

Message: no such element: Unable to locate element: {"method":"css selector","selector":".next_page"}
  (Session info: chrome=84.0.4147.105)



In [137]:
print(len(allbooks))
print(len(allauthors))
print(len(allplaces))
print(len(allprices))

85
85
85
85


Расширим списки результатов с первой страницы данными, полученными со второй страницы, используя метод `.extend()`.

In [23]:
# books1.extend(books2)
# authors1.extend(books2)
# place1.extend(place2)
# price1.extend(price2)

Осталось импортировать библиотеку `pandas` и создать датафрейм.

In [138]:
import pandas as pd

Для разнообразия создадим датафрейм не из списка списков, а из словаря. Ключами словаря будут названия столбцов в таблице, а значениями – списки с сохраненной информацией (названия книг, цены и проч.).

In [139]:
df = pd.DataFrame({'book': allbooks, 'author': allauthors,
                   'placement': allplaces, 'price': allprices})

In [140]:
df.head()

Unnamed: 0,book,author,placement,price
0,Генетические алгоритмы на Python,Вирсански,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 2469,00 руб."
1,"Изучаем Python, том 1",М. Лутц,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 2769,00 руб."
2,Python и машинное обучение: машинное и глубоко...,"С. Рашка, В. Мирджалили","Расположение в торговом зале: Уровень 1, зал №...","Цена: 2769,00 руб."
3,Введение в машинное обучение с помощью Python,"А. Мюллер, С. Гвидо","Расположение в торговом зале: Уровень 1, зал №...","Цена: 2769,00 руб."
4,Автоматизация рутинных задач с помощью Python,Э. Свейгарт,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 1659,00 руб."


Давайте приведем столбец с ценой к числовому типу. Уберем слова *Цена* и *руб*, а потом сконвертируем строки в числа с плавающей точкой. Напишем функцию `get_price()`,

In [141]:
def get_price(price):
    book_price = price.split(' ')[1]  # разобьем строку по пробелу и возьмем второй элемент
    book_price = book_price.replace(',', '.')  # заменим запятую на точку
    price_num = float(book_price)  # сконвертируем в float
    return price_num

In [142]:
# проверка
get_price(df.price[0])

2469.0

Всё отлично работает! Применим функцию к столбцу *price* и создадим новый столбец *nprice*.

In [143]:
df['nprice'] = df.price.apply(get_price)

In [144]:
df.head()

Unnamed: 0,book,author,placement,price,nprice
0,Генетические алгоритмы на Python,Вирсански,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 2469,00 руб.",2469.0
1,"Изучаем Python, том 1",М. Лутц,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 2769,00 руб.",2769.0
2,Python и машинное обучение: машинное и глубоко...,"С. Рашка, В. Мирджалили","Расположение в торговом зале: Уровень 1, зал №...","Цена: 2769,00 руб.",2769.0
3,Введение в машинное обучение с помощью Python,"А. Мюллер, С. Гвидо","Расположение в торговом зале: Уровень 1, зал №...","Цена: 2769,00 руб.",2769.0
4,Автоматизация рутинных задач с помощью Python,Э. Свейгарт,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 1659,00 руб.",1659.0


Теперь можем расположить книги по цене в порядке возрастания:

In [145]:
df.sort_values('nprice')

Unnamed: 0,book,author,placement,price,nprice
33,Математика на Python. Часть I. Элементы линейн...,"А. С. Балджы, М. Б. Хрипунова, И. А. Александрова","Расположение в торговом зале: Уровень 1, зал №...","Цена: 299,00 руб.",299.0
72,Практикум по математической статистике. Провер...,"В. И. Глебов, С. Я. Криволапов","Расположение в торговом зале: Уровень 1, зал №...","Цена: 299,00 руб.",299.0
65,Портфель пластиковый ErichKrause® Purple Pytho...,,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 409,00 руб.",409.0
20,Сумка-шоппер ErichKrause® 10L Python Print,,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 419,00 руб.",419.0
7,Сумка-шоппер ErichKrause® 10L Purple Python,,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 419,00 руб.",419.0
...,...,...,...,...,...
66,PYTHON И АНАЛИЗ ДАННЫХ. ВТОРОЕ ИЗДАНИЕ,Маккинни,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 3209,00 руб.",3209.0
9,Стандартная библиотека Python 3,Д. Хеллман,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 3319,00 руб.",3319.0
81,Прогнозное моделирование в IBM SPSS Statistics...,А. В. Груздев,,"Цена: 3599,00 руб.",3599.0
77,Python. Разработка на основе тестирования,Г. Персиваль,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 3709,00 руб.",3709.0


И сохраним всю таблицу в csv-файл:

In [146]:
df.to_csv("books.csv")