# Python для анализа данных

*Алла Тамбовцева, НИУ ВШЭ*

дополнения: *Ян Пиле, НИУ ВШЭ*

Посмотрим на другие примеры использования `selenium`. 

**Пример.** Зайдем на сайт книжного магазина и найдем все книги про Python. Загрузим библиотеку, веб-драйвер и откроем страницу в браузере через Python.

In [38]:
# from selenium import webdriver as wb
# br = wb.Firefox()

from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager

br = webdriver.Chrome(ChromeDriverManager().install())

# открываем страницу в Chrome в автоматическом режиме
br.get("http://www.biblio-globus.ru/")



Current google-chrome version is 95.0.4638
Get LATEST driver version for 95.0.4638
Driver [/Users/a18509896/.wdm/drivers/chromedriver/mac64/95.0.4638.17/chromedriver] found in cache


Найдем с помощью CSS Selector'а (*SelectorGadget*) поле для ввода названия книги или автора. 

In [39]:
field = br.find_element_by_css_selector("input")

Сохраним запрос:

In [40]:
author = "Python"  # переменная author - условность

Введем запрос в поле для поиска (`.send_keys`) и подождем чуть-чуть:

In [41]:
field.send_keys(author)
br.implicitly_wait(2)  # подождем пару секунд

Теперь найдем кнопку для поиска (значок *лупа* рядом со строкой поиска) через CSS Selector:

In [42]:
submit = br.find_element_by_css_selector("#search_submit")

Кликнем на нее:

In [43]:
submit.click()

Сохраним первую страницу с результатами в переменную `page1`.

In [44]:
page1 = br.page_source

In [46]:
# page1

Теперь обработаем эту страницу через `BeautifulSoup`:

In [47]:
from bs4 import BeautifulSoup

In [48]:
soup1 = BeautifulSoup(page1, 'lxml')

Найдем все названия книг на этой странице. По исходному коду можно увидеть, что они имеют тэг `a` с атрибутом `class`, равным `name`:

In [49]:
soup1.find_all('a', {'class':'name'})

[<a class="name" href="/search/catalog/details/10792503">Программируем с детьми. Создайте 50 крутых игр на Python</a>,
 <a class="name" href="/search/catalog/details/10790574">Алгоритмы на графах: Использование языка Python</a>,
 <a class="name" href="/search/catalog/details/10796619">Python для детей и родителей.</a>,
 <a class="name" href="/search/catalog/details/10795868">Статистические вычисления на платформе Jupyter Notebook с использованием Python</a>,
 <a class="name" href="/search/catalog/details/10790837">Изучаем квантовые вычисления на Python и Q#</a>,
 <a class="name" href="/search/catalog/details/10798159">Программирование на языке Python. Основы структурного программирования</a>,
 <a class="name" href="/search/catalog/details/10597875">Изучаем Python, том 1</a>,
 <a class="name" href="/search/catalog/details/10776656">Справочник PYTHON.  Кратко, быстро, под рукой</a>,
 <a class="name" href="/search/catalog/details/10632642">Изучаем Python, том 2,</a>,
 <a class="name" href

С помощью списковых включений выберем из ссылок с тэгом `<a>` текст (так мы уже делали, и не раз).

In [50]:
books1 = [b.text for b in soup1.find_all('a', {'class':'name'})]

In [51]:
books1

['Программируем с детьми. Создайте 50 крутых игр на Python',
 'Алгоритмы на графах: Использование языка Python',
 'Python для детей и родителей.',
 'Статистические вычисления на платформе Jupyter Notebook с использованием Python',
 'Изучаем квантовые вычисления на Python и Q#',
 'Программирование на языке Python. Основы структурного программирования',
 'Изучаем Python, том 1',
 'Справочник PYTHON.  Кратко, быстро, под рукой',
 'Изучаем Python, том 2,',
 'Легкий способ выучить Python 3']

Теперь аналогичным образом сгрузим информацию об авторах:

In [53]:
# [a.text for a in soup1.find_all('div', {'class': 'author'})]
# то же самое что и
authors1 = []
for a in soup1.find_all('div', {'class': 'author'}):
    authors1.append(a.text)

In [55]:
authors1

['А. Таке',
 'О. И. Мельников , А. А. Морозов',
 'Б. Пэйн',
 'С. Я. Криволапов',
 'С. Кайзер, К. Гранад',
 'К. А. Майков , А. Н. Пылькин , Ю. С. Соколова , Н. Н. Степанов , Н. А. Тярт',
 'М.  Лутц',
 'Д. М. Кольцов , Е. В. Дубовик ',
 'М.Лутц',
 'З. Шоу']

In [56]:
soup1.find_all('div', {'class': 'author'})

[<div class="author">А. Таке</div>,
 <div class="author">О. И. Мельников , А. А. Морозов</div>,
 <div class="author">Б. Пэйн</div>,
 <div class="author">С. Я. Криволапов</div>,
 <div class="author">С. Кайзер, К. Гранад</div>,
 <div class="author">К. А. Майков , А. Н. Пылькин , Ю. С. Соколова , Н. Н. Степанов , Н. А. Тярт</div>,
 <div class="author">М.  Лутц</div>,
 <div class="author">Д. М. Кольцов , Е. В. Дубовик </div>,
 <div class="author">М.Лутц</div>,
 <div class="author">З. Шоу</div>]

In [57]:
authors1 = [a.text for a in soup1.find_all('div', {'class': 'author'})]

Сгрузим расположение:

In [58]:
place1 = [p.text for p in soup1.find_all('div', {'class':'placement'})]

In [59]:
place1

['Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 87, полка 05',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 76, полка 05',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 76, полка 06',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 09, шкаф 104, полка 06',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 76, полка 06',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 76, полка 05',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 76, полка 01',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 76, полка 05',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 76, полка 01',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 76, полка 05']

И, конечно, цену:

In [60]:
price1 = [p.text for p in soup1.find_all('div', 
                                         {'class':'title_data price'})]

In [61]:
price1

['Цена: 1169,00 руб.',
 'Цена: 619,00 руб.',
 'Цена: 999,00 руб.',
 'Цена: 1499,00 руб.',
 'Цена: 3569,00 руб.',
 'Цена: 679,00 руб.',
 'Цена: 2849,00 руб.',
 'Цена: 499,00 руб.',
 'Цена: 2849,00 руб.',
 'Цена: 889,00 руб.']

Осталось пройтись по всем страницам, которые были выданы в результате поиска. Для примера перейдем на страницу 2 и на этом остановимся.

In [62]:
next_p = br.find_element_by_css_selector('.next_page')

In [63]:
next_p.click()

Проделаем то же самое, что и с первой страницей. По-хорошему нужно написать функцию, которая будет искать на странице названия книг, их расположение и цену. Но оставим это в качестве задания читателю :)

In [64]:
page2 = br.page_source
soup2 = BeautifulSoup(page2, 'lxml')
books2 = [b.text for b in soup2.find_all('a', {'class':'name'})]
author2 = [a.text for a in soup2.find_all('div', {'class': 'author'})]
place2 = [p.text for p in soup2.find_all('div', {'class':'placement'})]
price2 = [p.text for p in soup2.find_all('div', {'class':'title_data price'})]

Расширим списки результатов с первой страницы данными, полученными со второй страницы, используя метод `.extend()`.

In [65]:
books1.extend(books2) # books1 + books2
authors1.extend(books2)
place1.extend(place2)
price1.extend(price2)

Осталось импортировать библиотеку `pandas` и создать датафрейм.

In [66]:
import pandas as pd

Для разнообразия создадим датафрейм не из списка списков, а из словаря. Ключами словаря будут названия столбцов в таблице, а значениями – списки с сохраненной информацией (названия книг, цены и проч.).

In [67]:
df = pd.DataFrame({'book': books1, 'author': authors1,
                   'placement': place1, 'price': price1})

In [68]:
df.head()

Unnamed: 0,book,author,placement,price
0,Программируем с детьми. Создайте 50 крутых игр...,А. Таке,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 1169,00 руб."
1,Алгоритмы на графах: Использование языка Python,"О. И. Мельников , А. А. Морозов","Расположение в торговом зале: Уровень 1, зал №...","Цена: 619,00 руб."
2,Python для детей и родителей.,Б. Пэйн,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 999,00 руб."
3,Статистические вычисления на платформе Jupyter...,С. Я. Криволапов,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 1499,00 руб."
4,Изучаем квантовые вычисления на Python и Q#,"С. Кайзер, К. Гранад","Расположение в торговом зале: Уровень 1, зал №...","Цена: 3569,00 руб."


Давайте приведем столбец с ценой к числовому типу. Уберем слова *Цена* и *руб*, а потом сконвертируем строки в числа с плавающей точкой. Напишем функцию `get_price()`,

In [70]:
df.iloc[1, 3]

'Цена: 619,00 руб.'

In [76]:
float(df.iloc[1, 3].split()[1].replace(',', '.'))

619.0

In [81]:
float('.'.join(re.findall(r'\d+', df.iloc[1, 3])))

619.0

In [78]:
def get_price(price):
    book_price = price.split(' ')[1]  # разобьем строку по пробелу и возьмем второй элемент
    book_price = book_price.replace(',', '.')  # заменим запятую на точку
    price_num = float(book_price)  # сконвертируем в float
    return price_num

In [82]:
import re
def preis(x):
    return float('.'.join(re.findall(r'\d+',x)))

In [29]:
# проверка
get_price(df.price[0])

1169.0

In [30]:
preis(df.price[0])

1169.0

Всё отлично работает! Применим функцию к столбцу *price* и создадим новый столбец *nprice*.

In [88]:
df['nprice'] = df.price.apply(preis)

In [89]:
df.head()

Unnamed: 0,book,author,placement,price,nprice
0,Программируем с детьми. Создайте 50 крутых игр...,А. Таке,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 1169,00 руб.",1169.0
1,Алгоритмы на графах: Использование языка Python,"О. И. Мельников , А. А. Морозов","Расположение в торговом зале: Уровень 1, зал №...","Цена: 619,00 руб.",619.0
2,Python для детей и родителей.,Б. Пэйн,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 999,00 руб.",999.0
3,Статистические вычисления на платформе Jupyter...,С. Я. Криволапов,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 1499,00 руб.",1499.0
4,Изучаем квантовые вычисления на Python и Q#,"С. Кайзер, К. Гранад","Расположение в торговом зале: Уровень 1, зал №...","Цена: 3569,00 руб.",3569.0


Теперь можем расположить книги по цене в порядке возрастания:

In [90]:
df.sort_values('nprice')

Unnamed: 0,book,author,placement,price,nprice
7,"Справочник PYTHON. Кратко, быстро, под рукой","Д. М. Кольцов , Е. В. Дубовик","Расположение в торговом зале: Уровень 1, зал №...","Цена: 499,00 руб.",499.0
1,Алгоритмы на графах: Использование языка Python,"О. И. Мельников , А. А. Морозов","Расположение в торговом зале: Уровень 1, зал №...","Цена: 619,00 руб.",619.0
5,Программирование на языке Python. Основы струк...,"К. А. Майков , А. Н. Пылькин , Ю. С. Соколова ...","Расположение в торговом зале: Уровень 1, зал №...","Цена: 679,00 руб.",679.0
11,Python : Карманный справочник,Python : Карманный справочник,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 689,00 руб.",689.0
9,Легкий способ выучить Python 3,З. Шоу,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 889,00 руб.",889.0
2,Python для детей и родителей.,Б. Пэйн,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 999,00 руб.",999.0
13,Простой Python просто с нуля,Простой Python просто с нуля,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 1069,00 руб.",1069.0
10,Программирование на Python в примерах и задачах,Программирование на Python в примерах и задачах,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 1169,00 руб.",1169.0
0,Программируем с детьми. Создайте 50 крутых игр...,А. Таке,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 1169,00 руб.",1169.0
19,Основы Python. Научитесь думать как программист,Основы Python. Научитесь думать как программист,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 1259,00 руб.",1259.0


И сохраним всю таблицу в csv-файл:

In [91]:
df.to_csv("books.csv", index=False)

In [92]:
br.close()

In [330]:
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager

br = webdriver.Chrome(ChromeDriverManager().install())

# открываем страницу в Chrome в автоматическом режиме
br.get("http://www.biblio-globus.ru/")



Current google-chrome version is 95.0.4638
Get LATEST driver version for 95.0.4638
Driver [/Users/a18509896/.wdm/drivers/chromedriver/mac64/95.0.4638.17/chromedriver] found in cache


In [331]:
knigi = '//*[@id="TableMRight"]/tbody/tr/td/table/tbody/tr[2]/td[2]/a'

In [332]:
knigi_el = br.find_element_by_xpath(knigi)

In [333]:
knigi_el.click()

In [334]:
det_css = 'body > table > tbody > tr:nth-child(2) > td.column_right > div > div.card-columns > div:nth-child(1) > div > ul > li > ul > li:nth-child(2) > ul > li:nth-child(2) > a'

In [335]:
det_el = br.find_element_by_css_selector(det_css)

In [336]:
det_el.click()

In [337]:
page1 = BeautifulSoup(br.page_source)

In [338]:
books_p1 = page1.find_all('div', {'class': 'details_1'})

In [339]:
len(books_p1)

12

In [340]:
books_p1[0]

<div class="details_1">
<div class="author">А. Брэдли</div>
<a class="name" href="http://www.biblio-globus.ru/search/catalog/details/10597134">Красавиц мертвых локоны златые :[роман]</a>
<div class="title_data green">
                                        В наличии
                                    </div>
<div class="placement"><b>Расположение в торговом зале:</b> <br/>Уровень 2, зал № 12, секция 01, шкаф 03, полка 01</div>
<div class="title_data price">Цена: <span>479,00</span> руб.</div>
</div>

In [341]:
books_p1[0].divv is None

True

In [342]:
books_p1[0].find('div', {'class': 'author'}).text

'А. Брэдли'

In [343]:
books_p1[0].a.text

'Красавиц мертвых локоны златые :[роман]'

In [344]:
books_p1[0].find('div', {'class': 'placement'}).text

'Расположение в торговом зале: Уровень 2, зал № 12, секция 01, шкаф 03, полка 01'

In [345]:
books_p1[0].find('div', {'class': 'title_data price'}).text

'Цена: 479,00 руб.'

In [346]:
books_p1[0].find('div', {'class': 'title_data pricee'}) is None

True

In [347]:
titles = []
authors = []
places = []
prices = []
for book in books_p1:
    if book.find('div', {'class': 'author'}) is not None:
        authors.append(book.find('div', {'class': 'author'}).text)
    else:
        authors.append('')
        
    if book.a is not None:
        titles.append(book.a.text)
    else:
        titles.append('')
        
    if book.find('div', {'class': 'placement'}) is not None:
        places.append(book.find('div', {'class': 'placement'}).text)
    else:
        places.append('')
        
    if book.find('div', {'class': 'title_data price'}) is not None:
        prices.append(book.find('div', {'class': 'title_data price'}).text)
    else:
        prices.append('')

In [348]:
titles

['Красавиц мертвых локоны златые :[роман]',
 'День праха: роман',
 'Большое небо : роман',
 'Вся твоя ложь',
 'Блюстители',
 'Пандемия',
 'Последняя охота',
 'Земля мертвых',
 'Идеальная няня',
 'Я слишком долго мечтала',
 'Время - убийца',
 'Серебряная дорога']

In [349]:
def get_page_info(books_p):
    titles = []
    authors = []
    places = []
    prices = []
    for book in books_p:
        if book.div is not None:
            authors.append(book.div.text)
        else:
            authors.append('')

        if book.a is not None:
            titles.append(book.a.text)
        else:
            titles.append('')

        if book.find('div', {'class': 'placement'}) is not None:
            places.append(book.find('div', {'class': 'placement'}).text)
        else:
            places.append('')

        if book.find('div', {'class': 'title_data price'}) is not None:
            prices.append(book.find('div', {'class': 'title_data price'}).text)
        else:
            prices.append('')
            
    return titles, authors, places, prices

In [350]:
next_page = '//*[@id="main_wrapper"]/ul/li[4]/a'

In [351]:
page2 = br.find_element_by_xpath(next_page)

In [352]:
page2.click()

In [353]:
# next_page_2 = '//*[@id="main_wrapper"]/ul/li[8]/a'
# next_page_2 = br.find_element_by_xpath(next_page_2)
# next_page_2.click()

In [354]:
from time import sleep

In [355]:
np_xpath = '//*[@id="main_wrapper"]/ul/li[8]/a'

In [356]:
for _ in range(1000):
    try:
        page = BeautifulSoup(br.page_source)
        books = page.find_all('div', {'class': 'details_1'})
        t, a, pl, pr = get_page_info(books)
        titles.extend(t)
        authors.extend(a)
        places.extend(pl)
        prices.extend(pr)
        np = br.find_element_by_xpath(np_xpath)
        sleep(3)
        np.click()
    except:
        print('all pages parsed')
        break

all pages parsed


In [357]:
df = pd.DataFrame({'book': titles, 'author': authors,
                   'placement': places, 'price': prices})

In [358]:
df.head()

Unnamed: 0,book,author,placement,price
0,Красавиц мертвых локоны златые :[роман],А. Брэдли,"Расположение в торговом зале: Уровень 2, зал №...","Цена: 479,00 руб."
1,День праха: роман,Жан- Кристоф Гранже,"Расположение в торговом зале: Уровень 2, зал №...","Цена: 669,00 руб."
2,Большое небо : роман,Кейт Аткинсон;,"Расположение в торговом зале: Уровень 2, зал №...","Цена: 579,00 руб."
3,Вся твоя ложь,Г. Тайс,"Расположение в торговом зале: Уровень 2, зал №...","Цена: 729,00 руб."
4,Блюстители,Дж. Гришэм,"Расположение в торговом зале: Уровень 2, зал №...","Цена: 559,00 руб."


In [360]:
# br.close()