# Python для анализа данных

*Алла Тамбовцева, НИУ ВШЭ*

дополнения: *Ян Пиле, НИУ ВШЭ*

Посмотрим на другие примеры использования `selenium`. 

**Пример.** Зайдем на сайт книжного магазина и найдем все книги про Python. Загрузим библиотеку, веб-драйвер и откроем страницу в браузере через Python.

In [1]:
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager

driver = webdriver.Chrome(ChromeDriverManager().install())




[WDM] - Current google-chrome version is 102.0.5005
[WDM] - Get LATEST chromedriver version for 102.0.5005 google-chrome
[WDM] - Driver [C:\Users\meale\.wdm\drivers\chromedriver\win32\102.0.5005.61\chromedriver.exe] found in cache
  driver = webdriver.Chrome(ChromeDriverManager().install())


In [2]:
#from selenium import webdriver as wb
#br = wb.Chrome()

# открываем страницу в Chrome в автоматическом режиме
driver.get("http://www.biblio-globus.ru/")

Найдем с помощью CSS Selector'а (*SelectorGadget*) поле для ввода названия книги или автора. 

In [3]:
field = driver.find_element_by_css_selector("input")

  field = driver.find_element_by_css_selector("input")


Сохраним запрос:

In [4]:
author = "Python"  # переменная author - условность

Введем запрос в поле для поиска (`.send_keys`) и подождем чуть-чуть:

In [5]:
field.send_keys(author)
driver.implicitly_wait(2)  # подождем пару секунд

Теперь найдем кнопку для поиска (значок *лупа* рядом со строкой поиска) :

In [9]:
submit = driver.find_element_by_css_selector("#search_button")

  submit = driver.find_element_by_css_selector("#search_button")


Кликнем на нее:

In [10]:
submit.click()

Сохраним первую страницу с результатами в переменную `page1`.

In [11]:
page1 = driver.page_source

In [12]:
page1

'<html xmlns="http://www.w3.org/1999/xhtml"><head><title>\n\t\n\tРезультаты поиска по запросу: «Python»\n\n</title><meta http-equiv="Content-Type" content="application/xhtml+xml; charset=utf-8"><meta name="description"><meta name="keywords"><meta name="robots">\n\t<link rel="stylesheet" type="text/css" href="/search/Content/Site.css?v=77" media="screen">\n    <link rel="stylesheet" type="text/css" href="/search/Content/jquery-ui-1.8.16.custom.css" media="screen">\n    <link rel="stylesheet" href="https://use.fontawesome.com/releases/v5.7.0/css/all.css" integrity="sha384-lZN37f5QGtY3VHgisS14W3ExzMWZxybE1SJSEsQp9S+oqd12jhcu+A56Ebc1zFSJ" crossorigin="anonymous">\n    <link rel="stylesheet" type="text/css" href="/search/Content/eventCalendar_theme_responsive.css" media="screen">\n    <link rel="stylesheet" type="text/css" href="/search/Content/eventCalendar.css" media="screen">\n    <link rel="stylesheet" href="/search/Content/owl/assets/owl.carousel.css">\n    <link rel="stylesheet" href=

Теперь обработаем эту страницу через `BeautifulSoup`:

In [13]:
from bs4 import BeautifulSoup

In [14]:
soup1 = BeautifulSoup(page1, 'lxml')

In [15]:
soup1

<html xmlns="http://www.w3.org/1999/xhtml"><head><title>
	
	Результаты поиска по запросу: «Python»

</title><meta content="application/xhtml+xml; charset=utf-8" http-equiv="Content-Type"/><meta name="description"/><meta name="keywords"/><meta name="robots"/>
<link href="/search/Content/Site.css?v=77" media="screen" rel="stylesheet" type="text/css"/>
<link href="/search/Content/jquery-ui-1.8.16.custom.css" media="screen" rel="stylesheet" type="text/css"/>
<link crossorigin="anonymous" href="https://use.fontawesome.com/releases/v5.7.0/css/all.css" integrity="sha384-lZN37f5QGtY3VHgisS14W3ExzMWZxybE1SJSEsQp9S+oqd12jhcu+A56Ebc1zFSJ" rel="stylesheet"/>
<link href="/search/Content/eventCalendar_theme_responsive.css" media="screen" rel="stylesheet" type="text/css"/>
<link href="/search/Content/eventCalendar.css" media="screen" rel="stylesheet" type="text/css"/>
<link href="/search/Content/owl/assets/owl.carousel.css" rel="stylesheet"/>
<link href="/search/Content/owl/assets/owl.theme.default.c

Найдем все названия книг на этой странице. По исходному коду можно увидеть, что они имеют тэг `a` с атрибутом `class`, равным `name`:

In [16]:
soup1.find_all('a', {'class':'name'})

[<a class="name" href="/search/catalog/details/10846601">Машинное обучение с помощью Python. Руководство для специалистов по работе с данными</a>,
 <a class="name" href="/search/catalog/details/10852290">Практическое введение в решение дифференциальных уравнений в Python</a>,
 <a class="name" href="/search/catalog/details/10736311">Простой Python. Современный стиль программирования</a>,
 <a class="name" href="/search/catalog/details/10597875">Изучаем Python, том 1</a>,
 <a class="name" href="/search/catalog/details/10569801">Программируем на Python</a>,
 <a class="name" href="/search/catalog/details/10831877">Большая книга проектов Python</a>,
 <a class="name" href="/search/catalog/details/10816233">Однострочники Python: лаконичный и содержательный код</a>,
 <a class="name" href="/search/catalog/details/10632642">Изучаем Python, том 2,</a>,
 <a class="name" href="/search/catalog/details/10532193">Python. Экспресс-курс</a>,
 <a class="name" href="/search/catalog/details/10410028">Изучае

С помощью списковых включений выберем из ссылок с тэгом `<a>` текст (так мы уже делали, и не раз).

In [17]:
books1 = [b.text for b in soup1.find_all('a', {'class':'name'})]

In [18]:
books1

['Машинное обучение с помощью Python. Руководство для специалистов по работе с данными',
 'Практическое введение в решение дифференциальных уравнений в Python',
 'Простой Python. Современный стиль программирования',
 'Изучаем Python, том 1',
 'Программируем на Python',
 'Большая книга проектов Python',
 'Однострочники Python: лаконичный и содержательный код',
 'Изучаем Python, том 2,',
 'Python. Экспресс-курс',
 'Изучаем программирование на Python']

Теперь аналогичным образом сгрузим информацию об авторах:

In [19]:
authors1 = [a.text for a in soup1.find_all('div', {'class': 'author'})]

Сгрузим расположение:

In [20]:
place1 = [p.text for p in soup1.find_all('div', {'class':'placement'})]

In [21]:
place1

['Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 85, полка 04',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 76, полка 05',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 76, полка 03',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 76, полка 01',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 76, полка 04',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 76, полка 06',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 76, полка 06',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 76, полка 01',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 76, полка 03',
 'Расположение в торговом зале: Уровень 1, зал № 07, секция 08, шкаф 76, полка 01']

И, конечно, цену:

In [22]:
price1 = [p.text for p in soup1.find_all('div', 
                                         {'class':'title_data price'})]

In [23]:
price1

['Цена: 3519,00 руб.',
 'Цена: 2619,00 руб.',
 'Цена: 2019,00 руб.',
 'Цена: 4459,00 руб.',
 'Цена: 1359,00 руб.',
 'Цена: 1669,00 руб.',
 'Цена: 1669,00 руб.',
 'Цена: 4459,00 руб.',
 'Цена: 1669,00 руб.',
 'Цена: 1859,00 руб.']

Осталось пройтись по всем страницам, которые были выданы в результате поиска. Для примера перейдем на страницу 2 и на этом остановимся.

In [24]:
next_p = driver.find_element_by_css_selector('.next_page')

  next_p = driver.find_element_by_css_selector('.next_page')


In [25]:
next_p.click()

Проделаем то же самое, что и с первой страницей. По-хорошему нужно написать функцию, которая будет искать на странице названия книг, их расположение и цену. Но оставим это в качестве задания читателю :)

In [26]:
page2 = driver.page_source
soup2 = BeautifulSoup(page2, 'lxml')
books2 = [b.text for b in soup2.find_all('a', {'class':'name'})]
author2 = [a.text for a in soup2.find_all('div', {'class': 'author'})]
place2 = [p.text for p in soup2.find_all('div', {'class':'placement'})]
price2 = [p.text for p in soup2.find_all('div', {'class':'title_data price'})]

Расширим списки результатов с первой страницы данными, полученными со второй страницы, используя метод `.extend()`.

In [27]:
books1.extend(books2)
authors1.extend(books2)
place1.extend(place2)
price1.extend(price2)

Осталось импортировать библиотеку `pandas` и создать датафрейм.

In [28]:
import pandas as pd

Для разнообразия создадим датафрейм не из списка списков, а из словаря. Ключами словаря будут названия столбцов в таблице, а значениями – списки с сохраненной информацией (названия книг, цены и проч.).

In [29]:
df = pd.DataFrame({'book': books1, 'author': authors1,
                   'placement': place1, 'price': price1})

In [30]:
df.head()

Unnamed: 0,book,author,placement,price
0,Машинное обучение с помощью Python. Руководств...,"А. Мюллер, С. Гвидо","Расположение в торговом зале: Уровень 1, зал №...","Цена: 3519,00 руб."
1,Практическое введение в решение дифференциальн...,Н. М. Ершов,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 2619,00 руб."
2,Простой Python. Современный стиль программиров...,Б. Любанович,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 2019,00 руб."
3,"Изучаем Python, том 1",М. Лутц,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 4459,00 руб."
4,Программируем на Python,М. Доусон,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 1359,00 руб."


Давайте приведем столбец с ценой к числовому типу. Уберем слова *Цена* и *руб*, а потом сконвертируем строки в числа с плавающей точкой. Напишем функцию `get_price()`,

In [31]:
def get_price(price):
    book_price = price.split(' ')[1]  # разобьем строку по пробелу и возьмем второй элемент
    book_price = book_price.replace(',', '.')  # заменим запятую на точку
    price_num = float(book_price)  # сконвертируем в float
    return price_num

In [32]:
import re
def preis(x):
    return float('.'.join(re.findall(r'\d+',x)))

In [33]:
# проверка
get_price(df.price[0])

3519.0

In [34]:
preis(df.price[0])

3519.0

Всё отлично работает! Применим функцию к столбцу *price* и создадим новый столбец *nprice*.

In [35]:
df['nprice'] = df.price.apply(preis)

In [36]:
df.head()

Unnamed: 0,book,author,placement,price,nprice
0,Машинное обучение с помощью Python. Руководств...,"А. Мюллер, С. Гвидо","Расположение в торговом зале: Уровень 1, зал №...","Цена: 3519,00 руб.",3519.0
1,Практическое введение в решение дифференциальн...,Н. М. Ершов,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 2619,00 руб.",2619.0
2,Простой Python. Современный стиль программиров...,Б. Любанович,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 2019,00 руб.",2019.0
3,"Изучаем Python, том 1",М. Лутц,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 4459,00 руб.",4459.0
4,Программируем на Python,М. Доусон,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 1359,00 руб.",1359.0


Теперь можем расположить книги по цене в порядке возрастания:

In [37]:
df.sort_values('nprice')

Unnamed: 0,book,author,placement,price,nprice
13,"Справочник PYTHON. Кратко, быстро, под рукой","Справочник PYTHON. Кратко, быстро, под рукой","Расположение в торговом зале: Уровень 1, зал №...","Цена: 499,00 руб.",499.0
16,Сумка-шоппер на молнии ErichKrause® 14L Python...,Сумка-шоппер на молнии ErichKrause® 14L Python...,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 749,00 руб.",749.0
10,Python. Полное руководство,Python. Полное руководство,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 909,00 руб.",909.0
19,Python для юных программистов,Python для юных программистов,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 1059,00 руб.",1059.0
12,Python для детей и родителей.,Python для детей и родителей.,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 1189,00 руб.",1189.0
14,Программирование на Python в примерах и задачах,Программирование на Python в примерах и задачах,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 1309,00 руб.",1309.0
4,Программируем на Python,М. Доусон,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 1359,00 руб.",1359.0
15,"Изучаем Python: программирование игр, визуализ...","Изучаем Python: программирование игр, визуализ...","Расположение в торговом зале: Уровень 1, зал №...","Цена: 1629,00 руб.",1629.0
5,Большая книга проектов Python,Э. Свейгарт,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 1669,00 руб.",1669.0
6,Однострочники Python: лаконичный и содержатель...,К. Майер,"Расположение в торговом зале: Уровень 1, зал №...","Цена: 1669,00 руб.",1669.0


И сохраним всю таблицу в csv-файл:

In [38]:
df.to_csv("books.csv")