# Python для анализа данных

*Алла Тамбовцева, НИУ ВШЭ*

дополнения: *Ян Пиле, НИУ ВШЭ*

Посмотрим на примеры использования `selenium`. 

**Пример.** Зайдем на сайт книжного магазина и найдем все книги про Python. Загрузим библиотеку, веб-драйвер и откроем страницу в браузере через Python.

In [1]:
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager

driver = webdriver.Chrome(ChromeDriverManager().install())

[WDM] - Downloading: 100%|████████████████████████████████████████████████████████| 6.79M/6.79M [00:00<00:00, 17.2MB/s]
  driver = webdriver.Chrome(ChromeDriverManager().install())


In [2]:
#from selenium import webdriver as wb
#br = wb.Chrome()

# открываем страницу в Chrome в автоматическом режиме
driver.get("http://www.biblio-globus.ru/")

Найдем с помощью CSS Selector'а (*SelectorGadget*) поле для ввода названия книги или автора. 

In [3]:
field = driver.find_element("css selector","input")

Сохраним запрос:

In [4]:
author = "Python"  # переменная author - условность

Введем запрос в поле для поиска (`.send_keys`) и подождем чуть-чуть:

In [5]:
field.send_keys(author)
driver.implicitly_wait(2)  # подождем пару секунд

Теперь найдем кнопку для поиска (значок *лупа* рядом со строкой поиска) :

In [6]:
submit = driver.find_element("css selector","#SearchButton")

Кликнем на нее:

In [7]:
submit.click()

Сохраним первую страницу с результатами в переменную `page1`.

In [8]:
page1 = driver.page_source

In [9]:
page1



Теперь обработаем эту страницу через `BeautifulSoup`:

In [10]:
from bs4 import BeautifulSoup

In [11]:
soup1 = BeautifulSoup(page1, 'lxml')

In [12]:
soup1

<html prefix="og: http://ogp.me/ns#"><head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="fd9a658378927472" name="mailru-verification"/>
<title>Результаты поиска: «Python»</title>
<meta content="" name="description"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<meta content="all,follow" name="robots"/>
<link href="/favicon.png" rel="icon" type="image/png"/>
<link href="/searchprovider.xml" rel="search" title="BGshop" type="application/opensearchdescription+xml"/>
<link href="/content/bg/css/jquery.fancybox.min.css" rel="stylesheet"/>
<link href="/content/bg/vendor/bootstrap/css/bootstrap.min.css" rel="stylesheet"/>
<!-- <link rel="stylesheet" href="/content/bg/vendor/font-awesome/css/all.min.css"> -->
<script async="" src="https://www.google-analytics.com/plugins/ua/ec.js" type="text/javascript"></script><script async="" src="https://www.google-analytics.com/analytics.js" type="text/javascript"></script><script 

Найдем все названия книг на этой странице. По исходному коду можно увидеть, что они имеют тэг `a` с атрибутом `class`, равным `name`:

In [13]:
soup1.prettify

<bound method Tag.prettify of <html prefix="og: http://ogp.me/ns#"><head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="fd9a658378927472" name="mailru-verification"/>
<title>Результаты поиска: «Python»</title>
<meta content="" name="description"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<meta content="all,follow" name="robots"/>
<link href="/favicon.png" rel="icon" type="image/png"/>
<link href="/searchprovider.xml" rel="search" title="BGshop" type="application/opensearchdescription+xml"/>
<link href="/content/bg/css/jquery.fancybox.min.css" rel="stylesheet"/>
<link href="/content/bg/vendor/bootstrap/css/bootstrap.min.css" rel="stylesheet"/>
<!-- <link rel="stylesheet" href="/content/bg/vendor/font-awesome/css/all.min.css"> -->
<script async="" src="https://www.google-analytics.com/plugins/ua/ec.js" type="text/javascript"></script><script async="" src="https://www.google-analytics.com/analytics.js" type="text

In [14]:
soup1.find_all('div',{'class':"product"})[0]

<div class="product">
<a class="img_link" href="/product/10499950"><img alt="" class="img-fluid" src="https://static1.bgshop.ru/imagehandler.ashx?fileName=10499950.jpg&amp;width=200"/></a>
<div class="text">
<div class="author">Д. Бейдер</div>
<h3><a href="/product/10499950" id="p_title_10499950">Чистый Python. Тонкости программирования для профи</a></h3>
<div class="prices_item">
<div class="price_item_wrapper pos-center"><span class="price_item_title">Цена:</span> <div class="price_item_block"> <span class="price_item_new_lg">1529 ₽</span></div></div>
<div class="price_item_wrapper"><span class="price_item_title"> </span> <div class="price_item_block"> <span class="price_item_new"> </span></div></div>
</div>
<p class="status im_status_title">
<span style="color: #3ba155;"> в наличии</span>
</p>
<p class="buttons">
<span class="btn btn-block btn-primary" id="add_10499950" onclick="AddToBasket(10499950)"><i aria-hidden="true" class="fa fa-shopping-cart"></i> В корзину</span>
<a class="

С помощью списковых включений выберем из ссылок с тэгом `<a>` текст (так мы уже делали, и не раз).

In [15]:
books1 = [b.text.split('\n')[2] for b in soup1.find_all('div',{'class':"text"})]

In [16]:
books1

['Чистый Python. Тонкости программирования для профи',
 'Глубокое обучение на Python',
 'Программирование на Python для начинающих',
 '40 алгоритмов, которые должен знать каждый программист на Python',
 'Легкий способ выучить Python 3 еще глубже',
 'Байесовский анализ на Python',
 'Алгоритмический тренинг. Решения практических задач на Python и C++',
 'Программирование на Python с нуля. Учимся думать как программисты, осваиваем логику языка и пишем первый код!',
 'Глубокое обучение на Python',
 'Высокопроизводительные Python-приложения. Практическое руководство по эффективному программированию',
 'Объяснимые модели искусственного интеллекта на Python',
 'Python для сетевых инженеров. Автоматизация сети, программирование и DevOps']

И, конечно, цену:

In [20]:
soup1.find_all('span',{'class' : "price_item_new_lg"})

[<span class="price_item_new_lg">1529 ₽</span>,
 <span class="price_item_new_lg">1739 ₽</span>,
 <span class="price_item_new_lg">849 ₽</span>,
 <span class="price_item_new_lg">1929 ₽</span>,
 <span class="price_item_new_lg">1029 ₽</span>,
 <span class="price_item_new_lg">3149 ₽</span>,
 <span class="price_item_new_lg">1189 ₽</span>,
 <span class="price_item_new_lg">1169 ₽</span>,
 <span class="price_item_new_lg">2789 ₽</span>,
 <span class="price_item_new_lg">1809 ₽</span>,
 <span class="price_item_new_lg">3409 ₽</span>,
 <span class="price_item_new_lg">3769 ₽</span>]

In [21]:
price1 = []
for x in soup1.find_all('span',{'class' : "price_item_new_lg"}):
    x = x.text.strip().split()[0]
    price1.append(float(x))

In [24]:
 price1

[1529.0,
 1739.0,
 849.0,
 1929.0,
 1029.0,
 3149.0,
 1189.0,
 1169.0,
 2789.0,
 1809.0,
 3409.0,
 3769.0]

Осталось импортировать библиотеку `pandas` и создать датафрейм.

In [25]:
import pandas as pd

Для разнообразия создадим датафрейм не из списка списков, а из словаря. Ключами словаря будут названия столбцов в таблице, а значениями – списки с сохраненной информацией (названия книг, цены и проч.).

In [26]:
df = pd.DataFrame({'book': books1,  'price': price1})

In [27]:
df.head()

Unnamed: 0,book,price
0,Чистый Python. Тонкости программирования для п...,1529.0
1,Глубокое обучение на Python,1739.0
2,Программирование на Python для начинающих,849.0
3,"40 алгоритмов, которые должен знать каждый про...",1929.0
4,Легкий способ выучить Python 3 еще глубже,1029.0


Теперь можем расположить книги по цене в порядке возрастания:

In [28]:
df.sort_values('price')

Unnamed: 0,book,price
2,Программирование на Python для начинающих,849.0
4,Легкий способ выучить Python 3 еще глубже,1029.0
7,Программирование на Python с нуля. Учимся дума...,1169.0
6,Алгоритмический тренинг. Решения практических ...,1189.0
0,Чистый Python. Тонкости программирования для п...,1529.0
1,Глубокое обучение на Python,1739.0
9,Высокопроизводительные Python-приложения. Прак...,1809.0
3,"40 алгоритмов, которые должен знать каждый про...",1929.0
8,Глубокое обучение на Python,2789.0
5,Байесовский анализ на Python,3149.0


И сохраним всю таблицу в csv-файл:

In [29]:
df.to_csv("books.csv")