# Python для анализа данных

*Алла Тамбовцева, НИУ ВШЭ*

дополнения: *Ян Пиле, НИУ ВШЭ*

Посмотрим на другие примеры использования `selenium`. 

**Пример.** Зайдем на сайт книжного магазина и найдем все книги про Python. Загрузим библиотеку, веб-драйвер и откроем страницу в браузере через Python.

In [1]:
# from selenium import webdriver as wb
# br = wb.Firefox()

from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager

br = webdriver.Chrome(ChromeDriverManager().install())

# открываем страницу в Chrome в автоматическом режиме
br.get("http://www.biblio-globus.ru/")




[WDM] - Current google-chrome version is 106.0.5249
[WDM] - Get LATEST chromedriver version for 106.0.5249 google-chrome
[WDM] - Driver [/Users/Dell/.wdm/drivers/chromedriver/mac64/106.0.5249.61/chromedriver] found in cache
  br = webdriver.Chrome(ChromeDriverManager().install())


Найдем с помощью CSS Selector'а (*SelectorGadget*) поле для ввода названия книги или автора. 

In [2]:
field = br.find_element_by_css_selector("input")

  field = br.find_element_by_css_selector("input")


Сохраним запрос:

In [3]:
author = "Python"  # переменная author - условность

Введем запрос в поле для поиска (`.send_keys`) и подождем чуть-чуть:

In [4]:
field.send_keys(author)
br.implicitly_wait(2)  # подождем пару секунд

Теперь найдем кнопку для поиска (значок *лупа* рядом со строкой поиска) через CSS Selector:

In [5]:
submit = br.find_element_by_css_selector("#search-btn")

  submit = br.find_element_by_css_selector("#search-btn")


Кликнем на нее:

In [6]:
submit.click()

Сохраним первую страницу с результатами в переменную `page1`.

In [7]:
page1 = br.page_source

In [8]:
# page1

Теперь обработаем эту страницу через `BeautifulSoup`:

In [9]:
from bs4 import BeautifulSoup

In [10]:
soup1 = BeautifulSoup(page1, 'lxml')

Найдем все названия книг на этой странице. По исходному коду можно увидеть, что они имеют тэг `div` с атрибутом `class`, равным `card-title`:

In [11]:
soup1.find_all('div', {'class':'card-title'})

[<div class="card-title" style="font-size:.92rem; line-height:1.2; margin-top:.3rem;"><a href="/product/10727655" style="color:#444;">Компьютерное зрение на Python. Первые шаги</a></div>,
 <div class="card-title" style="font-size:.92rem; line-height:1.2; margin-top:.3rem;"><a href="/product/10839595" style="color:#444;">Python для юных программистов</a></div>,
 <div class="card-title" style="font-size:.92rem; line-height:1.2; margin-top:.3rem;"><a href="/product/10776656" style="color:#444;">Справочник PYTHON.  Кратко, быстро, под...</a></div>,
 <div class="card-title" style="font-size:.92rem; line-height:1.2; margin-top:.3rem;"><a href="/product/10532193" style="color:#444;">Python. Экспресс-курс</a></div>,
 <div class="card-title" style="font-size:.92rem; line-height:1.2; margin-top:.3rem;"><a href="/product/10473444" style="color:#444;">HTML, CSS, SCRATCH, PYTHON. Моя первая ...</a></div>,
 <div class="card-title" style="font-size:.92rem; line-height:1.2; margin-top:.3rem;"><a href=

С помощью списковых включений выберем из ссылок с тэгом `<a>` текст (так мы уже делали, и не раз).

In [12]:
books1 = [b.a.text for b in soup1.find_all('div', {'class':'card-title'})]

In [13]:
books1

['Компьютерное зрение на Python. Первые шаги',
 'Python для юных программистов',
 'Справочник PYTHON.  Кратко, быстро, под...',
 'Python. Экспресс-курс',
 'HTML, CSS, SCRATCH, PYTHON. Моя первая ...',
 'Программирование на Python для начинающих',
 'Глубокое обучение с подкреплением: теор...',
 'Python и наука о данных для чайников, 2...',
 'Легкий способ выучить Python 3 еще глубже',
 'Байесовский анализ на Python',
 'Вероятностное программирование на Pytho...',
 'Искусственный интеллект с примерами на ...',
 'Стандартная библиотека Python 3',
 'Python для сложных задач: наука о данны...',
 'Глубокое обучение на Python',
 'Объяснимые модели искусственного интелл...',
 'PYTHON. К вершинам мастерства. ',
 'Python.Создаем программы и игры',
 'Начинаем программировать на Python',
 'Python и DevOps: Ключ к автоматизации L...']

Теперь аналогичным образом сгрузим описания:

In [15]:
descr1 = []
for a in soup1.find_all('p', {'class': 'card-text'}):
    descr1.append(a.text)

In [16]:
descr1

['В книге изложен учебный курс для школьников, начинающих изучать компьютерное ...',
 'Книга написана на основе опыта обучения программированию на языке Python в кр...',
 'Данный справочник содержит всю ключевую информацию о Python в удобной и нагля...',
 'Вы уже умеете кодить на одном или нескольких языках программирования? Тогда н...',
 'Хотите научиться создавать программы и сайты,  но не знаете, как это сделать?...',
 'Книга "Программирование на  Python для начинающих" является исчерпывающим рук...',
 'Глубокое обучение с подкреплением (глубокое RL) сочетает в себе два подхода к...',
 'Наука о данных - это вовсе не страшно!Интересуетесь наукой о данных, но немно...',
 'Воплотите ваши идеи в код самого высокого качества!\r\nЗед Шоу – один из тех, к...',
 'Эта книга, посвященная методике вероятностного программирования, научит вас с...',
 'Байесовские методы пугают формулами многих «айтишников», но без анализа стати...',
 'В этой книге исследуются различные сценарии применения искусс

In [17]:
soup1.find_all('p', {'class': 'card-text'})

[<p class="card-text" style="color:#555;">В книге изложен учебный курс для школьников, начинающих изучать компьютерное ...</p>,
 <p class="card-text" style="color:#555;">Книга написана на основе опыта обучения программированию на языке Python в кр...</p>,
 <p class="card-text" style="color:#555;">Данный справочник содержит всю ключевую информацию о Python в удобной и нагля...</p>,
 <p class="card-text" style="color:#555;">Вы уже умеете кодить на одном или нескольких языках программирования? Тогда н...</p>,
 <p class="card-text" style="color:#555;">Хотите научиться создавать программы и сайты,  но не знаете, как это сделать?...</p>,
 <p class="card-text" style="color:#555;">Книга "Программирование на  Python для начинающих" является исчерпывающим рук...</p>,
 <p class="card-text" style="color:#555;">Глубокое обучение с подкреплением (глубокое RL) сочетает в себе два подхода к...</p>,
 <p class="card-text" style="color:#555;">Наука о данных - это вовсе не страшно!Интересуетесь наукой о д

In [18]:
descr1 = [a.text for a in soup1.find_all('p', {'class': 'card-text'})]

И, конечно, цену:

In [19]:
price1 = [p.div.text.strip() for p in soup1.find_all('div', 
                                         {'class':'card-body'})]

In [20]:
price1

['559\xa0₽',
 '1059\xa0₽',
 '519\xa0₽',
 '2039\xa0₽',
 '609\xa0₽',
 '809\xa0₽',
 '2509\xa0₽',
 '2119\xa0₽',
 '1029\xa0₽',
 '2359\xa0₽',
 '1999\xa0₽',
 '2349\xa0₽',
 '6449\xa0₽',
 '1959\xa0₽',
 '1739\xa0₽',
 '3409\xa0₽\n\n\t\t\t\t\t\t\t\t\tНовинка',
 '6549\xa0₽',
 '679\xa0₽',
 '2619\xa0₽',
 '2529\xa0₽']

Осталось пройтись по всем страницам, которые были выданы в результате поиска. Для примера перейдем на страницу 2 и на этом остановимся.

In [21]:
next_p = br.find_element_by_css_selector(\
                        'body > main > div > div > div > nav > ul > li:nth-child(4) > a')

  next_p = br.find_element_by_css_selector(\


In [22]:
next_p.click()

Проделаем то же самое, что и с первой страницей. По-хорошему нужно написать функцию, которая будет искать на странице названия книг, их расположение и цену. Но оставим это в качестве задания читателю :)

In [23]:
page2 = br.page_source
soup2 = BeautifulSoup(page2, 'lxml')
books2 = [b.a.text for b in soup2.find_all('div', {'class':'card-title'})]
descr2 = [a.text for a in soup2.find_all('p', {'class': 'card-text'})]
price2 = [p.div.text.strip() for p in soup2.find_all('div', 
                                         {'class':'card-body'})]

Расширим списки результатов с первой страницы данными, полученными со второй страницы, используя метод `.extend()`.

In [24]:
books1.extend(books2) # books1 + books2
descr1.extend(descr2)
price1.extend(price2)

Осталось импортировать библиотеку `pandas` и создать датафрейм.

In [25]:
import pandas as pd

Для разнообразия создадим датафрейм не из списка списков, а из словаря. Ключами словаря будут названия столбцов в таблице, а значениями – списки с сохраненной информацией (названия книг, цены и проч.).

In [26]:
df = pd.DataFrame({'book': books1, 'description': descr1,
                   'price': price1})

In [27]:
df.head()

Unnamed: 0,book,description,price
0,Компьютерное зрение на Python. Первые шаги,"В книге изложен учебный курс для школьников, н...",559 ₽
1,Python для юных программистов,Книга написана на основе опыта обучения програ...,1059 ₽
2,"Справочник PYTHON. Кратко, быстро, под...",Данный справочник содержит всю ключевую информ...,519 ₽
3,Python. Экспресс-курс,Вы уже умеете кодить на одном или нескольких я...,2039 ₽
4,"HTML, CSS, SCRATCH, PYTHON. Моя первая ...","Хотите научиться создавать программы и сайты, ...",609 ₽


Давайте приведем столбец с ценой к числовому типу. Уберем слова *Цена* и *руб*, а потом сконвертируем строки в числа с плавающей точкой. Напишем функцию `get_price()`,

In [31]:
df.iloc[1, 2]

'1059\xa0₽'

In [35]:
int(''.join([c for c in df.iloc[1, 2] if c.isdigit()]))

1059

In [38]:
import re
float('.'.join(re.findall(r'\d+', df.iloc[1, 2])))

1059.0

In [39]:
def get_price(price):
    price_num = int(''.join([c for c in price if c.isdigit()]))
    return price_num

In [40]:
import re
def preis(x):
    return float('.'.join(re.findall(r'\d+',x)))

In [41]:
# проверка
get_price(df.price[0])

559

In [42]:
preis(df.price[0])

559.0

Всё отлично работает! Применим функцию к столбцу *price* и создадим новый столбец *nprice*.

In [43]:
df['nprice'] = df.price.apply(preis)

In [44]:
df.head()

Unnamed: 0,book,description,price,nprice
0,Компьютерное зрение на Python. Первые шаги,"В книге изложен учебный курс для школьников, н...",559 ₽,559.0
1,Python для юных программистов,Книга написана на основе опыта обучения програ...,1059 ₽,1059.0
2,"Справочник PYTHON. Кратко, быстро, под...",Данный справочник содержит всю ключевую информ...,519 ₽,519.0
3,Python. Экспресс-курс,Вы уже умеете кодить на одном или нескольких я...,2039 ₽,2039.0
4,"HTML, CSS, SCRATCH, PYTHON. Моя первая ...","Хотите научиться создавать программы и сайты, ...",609 ₽,609.0


Теперь можем расположить книги по цене в порядке возрастания:

In [45]:
df.sort_values('nprice')

Unnamed: 0,book,description,price,nprice
2,"Справочник PYTHON. Кратко, быстро, под...",Данный справочник содержит всю ключевую информ...,519 ₽,519.0
0,Компьютерное зрение на Python. Первые шаги,"В книге изложен учебный курс для школьников, н...",559 ₽,559.0
4,"HTML, CSS, SCRATCH, PYTHON. Моя первая ...","Хотите научиться создавать программы и сайты, ...",609 ₽,609.0
17,Python.Создаем программы и игры,Данная книга позволяет уже с первых шагов созд...,679 ₽,679.0
35,Программирование на языке Python. Среды...,Рассмотрены основные практические навыки работ...,719 ₽,719.0
5,Программирование на Python для начинающих,"Книга ""Программирование на Python для начинаю...",809 ₽,809.0
25,Легкий способ выучить Python 3,Новая книга автора знаменитого бестселлера-сам...,1029 ₽,1029.0
8,Легкий способ выучить Python 3 еще глубже,Воплотите ваши идеи в код самого высокого каче...,1029 ₽,1029.0
1,Python для юных программистов,Книга написана на основе опыта обучения програ...,1059 ₽,1059.0
37,"Python для детей, которые пока не прогр...",Назначение книги - помочь ребёнку 10-13 лет сд...,1159 ₽,1159.0


И сохраним всю таблицу в csv-файл:

In [46]:
df.to_csv("books.csv", index=False)

In [51]:
br.close()