# Python для анализа данных


Посмотрим на примеры использования `selenium`. 

**Пример.** Зайдем на сайт книжного магазина и найдем все книги про Python. Загрузим библиотеку, веб-драйвер и откроем страницу в браузере через Python.

In [1]:
import requests 
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import Select
from time import sleep
import pandas as pd
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.service import Service
s = Service(ChromeDriverManager().install())
# driver = webdriver.Chrome(service=s)

In [2]:
# открываем страницу в Chrome в автоматическом режиме
driver = webdriver.Chrome(service=s)
driver.get("http://www.biblio-globus.ru/")

Найдем с помощью CSS Selector'а (*SelectorGadget*) поле для ввода названия книги или автора. 

In [3]:
field = driver.find_element("css selector","#SearchBooks") 

Сохраним запрос:

In [4]:
author = "Python"  # переменная author - условность

Введем запрос в поле для поиска (`.send_keys`) и подождем чуть-чуть:

In [None]:
field.send_keys(author)
driver.implicitly_wait(2)  # подождем пару секунд

Теперь найдем кнопку для поиска (значок *лупа* рядом со строкой поиска) :

In [None]:
submit = driver.find_element("css selector","#SearchButton") 

Кликнем на нее:

In [None]:
submit.click()

Сохраним первую страницу с результатами в переменную `page1`.

In [None]:
page1 = driver.page_source

In [None]:
page1

Теперь обработаем эту страницу через `BeautifulSoup`:

In [None]:
from bs4 import BeautifulSoup

In [None]:
soup1 = BeautifulSoup(page1, 'html')

In [None]:
soup1

Найдем все названия книг на этой странице. По исходному коду можно увидеть, что они имеют тэг `a` с атрибутом `class`, равным `name`:

In [None]:
print(soup1.prettify())

In [None]:
soup1.find_all('div',{'class':"product"})[0]

С помощью списковых включений выберем из ссылок с тэгом `<a>` текст (так мы уже делали, и не раз).

In [None]:
books1 = [b.text.strip() for b in soup1.find_all('div',{'class':"product"})]

In [None]:
books1

In [None]:
import re

In [None]:
re.search(r'\d+.₽', books1[0]).group(0)

In [None]:
re.search(r'.+?(?=\n\n)', books1[0]).group(0)

In [None]:
re.search(r'.+?(?=\n)', books1[0]).group(0)

In [None]:
import re

books_parsed = []

for i in books1:
    author = re.search(r'.+?(?=\n)', i).group(0)
    title = re.search(r'.+?(?=\n\n)', i).group(0)
    price = re.search(r'\d+?(?=.₽)', i).group(0)
    books_parsed.append([author, title, price])

In [None]:
books_parsed

Осталось импортировать библиотеку `pandas` и создать датафрейм.

In [None]:
import pandas as pd

Для разнообразия создадим датафрейм не из списка списков, а из словаря. Ключами словаря будут названия столбцов в таблице, а значениями – списки с сохраненной информацией (названия книг, цены и проч.).

In [None]:
df = pd.DataFrame(books_parsed)

In [None]:
df.head()

In [None]:
df.columns = ['Автор', 'Название', 'Цена']

In [None]:
df['Цена'] = pd.to_numeric(df['Цена'])

Теперь можем расположить книги по цене в порядке возрастания:

In [None]:
df = df.sort_values('Цена')

In [None]:
df.reset_index(drop=True)

И сохраним всю таблицу в csv-файл:

In [None]:
df.to_csv("books.csv")

## Задание

Соберите таблицу с ФИО автора, названием книги и ее стоимостью со всех страниц по запросу "Python".

In [None]:
# TODO