### Этап 1. Получение ссылок на книги автора

Для поиска всех книг автора мы будем пользоваться поисковой строкой сайта. Обратите внимание на формат URL-ов запросов:
```
https://www.chitai-gorod.ru/search/result.php?q={author}&type=author
```
где вместо `{author}` подставляется имя автора.

Рекомендуемые варианты значения для `{author}`: `Фрай М.`, `Хантер Э.`, `Емец Д.`.

**Замечание:** URL [не позволяет](https://ru.wikipedia.org/wiki/URL#%D0%9A%D0%BE%D0%B4%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_URL) использовать кириллические символы, поэтому для кодирования части URL-а, содержащей кириллицу, стоит воспользоваться функцией `urllib.parse.quote` с использованием, в данном случае, кодировки `windows-1251`.

Попробуйте пролистать [страничку](https://www.chitai-gorod.ru/search/result.php?q=%D4%F0%E0%E9%20%CC.&type=author) вниз, и вы увидите, что новые книги подгружаются динамически. В некоторый момент появляется кнопка "Показать ещё", нажав на которую можно дополнительно подгрузить выдачу.

Чтобы получить все ссылки на карточки с книгами, нужно подгрузить полную выдачу по запросу.

Существует несколько способов получить ссылку на карточку:
1. получить атрибут `data-product` одного из тегов с классом `product-card` и использовать знание о формате URL-ов страничек с книгами;
2. непосредственно найти ссылку.

In [55]:
import re
import requests
from tqdm import tqdm
from multiprocessing.dummy import Pool as ThreadPool
import urllib
import pandas as pd

## Don't work

In [56]:
%%time
headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) ' +
                         'AppleWebKit/537.36 (KHTML, like Gecko) ' +
                         'Chrome/42.0.2311.90 Safari/537.36'}

names_authors = ["Фрай М.", "Хантер Э.", "Емец Д."]
names_url = ['https://www.chitai-gorod.ru/search/result.php?q={}&type=author'.format(urllib.parse.quote(name, encoding="CP1251")) for name in names_authors]
t = ThreadPool(16)
r = t.map(lambda name_url: requests.get(name_url, headers=headers), names_url)
t.close()
t.join()

CPU times: user 147 ms, sys: 9.68 ms, total: 157 ms
Wall time: 716 ms


In [57]:
one = r[0].content
soup = BeautifulSoup(one, "html.parser")
print(soup.prettify())

<!DOCTYPE html>
<html dir="ltr" ng-app="search">
 <head>
  <link href="https://img-gorod.ru" rel="dns-prefetch"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta content="65c799ed1259b388" name="yandex-verification"/>
  <meta content="05725c0ecd32a193" name="yandex-verification"/>
  <meta content="9733050c10fc15ab" name="yandex-verification"/>
  <meta content="hA8vdpybpjnGvyu1SpXRYZo9iv068BCHmT7Y6QVfcSc" name="google-site-verification"/>
  <meta content="noyaca" name="robots"/>
  <meta content=" " name="keywords"/>
  <title>
   Результаты поиска
  </title>
  <link href="/bitrix/components/kav/subscribe/templates/.default/style.css?1497429415104" rel="stylesheet" type="text/css"/>
  <link href="/bitrix/components/kav/chitai.socialauth/templates/.default/style.css?14974294151301" rel="stylesheet" type="text/css"/>
  <!-- BEGIN JIVOSITE CODE -->
  <script type="text/javascript">
   (function(){ var wid

## Selenium
http://selenium-python.readthedocs.io/

https://kreisfahrer.gitbooks.io/selenium-webdriver/

In [58]:
from selenium import webdriver
import html
from time import sleep

In [59]:
with webdriver.Firefox() as driver:
    driver.get("https://mail.ru/")
    sleep(3)

In [64]:
url_current = names_url[0]
url_current

'https://www.chitai-gorod.ru/search/result.php?q=%D4%F0%E0%E9%20%CC.&type=author'

In [120]:
import random

def random_sleep(offset=1.5, length=4):
    sleep(random.random() * length + offset)
    
def hasclass(driver, path):
    try:
        driver.find_element_by_class_name(path)
        return True
    except:
        return False
    
def get_book_info(driver, url, t_sleep=1):
    driver.get(url)
    random_sleep()
    # driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    SCROLL_PAUSE_TIME = 2

    # Get scroll height
    last_height = driver.execute_script("return document.body.scrollHeight")

    while True:
        # Scroll down to bottom
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

        # Wait to load page
        sleep(SCROLL_PAUSE_TIME)

        # Calculate new scroll height and compare with last scroll height
        new_height = driver.execute_script("return document.body.scrollHeight")
        if new_height == last_height:
            # [ Show more ]
            try: 
                more = driver.find_element_by_class_name('js__show-more-cards')
                print("Press 'Show_more' = ", haspath(driver,'js__show-more-cards'))
                more.click()
            except:
                break
            random_sleep(1, 1)
        last_height = new_height

    result = []
    items = driver.find_elements_by_class_name("product-card")
    for item in items:
        book_url_info = {
            'url_product': item.get_attribute("data-product"),
        'price': item.get_attribute("data-productprice")}
        
        if book_url_info['price'] is not None:
            book_url_info['price'] = float(book_url_info['price'])

        if book_url_info['url_product'] is None:
            continue
        book_url_info['url_product'] = "https://www.chitai-gorod.ru/catalog/book/{}/?watch_fromlist=search_result".format(html.unescape(book_url_info['url_product']))
        result.append(book_url_info)
        
    return result


with webdriver.Firefox() as driver:
    result = get_book_info(driver, url_current)

Press 'Show_more' =  True
Press 'Show_more' =  True
Press 'Show_more' =  True


In [122]:
result = pd.DataFrame(result)
result.head()

Unnamed: 0,price,url_product
0,374.0,https://www.chitai-gorod.ru/catalog/book/10859...
1,1017.0,https://www.chitai-gorod.ru/catalog/book/10689...
2,375.0,https://www.chitai-gorod.ru/catalog/book/10591...
3,356.0,https://www.chitai-gorod.ru/catalog/book/10510...
4,170.0,https://www.chitai-gorod.ru/catalog/book/10217...


In [130]:
result.url_product[0]

'https://www.chitai-gorod.ru/catalog/book/1085970/?watch_fromlist=search_result'

In [131]:
%%time
headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) ' +
                         'AppleWebKit/537.36 (KHTML, like Gecko) ' +
                         'Chrome/42.0.2311.90 Safari/537.36'}

t = ThreadPool(16)
r = t.map(lambda name_url: requests.get(name_url, headers=headers), list(result.url_product.values))
t.close()
t.join()

CPU times: user 5.5 s, sys: 262 ms, total: 5.76 s
Wall time: 11.9 s


In [135]:
# get one of pages 
one = r[0].content
soup = BeautifulSoup(one, "html.parser")
print(soup.prettify())

<!DOCTYPE html>
<html dir="ltr" ng-app="search">
 <head>
  <link href="https://img-gorod.ru" rel="dns-prefetch"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta content="65c799ed1259b388" name="yandex-verification"/>
  <meta content="05725c0ecd32a193" name="yandex-verification"/>
  <meta content="9733050c10fc15ab" name="yandex-verification"/>
  <meta content="hA8vdpybpjnGvyu1SpXRYZo9iv068BCHmT7Y6QVfcSc" name="google-site-verification"/>
  <meta content="noyaca" name="robots"/>
  <meta content=" " name="keywords"/>
  <meta content="В книжном интернет-магазине «Читай-город» вы можете заказать книгу «Тяжелый свет Куртейна. Синий» (Фрай М.) по низкой цене. Бесплатная доставка по всей России, скидки и акции по карте любимого покупателя!" name="description"/>
  <title>
   Тяжелый свет Куртейна. Синий (Фрай М.)  – купить книгу с доставкой в интернет-магазине «Читай-город». ISBN: 9785171121945.
  </title>


### Этап 2. Получение информации о книгах

Рассмотрим в качестве примера [карточку](https://www.chitai-gorod.ru/catalog/book/1059170/) книги Макса Фрая "Мертвый ноль".
<img width = '1080px' src="images/1059170.png">


На скриншоте выделены 4 области, из каждой области требуется извлечь следующие элементы:
1. поле "ID карточки";
2. поля "Название", "Автор", "Рейтинг", "Голоса";
3. поле "Цена";
4. вся таблица.

Дополнительно требуется создать поле "Обложка", которое будет хранить ссылку на обложку книги (расположена слева на скриншоте).

Таким образом карточка представима в виде следующего словаря:
```json
{
    "ID карточки": 1059170,
    "Название": "Мертвый ноль",
    "Автор": "Фрай М.",
    "Рейтинг": 4.0,
    "Голоса": 16,
    "Цена": 375,
    "Серия": "Сновидения Ехо",
    "Издательство": "АСТ",
    "Год издания": 2018,
    "Кол-во страниц": 448,
    "ISBN": "9785171089733",
    "Тираж": 30000,
    "Формат": "20.5 x 13 x 2.5",
    "Тип обложки": "Твердая бумажная",
    "Возраст": "16+",
    "ID товара": 2659485,
    "Обложка": "https://img-gorod.ru/upload/iblock/aec/aec2cfaece8a6190f319f1853cad7cf5.jpg"
}
```

Предположим, что у нас есть функция `extract_book_info(card_id)`, которая для карточки с номером `card_id` возвращает описанный выше словарь. Тогда требуемую таблицу можно получить следующим образом:
```python
import pandas as pd

result = list(map(extract_book_info, card_ids))

df = pd.DataFrame(result)
df.sort_values(by='ID карточки', inplace=True)

with open('data/hw_4.csv', mode='w', encoding='utf-8') as f_csv:
    df.to_csv(f_csv, index=False)
```

Пример результата работы программы можно найти [здесь](hw_4_sample.csv).

## Beautiful Soup
https://www.crummy.com/software/BeautifulSoup/bs4/doc/

<img width = '330px' src="images/bsoup.jpg">

In [150]:
from bs4 import BeautifulSoup

In [151]:
book_html = r[0].text
soup = BeautifulSoup(book_html, 'html.parser')

In [152]:
table = soup.find("product__properties")
print(table)

None


In [153]:
film_info = {
    'Название': soup.find('h1', class_="product__title js-analytic-product-title").text,
    'title-original': soup.find('span', itemprop='alternativeHeadline').text,
    'countries': list(map(lambda e: e.attrs['title'], soup.find_all('div', class_='flag'))),
    'time': re.search('\d\d:\d\d', soup.find('td', class_='time').text).group(0),
    'rating': float(soup.select_one('.rating_ball').text) # поддержка CSS-селекторов
}

film_info

AttributeError: 'NoneType' object has no attribute 'text'

In [157]:
film_info = {
    'Название': soup.find('h1', class_="product__title js-analytic-product-title").text,
    'Автор': soup.find('a', class_= "link product__author").text
}
#starRatingUpd > div.rating > span
film_info

{'Название': 'Тяжелый свет Куртейна. Синий',
 'Автор': '\n\t\t\t\t\t\tФрай М.                    '}

In [None]:
"Название": "Мертвый ноль",
    "Автор": "Фрай М.",
    "Рейтинг": 4.0,
    "Голоса": 16,
    "Цена": 375,
    "Серия": "Сновидения Ехо",
    "Издательство": "АСТ",
    "Год издания": 2018,
    "Кол-во страниц": 448,
    "ISBN": "9785171089733",
    "Тираж": 30000,
    "Формат": "20.5 x 13 x 2.5",
    "Тип обложки": "Твердая бумажная",
    "Возраст": "16+",
    "ID товара": 2659485,
    "Обложка": "https://img-gorod.ru/upload/iblock/aec/aec2cfaece8a6190f319f1853cad7cf5.jpg"