# Домашнее задание 3. Парсинг, Git и тестирование на Python

**Цели задания:**

* Освоить базовые подходы к web-scraping с библиотеками `requests` и `BeautisulSoup`: навигация по страницам, извлечение HTML-элементов, парсинг.
* Научиться автоматизировать задачи с использованием библиотеки `schedule`.
* Попрактиковаться в использовании Git и оформлении проектов на GitHub.
* Написать и запустить простые юнит-тесты с использованием `pytest`.


В этом домашнем задании вы разработаете систему для автоматического сбора данных о книгах с сайта [Books to Scrape](http://books.toscrape.com). Нужно реализовать функции для парсинга всех страниц сайта, извлечения информации о книгах, автоматического ежедневного запуска задачи и сохранения результата.

Важной частью задания станет оформление проекта: вы создадите репозиторий на GitHub, оформите `README.md`, добавите артефакты (код, данные, отчеты) и напишете базовые тесты на `pytest`.



In [2]:
! pip install requests schedule BeautifulSoup4 pytest 



In [3]:
# Библиотеки, которые могут вам понадобиться
# При необходимости расширяйте список
import time
import re
import json
from concurrent.futures import ThreadPoolExecutor
from pathlib import Path

try:
    import requests
    import schedule
    from bs4 import BeautifulSoup
    import pytest

    print("Все зависимости готовы!")
except ImportError as e:
    print(f"Ошибка импорта: {e}")
    print("Установите зависимости: pip install -r requirements.txt")


Все зависимости готовы!


## Задание 1. Сбор данных об одной книге (20 баллов)

В этом задании мы начнем подготовку скрипта для парсинга информации о книгах со страниц каталога сайта [Books to Scrape](https://books.toscrape.com/).

Для начала реализуйте функцию `get_book_data`, которая будет получать данные о книге с одной страницы (например, с [этой](http://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html)). Соберите всю информацию, включая название, цену, рейтинг, количество в наличии, описание и дополнительные характеристики из таблицы Product Information. Результат достаточно вернуть в виде словаря.

**Не забывайте про соблюдение PEP-8** — помимо качественно написанного кода важно также документировать функции по стандарту:
* кратко описать, что она делает и для чего нужна;
* какие входные аргументы принимает, какого они типа и что означают по смыслу;
* аналогично описать возвращаемые значения.

*P. S. Состав, количество аргументов функции и тип возвращаемого значения можете менять как вам удобно. То, что написано ниже в шаблоне — лишь пример.*

In [4]:
def get_book_data(book_url: str) -> dict:
    """
    Парсит данные о книге с указанного Url.

    Функция загружает HTML-страницу книги и извлекает информацию.

    Args:
        book_url (str): URL-адрес страницы книги для парсинга

    Returns:
        dict: Словарь с данными о книге, содержащий следующие ключи:
            - Name (str): Название книги
            - Rating (str): Рейтинг от 1 до 5
            - Description (str): Описание книги или "No description available"
            - UPC (str): Код книги
            - Product Type (str): Тип продукта
            - Price (excl. tax) (str): Цена без налога
            - Price (incl. tax) (str): Цена с налогом
            - Tax (str): Размер налога
            - Availability (str): Информация о наличии
            - Number of reviews (str): Количество отзывов

    Raises:
        requests.RequestException: В случае ошибки сетевого запроса

    Note:
        В случае ошибки при загрузке страницы возвращает пустой словарь {}
        и выводит сообщение об ошибке.
    """

    # НАЧАЛО ВАШЕГО РЕШЕНИЯ
    session = requests.Session()

    try:
        page = session.get(book_url)
        page.raise_for_status()
        page.encoding = "utf-8"
        soup = BeautifulSoup(page.text, "html.parser")

        product_dict = {}

        name = soup.find("div", class_="col-sm-6 product_main").find("h1").get_text()
        product_dict["Name"] = name

        stars = (
            soup.find("p", class_="star-rating")
            .get("class")[1]
            .replace("One", "1")
            .replace("Two", "2")
            .replace("Three", "3")
            .replace("Four", "4")
            .replace("Five", "5")
        )
        product_dict["Rating"] = stars

        description_element = soup.find(
            "div", id="product_description", class_="sub-header"
        )
        if description_element and description_element.find_next_sibling():
            description = (
                soup.find("div", id="product_description", class_="sub-header")
                .find_next_sibling()
                .get_text()
                .replace("\xa0", "")
            )
            product_dict["Description"] = description
        else:
            product_dict["Description"] = "No description available"

        table = soup.find("table", class_="table table-striped").find_all("tr")
        for row in table:
            product_dict[row.find("th").get_text().strip()] = (
                row.find("td").get_text().strip()
            )

        return product_dict

    except requests.RequestException as e:
        print(f"Ошибка при загрузке страницы: {e}")
        return {}

    finally:
        session.close()
# КОНЕЦ ВАШЕГО РЕШЕНИЯ


In [117]:
# Используйте для самопроверки
book_url = "http://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html"
print(get_book_data(book_url))


{'Name': 'A Light in the Attic', 'Rating': '3', 'Description': "It's hard to imagine a world without A Light in the Attic. This now-classic collection of poetry and drawings from Shel Silverstein celebrates its 20th anniversary with this special edition. Silverstein's humorous and creative verse can amuse the dowdiest of readers. Lemon-faced adults and fidgety kids sit still and read these rhythmic words and laugh and smile and love th It's hard to imagine a world without A Light in the Attic. This now-classic collection of poetry and drawings from Shel Silverstein celebrates its 20th anniversary with this special edition. Silverstein's humorous and creative verse can amuse the dowdiest of readers. Lemon-faced adults and fidgety kids sit still and read these rhythmic words and laugh and smile and love that Silverstein. Need proof of his genius? RockabyeRockabye baby, in the treetopDon't you know a treetopIs no safe place to rock?And who put you up there,And your cradle, too?Baby, I thi

## Задание 2. Сбор данных обо всех книгах (20 баллов)

Создайте функцию `scrape_books`, которая будет проходиться по всем страницам из каталога (вида `http://books.toscrape.com/catalogue/page-{N}.html`) и осуществлять парсинг всех страниц в цикле, используя ранее написанную `get_book_data`.

Добавьте аргумент-флаг, который будет отвечать за сохранение результата в файл: если он будет равен `True`, то информация сохранится в ту же папку в файл `books_data.txt`; иначе шаг сохранения будет пропущен.

**Также не забывайте про соблюдение PEP-8**

In [5]:
def _get_url_list(catalog_url: str, page_count: int = 0) -> list:
    """
    Генерирует список URL всех книг из каталога.
    Внутренняя вспомогательная функция для извлечения ссылок на книги
    со страниц каталога.

    Args:
        catalog_url (str): URL начальной страницы каталога
        page_count (int, optional): Количество страниц для парсинга.
            При значении 0 обрабатываются все страницы. По умолчанию 0.

    Returns:
        list: Список абсолютных URL отдельных книг

    Raises:
        requests.RequestException: В случае ошибки сетевого запроса

    Note:
        Функция выводит прогресс обработки в консоль и измеряет время выполнения.
        При отрицательном page_count возвращает пустой список.
    """

    # НАЧАЛО ВАШЕГО РЕШЕНИЯ
    get_url_list_start_time = time.time()
    session = requests.Session()
    big_list = []

    try:
        if page_count < 0:
            print(f"Введено отрицательное число страниц: {page_count}")
            return big_list

        page_url = catalog_url
        upper_page_url = "/".join(catalog_url.split("/")[:-1])
        pages_processed = 0
        max_pages = None

        while True:
            current_page = session.get(page_url)
            current_page.raise_for_status()
            current_page.encoding = "utf-8"
            soup = BeautifulSoup(current_page.text, "html.parser")

            current_page_numb = int(
                soup.find("li", class_="current").get_text().split()[1]
            )

            if max_pages is None:
                max_pages = int(
                    soup.find("li", class_="current").get_text().split()[-1]
                )
                if page_count == 0:
                    page_count = max_pages
                else:
                    page_count = min(page_count, max_pages)

            current_page_link_list = []
            links = soup.find_all("a", title=True)
            for link in links:
                href = link.get("href")
                if href:
                    absolute_url = upper_page_url + "/" + href
                    current_page_link_list.append(absolute_url)

            big_list.extend(current_page_link_list)  ########
            pages_processed += 1
            print(f"Обработаны ссылки со страницы №{current_page_numb}")

            if pages_processed >= page_count:
                print(f"Достигнуто заданное количество страниц: {page_count}")
                break

            if current_page_numb >= max_pages:
                print("Достигнута последняя страница каталога")
                break

            page_url = re.sub(r"\d+", str(int(current_page_numb) + 1), page_url)

        get_url_list_end_time = time.time()
        get_url_list_execution_time = get_url_list_end_time - get_url_list_start_time
        print(f"Время обработки ссылок: {round(get_url_list_execution_time, 2)} сек.")

        return big_list

    finally:
        session.close()


def scrape_books(
    catalog_url: str,
    is_save: bool = False,
    return_json: bool = True,
    page_count: int = 0,
) -> list:
    """
    Парсит данные о книгах из каталога.

    Основная функция для сбора данных о книгах. Использует многопоточность
    для параллельного парсинга страниц книг. Поддерживает сохранение результатов
    в файл и различные форматы вывода.

    Args:
        catalog_url (str): URL каталога книг
        is_save (bool, optional): Сохранять ли результат в файл.
            По умолчанию False.
        return_json (bool, optional): Возвращать результат в формате JSON.
            При False возвращает список словарей. По умолчанию True.
        page_count (int, optional): Количество страниц для парсинга.
            При значении 0 обрабатываются все страницы. По умолчанию 0.

    Returns:
        list or str: Данные о книгах. При return_json=True возвращает JSON-строку,
            при return_json=False возвращает список словарей.

    Raises:
        requests.RequestException: В случае ошибки сетевого запроса
        Exception: В случае других ошибок при парсинге

    Note:
        Функция выводит прогресс выполнения и время работы в консоль.
        При is_save=True создает файл 'books_data.txt' в папке artifacts.
    """

    # НАЧАЛО ВАШЕГО РЕШЕНИЯ
    scrape_books_start_time = time.time()

    url_list = _get_url_list(catalog_url, page_count)
    print(f"Всего найдено URL книг для парсинга: {len(url_list)}")
    print("Начинаю парсинг")

    with ThreadPoolExecutor(max_workers=10) as executor:
        results = executor.map(get_book_data, url_list)
        big_data = [book_data for book_data in results if book_data]

    if return_json:
        big_data_json = json.dumps(big_data, ensure_ascii=False, indent=2)

    if is_save:
        script_dir = Path.cwd()
        artifacts_dir = (
            script_dir.parent / "artifacts"
        )  # Изменить для скрипта на /"artifacts" и проверить обязательно!!!
        file_path = artifacts_dir / "books_data.txt"
        with open(file_path, "w", encoding="utf-8") as f:
            if return_json:
                f.write(big_data_json)
            else:
                for line in big_data:
                    f.write(str(line) + "\n\n")

    scrape_books_end_time = time.time()
    scrape_books_execution_time = scrape_books_end_time - scrape_books_start_time
    print(f"Время парсинга книг: {round(scrape_books_execution_time, 2)} сек.")
    print(f"Обработано книг: {len(big_data)}")
    print(f"Общее время работы: {round(scrape_books_execution_time, 2)} сек.")

    min_execution_time = 0.01
    effective_time = max(scrape_books_execution_time, min_execution_time)
    print(f"Средняя скорость: {len(big_data) / effective_time:.2f} книг/сек")

    if return_json:
        return big_data_json
    else:
        return big_data
    # КОНЕЦ ВАШЕГО РЕШЕНИЯ


In [119]:
# Проверка работоспособности функции
catalog_url = 'http://books.toscrape.com/catalogue/page-1.html'
res = scrape_books(catalog_url, is_save=True, return_json=True, page_count = 0) # Допишите ваши аргументы
print(type(res), len(res)) # и проверки (проверки указал в функции)

Обработаны ссылки со страницы №1
Обработаны ссылки со страницы №2
Обработаны ссылки со страницы №3
Обработаны ссылки со страницы №4
Обработаны ссылки со страницы №5
Обработаны ссылки со страницы №6
Обработаны ссылки со страницы №7
Обработаны ссылки со страницы №8
Обработаны ссылки со страницы №9
Обработаны ссылки со страницы №10
Обработаны ссылки со страницы №11
Обработаны ссылки со страницы №12
Обработаны ссылки со страницы №13
Обработаны ссылки со страницы №14
Обработаны ссылки со страницы №15
Обработаны ссылки со страницы №16
Обработаны ссылки со страницы №17
Обработаны ссылки со страницы №18
Обработаны ссылки со страницы №19
Обработаны ссылки со страницы №20
Обработаны ссылки со страницы №21
Обработаны ссылки со страницы №22
Обработаны ссылки со страницы №23
Обработаны ссылки со страницы №24
Обработаны ссылки со страницы №25
Обработаны ссылки со страницы №26
Обработаны ссылки со страницы №27
Обработаны ссылки со страницы №28
Обработаны ссылки со страницы №29
Обработаны ссылки со ст

## Задание 3. Настройка регулярной выгрузки (10 баллов)

Настройте автоматический запуск функции сбора данных каждый день в 19:00.
Для автоматизации используйте библиотеку `schedule`. Функция должна запускаться в указанное время и сохранять обновленные данные в текстовый файл.



Бесконечный цикл должен обеспечивать постоянное ожидание времени для запуска задачи и выполнять ее по расписанию. Однако чтобы не перегружать систему, стоит подумать о том, чтобы выполнять проверку нужного времени не постоянно, а раз в какой-то промежуток. В этом вам может помочь `time.sleep(...)`.

Проверьте работоспособность кода локально на любом времени чч:мм.



In [6]:
# НАЧАЛО ВАШЕГО РЕШЕНИЯ
catalog_url = "http://books.toscrape.com/catalogue/page-1.html"
schedule.every().day.at("13:49").do(
    scrape_books,
    catalog_url,
    is_save=True,
    return_json=True,
    page_count = 5,
)

print("Запущен планировщик.")

try:
    while True:
        schedule.run_pending()
        time.sleep(1)
except KeyboardInterrupt:
    print("\nЗавершение ожидания. Программа остановлена вручную.")
# КОНЕЦ ВАШЕГО РЕШЕНИЯ


Запущен планировщик.
Обработаны ссылки со страницы №1
Обработаны ссылки со страницы №2
Обработаны ссылки со страницы №3
Обработаны ссылки со страницы №4
Обработаны ссылки со страницы №5
Достигнуто заданное количество страниц: 5
Время обработки ссылок: 1.39 сек.
Всего найдено URL книг для парсинга: 100
Начинаю парсинг
Время парсинга книг: 5.32 сек.
Обработано книг: 100
Общее время работы: 5.32 сек.
Средняя скорость: 18.80 книг/сек

Завершение ожидания. Программа остановлена вручную.


## Задание 4. Написание автотестов (15 баллов)

Создайте минимум три автотеста для ключевых функций парсинга — например, `get_book_data` и `scrape_books`. Идеи проверок (можете использовать свои):

* данные о книге возвращаются в виде словаря с нужными ключами;
* список ссылок или количество собранных книг соответствует ожиданиям;
* значения отдельных полей (например, `title`) корректны.

Оформите тесты в отдельном скрипте `tests/test_scraper.py`, используйте библиотеку `pytest`. Убедитесь, что тесты проходят успешно при запуске из терминала командой `pytest`.

Также выведите результат их выполнения в ячейке ниже.

**Не забывайте про соблюдение PEP-8**


In [32]:
# Ячейка для демонстрации работоспособности
# Сам код напишите в отдельном скрипте
! cd .. && pytest tests/test_scraper.py -v


platform win32 -- Python 3.12.7, pytest-7.4.4, pluggy-1.0.0 -- C:\Users\toxan\anaconda3\python.exe
cachedir: .pytest_cache
rootdir: c:\Users\toxan\Desktop\Учёба\Homework_3\Git_Project
plugins: anyio-4.2.0
[1mcollecting ... [0mcollected 7 items

tests/test_scraper.py::TestGetBookData::test_returns_dict_with_required_keys [32mPASSED[0m[32m [ 14%][0m
tests/test_scraper.py::TestGetBookData::test_book_title_not_empty [32mPASSED[0m[32m [ 28%][0m
tests/test_scraper.py::TestGetBookData::test_rating_is_valid [32mPASSED[0m[32m      [ 42%][0m
tests/test_scraper.py::TestScrapeBooks::test_returns_list_of_books [32mPASSED[0m[32m [ 57%][0m
tests/test_scraper.py::TestScrapeBooks::test_books_have_required_fields [32mPASSED[0m[32m [ 71%][0m
tests/test_scraper.py::TestScrapeBooks::test_json_output_format [32mPASSED[0m[32m   [ 85%][0m
tests/test_scraper.py::test_bad_page_count_handling [32mPASSED[0m[32m               [100%][0m



## Задание 5. Оформление проекта на GitHub и работа с Git (35 баллов)

В этом задании нужно воспользоваться системой контроля версий Git и платформой GitHub для хранения и управления своим проектом. **Ссылку на свой репозиторий пришлите в форме для сдачи ответа.**

### Пошаговая инструкция и задания

**1. Установите Git на свой компьютер.**

* Для Windows: [скачайте установщик](https://git-scm.com/downloads) и выполните установку.
* Для macOS:

  ```
  brew install git
  ```
* Для Linux:

  ```
  sudo apt update
  sudo apt install git
  ```

**2. Настройте имя пользователя и email.**

Это нужно для подписи ваших коммитов, сделайте в терминале через `git config ...`.

**3. Создайте аккаунт на GitHub**, если у вас его еще нет:
[https://github.com](https://github.com)

**4. Создайте новый репозиторий на GitHub:**

* Найдите кнопку **New repository**.
* Укажите название, краткое описание, выберите тип **Public** (чтобы мы могли проверить ДЗ).
* Не ставьте галочку Initialize this repository with a README.

**5. Создайте локальную папку с проектом.** Можно в терминале, можно через UI, это не имеет значения.

**6. Инициализируйте Git в этой папке.** Здесь уже придется воспользоваться некоторой командой в терминале.

**7. Привяжите локальный репозиторий к удаленному на GitHub.**

**8. Создайте ветку разработки.** По умолчанию вы будете находиться в ветке `main`, создайте и переключитесь на ветку `hw-books-parser`.

**9. Добавьте в проект следующие файлы и папки:**

* `scraper.py` — ваш основной скрипт для сбора данных.
* `README.md` — файл с кратким описанием проекта:

  * цель;
  * инструкции по запуску;
  * список используемых библиотек.
* `requirements.txt` — файл со списком зависимостей, необходимых для проекта (не присылайте все из глобального окружения, создайте изолированную виртуальную среду, добавьте в нее все нужное для проекта и получите список библиотек через `pip freeze`).
* `artifacts/` — папка с результатами парсинга (`books_data.txt` — полностью или его часть, если весь не поместится на GitHub).
* `notebooks/` — папка с заполненным ноутбуком `HW_03_python_ds_2025.ipynb` и запущенными ячейками с выводами на экран.
* `tests/` — папка с тестами на `pytest`, оформите их в формате скрипта(-ов) с расширением `.py`.
* `.gitignore` — стандартный файл, который позволит исключить временные файлы при добавлении в отслеживаемые (например, `__pycache__/`, `.DS_Store`, `*.pyc`, `venv/` и др.).


**10. Сделайте коммит.**

**11. Отправьте свою ветку на GitHub.**

**12. Создайте Pull Request:**

* Перейдите в репозиторий на GitHub.
* Нажмите кнопку **Compare & pull request**.
* Укажите, что было добавлено, и нажмите **Create pull request**.

**13. Выполните слияние Pull Request:**

* Убедитесь, что нет конфликтов.
* Нажмите **Merge pull request**, затем **Confirm merge**.

**14. Скачайте изменения из основной ветки локально.**



### Требования к итоговому репозиторию

* Файл `scraper.py` с рабочим кодом парсера.
* `README.md` с описанием проекта и инструкцией по запуску.
* Папка `artifacts/` с результатом сбора данных (`.txt` файл).
* Папка `tests/` с тестами на `pytest`.
* Папка `notebooks/` с заполненным ноутбуком `HW_03_python_ds_2025.ipynb`.
* Pull Request с комментарием из ветки `hw-books-parser` в ветку `main`.
* Примерная структура:

  ```
  books_scraper/
  ├── artifacts/
  │   └── books_data.txt
  ├── notebooks/
  │   └── HW_03_python_ds_2025.ipynb
  ├── scraper.py
  ├── README.md
  ├── tests/
  │   └── test_scraper.py
  ├── .gitignore
  └── requirements.txt
  ```