# Домашнее задание 3. Парсинг, Git и тестирование на Python

**Цели задания:**

* Освоить базовые подходы к web-scraping с библиотеками `requests` и `BeautisulSoup`: навигация по страницам, извлечение HTML-элементов, парсинг.
* Научиться автоматизировать задачи с использованием библиотеки `schedule`.
* Попрактиковаться в использовании Git и оформлении проектов на GitHub.
* Написать и запустить простые юнит-тесты с использованием `pytest`.


В этом домашнем задании вы разработаете систему для автоматического сбора данных о книгах с сайта [Books to Scrape](http://books.toscrape.com). Нужно реализовать функции для парсинга всех страниц сайта, извлечения информации о книгах, автоматического ежедневного запуска задачи и сохранения результата.

Важной частью задания станет оформление проекта: вы создадите репозиторий на GitHub, оформите `README.md`, добавите артефакты (код, данные, отчеты) и напишете базовые тесты на `pytest`.



In [1]:
!pip install -q schedule pytest 

In [7]:
# Библиотеки, которые могут вам понадобиться
# При необходимости расширяйте список
import time
import requests
import schedule
from bs4 import BeautifulSoup
import re

## Задание 1. Сбор данных об одной книге (20 баллов)

В этом задании мы начнем подготовку скрипта для парсинга информации о книгах со страниц каталога сайта [Books to Scrape](https://books.toscrape.com/).

Для начала реализуйте функцию `get_book_data`, которая будет получать данные о книге с одной страницы (например, с [этой](http://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html)). Соберите всю информацию, включая название, цену, рейтинг, количество в наличии, описание и дополнительные характеристики из таблицы Product Information. Результат достаточно вернуть в виде словаря.

**Не забывайте про соблюдение PEP-8** — помимо качественно написанного кода важно также документировать функции по стандарту:
* кратко описать, что она делает и для чего нужна;
* какие входные аргументы принимает, какого они типа и что означают по смыслу;
* аналогично описать возвращаемые значения.

*P. S. Состав, количество аргументов функции и тип возвращаемого значения можете менять как вам удобно. То, что написано ниже в шаблоне — лишь пример.*

In [10]:
 def get_book_data(book_url: str) -> dict:
    """
    Собирает данные о книге с заданной страницы.

    Функция загружает HTML-контент страницы книги, извлекает информацию:
    название, цену, рейтинг, количество в наличии, описание и таблицу характеристик.

    Аргументы:
        book_url (str): URL-адрес страницы книги для парсинга.

    Возвращает:
        dict: Словарь с ключами:
            - 'title' (str): Название книги.
            - 'price' (str): Цена книги (включая символ валюты).
            - 'rating' (str): Рейтинг книги в текстовом формате (например, 'One').
            - 'availability' (int): Количество доступных к покупке экземпляров.
            - 'description' (str): Описание книги или пустая строка, если отсутствует.
            - 'product_information' (dict): Дополнительные характеристики из таблицы.
    """

    # НАЧАЛО ВАШЕГО РЕШЕНИЯ
    response = requests.get(book_url)
    response.encoding = 'utf-8'
    soup = BeautifulSoup(response.text, 'html.parser')

    title = soup.find('h1').text

    price = soup.find('p', class_='price_color').text

    rating_tag = soup.find('p', class_='star-rating')
    rating = rating_tag['class'][1] if rating_tag else None

    availability_text = soup.find('p', class_='instock availability').text
    availability = int(re.search(r'\d+', availability_text).group())

    description_tag = soup.find('div', id='product_description')
    description = description_tag.find_next_sibling('p').text if description_tag else ''

    product_table = soup.find('table', class_='table table-striped')
    product_info = {}
    for row in product_table.find_all('tr'):
        header = row.find('th').text
        value = row.find('td').text
        product_info[header] = value

    return {
        'title': title,
        'price': price,
        'rating': rating,
        'availability': availability,
        'description': description,
        'product_information': product_info
    }
    # КОНЕЦ ВАШЕГО РЕШЕНИЯ

In [9]:
# Используйте для самопроверки
book_url = 'http://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html'
get_book_data(book_url)

{'title': 'A Light in the Attic',
 'price': '£51.77',
 'rating': 'Three',
 'availability': 22,
 'description': "It's hard to imagine a world without A Light in the Attic. This now-classic collection of poetry and drawings from Shel Silverstein celebrates its 20th anniversary with this special edition. Silverstein's humorous and creative verse can amuse the dowdiest of readers. Lemon-faced adults and fidgety kids sit still and read these rhythmic words and laugh and smile and love th It's hard to imagine a world without A Light in the Attic. This now-classic collection of poetry and drawings from Shel Silverstein celebrates its 20th anniversary with this special edition. Silverstein's humorous and creative verse can amuse the dowdiest of readers. Lemon-faced adults and fidgety kids sit still and read these rhythmic words and laugh and smile and love that Silverstein. Need proof of his genius? RockabyeRockabye baby, in the treetopDon't you know a treetopIs no safe place to rock?And who p

## Задание 2. Сбор данных обо всех книгах (20 баллов)

Создайте функцию `scrape_books`, которая будет проходиться по всем страницам из каталога (вида `http://books.toscrape.com/catalogue/page-{N}.html`) и осуществлять парсинг всех страниц в цикле, используя ранее написанную `get_book_data`.

Добавьте аргумент-флаг, который будет отвечать за сохранение результата в файл: если он будет равен `True`, то информация сохранится в ту же папку в файл `books_data.txt`; иначе шаг сохранения будет пропущен.

**Также не забывайте про соблюдение PEP-8**

In [16]:
import requests
from bs4 import BeautifulSoup
import concurrent.futures
import json
import re
from typing import List, Dict
import time


def get_book_data(book_url: str) -> Dict:
    """
    Собирает данные о книге с заданной страницы.
    
    Аргументы:
        book_url (str): URL-адрес страницы книги для парсинга.
    
    Возвращает:
        Dict: Словарь с данными о книге.
    """
    try:
        response = requests.get(book_url)
        response.encoding = 'utf-8'
        soup = BeautifulSoup(response.text, 'html.parser')

        title = soup.find('h1').text

        price = soup.find('p', class_='price_color').text

        rating_tag = soup.find('p', class_='star-rating')
        rating = rating_tag['class'][1] if rating_tag else None

        availability_text = soup.find('p', class_='instock availability').text
        availability_match = re.search(r'\d+', availability_text)
        availability = int(availability_match.group()) if availability_match else 0

        description_tag = soup.find('div', id='product_description')
        description = description_tag.find_next_sibling('p').text if description_tag else ''

        product_table = soup.find('table', class_='table table-striped')
        product_info = {}
        if product_table:
            for row in product_table.find_all('tr'):
                header = row.find('th')
                value = row.find('td')
                if header and value:
                    product_info[header.text] = value.text

        return {
            'title': title,
            'price': price,
            'rating': rating,
            'availability': availability,
            'description': description,
            'product_information': product_info,
            'url': book_url
        }
    except Exception as e:
        print(f"Ошибка при парсинге книги {book_url}: {e}")
        return None


def get_book_links_from_page(page_url: str) -> List[str]:
    """
    Извлекает все ссылки на книги со страницы каталога.
    
    Аргументы:
        page_url (str): URL страницы каталога.
    
    Возвращает:
        List[str]: Список URL отдельных книг.
    """
    try:
        response = requests.get(page_url)
        soup = BeautifulSoup(response.text, 'html.parser')
        
        book_links = []
        books = soup.find_all('article', class_='product_pod')
        
        for book in books:
            link_tag = book.find('h3').find('a')
            if link_tag and 'href' in link_tag.attrs:
                # Преобразуем относительную ссылку в абсолютную
                relative_link = link_tag['href']
                if 'catalogue/' in relative_link:
                    absolute_link = f"https://books.toscrape.com/catalogue/{relative_link.split('catalogue/')[-1]}"
                else:
                    absolute_link = f"https://books.toscrape.com/catalogue/{relative_link}"
                book_links.append(absolute_link)
        
        return book_links
    except Exception as e:
        print(f"Ошибка при получении ссылок со страницы {page_url}: {e}")
        return []


def scrape_books(is_save: bool = False, max_workers: int = 10) -> List[Dict]:
    """
    Собирает данные о всех книгах с сайта Books to Scrape.
    
    Функция проходит по всем страницам каталога, извлекает ссылки на книги
    и использует многопоточность для параллельного сбора данных о книгах.
    
    Аргументы:
        is_save (bool): Если True, сохраняет результаты в файл books_data.txt
        max_workers (int): Количество потоков для параллельной обработки
    
    Возвращает:
        List[Dict]: Список словарей с данными о книгах
    """
    base_url = "https://books.toscrape.com/catalogue/page-{}.html"
    
    all_book_links = []
    page_num = 1
    
    print("Сбор ссылок на книги...")
    while True:
        page_url = base_url.format(page_num)
        try:
            response = requests.get(page_url)
            if response.status_code != 200:
                print(f"Достигнут конец каталога на странице {page_num - 1}")
                break
                
            book_links = get_book_links_from_page(page_url)
            if not book_links:
                print(f"На странице {page_num} не найдено книг")
                break
                
            all_book_links.extend(book_links)
            print(f"Страница {page_num}: найдено {len(book_links)} книг")
            page_num += 1
            
        except Exception as e:
            print(f"Ошибка при обработке страницы {page_num}: {e}")
            break
    
    print(f"Всего найдено ссылок на книги: {len(all_book_links)}")
    
    # Парсим данные о книгах с использованием многопоточности
    print("Начинаем парсинг книг...")
    books_data = []
    
    with concurrent.futures.ThreadPoolExecutor(max_workers=max_workers) as executor:
        # Запускаем парсинг для всех книг
        future_to_url = {executor.submit(get_book_data, url): url for url in all_book_links}
        
        for i, future in enumerate(concurrent.futures.as_completed(future_to_url)):
            url = future_to_url[future]
            try:
                book_data = future.result()
                if book_data:
                    books_data.append(book_data)
                
                # Выводим прогресс
                if (i + 1) % 10 == 0:
                    print(f"Обработано {i + 1}/{len(all_book_links)} книг")
                    
            except Exception as e:
                print(f"Ошибка при обработке книги {url}: {e}")
    
    if is_save:
        try:
            with open('books_data.txt', 'w', encoding='utf-8') as f:
                for book in books_data:
                    f.write(json.dumps(book, ensure_ascii=False, indent=2) + '\n' + '-'*50 + '\n')
            print(f"Данные сохранены в файл books_data.txt")
        except Exception as e:
            print(f"Ошибка при сохранении в файл: {e}")
    
    print(f"Парсинг завершен. Собрано данных о {len(books_data)} книгах")
    return books_data



In [18]:
start_time = time.time()

res = scrape_books(is_save=True, max_workers=30)

end_time = time.time()
print(f"Тип результата: {type(res)}, Количество книг: {len(res)}")
print(f"Время выполнения: {end_time - start_time:.2f} секунд")
if res:
    print("\nПервые 3 книги:")
    for i, book in enumerate(res[:3]):
        print(f"{i+1}. {book['title']} - {book['price']}")

Сбор ссылок на книги...
Страница 1: найдено 20 книг
Страница 2: найдено 20 книг
Страница 3: найдено 20 книг
Страница 4: найдено 20 книг
Страница 5: найдено 20 книг
Страница 6: найдено 20 книг
Страница 7: найдено 20 книг
Страница 8: найдено 20 книг
Страница 9: найдено 20 книг
Страница 10: найдено 20 книг
Страница 11: найдено 20 книг
Страница 12: найдено 20 книг
Страница 13: найдено 20 книг
Страница 14: найдено 20 книг
Страница 15: найдено 20 книг
Страница 16: найдено 20 книг
Страница 17: найдено 20 книг
Страница 18: найдено 20 книг
Страница 19: найдено 20 книг
Страница 20: найдено 20 книг
Страница 21: найдено 20 книг
Страница 22: найдено 20 книг
Страница 23: найдено 20 книг
Страница 24: найдено 20 книг
Страница 25: найдено 20 книг
Страница 26: найдено 20 книг
Страница 27: найдено 20 книг
Страница 28: найдено 20 книг
Страница 29: найдено 20 книг
Страница 30: найдено 20 книг
Страница 31: найдено 20 книг
Страница 32: найдено 20 книг
Страница 33: найдено 20 книг
Страница 34: найдено 20 книг

## Задание 3. Настройка регулярной выгрузки (10 баллов)

Настройте автоматический запуск функции сбора данных каждый день в 19:00.
Для автоматизации используйте библиотеку `schedule`. Функция должна запускаться в указанное время и сохранять обновленные данные в текстовый файл.



Бесконечный цикл должен обеспечивать постоянное ожидание времени для запуска задачи и выполнять ее по расписанию. Однако чтобы не перегружать систему, стоит подумать о том, чтобы выполнять проверку нужного времени не постоянно, а раз в какой-то промежуток. В этом вам может помочь `time.sleep(...)`.

Проверьте работоспособность кода локально на любом времени чч:мм.



In [41]:
import schedule
import time
import threading
from datetime import datetime
import logging

# Настройка логирования
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s',
    handlers=[
        logging.FileHandler('books_scraper.log', encoding='utf-8'),
        logging.StreamHandler()
    ]
)

def scheduled_scraping():
    """
    Функция для выполнения ежедневного сбора данных.
    """
    logging.info("Запуск ежедневного сбора данных...")
    
    try:
        # Запускаем функцию скрапинга
        books_data = scrape_books(is_save=False, max_workers=8)
        
        # Сохраняем данные с временной меткой
        timestamp = datetime.now().strftime("%Y-%m-%d_%H-%M-%S")
        filename = f"books_data_{timestamp}.txt"
        
        with open(filename, 'w', encoding='utf-8') as f:
            f.write(f"Дата выгрузки: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}\n")
            f.write(f"Количество книг: {len(books_data)}\n")
            f.write("=" * 50 + "\n")
            
            for book in books_data:
                f.write(f"Название: {book.get('title', 'N/A')}\n")
                f.write(f"Цена: {book.get('price', 'N/A')}\n")
                f.write(f"Рейтинг: {book.get('rating', 'N/A')}\n")
                f.write(f"В наличии: {book.get('availability', 0)} шт.\n")
                f.write(f"URL: {book.get('url', 'N/A')}\n")
                f.write("-" * 30 + "\n")
        
        logging.info(f"Данные успешно сохранены в файл: {filename}")
        logging.info(f"Собрано {len(books_data)} книг")
        
    except Exception as e:
        logging.error(f"Ошибка при выполнении сбора данных: {e}")

def run_scheduler(schedule_time="19:00"):
    """
    Запускает планировщик задач для ежедневного выполнения в указанное время.
    
    Аргументы:
        schedule_time (str): Время запуска в формате "ЧЧ:ММ" (по умолчанию "19:00")
    """
    # Настраиваем расписание
    schedule.every().day.at(schedule_time).do(scheduled_scraping)
    
    logging.info(f"Планировщик запущен. Ежедневный сбор данных в {schedule_time}")
    print(f"Планировщик запущен. Ежедневный сбор данных в {schedule_time}")
    print("Для остановки нажмите Ctrl+C")
    
    while True:
        try:
            # Проверяем расписание каждые 60 секунд
            schedule.run_pending()
            time.sleep(60)
        except KeyboardInterrupt:
            logging.info("Планировщик остановлен пользователем")
            print("Планировщик остановлен")
            break
        except Exception as e:
            logging.error(f"Ошибка в планировщике: {e}")
            time.sleep(60)

def start_daily_scraping(background=True, schedule_time="19:00"):
    """
    Запускает ежедневный сбор данных в указанное время.
    
    Аргументы:
        background (bool): Если True, запускает в фоновом потоке
        schedule_time (str): Время запуска в формате "ЧЧ:ММ" (по умолчанию "19:00")
    """
    print("=" * 60)
    print("Ежедневный сбор данных Books to Scrape")
    print(f"Время выполнения: {schedule_time}")
    print("=" * 60)
    
    if background:
        # Запуск в отдельном потоке
        scheduler_thread = threading.Thread(target=run_scheduler, args=(schedule_time,), daemon=True)
        scheduler_thread.start()
        logging.info(f"Планировщик запущен в фоновом режиме. Время выполнения: {schedule_time}")
        return scheduler_thread
    else:
        # Запуск в основном потоке
        run_scheduler(schedule_time)

def start_with_time(hours, minutes):
    """
    Запускает планировщик с указанным временем.
    
    Аргументы:
        hours (int): Часы (0-23)
        minutes (int): Минуты (0-59)
    """
    # Форматируем время в нужный формат
    schedule_time = f"{hours:02d}:{minutes:02d}"
    
    print(f"Запуск планировщика с временем: {schedule_time}")
    start_daily_scraping(background=False, schedule_time=schedule_time)

# Запуск планировщика с временем по умолчанию (19:00)
def start_default():
    """
    Запускает планировщик со временем по умолчанию (19:00).
    """
    start_daily_scraping(background=False, schedule_time="19:00")

In [44]:
start_with_time(23,5)

2025-11-09 23:04:57,266 - INFO - Планировщик запущен. Ежедневный сбор данных в 23:05
2025-11-09 23:04:57,268 - INFO - Запуск ежедневного сбора данных...


Запуск планировщика с временем: 23:05
Ежедневный сбор данных Books to Scrape
Время выполнения: 23:05
Планировщик запущен. Ежедневный сбор данных в 23:05
Для остановки нажмите Ctrl+C
Сбор ссылок на книги...
Страница 1: найдено 20 книг
Страница 2: найдено 20 книг
Страница 3: найдено 20 книг
Страница 4: найдено 20 книг
Страница 5: найдено 20 книг
Страница 6: найдено 20 книг
Страница 7: найдено 20 книг
Страница 8: найдено 20 книг
Страница 9: найдено 20 книг
Страница 10: найдено 20 книг
Страница 11: найдено 20 книг
Страница 12: найдено 20 книг
Страница 13: найдено 20 книг
Страница 14: найдено 20 книг
Страница 15: найдено 20 книг
Страница 16: найдено 20 книг
Страница 17: найдено 20 книг
Страница 18: найдено 20 книг
Страница 19: найдено 20 книг
Страница 20: найдено 20 книг
Страница 21: найдено 20 книг
Страница 22: найдено 20 книг
Страница 23: найдено 20 книг
Страница 24: найдено 20 книг
Страница 25: найдено 20 книг
Страница 26: найдено 20 книг
Страница 27: найдено 20 книг
Страница 28: найдено

2025-11-09 23:09:08,539 - INFO - Данные успешно сохранены в файл: books_data_2025-11-09_23-09-08.txt
2025-11-09 23:09:08,540 - INFO - Собрано 1000 книг


Обработано 1000/1000 книг
Парсинг завершен. Собрано данных о 1000 книгах


2025-11-09 23:10:08,544 - INFO - Планировщик остановлен пользователем


Планировщик остановлен


## Задание 4. Написание автотестов (15 баллов)

Создайте минимум три автотеста для ключевых функций парсинга — например, `get_book_data` и `scrape_books`. Идеи проверок (можете использовать свои):

* данные о книге возвращаются в виде словаря с нужными ключами;
* список ссылок или количество собранных книг соответствует ожиданиям;
* значения отдельных полей (например, `title`) корректны.

Оформите тесты в отдельном скрипте `tests/test_scraper.py`, используйте библиотеку `pytest`. Убедитесь, что тесты проходят успешно при запуске из терминала командой `pytest`.

Также выведите результат их выполнения в ячейке ниже.

**Не забывайте про соблюдение PEP-8**


In [1]:
# Ячейка для демонстрации работоспособности
# Сам код напишите в отдельном скрипте
!pytest tests/test_scraper.py

platform win32 -- Python 3.11.9, pytest-9.0.0, pluggy-1.6.0
rootdir: C:\Users\Demen\Desktop\мфти\дз\hw3\git\books_scraper\notebooks
plugins: anyio-4.3.0, typeguard-4.2.1
collected 0 items



[31mERROR: file or directory not found: test/test_scraper.py
[0m


## Задание 5. Оформление проекта на GitHub и работа с Git (35 баллов)

В этом задании нужно воспользоваться системой контроля версий Git и платформой GitHub для хранения и управления своим проектом. **Ссылку на свой репозиторий пришлите в форме для сдачи ответа.**

### Пошаговая инструкция и задания

**1. Установите Git на свой компьютер.**

* Для Windows: [скачайте установщик](https://git-scm.com/downloads) и выполните установку.
* Для macOS:

  ```
  brew install git
  ```
* Для Linux:

  ```
  sudo apt update
  sudo apt install git
  ```

**2. Настройте имя пользователя и email.**

Это нужно для подписи ваших коммитов, сделайте в терминале через `git config ...`.

**3. Создайте аккаунт на GitHub**, если у вас его еще нет:
[https://github.com](https://github.com)

**4. Создайте новый репозиторий на GitHub:**

* Найдите кнопку **New repository**.
* Укажите название, краткое описание, выберите тип **Public** (чтобы мы могли проверить ДЗ).
* Не ставьте галочку Initialize this repository with a README.

**5. Создайте локальную папку с проектом.** Можно в терминале, можно через UI, это не имеет значения.

**6. Инициализируйте Git в этой папке.** Здесь уже придется воспользоваться некоторой командой в терминале.

**7. Привяжите локальный репозиторий к удаленному на GitHub.**

**8. Создайте ветку разработки.** По умолчанию вы будете находиться в ветке `main`, создайте и переключитесь на ветку `hw-books-parser`.

**9. Добавьте в проект следующие файлы и папки:**

* `scraper.py` — ваш основной скрипт для сбора данных.
* `README.md` — файл с кратким описанием проекта:

  * цель;
  * инструкции по запуску;
  * список используемых библиотек.
* `requirements.txt` — файл со списком зависимостей, необходимых для проекта (не присылайте все из глобального окружения, создайте изолированную виртуальную среду, добавьте в нее все нужное для проекта и получите список библиотек через `pip freeze`).
* `artifacts/` — папка с результатами парсинга (`books_data.txt` — полностью или его часть, если весь не поместится на GitHub).
* `notebooks/` — папка с заполненным ноутбуком `HW_03_python_ds_2025.ipynb` и запущенными ячейками с выводами на экран.
* `tests/` — папка с тестами на `pytest`, оформите их в формате скрипта(-ов) с расширением `.py`.
* `.gitignore` — стандартный файл, который позволит исключить временные файлы при добавлении в отслеживаемые (например, `__pycache__/`, `.DS_Store`, `*.pyc`, `venv/` и др.).


**10. Сделайте коммит.**

**11. Отправьте свою ветку на GitHub.**

**12. Создайте Pull Request:**

* Перейдите в репозиторий на GitHub.
* Нажмите кнопку **Compare & pull request**.
* Укажите, что было добавлено, и нажмите **Create pull request**.

**13. Выполните слияние Pull Request:**

* Убедитесь, что нет конфликтов.
* Нажмите **Merge pull request**, затем **Confirm merge**.

**14. Скачайте изменения из основной ветки локально.**



### Требования к итоговому репозиторию

* Файл `scraper.py` с рабочим кодом парсера.
* `README.md` с описанием проекта и инструкцией по запуску.
* Папка `artifacts/` с результатом сбора данных (`.txt` файл).
* Папка `tests/` с тестами на `pytest`.
* Папка `notebooks/` с заполненным ноутбуком `HW_03_python_ds_2025.ipynb`.
* Pull Request с комментарием из ветки `hw-books-parser` в ветку `main`.
* Примерная структура:

  ```
  books_scraper/
  ├── artifacts/
  │   └── books_data.txt
  ├── notebooks/
  │   └── HW_03_python_ds_2025.ipynb
  ├── scraper.py
  ├── README.md
  ├── tests/
  │   └── test_scraper.py
  ├── .gitignore
  └── requirements.txt
  ```