# Описание задачи
Компания стремится оперативно реагировать на изменения на рынке и поддерживать конкурентоспособность, поэтому ваша задача — извлечь из выгруженных HTML-страниц с товарами конкурентов необходимую информацию. Это поможет компании быстрее адаптироваться к рыночным условиям и предложить клиентам наиболее выгодные условия.

# Парсинг и регулярные выражения


Парсинг — это процесс извлечения структурированных данных из неструктурированных или частично структурированных источников. В контексте веб-скрапинга это означает получение нужной информации с веб-страниц.

HTML (HyperText Markup Language) — стандартный язык разметки документов для создания веб-страниц. HTML используется для структурирования информации и представления ее в веб-браузерах.

Теги HTML — элементы, используемые для создания структуры HTML-документа. Теги обычно заключены в угловые скобки, например, \<div>, \<span>, \<h1>. Они могут содержать атрибуты, которые предоставляют дополнительную информацию об элементах.

Регулярные выражения — это последовательности символов, которые определяют шаблон поиска. Они используются для поиска, совпадения и извлечения частей текста на основе заданных шаблонов.

Регулярные выражения являются мощным инструментом для работы с текстом. Основные из способов их использования:

Фильтрация: регулярные выражения позволяют фильтровать строки текста, соответствующие определенным шаблонам. Это полезно, например, при извлечении номеров телефонов, адресов электронной почты или других специфических данных из большого текста.
Поиск подстрок: с помощью регулярных выражений можно находить подстроки в тексте, которые соответствуют определенным условиям. Это позволяет извлекать нужные данные из сложных текстовых документов.
Замена: регулярные выражения используются для замены найденных подстрок другими значениями. Это полезно, например, для форматирования текста или очистки данных.
Разделение текста: регулярные выражения также могут использоваться для разделения текста на основе сложных шаблонов. Это полезно для разбора текста на части.
Библиотека re в Python
Библиотека re предоставляет мощные средства для работы с регулярными выражениями. Библиотека re включает функции для поиска, разделения, замены и извлечения текста на основе заданных шаблонов.

Основные функции библиотеки re:

re.compile(pattern) – компиляция шаблона регулярного выражения. 
re.search(pattern, string) – поиск первого совпадения шаблона в строке.
re.match(pattern, string) – проверка, совпадает ли шаблон с началом строки.
re.findall(pattern, string) – поиск всех совпадений шаблона в строке.
re.sub(pattern, repl, string) – замена всех совпадений шаблона на заданную подстроку.

Задание
Напишите функцию parse_product_info, которая принимает HTML-код в виде строки и возвращает словарь со следующими ключами:

1. title – название товара;
2. category – категория товара
3. old_price – базовая (перечеркнутая цена)
4. new_price – текущая цена



In [11]:
import re

def parse_product_info(html: str) -> dict:
    """
    Extracts product information from the given HTML.

    Parameters:
        html (str): The input HTML data.

    Returns:
        product_info (dict): A dictionary containing the product's info.
    """

    # Регулярные выражения для извлечения информации
    title_pattern = r'<h1(.+?) class="product-title">(.+?)<\/h1>'
    category_pattern = r'<(.+?) class="(.+?)category(.+?)".*?>(.*?)<\/\1>'
    old_price_pattern = r'<(.+?) class="price-old"(.+?)>(.+?)<(.+?)>'
    new_price_pattern = r'<(.+?) class="price-new"(.+?)>(.+?)<(.+?)>'

    title = re.search(title_pattern, html)
    category = re.search(category_pattern, html)
    old_price = re.search(old_price_pattern, html)
    new_price = re.search(new_price_pattern, html)

    product_info = {
        'title': title.group(2) if title else None,
        'category': category.group(4) if category else None,
        'old_price': old_price.group(3) if old_price else None,
        'new_price': new_price.group(3) if new_price else None,
    }
    
    return product_info


In [23]:
import re


def remove_html_tags(text: str) -> str:
    """Removes HTML tags from a given string."""
    clean_pattern = re.compile(r'<.*?>')
    return clean_pattern.sub('', text)


def parse_product_info(html: str) -> dict:
    """
    Extracts product information from the given HTML.

    Parameters:
        html (str): The input HTML data.

    Returns:
        product_info (dict): A dictionary containing the product's info.
    """

    # Регулярные выражения для извлечения информации
    title_pattern = r'<h1 class="product-title">(.+?)<\/h1>'
    category_pattern = r'<(.+?) class="product-category".*?>(.*?)<\/\1>'
    old_price_pattern = r'<span class="price-old">(.+?)<\/span>'
    new_price_pattern = r'<span class="price-new">(.+?)<\/span>'

    title = re.search(title_pattern, html)
    category = re.search(category_pattern, html)
    old_price = re.search(old_price_pattern, html)
    new_price = re.search(new_price_pattern, html)

    product_info = {
        'title': remove_html_tags(title.group(1)) if title else '',
        'category': remove_html_tags(category.group(2)) if category else '',
        'old_price': remove_html_tags(old_price.group(1)) if old_price else '',
        'new_price': remove_html_tags(new_price.group(1)) if new_price else '',
    }

    return product_info


In [24]:
html = '''<html>
<head><title>Example Product Page</title></head>
<body>
    <h1 class="product-title">Example Product</h1>
    <a class="product-category" href="/category">Example Category</a>
    <span class="price-old">$100.00</span>
    <span class="price-new">$80.00</span>
</body>
</html>'''
       

product_info = parse_product_info(html)
print(product_info)
# {
#     'title': 'Example Product',
#     'category': 'Example Category',
#     'old_price': '$100.00',
#     'new_price': '$80.00'
# }

{'title': 'Example Product', 'category': 'Example Category', 'old_price': '$100.00', 'new_price': '$80.00'}


In [None]:
import re


def parse_product_info(html: str) -> dict:
    """
    Extracts product information from the given HTML.

    Parameters:
        html (str): The input HTML data.

    Returns:
        product_info (dict): A dictionary containing the product's info.
    """
    
    title_pattern = re.compile(
    	r'class="product-title">(.*?)</h1>', re.DOTALL
    )
    category_pattern = re.compile(
    	r'class="product-category">(.*?)</', re.DOTALL
    )
    old_price_pattern = re.compile(
        r'class="price-old">(?:<strike>)?(.*?)(?:</strike>)?</', re.DOTALL
    )
    new_price_pattern = re.compile(
    	r'class="price-new">(.*?)</', re.DOTALL
    )

    def clean_html(raw_html):
        clean_pattern = re.compile('<.*?>')
        clean_text = re.sub(clean_pattern, '', raw_html)
        return clean_text.strip()

    title_match = title_pattern.search(html)
    category_match = category_pattern.search(html)
    old_price_match = old_price_pattern.search(html)
    new_price_match = new_price_pattern.search(html)

    title = clean_html(title_match.group(1))
    category = clean_html(category_match.group(1))
    old_price = clean_html(old_price_match.group(1))
    new_price = clean_html(new_price_match.group(1))

    product_info = {
        'title': title,
        'category': category,
        'old_price': old_price,
        'new_price': new_price,
    }

    return product_info