ParserHTML by NiKO

Парсер создавался для скрабинка карточек товаров с веб-сайтов.

Например нужно спарсить карточку товара

Есть HTML веб-страница:

<html>
    <head>
        <title>Title page</title>
        <meta charset="UTF-8">
    </head>
    <body>
        <h1 class="name" data-name="Header">Header H1</h1>
        <h2>Header H2.1</h2>
        <h2>Header H2.2</h2>
        <span data-type="type1">Product description text</span>
        <span class="price" elem="USD">$99</span>
        <div id="product-gallery" value="1">
            <a href="img1.jpg"><img src="img1.jpg" alt="Image 1" /></a>
            <a href="img2.jpg"><img src="img2.jpg" alt="Image 2" /></a>
            <a href="img3.jpg"><img src="img3.jpg" alt="Image 3" /></a>
        </div>
    </body>
</html>

Задаем шаблон для парсинга:

<template>
	<h1 class="name" data-name="$data-name">$Head1</h1>
	<h2>$Head2</h2>
	<span elem="$Сurrency">$Price</span>
	<span data-type="$Type">$Description</span>
	<div id="product-gallery" value="$product_gallery">
		<a href="$Img"></a>
	</div>
</template>

${var} -- название переменной, в которую будет занесен результат.

Пример кода

result = ParserHTML(template, html_contents)
print(result.get())

Результат

Массив данных

{'Head1': ['Header H1'], 'Head2': [['Header H2.1'], ['Header H2.2']], 'Price': ['$99'], 'Сurrency': 'USD', 'Description': ['Product description text'], 'Type': 'type1', 'product_gallery': '1', 'Img': ['img1.jpg', 'img2.jpg', 'img3.jpg']}

Обновление 2021-11-16

Группировка, если задать атрибут group="имя группы". Если не заданно, тое именем будет тег узла Если установить атрибут nogroup, то из группы будет взята только первая группа значений

Name		Name	Last commit message	Last commit date
Latest commit History 28 Commits
examples		examples
.gitignore		.gitignore
README.md		README.md
classParserHTML.py		classParserHTML.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ParserHTML by NiKO

Например нужно спарсить карточку товара

Пример кода

Результат

Обновление 2021-11-16

About

Languages

githubniko/ParserHTML-by-NiKO

Folders and files

Latest commit

History

Repository files navigation

ParserHTML by NiKO

Например нужно спарсить карточку товара

Пример кода

Результат

Обновление 2021-11-16

About

Resources

Stars

Watchers

Forks

Languages