In [1]:
from lxml import etree

In [38]:
tree = etree.parse("./web_page.html")

In [4]:
print(tree)

<lxml.etree._ElementTree object at 0x000002588043F680>


In [8]:
# Скрепинг заголовка
title_element = tree.find("head/title")
title_element.text

'This is title of the page'

In [9]:
# содержимое тега 'p'
p_element = tree.find("body/p")
p_element.text

'Hello GeekBrains'

In [11]:
# найти все элементы списка
list_items = tree.findall("body/ul/li")
print(list_items, '\n')
for li in list_items:
   print(li.text)

[<Element li at 0x25880537380>, <Element li at 0x25880536e00>] 

Data scraping course.
GeekBrain's link:
            


In [12]:
# получить элемента списка со всем содержимым
for li in list_items:
   a = li.find("a")
   if a is not None:
       print(f"{li.text.strip()} {a.text}")
   else:
       print(li.text)

Data scraping course.
GeekBrain's link: Developer


Метод **xpath()** - в качестве аргумента принимает путь к целевому тегу (но не нужно указывать полный путь до тега)

In [15]:
title_element = tree.xpath("//title")   # получаем список
# для применения свойства .text нужно обращаться к первому элементу списка
title_element[0].text

This is title of the page


In [17]:
# также свойство text() можно вызвать внутри метода xpath
title_element = tree.xpath("//title/text()")
title_element[0]

This is title of the page


In [19]:
p_element = tree.xpath('//p/text()')
p_element[0]

Hello GeekBrains


In [20]:
# получаем два элемента списка, содержащих полную html-разметку
list_items = tree.xpath('//li')
for li in list_items:
    print(etree.tostring(li))

b'<li id="myID">Data scraping course.</li>\n        '
b'<li class="myClass">GeekBrain\'s link:\n            <a href="https://gb.ru/geek_university/developer">Developer</a>\n        </li>\n    '


In [24]:
# получить текст, который находится внутри тегов
for li in list_items:
    text = li.xpath('.//text()')
    print(text)

['Data scraping course.']
["GeekBrain's link:\n            ", 'Developer', '\n        ']


In [26]:
# избавить от лишних символов во втором списке
for li in list_items:
    # используем метод map(использует функцию str.strip к каждому элементу списка)
    text = map(str.strip, li.xpath('.//text()'))
    # преобразуем объект map в список
    print(list(text))

['Data scraping course.']
["GeekBrain's link:", 'Developer', '']


In [29]:
# возвращаем "чистый текст"
for li in list_items:
    text = ''.join(map(str.strip, li.xpath('.//text()')))
    print(text)

Data scraping course.
GeekBrain's link:Developer


In [30]:
# Выберем все элементы li (потомки ul)
list_items = tree.xpath("//ul/descendant::li")
for li in list_items:
    text = ''.join(map(str.strip, li.xpath('.//text()')))
    print(text)

Data scraping course.
GeekBrain's link:Developer


In [34]:
list_items = tree.xpath("///li/parent::*")
for li in list_items:
    text = ''.join(map(str.strip, li.xpath('.//text()')))
    print(text)

Data scraping course.GeekBrain's link:Developer


CSS-selector

In [40]:
title_element = tree.cssselect('title')
title_element[0]

AttributeError: 'lxml.etree._ElementTree' object has no attribute 'cssselect'

In [43]:
# css работает непосредственно с html-элементами
# конвертируем объект-дерево в html-элемент
html = tree.getroot()

title_element = html.cssselect('title')
title_element[0].text

'This is title of the page'

In [46]:
list_items = html.cssselect('li')
for li in list_items:
    a = li.cssselect('a')
    if len(a) == 0:
        print(li.text)
    else:
        print(f"{li.text.strip()} {a[0].text}")

Data scraping course.
GeekBrain's link: Developer
