## XML

Краткое [введение в XML в картинках](https://habr.com/ru/post/524288/).  
Краткий [учебник по XML](https://msiter.ru/tutorials/uchebnik-xml-dlya-nachinayushchih/xml-dtd).  
Ссылка на [Википедию](https://ru.wikipedia.org/wiki/XML).  
Ссылка на [документацию](https://docs.python.org/3/library/xml.etree.elementtree.html).  


Разберем следующий документ.

```xml
<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE recipe>
<recipe name="хлеб" preptime="5min" cooktime="180min">
   <title>
      Простой хлеб
   </title>
   <composition>
      <ingredient amount="3" unit="стакан">Мука</ingredient>
      <ingredient amount="0.25" unit="грамм">Дрожжи</ingredient>
      <ingredient amount="1.5" unit="стакан">Тёплая вода</ingredient>
   </composition>
   <instructions>
     <step>
        Смешать все ингредиенты и тщательно замесить. 
     </step>
     <step>
        Закрыть тканью и оставить на один час в тёплом помещении. 
     </step>
     <!-- 
        <step>
           Почитать вчерашнюю газету. 
        </step>
         - это сомнительный шаг...
      -->
     <step>
        Замесить ещё раз, положить на противень и поставить в духовку.
     </step>
   </instructions>
</recipe>
```

In [2]:
import xml.etree.ElementTree as ET

In [3]:
tree = ET.parse('1.xml')
root = tree.getroot()

In [10]:
tree

<xml.etree.ElementTree.ElementTree at 0x7f9d30703d68>

In [11]:
root

<Element 'recipe' at 0x7f9d306e2e08>

In [12]:
dir(tree)

['__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_root',
 '_setroot',
 'find',
 'findall',
 'findtext',
 'getiterator',
 'getroot',
 'iter',
 'iterfind',
 'parse',
 'write',
 'write_c14n']

In [13]:
dir(root)

['__class__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__len__',
 '__lt__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setitem__',
 '__setstate__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'append',
 'attrib',
 'clear',
 'extend',
 'find',
 'findall',
 'findtext',
 'get',
 'getchildren',
 'getiterator',
 'insert',
 'items',
 'iter',
 'iterfind',
 'itertext',
 'keys',
 'makeelement',
 'remove',
 'set',
 'tag',
 'tail',
 'text']

In [14]:
with open("1.xml") as infile:
    data_string = infile.read()
root2 = ET.fromstring(data_string)

In [16]:
print(root.tag)
print(root.attrib)

recipe
{'name': 'хлеб', 'preptime': '5min', 'cooktime': '180min'}


In [56]:
for child in root:
    print(child.tag, child.attrib)

title {}
composition {}
instructions {}


In [57]:
root[0].text

'\n      Простой хлеб\n   '

In [20]:
for step in root[2].iter('step'):
    print(step.text)


        Смешать все ингредиенты и тщательно замесить. 
     

        Закрыть тканью и оставить на один час в тёплом помещении. 
     

        Замесить ещё раз, положить на противень и поставить в духовку.
     


In [23]:
for step in root.findall("step"):
    print(step.text)

In [24]:
for step in root[2].findall("step"):
    print(step.text)


        Смешать все ингредиенты и тщательно замесить. 
     

        Закрыть тканью и оставить на один час в тёплом помещении. 
     

        Замесить ещё раз, положить на противень и поставить в духовку.
     


In [58]:
root[2].iter('step')

<_elementtree._element_iterator at 0x7f9d30629150>

In [59]:
root[2].findall("step")

[<Element 'step' at 0x7f9d30624688>,
 <Element 'step' at 0x7f9d306246d8>,
 <Element 'step' at 0x7f9d30624728>]

In [60]:
for ing in root[1].findall("ingredient"):
    print(ing.text, ing.get("amount"), ing.get("unit"))

Мука 3 стакан
Дрожжи 0.25 грамм
Тёплая вода 1.5 стакан


In [62]:
root[1][1].set("amount", "1")
root[1][1].text = "Плохенькие дрожжи"

In [63]:
for ing in root[1].findall("ingredient"):
    print(ing.text, ing.get("amount"), ing.get("unit"))

Мука 3 стакан
Плохенькие дрожжи 1 грамм
Тёплая вода 1.5 стакан


In [64]:
root[2].remove(root[2][1])

In [65]:
for step in root[2].findall("step"):
    print(step.text)


        Смешать все ингредиенты и тщательно замесить. 
     

        Замесить ещё раз, положить на противень и поставить в духовку.
     


In [68]:
b = ET.SubElement(root[2], "step")
b.text = "\n     Вспомнить, что надо было подождать, пока тесто подойдет.\n     "
b.set("extra_data", "extra_value")

In [69]:
for step in root[2].findall("step"):
    print(step.text)


        Смешать все ингредиенты и тщательно замесить. 
     

        Замесить ещё раз, положить на противень и поставить в духовку.
     
Вспомнить, что надо было подождать, пока тесто подойдет.

     Вспомнить, что надо было подождать, пока тесто подойдет.
     


### XPath
[Ссылка 1](https://habr.com/ru/post/526774/)

[Ссылка 2](https://habr.com/ru/post/464897/)

XPath позволяет задать шаблон для пути от корня XML-дерева к интересующей нас вершине.

- . - корень XML-дерева
- / - переход на один уровень ниже.
- // - переход на ноль или больше уровней вниз.
- \* - любая вершина.
- xyz - название вершины.
- [@feature] - вершина с параметром feature.
- [@feature='111'] - вершина с параметром feature, равным "111".
- xyz[n] - n-ый потомок вершины xyz.

In [70]:
for step in root.findall("./*/step"):
    print(step.text)


        Смешать все ингредиенты и тщательно замесить. 
     

        Замесить ещё раз, положить на противень и поставить в духовку.
     
Вспомнить, что надо было подождать, пока тесто подойдет.

     Вспомнить, что надо было подождать, пока тесто подойдет.
     


In [71]:
for step in root.findall("./*/ingredient[@unit='стакан']"):
    print(step.text)

Мука
Тёплая вода


In [49]:
root.findall("./*/ingredient[@amount='3']")

[<Element 'ingredient' at 0x7f6ee84b7958>]

In [18]:
root.findall(".//*[@amount]")

[<Element 'ingredient' at 0x7f6ee84b7958>,
 <Element 'ingredient' at 0x7f6ee84b7318>,
 <Element 'ingredient' at 0x7f6ee84c08b8>]

In [51]:
root.findall(".//composition/ingredient[2]")[0].text

'Дрожжи'

In [77]:
root.findall(".//composition/ingredient[last()]")[0].text

'Тёплая вода'

А теперь давайте посмотрим как мы можем при помощи XPath обрабатывать HTML-документы.

In [68]:
import requests
from lxml import html

In [151]:
page = requests.get('https://lenta.ru/news/2021/02/27/apple_effect/')

In [152]:
tree = html.fromstring(page.text)
print(tree.xpath(".//h1")[0].text_content())
print(tree.xpath(".//div[@class='b-topic__info']//time")[0].text_content().strip())
print(tree.xpath(".//span[@itemprop='name']")[0].text_content().strip(), '\n')
print(tree.xpath(".//meta[@itemprop='description']")[0].get("content"), '\n')

for p in tree.xpath(".//div[@itemprop='articleBody']/p"):
    print(p.text_content())

Обнаружен неожиданный эффект от употребления яблок
15:35, 27 февраля 2021
Соня Кошечкина 

Содержащиеся в этих плодах фитонутриенты способствуют образованию новых нейронов 

Ученые из Университета Квинсленда и Немецкого центра нейродегенеративных заболеваний обнаружили неожиданный эффект от употребления яблок. Результаты исследования появились в научном журнале Stem Cell Reports.
Опыты проводились на мышах. Специалисты культивировали стволовые клетки мозга взрослых мышей и добавляли в них содержащиеся в яблоках фитонутриенты. Исследование показало, что высокая концентрация фитонутриентов способствует образованию новых нейронов.
По словам ученых, определенные фитонутриенты положительно влияют на работу органов, в том числе мозга. Выяснилось, что они оказывают на организм тот же эффект, что и физическая активность, которая также стимулирует нейрогенез.
Ранее ученые из Технологического университета австрийского Граца выяснили, что большинство людей неправильно едят яблоки. Исследователи у

А теперь та же страница, но через BeautyfulSoup.

In [153]:
from bs4 import BeautifulSoup as bs

In [154]:
souped = bs(page.text)

print(souped("h1")[0].get_text())
print(souped.find_all("div", attrs={'class': 'b-topic__info'})[0]("time")[0].get_text().strip())
print(souped.find_all("span", attrs={'itemprop': 'name'})[0].get_text())
print(souped.find_all("meta", attrs={'itemprop': 'description'})[0]["content"], '\n')

for p in souped.find_all("div", attrs={'itemprop': 'articleBody'})[0]("p"): 
    print(p.get_text())

Обнаружен неожиданный эффект от употребления яблок
15:35, 27 февраля 2021
Соня Кошечкина
Содержащиеся в этих плодах фитонутриенты способствуют образованию новых нейронов 

Ученые из Университета Квинсленда и Немецкого центра нейродегенеративных заболеваний обнаружили неожиданный эффект от употребления яблок. Результаты исследования появились в научном журнале Stem Cell Reports.
Опыты проводились на мышах. Специалисты культивировали стволовые клетки мозга взрослых мышей и добавляли в них содержащиеся в яблоках фитонутриенты. Исследование показало, что высокая концентрация фитонутриентов способствует образованию новых нейронов.
По словам ученых, определенные фитонутриенты положительно влияют на работу органов, в том числе мозга. Выяснилось, что они оказывают на организм тот же эффект, что и физическая активность, которая также стимулирует нейрогенез.
Ранее ученые из Технологического университета австрийского Граца выяснили, что большинство людей неправильно едят яблоки. Исследователи утв