## XML

Краткое [введение в XML в картинках](https://habr.com/ru/post/524288/).  
Краткий [учебник по XML](https://msiter.ru/tutorials/uchebnik-xml-dlya-nachinayushchih/xml-dtd).  
Ссылка на [Википедию](https://ru.wikipedia.org/wiki/XML).  
Ссылка на [документацию](https://docs.python.org/3/library/xml.etree.elementtree.html).  


Разберем следующий документ.

```xml
<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE recipe>
<recipe name="хлеб" preptime="5min" cooktime="180min">
   <title>
      Простой хлеб
   </title>
   <composition>
      <ingredient amount="3" unit="стакан">Мука</ingredient>
      <ingredient amount="0.25" unit="грамм">Дрожжи</ingredient>
      <ingredient amount="1.5" unit="стакан">Тёплая вода</ingredient>
   </composition>
   <instructions>
     <step>
        Смешать все ингредиенты и тщательно замесить. 
     </step>
     <step>
        Закрыть тканью и оставить на один час в тёплом помещении. 
     </step>
     <!-- 
        <step>
           Почитать вчерашнюю газету. 
        </step>
         - это сомнительный шаг...
      -->
     <step>
        Замесить ещё раз, положить на противень и поставить в духовку.
     </step>
   </instructions>
</recipe>
```

In [1]:
import xml.etree.ElementTree as ET

In [2]:
tree = ET.parse('1.xml')
root = tree.getroot()

In [3]:
with open("1.xml") as infile:
    data_string = infile.read()
root2 = ET.fromstring(data_string)

In [4]:
tree

<xml.etree.ElementTree.ElementTree at 0x7fe95a7e1e50>

In [5]:
root

<Element 'recipe' at 0x7fe9740a9680>

In [6]:
dir(tree)

['__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_root',
 '_setroot',
 'find',
 'findall',
 'findtext',
 'getroot',
 'iter',
 'iterfind',
 'parse',
 'write',
 'write_c14n']

In [7]:
dir(root)

['__class__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__len__',
 '__lt__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setitem__',
 '__setstate__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'append',
 'attrib',
 'clear',
 'extend',
 'find',
 'findall',
 'findtext',
 'get',
 'insert',
 'items',
 'iter',
 'iterfind',
 'itertext',
 'keys',
 'makeelement',
 'remove',
 'set',
 'tag',
 'tail',
 'text']

In [9]:
print(root.tag)
print(root.attrib)

recipe
{'name': 'хлеб', 'preptime': '5min', 'cooktime': '180min'}


In [10]:
for child in root:
    print(child.tag, child.attrib)

title {}
composition {}
instructions {}


In [11]:
type(root), type(root[0])

(xml.etree.ElementTree.Element, xml.etree.ElementTree.Element)

In [11]:
root[0].text

'\n      Простой хлеб\n   '

In [12]:
root[1][0].text

'Мука'

In [14]:
for step in root[2].iter('step'):
    print(step.text)


        Смешать все ингредиенты и тщательно замесить. 
     

        Закрыть тканью и оставить на один час в тёплом помещении. 
     

        Замесить ещё раз, положить на противень и поставить в духовку.
     


In [15]:
for step in root.findall("step"):
    print(step.text)

In [16]:
for step in root[2].findall("step"):
    print(step.text)


        Смешать все ингредиенты и тщательно замесить. 
     

        Закрыть тканью и оставить на один час в тёплом помещении. 
     

        Замесить ещё раз, положить на противень и поставить в духовку.
     


In [17]:
root.iter('step')

<_elementtree._element_iterator at 0x7fe95a780f90>

In [22]:
list(root.iter("step"))

[<Element 'step' at 0x7fe95a7e7810>,
 <Element 'step' at 0x7fe95a7e77c0>,
 <Element 'step' at 0x7fe95a7e7770>]

In [18]:
for ing in root[1].findall("ingredient"):
    print(ing.text, ing.get("amount"), ing.get("unit"))

Мука 3 стакан
Дрожжи 0.25 грамм
Тёплая вода 1.5 стакан


In [23]:
root[1][1].set("amount", "1")
root[1][1].text = "Плохенькие дрожжи"

In [24]:
for ing in root[1].findall("ingredient"):
    print(ing.text, ing.get("amount"), ing.get("unit"))

Мука 3 стакан
Плохенькие дрожжи 1 грамм
Тёплая вода 1.5 стакан


In [25]:
root[2].remove(root[2][1])

In [26]:
for step in root[2].findall("step"):
    print(step.text)


        Смешать все ингредиенты и тщательно замесить. 
     

        Замесить ещё раз, положить на противень и поставить в духовку.
     


In [27]:
b = ET.SubElement(root[2], "step")
b.text = "\n     Вспомнить, что надо было подождать, пока тесто подойдет.\n     "
b.set("extra_data", "extra_value")

In [28]:
for step in root[2].findall("step"):
    print(step.text)


        Смешать все ингредиенты и тщательно замесить. 
     

        Замесить ещё раз, положить на противень и поставить в духовку.
     

     Вспомнить, что надо было подождать, пока тесто подойдет.
     


### XPath
[Ссылка 1](https://habr.com/ru/post/526774/)

[Ссылка 2](https://habr.com/ru/post/464897/)

XPath позволяет задать шаблон для пути от корня XML-дерева к интересующей нас вершине.

- . - корень XML-дерева
- / - переход на один уровень ниже.
- // - переход на ноль или больше уровней вниз.
- \* - любая вершина.
- xyz - название вершины.
- [@feature] - вершина с параметром feature.
- [@feature='111'] - вершина с параметром feature, равным "111".
- xyz[n] - n-ый потомок вершины xyz.
- [func()] - вызов функции по имени.

Надо дополнить отсюда!!!  

https://habr.com/ru/post/588773/

https://soltau.ru/index.php/themes/dev/item/413

In [29]:
for step in root.findall("./*/step"):
    print(step.text)


        Смешать все ингредиенты и тщательно замесить. 
     

        Замесить ещё раз, положить на противень и поставить в духовку.
     

     Вспомнить, что надо было подождать, пока тесто подойдет.
     


In [30]:
for step in root.findall(".//step"):
    print(step.text)


        Смешать все ингредиенты и тщательно замесить. 
     

        Замесить ещё раз, положить на противень и поставить в духовку.
     

     Вспомнить, что надо было подождать, пока тесто подойдет.
     


А вот так ничего не найдется - надо указывать откуда искать.

In [27]:
for step in root.findall("step"):
    print(step.text)

In [31]:
for step in root.findall("./*/ingredient[@unit='стакан']"):
    print(step.text)

Мука
Тёплая вода


In [35]:
root.findall("./*/ingredient[@amount='3']")

[<Element 'ingredient' at 0x7fe95a7e7ae0>]

In [36]:
root.findall(".//*[@amount]")

[<Element 'ingredient' at 0x7fe95a7e7ae0>,
 <Element 'ingredient' at 0x7fe95a7e7950>,
 <Element 'ingredient' at 0x7fe95a7e7900>]

In [37]:
root.findall(".//composition/ingredient[2]")[0].text

'Плохенькие дрожжи'

In [70]:
root.findall(".//composition/ingredient[last()]")[0].text

'Тёплая вода'

In [71]:
root.findtext('.//composition/ingredient[last()]')
#root[1][0].text

'Тёплая вода'

А теперь давайте посмотрим как мы можем при помощи XPath обрабатывать HTML-документы.

In [38]:
import requests
from lxml import html

In [39]:
page = requests.get('https://lenta.ru/news/2021/02/27/apple_effect/')

In [40]:
page.text[:1000]

'<!DOCTYPE html><html lang="ru"><head><title>Обнаружен неожиданный эффект от употребления яблок: Наука: Наука и техника: Lenta.ru</title><meta charset="utf-8" />\n<script type="text/javascript">window.NREUM||(NREUM={});NREUM.info={"beacon":"bam-cell.nr-data.net","errorBeacon":"bam-cell.nr-data.net","licenseKey":"66a8d51230","applicationID":"1241738","transactionName":"J19cQUoOWA0ERBoLRggfRlpICFcSTkVdC0Y=","queueTime":0,"applicationTime":134,"agent":""}</script>\n<script type="text/javascript">(window.NREUM||(NREUM={})).init={ajax:{deny_list:["bam-cell.nr-data.net"]}};(window.NREUM||(NREUM={})).loader_config={xpid:"VQUGU1VRGwICUFBVBAk=",licenseKey:"66a8d51230",applicationID:"1241738"};window.NREUM||(NREUM={}),__nr_require=function(t,e,n){function r(n){if(!e[n]){var i=e[n]={exports:{}};t[n][0].call(i.exports,function(e){var i=t[n][1][e];return r(i||e)},i,i.exports)}return e[n].exports}if("function"==typeof __nr_require)return __nr_require;for(var i=0;i<n.length;i++)r(n[i]);return r}({1:[

In [42]:
tree = html.fromstring(page.text)
# Заголовок достается просто по тегу h1.
print(tree.xpath(".//h1")[0].text_content())
# Дата и время достается из тега <time class="topic-header__item topic-header__time">
# Так как класс содерит в себе несколько имен, приходится применять contains().
print(tree.xpath(".//time[contains(@class,'topic-header__time')]")[0].text_content().strip())
# Автор обрамлен гиперссылкой с классом topic-authors__author.
print(tree.xpath(".//a[contains(@class,'topic-authors__author')]")[0].text_content().strip(), '\n')
# По каждой статье имеется краткое описание в теге <meta property="og:description"> в атрибуте content.
print(tree.xpath(".//meta[@property='og:description']")[0].get("content"), '\n')

# Текст статьи разложен по параграфам <p class="topic-body__content-text cbkbr">
for p in tree.xpath(".//p[contains(@class,'topic-body__content-text')]"):
    print(p.text_content())
    
# Просто чтобы показать, что можно вписать промежуточный узел, а то мало ли что у них оформлено как параграф.
print("---")
tree.xpath(".//div[contains(@class,'topic-body')]//p[contains(@class,'topic-body__content-text')]")[0].text_content()





Обнаружен неожиданный эффект от употребления яблок
15:35, 27 февраля 2021
Соня Кошечкина 

Ученые из Университета Квинсленда и Немецкого центра нейродегенеративных заболеваний  обнаружили неожиданный эффект от употребления яблок. Опыты проводились на мышах. Специалисты культивировали стволовые клетки мозга взрослых мышей и добавляли в них содержащиеся в яблоках фитонутриенты. 

Ученые из Университета Квинсленда и Немецкого центра нейродегенеративных заболеваний обнаружили неожиданный эффект от употребления яблок. Результаты исследования появились в научном журнале Stem Cell Reports.
Опыты проводились на мышах. Специалисты культивировали стволовые клетки мозга взрослых мышей и добавляли в них содержащиеся в яблоках фитонутриенты. Исследование показало, что высокая концентрация фитонутриентов способствует образованию новых нейронов.
По словам ученых, определенные фитонутриенты положительно влияют на работу органов, в том числе мозга. Выяснилось, что они оказывают на организм тот же эффек

'Ученые из Университета Квинсленда и Немецкого центра нейродегенеративных заболеваний обнаружили неожиданный эффект от употребления яблок. Результаты исследования появились в научном журнале Stem Cell Reports.'

А теперь та же страница, но через BeautyfulSoup.

In [43]:
from bs4 import BeautifulSoup as bs

In [45]:
souped = bs(page.text)

print(souped("h1")[0].get_text())
print(souped.find_all("time", attrs={'class': 'topic-header__time'})[0].get_text().strip())
print(souped.find_all("a", attrs={'class': 'topic-authors__author'})[0].get_text())
print(souped.find_all("meta", attrs={'property': 'og:description'})[0]["content"], '\n')

for p in souped.find_all("p", attrs={'class': 'topic-body__content-text'}): 
    print(p.get_text())

Обнаружен неожиданный эффект от употребления яблок
15:35, 27 февраля 2021
Соня Кошечкина
Ученые из Университета Квинсленда и Немецкого центра нейродегенеративных заболеваний  обнаружили неожиданный эффект от употребления яблок. Опыты проводились на мышах. Специалисты культивировали стволовые клетки мозга взрослых мышей и добавляли в них содержащиеся в яблоках фитонутриенты. 

Ученые из Университета Квинсленда и Немецкого центра нейродегенеративных заболеваний обнаружили неожиданный эффект от употребления яблок. Результаты исследования появились в научном журнале Stem Cell Reports.
Опыты проводились на мышах. Специалисты культивировали стволовые клетки мозга взрослых мышей и добавляли в них содержащиеся в яблоках фитонутриенты. Исследование показало, что высокая концентрация фитонутриентов способствует образованию новых нейронов.
По словам ученых, определенные фитонутриенты положительно влияют на работу органов, в том числе мозга. Выяснилось, что они оказывают на организм тот же эффект,

Для разнообразия - другая страница с другого сайта.

In [48]:
page = requests.get('https://www.rbc.ru/economics/03/03/2021/603f848c9a7947bdd444102f?from=from_main_1')

In [51]:
tree = html.fromstring(page.text)
print(tree.xpath(".//h1")[0].text_content())
print(tree.xpath(".//span[@itemprop='datePublished']")[0].text_content().strip())
# print(tree.xpath(".//span[@itemprop='name']")[0].text_content().strip(), '\n')
print(tree.xpath(".//meta[@itemprop='description']")[0].get("content"), '\n')

for p in tree.xpath(".//div[@itemprop='articleBody']/p"):
    print(p.text_content())

ПМЭФ решили провести после данных о «постпандемийном переломе»
03 мар 2021, 15:44
Петербургский форум пройдет 2–5 июня. Решение о проведении ПМЭФ после годичного перерыва объяснили тем, что Россия и мир находятся «в точке постпандемийного перелома» 

Петербургский международный экономический форум (ПМЭФ) пройдет 2–5 июня 2021 года. Об этом сообщил выступающий оргкомитетом форума фонд Росконгресс.
«Оргкомитет форума приложит все усилия для проведения мероприятия с учетом действующих мер безопасности по предупреждению распространения новой коронавирусной инфекции (СOVID-19), которые тщательным образом проработаны с Роспотребнадзором с учетом требований ВОЗ», — заявил ответственный секретарь оргкомитета ПМЭФ и советник президента России Антон Кобяков.
По его словам, решение о проведении ПМЭФ принято с учетом выводов экспертов о том, что Россия и мир находятся «в точке постпандемийного перелома», а всеобщая вакцинация и формирование коллективного иммунитета делают возможной «стабилизацию э