## XML

Краткое [введение в XML в картинках](https://habr.com/ru/post/524288/).  
Краткий [учебник по XML](https://msiter.ru/tutorials/uchebnik-xml-dlya-nachinayushchih/xml-dtd).  
Ссылка на [Википедию](https://ru.wikipedia.org/wiki/XML).  
Ссылка на [документацию](https://docs.python.org/3/library/xml.etree.elementtree.html).  


Разберем следующий документ.

```xml
<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE recipe>
<recipe name="хлеб" preptime="5min" cooktime="180min">
   <title>
      Простой хлеб
   </title>
   <composition>
      <ingredient amount="3" unit="стакан">Мука</ingredient>
      <ingredient amount="0.25" unit="грамм">Дрожжи</ingredient>
      <ingredient amount="1.5" unit="стакан">Тёплая вода</ingredient>
   </composition>
   <instructions>
     <step>
        Смешать все ингредиенты и тщательно замесить. 
     </step>
     <step>
        Закрыть тканью и оставить на один час в тёплом помещении. 
     </step>
     <!-- 
        <step>
           Почитать вчерашнюю газету. 
        </step>
         - это сомнительный шаг...
      -->
     <step>
        Замесить ещё раз, положить на противень и поставить в духовку.
     </step>
   </instructions>
</recipe>
```

<title name="Простой хлеб"/>
<ingredient ingr="Мука" amount="3" unit="стакан"/>

In [1]:
import xml.etree.ElementTree as ET

In [2]:
tree = ET.parse('1.xml')
root = tree.getroot()

In [3]:
with open("1.xml") as infile:
    data_string = infile.read()
root2 = ET.fromstring(data_string)

In [3]:
tree

<xml.etree.ElementTree.ElementTree at 0x7f61c28ec460>

In [4]:
root

<Element 'recipe' at 0x7f61c0749f80>

In [5]:
dir(tree)

['__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_root',
 '_setroot',
 'find',
 'findall',
 'findtext',
 'getroot',
 'iter',
 'iterfind',
 'parse',
 'write',
 'write_c14n']

In [6]:
dir(root)

['__class__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__len__',
 '__lt__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setitem__',
 '__setstate__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'append',
 'attrib',
 'clear',
 'extend',
 'find',
 'findall',
 'findtext',
 'get',
 'insert',
 'items',
 'iter',
 'iterfind',
 'itertext',
 'keys',
 'makeelement',
 'remove',
 'set',
 'tag',
 'tail',
 'text']

In [4]:
print(root.tag)
print(root.attrib)

recipe
{'name': 'хлеб', 'preptime': '5min', 'cooktime': '180min'}


In [9]:
for child in root:
    print(child.tag, child.attrib)

title {}
composition {}
instructions {}


In [5]:
type(root), type(root[0])

(xml.etree.ElementTree.Element, xml.etree.ElementTree.Element)

In [6]:
root[0].text

'\n      Простой хлеб\n   '

In [9]:
root[1][0].text

'Мука'

In [8]:
for step in root[2].iter('step'):
    print(step.text)


        Смешать все ингредиенты и тщательно замесить. 
     

        Закрыть тканью и оставить на один час в тёплом помещении. 
     

        Замесить ещё раз, положить на противень и поставить в духовку.
     


In [9]:
for step in root.findall("step"):
    print(step.text)

In [10]:
for step in root[2].findall("step"):
    print(step.text)


        Смешать все ингредиенты и тщательно замесить. 
     

        Закрыть тканью и оставить на один час в тёплом помещении. 
     

        Замесить ещё раз, положить на противень и поставить в духовку.
     


In [13]:
root.iter('step')

<_elementtree._element_iterator at 0x7fb98434a5c0>

In [14]:
list(root.iter("step"))

[<Element 'step' at 0x7fb984348e50>,
 <Element 'step' at 0x7fb984348ea0>,
 <Element 'step' at 0x7fb984348ef0>]

In [11]:
for ing in root[1].findall("ingredient"):
    print(ing.text, ing.get("amount"), ing.get("unit"))

Мука 3 стакан
Дрожжи 0.25 грамм
Тёплая вода 1.5 стакан


In [12]:
root[1][1].set("amount", "1")
root[1][1].text = "Плохенькие дрожжи"

In [13]:
for ing in root[1].findall("ingredient"):
    print(ing.text, ing.get("amount"), ing.get("unit"))

Мука 3 стакан
Плохенькие дрожжи 1 грамм
Тёплая вода 1.5 стакан


In [14]:
root[2].remove(root[2][1])

In [15]:
for step in root[2].findall("step"):
    print(step.text)


        Смешать все ингредиенты и тщательно замесить. 
     

        Замесить ещё раз, положить на противень и поставить в духовку.
     


In [16]:
b = ET.SubElement(root[2], "step")
b.text = "\n     Вспомнить, что надо было подождать, пока тесто подойдет.\n     "
b.set("extra_data", "extra_value")

In [17]:
for step in root[2].findall("step"):
    print(step.text)


        Смешать все ингредиенты и тщательно замесить. 
     

        Замесить ещё раз, положить на противень и поставить в духовку.
     

     Вспомнить, что надо было подождать, пока тесто подойдет.
     


### XPath
[Ссылка 1](https://habr.com/ru/post/526774/)

[Ссылка 2](https://habr.com/ru/post/464897/)

XPath позволяет задать шаблон для пути от корня XML-дерева к интересующей нас вершине.

- . - корень XML-дерева
- / - переход на один уровень ниже.
- // - переход на ноль или больше уровней вниз.
- \* - любая вершина.
- xyz - название вершины.
- [@feature] - вершина с параметром feature.
- [@feature='111'] - вершина с параметром feature, равным "111".
- xyz[n] - n-ый потомок вершины xyz.
- [func()] - вызов функции по имени.

Надо дополнить отсюда!!!  

https://habr.com/ru/post/588773/

https://soltau.ru/index.php/themes/dev/item/413

In [18]:
for step in root.findall("./*/step"):
    print(step.text)


        Смешать все ингредиенты и тщательно замесить. 
     

        Замесить ещё раз, положить на противень и поставить в духовку.
     

     Вспомнить, что надо было подождать, пока тесто подойдет.
     


In [21]:
for step in root.findall(".//step"):
    print(step.text)


        Смешать все ингредиенты и тщательно замесить. 
     

        Замесить ещё раз, положить на противень и поставить в духовку.
     

     Вспомнить, что надо было подождать, пока тесто подойдет.
     


А вот так ничего не найдется - надо указывать откуда искать.

In [22]:
for step in root.findall("step"):
    print(step.text)

In [23]:
for step in root.findall("./*/ingredient[@unit='стакан']"):
    print(step.text)

Мука
Тёплая вода


In [24]:
root.findall("./*/ingredient[@amount='3']")

[<Element 'ingredient' at 0x7ff36454b330>]

In [25]:
root.findall(".//*[@amount]")

[<Element 'ingredient' at 0x7ff36454b330>,
 <Element 'ingredient' at 0x7ff36454b420>,
 <Element 'ingredient' at 0x7ff36454b470>]

In [26]:
root.findall(".//composition/ingredient[2]")[0].text

'Плохенькие дрожжи'

In [27]:
root.findall(".//composition/ingredient[last()]")[0].text

'Тёплая вода'

In [31]:
root.findtext('.//composition/ingredient[last()]')
#root[1][0].text

'Тёплая вода'

А теперь давайте посмотрим как мы можем при помощи XPath обрабатывать HTML-документы.

In [28]:
import requests
from lxml import html

In [29]:
page = requests.get('https://lenta.ru/news/2021/02/27/apple_effect/')

In [30]:
page.text[:1000]

'<!DOCTYPE html><html lang="ru"><head><title>Обнаружен неожиданный эффект от употребления яблок: Наука: Наука и техника: Lenta.ru</title><meta charset="utf-8" /><meta content="#292929" name="theme-color" /><link href="https://m.lenta.ru/news/2021/02/27/apple_effect/" media="only screen and (max-width: 640px)" rel="alternate" /><link href="https://lenta.ru/rss/google-newsstand/main/" rel="alternate" type="application/rss+xml" /><link href="https://lenta.ru/news/2021/02/27/apple_effect/" rel="canonical" /><link href="/manifest.json" rel="manifest" /><link rel="shortcut icon" type="image/x-icon" href="https://icdn.lenta.ru/favicon.ico" /><link rel="apple-touch-icon" type="image/x-icon" href="https://icdn.lenta.ru/images/icons/icon-256x256.png" size="256x256" /><link rel="apple-touch-icon" type="image/x-icon" href="https://icdn.lenta.ru/images/icons/icon-192x192.png" size="192x192" /><link rel="apple-touch-icon" type="image/x-icon" href="https://icdn.lenta.ru/images/icons/icon-152x152.png"

In [32]:
# tree = html.fromstring(page.text)
# # Заголовок достается просто по тегу h1.
# print(tree.xpath(".//h1")[0].text_content())
# # Дата и время достается из тега <time class="topic-header__item topic-header__time">
# # Так как класс содерит в себе несколько имен, приходится применять contains().
# print(tree.xpath(".//time[contains(@class,'topic-header__time')]")[0].text_content().strip())
# # Автор обрамлен гиперссылкой с классом topic-authors__author.
# print(tree.xpath(".//a[contains(@class,'topic-authors__author')]")[0].text_content().strip(), '\n')
# # По каждой статье имеется краткое описание в теге <meta property="og:description"> в атрибуте content.
# print(tree.xpath(".//meta[@property='og:description']")[0].get("content"), '\n')

# # Текст статьи разложен по параграфам <p class="topic-body__content-text cbkbr">
# for p in tree.xpath(".//p[contains(@class,'topic-body__content-text')]"):
#     print(p.text_content())
    
# # Просто чтобы показать, что можно вписать промежуточный узел, а то мало ли что у них оформлено как параграф.
# print("---")
# tree.xpath(".//div[contains(@class,'topic-body')]//p[contains(@class,'topic-body__content-text')]")[0].text_content()



tree = html.fromstring(page.text)
ttl = tree.xpath(".//h1")[0].text_content()
dscrptn = tree.xpath(".//meta[@property='og:description']")[0].get("content")

txt = '\n'.join([p.text_content() for p in 
         tree.xpath(".//div[contains(@class, '_news')]//p[contains(@class, 'topic-body__content-text')]")]
                )
art_time = tree.xpath(".//a[contains(@class, 'topic-header__time')]")[0].text_content().strip()
art_author = tree.xpath(".//div[contains(@class, 'topic-authors')]")[0].text_content().strip()




In [14]:
ttl, dscrptn, txt

('Обнаружен неожиданный эффект от употребления яблок',
 'Ученые из Университета Квинсленда и Немецкого центра нейродегенеративных заболеваний  обнаружили неожиданный эффект от употребления яблок. Опыты проводились на мышах. Специалисты культивировали стволовые клетки мозга взрослых мышей и добавляли в них содержащиеся в яблоках фитонутриенты.',
 'Ученые из Университета Квинсленда и Немецкого центра нейродегенеративных заболеваний обнаружили неожиданный эффект от употребления яблок. Результаты исследования появились в научном журнале Stem Cell Reports.\nОпыты проводились на мышах. Специалисты культивировали стволовые клетки мозга взрослых мышей и добавляли в них содержащиеся в яблоках фитонутриенты. Исследование показало, что высокая концентрация фитонутриентов способствует образованию новых нейронов.\nПо словам ученых, определенные фитонутриенты положительно влияют на работу органов, в том числе мозга. Выяснилось, что они оказывают на организм тот же эффект, что и физическая активность

А теперь та же страница, но через BeautyfulSoup.

In [16]:
from bs4 import BeautifulSoup as bs

In [17]:
souped = bs(page.text)

print(souped("h1")[0].get_text())
print(souped.find_all("a", attrs={'class': 'topic-authors__author'})[0].get_text())
print(souped.find_all("meta", attrs={'property': 'og:description'})[0]["content"], '\n')
print(souped.find_all("time", attrs={'class': 'topic-header__time'})[0].get_text().strip())

for p in souped.find_all("p", attrs={'class': 'topic-body__content-text'}): 
    print(p.get_text())

Обнаружен неожиданный эффект от употребления яблок
Соня Кошечкина
Ученые из Университета Квинсленда и Немецкого центра нейродегенеративных заболеваний  обнаружили неожиданный эффект от употребления яблок. Опыты проводились на мышах. Специалисты культивировали стволовые клетки мозга взрослых мышей и добавляли в них содержащиеся в яблоках фитонутриенты. 



IndexError: list index out of range

Для разнообразия - другая страница с другого сайта.

In [18]:
page = requests.get('https://www.rbc.ru/economics/03/03/2021/603f848c9a7947bdd444102f?from=from_main_1')

In [19]:
tree = html.fromstring(page.text)
print(tree.xpath(".//h1")[0].text_content())
print(tree.xpath(".//span[@itemprop='datePublished']")[0].text_content().strip())
# print(tree.xpath(".//span[@itemprop='name']")[0].text_content().strip(), '\n')
print(tree.xpath(".//meta[@itemprop='description']")[0].get("content"), '\n')

for p in tree.xpath(".//div[@itemprop='articleBody']/p"):
    print(p.text_content())


                    ПМЭФ решили провести после данных о «постпандемийном переломе»

                


IndexError: list index out of range

In [45]:
pdf1 = requests.get("https://cyberleninka.ru/article/n/semantiko-sintaksicheskoe-opisanie-glagolov-professionalnoy-deyatelnosti-iz-materialov-k-semantiko-grammaticheskomu-slovaryu/pdf")

In [56]:
dir(pdf1)
pdf1.content[:200]

b"%PDF-1.4\n%\xe2\xe3\xcf\xd3\n1 0 obj\n<</Author(katya)/CreationDate(D:20200129093126+03'00')/Creator(Adobe InDesign CC 14.0 \\(Macintosh\\))/ModDate(D:20200224020154+03'00')/Producer(Acrobat Distiller 15.0 \\(Macintosh"

In [51]:
!pip install pypdf

Defaulting to user installation because normal site-packages is not writeable
[0mCollecting pypdf
  Downloading pypdf-3.7.0-py3-none-any.whl (246 kB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m246.9/246.9 KB[0m [31m2.2 MB/s[0m eta [36m0:00:00[0m[31m1.4 MB/s[0m eta [36m0:00:01[0m
[?25hInstalling collected packages: pypdf
Successfully installed pypdf-3.7.0


In [54]:
from pypdf import PdfReader
import io

In [58]:
f = io.BytesIO(pdf1.content)

reader = PdfReader(f)

In [59]:
number_of_pages = len(reader.pages)
page = reader.pages[0]
text = page.extract_text()

In [60]:
text

'УЧЕНЫЕ  ЗАПИСКИ  ПЕТРОЗАВОДСКОГО  ГОСУДАРСТВЕННОГО  УНИВЕРСИТЕТА\n© Смирнова  Е. А., 2020Т. 42. № 1. С. 72–81 Языкознание  2020\nDOI: 10.15393/uchz.art.2020.435УДК  81`1\nЕКАТЕРИНА  АНДРЕЕВНА  СМИРНОВА\nкандидат  филологических  наук , научный  сотрудник  секто -\nра теоретической  семантики\nФедеральное  государственное  бюджетное  учреждение  нау-\nки Институт  русского  языка  имени  В. В. Виноградова  РАН  \n(Москва , Российская  Федерация )\nkatarzina@yandex.ru\nСЕМАНТИКО -СИНТАКСИЧЕСКОЕ  ОПИСАНИЕ  ГЛАГОЛОВ  \nПРОФЕССИОНАЛЬНОЙ  ДЕЯТЕЛЬНОСТИ  \n(из материалов  к Семантико -грамматическому  словарю )*\nПредставлено  описание  парадигматических  возможностей  глагольной  группы  профессиональ -\nной деятельности  на -ничать  и выявлены  семантико -синтаксические  запреты  на образование  тех \nили иных  глагольных  форм . На материале  Национального  корпуса  русского  языка  (НКРЯ ) показа -\nны тенденции  в области  глагольного  словоизменения  и словообразования  внутри  данной  

In [61]:
stream_url = 'https://radiorecord.hostingradio.ru/198096.aacp?listening-from-radio-garden=1680922353'
r = requests.get(stream_url, stream=True)

with open('stream.mp3', 'wb') as f:
    try:
        for block in r.iter_content(1024):
            f.write(block)
    except KeyboardInterrupt:
        pass