# Работа с имеющимся деревом

In [1]:
from xml.etree import ElementTree
tree = ElementTree.parse('example.xml') # Возвращение дерева
root = tree.getroot() # опросили корень
print(root)
print(root.tag, root.attrib)

<Element 'studentsList' at 0x0000024A9EE49E50>
studentsList {}


In [2]:
# исполнение по тегам
for child in root:
    print(child.tag, child.attrib)

student {'id': '1'}
student {'id': '2'}


In [3]:
# индексация через числа для обращения к детям и детям детей
print(root[0][0].text) # 
print(root[0][1].text)
print(root[0][2].text)
print(root[0][3])

Greg
Dean
True
<Element 'scores' at 0x0000024A9EE79EA0>


In [4]:
# Итерация - перебор всех элементов внутри поддерева с данным тегом:
for element in root.iter('scores'):
    print(element) #2 элемента scores - у первого и второго студента
    

<Element 'scores' at 0x0000024A9EE79EA0>
<Element 'scores' at 0x0000024A9EE7C180>


In [5]:
# Перебор детей в элементе scores - ам 3 результата

In [6]:
# Score sum for 1st and 2nd student
for element in root.iter('scores'):
    score_sum = 0
    for child in element:
        score_sum += float(child.text)
    print(score_sum)

240.0
250.0


In [7]:
# - iter - все интересующие элементы в поддереве
# - .findall - только лишь среди детей - например, со студентами работает, а с баллами - нет, так как это дитё дитя
for element in root.findall('student'):
    print(element)

<Element 'student' at 0x0000024A9EE51900>
<Element 'student' at 0x0000024A9EE7C040>


# Запись дерева в XML-формат

In [8]:
tree = ElementTree.parse('example.xml')
root = tree.getroot()
tree.write('example_copy.xml')

In [9]:
# Изменение данных
greg = root[0]
module1 = next(greg.iter('module1'))
print(module1, module1.text)  # убедились, что это модуль 1 и в нём 70 баллов
module1.text = str(float(module1.text) + 30)
tree.write('example_modified.xml')  # есколько раз запускал код, поэтому у него баллов больше 100

<Element 'module1' at 0x0000024A9EE8A450> 70


In [10]:
# создание и изменение атрибута
tree = ElementTree.parse('example_modified.xml')
root = tree.getroot()

greg = root[0]
certificate = greg[2]
certificate.set('type', 'with distinction')  # Атрибут type со значением "с отличием"
tree.write('example_modified.xml')

## Добавление и создание элементов

In [11]:
description = ElementTree.Element('description')
description.text = 'Excellent skills'
greg.append(description)

tree.write('example_modified.xml')

## Удаление элемента

In [12]:
description = greg.find('description')  # найти вхождение первого ребёнка, являющегося тегом description
greg.remove(description)

tree.write('example_modified.xml')

# Создание дерева с самого начала

In [13]:
root = ElementTree.Element('student')

first_name = ElementTree.SubElement(root, 'firstName')
first_name.text = 'Dean'

second_name = ElementTree.SubElement(root, 'secondName')
second_name.text = 'Dean'

scores = ElementTree.SubElement(root, 'scores')

module1 = ElementTree.SubElement(scores, 'module1')
module1.text = '160'

module2 = ElementTree.SubElement(scores, 'module2')
module2.text = '80'

module3 = ElementTree.SubElement(scores, 'module3')
module3.text = '90'

tree = ElementTree.ElementTree(root)
tree.write('student.xml')

# Разбор данных в формате html
### библиотека lxml

In [14]:
from lxml import etree
import requests
# иблиотека lxml пытается вести себя как elementtree

In [15]:
# parser может проходить через плохо сформированные данные формата html
res = requests.get('https://docs.python.org/3/')
print(res.status_code)
print(res.headers['Content-Type'])

200
text/html


In [16]:
parser = etree.HTMLParser()
root = etree.fromstring(res.text, parser)  # орень дерева

print(root)

# выделение в корне элементов с тегом "а"
for element in root.iter('a'):
    print(element, element.attrib)

<Element html at 0x24a9f1dbdc0>
<Element a at 0x24a9f2018c0> {'href': 'genindex.html', 'title': 'General Index', 'accesskey': 'I'}
<Element a at 0x24a9f2017c0> {'href': 'py-modindex.html', 'title': 'Python Module Index'}
<Element a at 0x24a9ee7b240> {'href': 'https://www.python.org/'}
<Element a at 0x24a9ee7b780> {'href': '#'}
<Element a at 0x24a9ee7b740> {'class': 'biglink', 'href': 'whatsnew/3.8.html'}
<Element a at 0x24a9ee7b240> {'href': 'whatsnew/index.html'}
<Element a at 0x24a9ee7b140> {'class': 'biglink', 'href': 'tutorial/index.html'}
<Element a at 0x24a9ee7b740> {'class': 'biglink', 'href': 'library/index.html'}
<Element a at 0x24a9ee7b600> {'class': 'biglink', 'href': 'reference/index.html'}
<Element a at 0x24a9ee7b240> {'class': 'biglink', 'href': 'using/index.html'}
<Element a at 0x24a9ee7b140> {'class': 'biglink', 'href': 'howto/index.html'}
<Element a at 0x24a9ee7b740> {'class': 'biglink', 'href': 'installing/index.html'}
<Element a at 0x24a9ee7b600> {'class': 'biglink',