# XML
### eXtensible Markup Language
https://docs.python.org/3.7/library/xml.etree.elementtree.html

In [1]:
# Примеры:
    
<?xml version="1.0" ?>
<zAppointments reminder="15">
    <appointment>
        <begin>1181251680</begin>
        <uid>040000008200E000</uid>
        <alarmTime>1181572063</alarmTime>
        <state></state>
        <location></location>
        <duration>1800</duration>
        <subject>Bring pizza home</subject>
    </appointment>
</zAppointments>


<?xml version="1.0"?>
<data>
    <country name="Liechtenstein">
        <rank updated="yes">2</rank>
        <year>2008</year>
        <gdppc>141100</gdppc>
        <neighbor name="Austria" direction="E"/>
        <neighbor name="Switzerland" direction="W"/>
    </country>
    <country name="Singapore">
        <rank updated="yes">5</rank>
        <year>2011</year>
        <gdppc>59900</gdppc>
        <neighbor name="Malaysia" direction="N"/>
    </country>
    <country name="Panama">
        <rank updated="yes">69</rank>
        <year>2011</year>
        <gdppc>13600</gdppc>
        <neighbor name="Costa Rica" direction="W"/>
        <neighbor name="Colombia" direction="E"/>
    </country>
</data>

In [171]:
import xml.etree.ElementTree as ET 

In [337]:
xml_text = """<?xml version="1.0"?>
<data>
    <country name="Liechtenstein">
        <rank updated="yes">2</rank>
        <year>2008</year>
        <gdppc>141100</gdppc>
        <neighbor name="Austria" direction="E"/>
        <neighbor name="Switzerland" direction="W"/>
    </country>
    <country name="Singapore">
        <rank updated="yes">5</rank>
        <year>2011</year>
        <gdppc>59900</gdppc>
        <neighbor name="Malaysia" direction="N"/>
    </country>
    <country name="Panama">
        <rank updated="yes">69</rank>
        <year>2011</year>
        <gdppc>13600</gdppc>
        <neighbor name="Costa Rica" direction="W"/>
        <neighbor name="Colombia" direction="E"/>
    </country>
</data>"""


In [226]:
root = ET.fromstring(xml_text)

In [187]:
root

<Element 'data' at 0x10d90a048>

In [188]:
root.tag

'data'

In [189]:
root.attrib

{}

In [190]:
root.text

'\n    '

In [191]:
for child in root:
    print(child.tag)

country
country
country


In [192]:
first_child = root.getchildren()[0]
first_child.tag

'country'

In [193]:
first_child.attrib

{'name': 'Liechtenstein'}

In [194]:
first_child.text

'\n        '

### Find with XPath support
https://msdn.microsoft.com/en-us/library/ms256086(v=vs.110).aspx - xPath examples

In [212]:
# Top-level elements
root.findall(".")

[<Element 'data' at 0x10d90a048>]

In [213]:
# All 'neighbor' grand-children of 'country' children of the top-level
# elements
root.findall("./country/neighbor")

[<Element 'neighbor' at 0x10d90a958>,
 <Element 'neighbor' at 0x10d90a9a8>,
 <Element 'neighbor' at 0x10d90ab38>,
 <Element 'neighbor' at 0x10d90acc8>,
 <Element 'neighbor' at 0x10d90ad18>]

In [214]:
# Nodes with name='Singapore' that have a 'year' child
root.findall(".//year/..[@name='Singapore']")

[<Element 'country' at 0x10d90a9f8>]

In [215]:
# 'year' nodes that are children of nodes with name='Singapore'
root.findall(".//*[@name='Singapore']/year")

[<Element 'year' at 0x10d90aa98>]

In [216]:
# All 'neighbor' nodes that are the second child of their parent
root.findall(".//neighbor[2]")

[<Element 'neighbor' at 0x10d90a9a8>, <Element 'neighbor' at 0x10d90ad18>]

### Более сложный пример:

In [257]:
import requests 
resp = requests.get('http://www.forbes.ru/newrss.xml') 

In [258]:
root = ET.fromstring(resp.text)

In [259]:
with open('topnewsfeed.xml', 'wb') as f: 
    f.write(resp.content)
    
tree = ET.parse('topnewsfeed.xml')

root = tree.getroot()

In [260]:
root.tag

'rss'

In [150]:
root.attrib

{'version': '2.0',
 '{http://www.w3.org/XML/1998/namespace}base': 'http://www.forbes.ru/'}

In [52]:
for child in root:
    print(child.tag, child.attrib)

channel {}


In [57]:
root[0]

<Element 'channel' at 0x10d64fd68>

In [69]:
root.findall('channel/item')

[<Element 'item' at 0x10d6372c8>,
 <Element 'item' at 0x10d637958>,
 <Element 'item' at 0x10d637d68>,
 <Element 'item' at 0x10d63b1d8>,
 <Element 'item' at 0x10d63b5e8>,
 <Element 'item' at 0x10d63b9f8>,
 <Element 'item' at 0x10d63be08>,
 <Element 'item' at 0x10d622278>,
 <Element 'item' at 0x10d622688>,
 <Element 'item' at 0x10d622b38>,
 <Element 'item' at 0x10d622ea8>,
 <Element 'item' at 0x10d2b8318>,
 <Element 'item' at 0x10d2b8728>,
 <Element 'item' at 0x10d2b8b38>,
 <Element 'item' at 0x10d2b8f48>,
 <Element 'item' at 0x10d2b63b8>,
 <Element 'item' at 0x10d2b67c8>,
 <Element 'item' at 0x10d2b6cc8>,
 <Element 'item' at 0x10d29e138>,
 <Element 'item' at 0x10d29e548>]

In [70]:
root.findall('*/item/content')

[<Element 'content' at 0x10d637318>,
 <Element 'content' at 0x10d6379a8>,
 <Element 'content' at 0x10d637db8>,
 <Element 'content' at 0x10d63b228>,
 <Element 'content' at 0x10d63b638>,
 <Element 'content' at 0x10d63ba48>,
 <Element 'content' at 0x10d63be58>,
 <Element 'content' at 0x10d6222c8>,
 <Element 'content' at 0x10d6226d8>,
 <Element 'content' at 0x10d622b88>,
 <Element 'content' at 0x10d622ef8>,
 <Element 'content' at 0x10d2b8368>,
 <Element 'content' at 0x10d2b8778>,
 <Element 'content' at 0x10d2b8b88>,
 <Element 'content' at 0x10d2b8f98>,
 <Element 'content' at 0x10d2b6408>,
 <Element 'content' at 0x10d2b6818>,
 <Element 'content' at 0x10d2b6d18>,
 <Element 'content' at 0x10d29e188>,
 <Element 'content' at 0x10d29e598>]

In [347]:
def parse_xml(xml_file): 
  
    # создаем tree объект 
    tree = ET.parse(xml_file) 
  
    # достаем из дерева корневой элемент 
    root = tree.getroot() 
  
    # создаем пустой лист для единиц новостей 
    news_items = [] 
  
    # итерируемся по новостям 
    for item in root.findall('./channel/item'): # ищем элементы по пути
        news = {}
        
        # итерируемся по дочерним элементам
        for child in item:  
            news[child.tag] = child.text
  
        news_items.append(news) 
      
    return news_items 

In [348]:
news_items = parse_xml('topnewsfeed.xml')

In [256]:
news_items[0]

{'category': 'Миллиардеры',
 'content': '<p>Прискорбно наблюдать, как буквально на глазах Лондон\xa0из относительно спокойного и морально комфортабельного европейского города (можно даже сказать — финансовой столицы мира)\xa0становится чем-то, напоминающим Бейрут — по висящей в воздухе атмосфере напряжения.\xa0Истерия началась с исторического голосования за «выход» Шотландии, потом резко усугубилась неожиданным и непонятным «Брэкзитом», а сейчас, благодаря всячески распространяемой правительством консерваторов истерии вокруг всего российского, превратилась в публичную «инфекционную шизофрению». Но кроме атмосферы «Путин идет со спецназом по Пикадилли», есть еще много факторов, влияющих на современный Лондон\xa0— совершенно отдельное\xa0от Британии и всего мира государство со своими законами, правилами и обычаями.</p>\n<h2><strong>От Березовского до Скрипаля: смерть в Британии</strong></h2>\n<p>В соцсетях часто повторятся вопрос: «А почему у вас в Лондоне постоянно кого-нибудь убивают? 

In [349]:
import pandas as pd

data = pd.DataFrame(news_items)
data.head()

Unnamed: 0,category,content,description,enclosure,guid,link,pubDate,source,title
0,Финансы и инвестиции,"<p>На днях агентство Bloomberg <a target=""_bla...",Ужесточение денежно-кредитной политики в США в...,,http://www.forbes.ru/finansy-i-investicii/3686...,http://www.forbes.ru/finansy-i-investicii/3686...,"Thu, 01 Nov 2018 16:55:51 +0300",Forbes.ru - Главные темы дня,Расплата за жизнь взаймы. Грозит ли Америке до...
1,Технологии,"<p dir=""ltr"">Одними из самых популярных технол...",Каждый год Gartner публикует прогнозы по тренд...,,http://www.forbes.ru/tehnologii/368653-itogi-g...,http://www.forbes.ru/tehnologii/368653-itogi-g...,"Thu, 01 Nov 2018 16:01:01 +0300",Forbes.ru - Главные темы дня,Итоги года: какие технологии вписали 2018-й в ...
2,Карьера и свой бизнес,<p>Если мы начнем создавать облако ассоциаций ...,"Работодатели понимают, что стресс снижает прои...",,http://www.forbes.ru/karera-i-svoy-biznes/3684...,http://www.forbes.ru/karera-i-svoy-biznes/3684...,"Thu, 01 Nov 2018 15:46:01 +0300",Forbes.ru - Главные темы дня,Плата за кофе-брейк. Как бизнес борется со стр...
3,Миллиардеры,"<p>Вице-президент «Лукойла» <a href=""/node/661...","Антон и Екатерина Федун, не работающие в струк...",,http://www.forbes.ru/milliardery/368661-leonid...,http://www.forbes.ru/milliardery/368661-leonid...,"Thu, 01 Nov 2018 15:41:01 +0300",Forbes.ru - Главные темы дня,Леонид Федун передал своим детям акции «Лукойл...
4,ForbesLife,<p>Песок простирается на десятки километров во...,"98% отказов в визе для иностранцев, запрет на ...",,http://www.forbes.ru/forbeslife/368659-prezide...,http://www.forbes.ru/forbeslife/368659-prezide...,"Thu, 01 Nov 2018 15:31:01 +0300",Forbes.ru - Главные темы дня,Президент за рулем. Как прошел ралли-рейд в од...


# Блиц

1. Для xml со странами выведете все названия стран (country name)
2. Создайте словарь, где в ключах будет название страны, а в значении - list со странами-соседями
3. Напишите find, в котором найдите все теги, в которых есть аттрибут direction="E"
4. Для xml от Forbes выведете все title новостей в категории Технологии. Напишите аналогичный фильтр для DataFrame выше.

In [339]:
# 1

root = ET.fromstring(xml_text)
for country in root.findall('country[@name]'):
    print(country.attrib['name'])

Liechtenstein
Singapore
Panama


In [340]:
# 2
from collections import defaultdict

country2neighbors = defaultdict(list)
for country in root.findall('country[@name]'):
    for neighbor in country.findall('neighbor[@name]'):
        country2neighbors[country.attrib['name']].append(neighbor.attrib['name'])
        
country2neighbors

defaultdict(list,
            {'Liechtenstein': ['Austria', 'Switzerland'],
             'Panama': ['Costa Rica', 'Colombia'],
             'Singapore': ['Malaysia']})

In [341]:
# 3
for n in root.findall('.//neighbor'):
    print(n.attrib)

{'name': 'Austria', 'direction': 'E'}
{'name': 'Switzerland', 'direction': 'W'}
{'name': 'Malaysia', 'direction': 'N'}
{'name': 'Costa Rica', 'direction': 'W'}
{'name': 'Colombia', 'direction': 'E'}


In [350]:
# 4

tree = ET.parse('topnewsfeed.xml')
root = tree.getroot()
for item in root.findall('.//item[category]'):
    if item.find('category').text == 'Технологии':
        if item.find('title') is not None:
            print(item.find('title').text)

data[data['category'] == 'Технологии']

Итоги года: какие технологии вписали 2018-й в историю
История времени: суперкомпьютер вычислил начало Вселенной
Школа Джобса: романтики и анархисты от ИТ


Unnamed: 0,category,content,description,enclosure,guid,link,pubDate,source,title
1,Технологии,"<p dir=""ltr"">Одними из самых популярных технол...",Каждый год Gartner публикует прогнозы по тренд...,,http://www.forbes.ru/tehnologii/368653-itogi-g...,http://www.forbes.ru/tehnologii/368653-itogi-g...,"Thu, 01 Nov 2018 16:01:01 +0300",Forbes.ru - Главные темы дня,Итоги года: какие технологии вписали 2018-й в ...
7,Технологии,<p>Профессор Майкл Норман из лаборатории вычис...,"Компьютерные симуляции, проведенные в Суперком...",,http://www.forbes.ru/tehnologii/368583-istoriy...,http://www.forbes.ru/tehnologii/368583-istoriy...,"Thu, 01 Nov 2018 14:35:05 +0300",Forbes.ru - Главные темы дня,История времени: суперкомпьютер вычислил начал...
12,Технологии,"<p><meta charset=""utf-8"" /></p>\n<p dir=""ltr"">...","Почему Павел Дуров, Линус Торвальдс и Палмер Л...",,http://www.forbes.ru/tehnologii/368635-shkola-...,http://www.forbes.ru/tehnologii/368635-shkola-...,"Thu, 01 Nov 2018 12:10:17 +0300",Forbes.ru - Главные темы дня,Школа Джобса: романтики и анархисты от ИТ
