## Чтение XML - read_xml

In [1]:
import pandas as pd

Функция read_xml() верхнего уровня может принимать строку/файл/URL XML и анализировать узлы и атрибуты в pandas DataFrame .

Поскольку не существует стандартной структуры XML, в которой типы дизайна могут различаться во многих отношениях, read_xml лучше всего работает с более плоскими и мелкими версиями. Если документ XML имеет глубокую вложенность, используйте функцию stylesheet для преобразования XML в более простую версию.

```
<?xml version="1.0" encoding="UTF-8"?>
<!-- bookstore.xml -->
<bookstore>
  <book ISBN="0123456001">
    <title>Java For Dummies</title>
    <author>Tan Ah Teck</author>
    <category>Programming</category>
    <year>2009</year>
    <edition>7</edition>
    <price>19.99</price>
  </book>
  <book ISBN="0123456002">
    <title>More Java For Dummies</title>
    <author>Tan Ah Teck</author>
    <category>Programming</category>
    <year>2008</year>
    <price>25.99</price>
  </book>
  <book ISBN="0123456010">
    <title>The Complete Guide to Fishing</title>
    <author>Bill Jones</author>
    <author>James Cook</author>
    <author>Mary Turing</author>
    <category>Fishing</category>
    <category>Leisure</category>
    <language>French</language>
    <year>2000</year>
    <edition>2</edition>
    <price>49.99</price>
  </book>
</bookstore>
```

In [2]:
data = pd.read_xml("https://raw.githubusercontent.com/yakushinav/omo/main/data/test.xml")

In [3]:
print(data)

        ISBN                          title       author     category  year  \
0  123456001               Java For Dummies  Tan Ah Teck  Programming  2009   
1  123456002          More Java For Dummies  Tan Ah Teck  Programming  2008   
2  123456010  The Complete Guide to Fishing  Mary Turing      Leisure  2000   

   edition  price language  
0      7.0  19.99     None  
1      NaN  25.99     None  
2      2.0  49.99   French  


In [4]:
# The resulting "separated" tables are stored as table_name: dataframe pairs.

data.keys()

Index(['ISBN', 'title', 'author', 'category', 'year', 'edition', 'price',
       'language'],
      dtype='object')

In [5]:
data['author']

Unnamed: 0,author
0,Tan Ah Teck
1,Tan Ah Teck
2,Mary Turing


In [6]:
data['category']

Unnamed: 0,category
0,Programming
1,Programming
2,Leisure


In [7]:
data['ISBN']

Unnamed: 0,ISBN
0,123456001
1,123456002
2,123456010


## Настройки чтения XML

In [8]:
#Укажите только элементы или только атрибуты для анализа:
data = pd.read_xml("https://raw.githubusercontent.com/yakushinav/omo/main/data/test.xml",elems_only=True)
data

Unnamed: 0,title,author,category,year,edition,price,language
0,Java For Dummies,Tan Ah Teck,Programming,2009,7.0,19.99,
1,More Java For Dummies,Tan Ah Teck,Programming,2008,,25.99,
2,The Complete Guide to Fishing,Mary Turing,Leisure,2000,2.0,49.99,French


In [9]:
#Укажите только элементы или только атрибуты для анализа:
data = pd.read_xml("https://raw.githubusercontent.com/yakushinav/omo/main/data/test.xml",attrs_only=True)
data

Unnamed: 0,ISBN
0,123456001
1,123456002
2,123456010


In [10]:
# Одним из мощных инструментов является возможность выборочно или условно запрашивать узлы с помощью XPath:
data = pd.read_xml("https://raw.githubusercontent.com/yakushinav/omo/main/data/test.xml",xpath="//book[year=2009]")
data

Unnamed: 0,ISBN,title,author,category,year,edition,price
0,123456001,Java For Dummies,Tan Ah Teck,Programming,2009,7,19.99


## Запись XML

In [11]:
data.to_xml("out.xml")