# Prática com XML

Nesse notebook vamos aprender a realizar acesso a dados em formato xml.

### Importação das libs necessárias

In [10]:
import pandas as pd
import xml.etree.ElementTree as ET

### xml.etree.ElementTree
Módulo padrão de python para leitura de xml.
Vamos abrir o arquivo xml de exemplo e exibir a raiz do arquivo. Percebam que a tag raiz do nosso exemplo não tem atributos.

In [2]:
xml_file = ET.parse('./exemplo01_xml')
root_xml = xml_file.getroot()
print(f'Tag raiz do arquivo: {root_xml.tag}')
print(f'Atributos da tag raiz do arquivo: {root_xml.attrib}')

Tag raiz do arquivo: bookstore
Atributos da tag raiz do arquivo: {}


Podemos iterar pelos filhos de *bookstore* e exibir seus conteúdos

In [8]:
for idx, child in enumerate(root_xml):
    print(f'Filho número {idx}')
    print(f'  Tag: {child.tag}')
    print(f'  Atributos: {child.attrib}')
    print(f'  title: {child[0].text}')
    print(f'  author: {child[1].text}')
    print(f'  year: {child[2].text}')
    print(f'  price: {child[3].text}')

Filho número 0
  Tag: book
  Atributos: {'category': 'cooking'}
  title: Everyday Italian
  author: Giada De Laurentiis
  year: 2005
  price: 30.00
Filho número 1
  Tag: book
  Atributos: {'category': 'children'}
  title: Harry Potter
  author: J K. Rowling
  year: 2005
  price: 29.99
Filho número 2
  Tag: book
  Atributos: {'category': 'web'}
  title: Learning XML
  author: Erik T. Ray
  year: 2003
  price: 39.95


Você consegue modificar a célula acima para exibir também as propriedades *author, year e price*?

#### *iter* e *itertext*

*iter* e *itertext* são funções interessantes para iterar pelos filhos de um nodo da árvore que representa o xml.

In [8]:
for title in root_xml.iter('title'):
    print(title.text)

Everyday Italian
Harry Potter
Learning XML


Repare no exemplo abaixo que precisamos testar se a string não é vazia antes de usar o *print*. Isso é necessário pois temos diversas tags sem conteúdo texto em nosso arquivo de exemplo.

In [9]:
for text in root_xml.itertext():
    if text.strip():
        print(text)

Everyday Italian
Giada De Laurentiis
2005
30.00
Harry Potter
J K. Rowling
2005
29.99
Learning XML
Erik T. Ray
2003
39.95


#### *find* e *findall*

Para buscar entre os filhos diretos de um elemento podemos usar *find* e *findall*. A diferença entre eles é que *find* vai retornar apenas a primeira ocorrência da busca enquanto o *findall* retorna uma lista de resultados.

In [10]:
for book in root_xml.findall('book'):
    title = book.find('title').text
    price = book.find('price').text
    print(title, price)


Everyday Italian 30.00
Harry Potter 29.99
Learning XML 39.95


### Usando pandas

In [12]:
pd.read_xml('./exemplo01_xml', encoding='utf-8')

Unnamed: 0,category,title,author,year,price
0,cooking,Everyday Italian,Giada De Laurentiis,2005,30.0
1,children,Harry Potter,J K. Rowling,2005,29.99
2,web,Learning XML,Erik T. Ray,2003,39.95


Podemos escolher importar somente atributos ou elementos. Para fazer isso usamos os parâmetros nomeados *elems_only* ou *attrs_only*.

In [15]:
pd.read_xml('./exemplo01_xml', encoding='utf-8', elems_only=True)

Unnamed: 0,title,author,year,price
0,Everyday Italian,Giada De Laurentiis,2005,30.0
1,Harry Potter,J K. Rowling,2005,29.99
2,Learning XML,Erik T. Ray,2003,39.95


In [16]:
pd.read_xml('./exemplo01_xml', encoding='utf-8', attrs_only=True)

Unnamed: 0,category
0,cooking
1,children
2,web
