# XML Parsing

Neste tutorial, vamos executar alguns experimentos com um arquivo chamado `livros.xml`

Para tais tarefas, utilizaremos as bibliotecas:

- **Requests:** De forma a obtermos o **arquivo xml** localizado em **https://pythonwebscraping.netlify.com/livros.xml**
- **Beautiful Soup:** Para executarmos buscas em nosso arquivo
- **xml:** Para executarmos consultas e manipular os elementos de nosso arquivo

In [26]:
import requests
from bs4 import BeautifulSoup
import xml.etree.ElementTree as et 

In [27]:
r = requests.get('https://pythonwebscraping.netlify.com/livros.xml')

In [28]:
# Obtendo a string de nosso arquivo
r.text

'<biblioteca>\n\t<livro categoria="Cyber Punk">\n\t\t<titulo lang="en">Neuromancer</titulo>\n\t\t<autor>William Gibson</autor>\n\t\t<ano>1984</ano>\n\t</livro>\n\t<livro categoria="Distopia">\n\t\t<titulo lang="en">Nineteen Eighty-Four: A Novel</titulo>\n\t\t<autor>George Orwell</autor>\n\t\t<ano>1949</ano>\n\t</livro>\n\t<livro categoria="Ciência da Computação">\n\t\t<titulo lang="en">How to Think Like a Computer Scientist</titulo>\n\t\t<autor>Peter Wentworth, Jeffrey Elkner, Allen B. Downey, and Chris Meyers</autor>\n\t\t<ano>2012</ano>\n\t</livro>\n\t<livro categoria="Programação">\n\t\t<titulo lang="en">Making Games with Python and Pygame</titulo>\n\t\t<autor>AI Sweigart</autor>\n\t\t<ano>2012</ano>\n\t</livro>\n</biblioteca>\n'

In [29]:
# Vamos guardar a string em uma variável chamada xml
xml = r.text

In [30]:
# Vamos passar essa string para o construtor BeautifulSoup(), utilizaremos o parser 'xml'
soup = BeautifulSoup(xml, "xml")

In [31]:
# Imprimindo com o método prettify()
soup.prettify()

'<?xml version="1.0" encoding="utf-8"?>\n<biblioteca>\n <livro categoria="Cyber Punk">\n  <titulo lang="en">\n   Neuromancer\n  </titulo>\n  <autor>\n   William Gibson\n  </autor>\n  <ano>\n   1984\n  </ano>\n </livro>\n <livro categoria="Distopia">\n  <titulo lang="en">\n   Nineteen Eighty-Four: A Novel\n  </titulo>\n  <autor>\n   George Orwell\n  </autor>\n  <ano>\n   1949\n  </ano>\n </livro>\n <livro categoria="Ciência da Computação">\n  <titulo lang="en">\n   How to Think Like a Computer Scientist\n  </titulo>\n  <autor>\n   Peter Wentworth, Jeffrey Elkner, Allen B. Downey, and Chris Meyers\n  </autor>\n  <ano>\n   2012\n  </ano>\n </livro>\n <livro categoria="Programação">\n  <titulo lang="en">\n   Making Games with Python and Pygame\n  </titulo>\n  <autor>\n   AI Sweigart\n  </autor>\n  <ano>\n   2012\n  </ano>\n </livro>\n</biblioteca>'

In [32]:
# Selecionando o conteúdo do elemento <livro>
soup.select("livro")

[<livro categoria="Cyber Punk">
 <titulo lang="en">Neuromancer</titulo>
 <autor>William Gibson</autor>
 <ano>1984</ano>
 </livro>, <livro categoria="Distopia">
 <titulo lang="en">Nineteen Eighty-Four: A Novel</titulo>
 <autor>George Orwell</autor>
 <ano>1949</ano>
 </livro>, <livro categoria="Ciência da Computação">
 <titulo lang="en">How to Think Like a Computer Scientist</titulo>
 <autor>Peter Wentworth, Jeffrey Elkner, Allen B. Downey, and Chris Meyers</autor>
 <ano>2012</ano>
 </livro>, <livro categoria="Programação">
 <titulo lang="en">Making Games with Python and Pygame</titulo>
 <autor>AI Sweigart</autor>
 <ano>2012</ano>
 </livro>]

In [33]:
# Selecionando os elementos <titulo>
soup.select("titulo")

[<titulo lang="en">Neuromancer</titulo>,
 <titulo lang="en">Nineteen Eighty-Four: A Novel</titulo>,
 <titulo lang="en">How to Think Like a Computer Scientist</titulo>,
 <titulo lang="en">Making Games with Python and Pygame</titulo>]

In [34]:
# Podemos utilizar um for loop para obtermos somente o texto
for titulo in soup.select("titulo"):
    print(titulo.text)

Neuromancer
Nineteen Eighty-Four: A Novel
How to Think Like a Computer Scientist
Making Games with Python and Pygame


In [35]:
# Podemos buscar pelo atributo 'categoria'
soup.find_all("livro", {"categoria" : "Cyber Punk"})

[<livro categoria="Cyber Punk">
 <titulo lang="en">Neuromancer</titulo>
 <autor>William Gibson</autor>
 <ano>1984</ano>
 </livro>]

In [36]:
# Podemos também buscar pelo atributo 'lang'
soup.find_all("titulo", {"lang" : "en"})

[<titulo lang="en">Neuromancer</titulo>,
 <titulo lang="en">Nineteen Eighty-Four: A Novel</titulo>,
 <titulo lang="en">How to Think Like a Computer Scientist</titulo>,
 <titulo lang="en">Making Games with Python and Pygame</titulo>]

In [37]:
# Agora vamos construir um elemento 'xml.etree.ElementTree.Element' através do método fromstring(), 
# Passaremos nossa string xml como argumento
# A variável será chamada de tree, uma vez que ela representará uma árvore XML
tree = et.fromstring(xml)
type(tree)

xml.etree.ElementTree.Element

In [38]:
# Vejamos os atributos e métodos disponíveis
dir(tree)

['__class__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__len__',
 '__lt__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setitem__',
 '__setstate__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'append',
 'attrib',
 'clear',
 'extend',
 'find',
 'findall',
 'findtext',
 'get',
 'getchildren',
 'getiterator',
 'insert',
 'items',
 'iter',
 'iterfind',
 'itertext',
 'keys',
 'makeelement',
 'remove',
 'set',
 'tag',
 'tail',
 'text']

In [39]:
# O atributo tag nos traz a raíz da árvore
tree.tag

'biblioteca'

In [40]:
# Através do for loop podemos buscar as tags e atributos de nossa biblioteca
for livro in tree.findall("livro"):
    print(livro.tag, livro.attrib)

livro {'categoria': 'Cyber Punk'}
livro {'categoria': 'Distopia'}
livro {'categoria': 'Ciência da Computação'}
livro {'categoria': 'Programação'}


In [41]:
# Com o for loop, podemos acessar somente o conteúdo dos elementos
# Nesse caso: titulo e ano
for livro in tree.findall("livro"):
    titulo = livro.find('titulo').text
    ano = livro.find('ano').text
    print(f'{titulo} | {ano}')

Neuromancer | 1984
Nineteen Eighty-Four: A Novel | 1949
How to Think Like a Computer Scientist | 2012
Making Games with Python and Pygame | 2012


In [42]:
# Com o for loop, podemos acessar somente o conteúdo dos elementos
# Nesse caso: autor
for livro in tree.findall('livro'):
    autor = livro.find('autor').text
    print(autor)

William Gibson
George Orwell
Peter Wentworth, Jeffrey Elkner, Allen B. Downey, and Chris Meyers
AI Sweigart


### Inserindo um Novo Elemento na Árvore

In [43]:
# Criando um novo sub-elemento livro com o atributo categoria='Dystopia'
novo_livro = et.SubElement(tree, 'livro', attrib={'categoria':'Dystopia'})
# Criando um novo sub-elemento titulo
novo_livro_titulo = et.SubElement(novo_livro, 'titulo')
# Criando um novo sub-elemento autor
novo_livro_autor = et.SubElement(novo_livro, 'autor')
# Criando um novo sub-elemento ano
novo_livro_ano = et.SubElement(novo_livro, 'ano')

In [44]:
# Inserindo os respectivos textos em cada elemento
novo_livro_titulo.text = 'Brave New World'
novo_livro_autor.text = 'Aldous Huxley'
novo_livro_ano.text = '1931'

In [45]:
# Através de um for loop vamos percorrer nossa árvore atualizada
for livro in tree.findall('livro'):
    titulo = livro.find('titulo').text
    autor = livro.find('autor').text
    ano = livro.find('ano').text
    print(f'{titulo} {autor} {ano}')

Neuromancer William Gibson 1984
Nineteen Eighty-Four: A Novel George Orwell 1949
How to Think Like a Computer Scientist Peter Wentworth, Jeffrey Elkner, Allen B. Downey, and Chris Meyers 2012
Making Games with Python and Pygame AI Sweigart 2012
Brave New World Aldous Huxley 1931


In [46]:
# Para escrevermos em um arquivo, será necessário
# construirmos uma ElementTree(), para isso vamos passar 'tree' para o construtor
root = et.ElementTree(tree)

In [49]:
# Veja que agora temos o método **write()** disponível
dir(root)

['__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_root',
 '_setroot',
 'find',
 'findall',
 'findtext',
 'getiterator',
 'getroot',
 'iter',
 'iterfind',
 'parse',
 'write',
 'write_c14n']

In [48]:
# Salvando os dados em um arquivo 'novos_livros.xml'
root.write('novos_livros.xml', encoding="utf-8")