# XML Parsing

Neste tutorial, vamos executar alguns experimentos com um arquivo **XML** chamado `livros.xml`

Para tais tarefas, utilizaremos as bibliotecas:

- **Requests:** De forma a obtermos o **arquivo xml** localizado em **https://pythonwebscraping.netlify.app/livros.xml**
- **Beautiful Soup:** Para executarmos buscas em nosso arquivo
- **xml:** Para executarmos consultas e manipular os elementos de nosso arquivo

In [338]:
import xml.etree.ElementTree as et 
from bs4 import BeautifulSoup
import requests

In [339]:
r = requests.get('https://pythonwebscraping.netlify.app/livros.xml')

Obtendo a string que representa nosso arquivo

In [340]:
r.text

'<biblioteca>\n\t<livro categoria="Cyber Punk">\n\t\t<titulo lang="en">Neuromancer</titulo>\n\t\t<autor>William Gibson</autor>\n\t\t<ano>1984</ano>\n\t</livro>\n\t<livro categoria="Distopia">\n\t\t<titulo lang="en">Nineteen Eighty-Four: A Novel</titulo>\n\t\t<autor>George Orwell</autor>\n\t\t<ano>1949</ano>\n\t</livro>\n\t<livro categoria="Ciência da Computação">\n\t\t<titulo lang="en">How to Think Like a Computer Scientist</titulo>\n\t\t<autor>Peter Wentworth, Jeffrey Elkner, Allen B. Downey, and Chris Meyers</autor>\n\t\t<ano>2012</ano>\n\t</livro>\n\t<livro categoria="Programação">\n\t\t<titulo lang="en">Making Games with Python and Pygame</titulo>\n\t\t<autor>AI Sweigart</autor>\n\t\t<ano>2012</ano>\n\t</livro>\n</biblioteca>\n'

Vamos então guardar a string em uma variável que chamaremos de **xml**

In [341]:
xml = r.text
print(xml)

<biblioteca>
	<livro categoria="Cyber Punk">
		<titulo lang="en">Neuromancer</titulo>
		<autor>William Gibson</autor>
		<ano>1984</ano>
	</livro>
	<livro categoria="Distopia">
		<titulo lang="en">Nineteen Eighty-Four: A Novel</titulo>
		<autor>George Orwell</autor>
		<ano>1949</ano>
	</livro>
	<livro categoria="Ciência da Computação">
		<titulo lang="en">How to Think Like a Computer Scientist</titulo>
		<autor>Peter Wentworth, Jeffrey Elkner, Allen B. Downey, and Chris Meyers</autor>
		<ano>2012</ano>
	</livro>
	<livro categoria="Programação">
		<titulo lang="en">Making Games with Python and Pygame</titulo>
		<autor>AI Sweigart</autor>
		<ano>2012</ano>
	</livro>
</biblioteca>



Vamos passar essa string para o construtor `BeautifulSoup()`, utilizaremos neste caso específico o parser **'xml'**

In [342]:
soup = BeautifulSoup(xml, "xml")

Podemos também usar o método `prettify()` para imprimir o nosso arquivo

In [343]:
soup.prettify()

'<?xml version="1.0" encoding="utf-8"?>\n<biblioteca>\n <livro categoria="Cyber Punk">\n  <titulo lang="en">\n   Neuromancer\n  </titulo>\n  <autor>\n   William Gibson\n  </autor>\n  <ano>\n   1984\n  </ano>\n </livro>\n <livro categoria="Distopia">\n  <titulo lang="en">\n   Nineteen Eighty-Four: A Novel\n  </titulo>\n  <autor>\n   George Orwell\n  </autor>\n  <ano>\n   1949\n  </ano>\n </livro>\n <livro categoria="Ciência da Computação">\n  <titulo lang="en">\n   How to Think Like a Computer Scientist\n  </titulo>\n  <autor>\n   Peter Wentworth, Jeffrey Elkner, Allen B. Downey, and Chris Meyers\n  </autor>\n  <ano>\n   2012\n  </ano>\n </livro>\n <livro categoria="Programação">\n  <titulo lang="en">\n   Making Games with Python and Pygame\n  </titulo>\n  <autor>\n   AI Sweigart\n  </autor>\n  <ano>\n   2012\n  </ano>\n </livro>\n</biblioteca>'

Selecionando o conteúdo do elemento `<livro>`

In [344]:
soup.select("livro")

[<livro categoria="Cyber Punk">
 <titulo lang="en">Neuromancer</titulo>
 <autor>William Gibson</autor>
 <ano>1984</ano>
 </livro>,
 <livro categoria="Distopia">
 <titulo lang="en">Nineteen Eighty-Four: A Novel</titulo>
 <autor>George Orwell</autor>
 <ano>1949</ano>
 </livro>,
 <livro categoria="Ciência da Computação">
 <titulo lang="en">How to Think Like a Computer Scientist</titulo>
 <autor>Peter Wentworth, Jeffrey Elkner, Allen B. Downey, and Chris Meyers</autor>
 <ano>2012</ano>
 </livro>,
 <livro categoria="Programação">
 <titulo lang="en">Making Games with Python and Pygame</titulo>
 <autor>AI Sweigart</autor>
 <ano>2012</ano>
 </livro>]

Selecionando os elementos `<titulo>`

In [345]:
soup.select("titulo")

[<titulo lang="en">Neuromancer</titulo>,
 <titulo lang="en">Nineteen Eighty-Four: A Novel</titulo>,
 <titulo lang="en">How to Think Like a Computer Scientist</titulo>,
 <titulo lang="en">Making Games with Python and Pygame</titulo>]

Podemos utilizar um **for loop** para obtermos somente o texto

In [346]:
for titulo in soup.select("titulo"):
    print(titulo.text)

Neuromancer
Nineteen Eighty-Four: A Novel
How to Think Like a Computer Scientist
Making Games with Python and Pygame


Podemos buscar pelo atributo **'categoria'**

In [347]:
soup.find_all("livro", {"categoria" : "Cyber Punk"})

[<livro categoria="Cyber Punk">
 <titulo lang="en">Neuromancer</titulo>
 <autor>William Gibson</autor>
 <ano>1984</ano>
 </livro>]

Podemos também buscar pelo atributo **'lang'**

In [348]:
soup.find_all("titulo", {"lang" : "en"})

[<titulo lang="en">Neuromancer</titulo>,
 <titulo lang="en">Nineteen Eighty-Four: A Novel</titulo>,
 <titulo lang="en">How to Think Like a Computer Scientist</titulo>,
 <titulo lang="en">Making Games with Python and Pygame</titulo>]

Agora vamos construir um elemento `xml.etree.ElementTree.Element` através do método `fromstring()`

- Passaremos nossa string xml como argumento
- A variável será chamada de tree, uma vez que ela representará uma árvore XML

In [349]:
tree = et.fromstring(xml)
type(tree)

xml.etree.ElementTree.Element

Vejamos os atributos e métodos disponíveis

In [350]:
print(dir(tree))

['__class__', '__copy__', '__deepcopy__', '__delattr__', '__delitem__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__len__', '__lt__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setitem__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', 'append', 'attrib', 'clear', 'extend', 'find', 'findall', 'findtext', 'get', 'getchildren', 'getiterator', 'insert', 'items', 'iter', 'iterfind', 'itertext', 'keys', 'makeelement', 'remove', 'set', 'tag', 'tail', 'text']


O atributo **tag** nos traz o elemento raíz da árvore (root)

In [351]:
tree.tag

'biblioteca'

Através do **for loop** podemos buscar as tags e atributos de nossa biblioteca

In [352]:
for livro in tree.findall("livro"):
    print(livro.tag, livro.attrib)

livro {'categoria': 'Cyber Punk'}
livro {'categoria': 'Distopia'}
livro {'categoria': 'Ciência da Computação'}
livro {'categoria': 'Programação'}


Com o **for loop**, podemos acessar somente o conteúdo dos elementos, neste caso:

- Título
- Ano

In [353]:
for livro in tree.findall("livro"):
    titulo = livro.find('titulo').text
    ano = livro.find('ano').text
    print(f'{titulo} | {ano}')

Neuromancer | 1984
Nineteen Eighty-Four: A Novel | 1949
How to Think Like a Computer Scientist | 2012
Making Games with Python and Pygame | 2012


Com o for loop, podemos acessar somente o conteúdo dos elementos, neste caso:

- Autor

In [354]:
for livro in tree.findall('livro'):
    autor = livro.find('autor').text
    print(autor)

William Gibson
George Orwell
Peter Wentworth, Jeffrey Elkner, Allen B. Downey, and Chris Meyers
AI Sweigart


### Inserindo um Novo Elemento na Árvore

Criando um novo sub-elemento livro com o atributo **categoria='Dystopia'**

In [355]:
novo_livro = et.SubElement(tree, 'livro', attrib={'categoria':'Dystopia'})

Criando um novo sub-elemento **titulo**

In [356]:
novo_livro_titulo = et.SubElement(novo_livro, 'titulo')

Criando um novo sub-elemento **autor**

In [357]:
novo_livro_autor = et.SubElement(novo_livro, 'autor')

Criando um novo sub-elemento **ano**

In [358]:
novo_livro_ano = et.SubElement(novo_livro, 'ano')

Inserindo os respectivos textos em cada elemento

In [359]:
novo_livro_titulo.text = 'Brave New World'
novo_livro_autor.text = 'Aldous Huxley'
novo_livro_ano.text = '1931'

Através de um **for loop** vamos percorrer nossa árvore atualizada

In [360]:
for livro in tree.findall('livro'):
    titulo = livro.find('titulo').text
    autor = livro.find('autor').text
    ano = livro.find('ano').text
    print(f'{titulo} {autor} {ano}')

Neuromancer William Gibson 1984
Nineteen Eighty-Four: A Novel George Orwell 1949
How to Think Like a Computer Scientist Peter Wentworth, Jeffrey Elkner, Allen B. Downey, and Chris Meyers 2012
Making Games with Python and Pygame AI Sweigart 2012
Brave New World Aldous Huxley 1931


Para escrevermos em um arquivo, será necessário construirmos uma `ElementTree()`, para isso vamos passar **'tree'** como argumento para o construtor

In [361]:
root = et.ElementTree(tree)

Observe que agora temos o método `write()` disponível

In [362]:
print(dir(root))

['__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_root', '_setroot', 'find', 'findall', 'findtext', 'getiterator', 'getroot', 'iter', 'iterfind', 'parse', 'write', 'write_c14n']


Salvando os dados em um arquivo de nome `novos_livros.xml`

In [363]:
root.write('novos_livros.xml', encoding="utf-8")

Perceba que o novo arquivo que salvamos não está no formato que desejamos

Podemos solucionar este problema com o método `prettify()` da biblioteca **Beautiful Soup**

In [364]:
with open('novos_livros.xml', 'r') as file:
    f = file.read()

soup = BeautifulSoup(f, "xml")
prettify = soup.prettify()
print(prettify)

<?xml version="1.0" encoding="utf-8"?>
<biblioteca>
 <livro categoria="Cyber Punk">
  <titulo lang="en">
   Neuromancer
  </titulo>
  <autor>
   William Gibson
  </autor>
  <ano>
   1984
  </ano>
 </livro>
 <livro categoria="Distopia">
  <titulo lang="en">
   Nineteen Eighty-Four: A Novel
  </titulo>
  <autor>
   George Orwell
  </autor>
  <ano>
   1949
  </ano>
 </livro>
 <livro categoria="Ciência da Computação">
  <titulo lang="en">
   How to Think Like a Computer Scientist
  </titulo>
  <autor>
   Peter Wentworth, Jeffrey Elkner, Allen B. Downey, and Chris Meyers
  </autor>
  <ano>
   2012
  </ano>
 </livro>
 <livro categoria="Programação">
  <titulo lang="en">
   Making Games with Python and Pygame
  </titulo>
  <autor>
   AI Sweigart
  </autor>
  <ano>
   2012
  </ano>
 </livro>
 <livro categoria="Dystopia">
  <titulo>
   Brave New World
  </titulo>
  <autor>
   Aldous Huxley
  </autor>
  <ano>
   1931
  </ano>
 </livro>
</biblioteca>


Podemos também usar o método `toprettyxml()` da biblioteca **xml**

In [365]:
import xml.dom.minidom

with open('novos_livros.xml', 'r') as file:
    f = file.read()
    pp = lambda data: '\n'.join([line for line in xml.dom.minidom.parseString(f).toprettyxml(indent=' '*4).split('\n') if line.strip()])
    print(pp(f))

<?xml version="1.0" ?>
<biblioteca>
    <livro categoria="Cyber Punk">
        <titulo lang="en">Neuromancer</titulo>
        <autor>William Gibson</autor>
        <ano>1984</ano>
    </livro>
    <livro categoria="Distopia">
        <titulo lang="en">Nineteen Eighty-Four: A Novel</titulo>
        <autor>George Orwell</autor>
        <ano>1949</ano>
    </livro>
    <livro categoria="Ciência da Computação">
        <titulo lang="en">How to Think Like a Computer Scientist</titulo>
        <autor>Peter Wentworth, Jeffrey Elkner, Allen B. Downey, and Chris Meyers</autor>
        <ano>2012</ano>
    </livro>
    <livro categoria="Programação">
        <titulo lang="en">Making Games with Python and Pygame</titulo>
        <autor>AI Sweigart</autor>
        <ano>2012</ano>
    </livro>
    <livro categoria="Dystopia">
        <titulo>Brave New World</titulo>
        <autor>Aldous Huxley</autor>
        <ano>1931</ano>
    </livro>
</biblioteca>


E agora finalmente salvamos a versão final de nosso arquivo

In [366]:
with open('novos_livros.xml', 'w') as file:
    file.write(pp(f))