# 05 - Webscrapping - Raspagem de Dados da Internet
## Aula 12 - 03 - Webscrapping - Explorando conteúdo  XML

## Professor: Orlando Oliveira dos Santos, MsC.
 - E-mail: professor.orlando.santos@gmail.com 
 - Youtube :https://www.youtube.com/channel/UCPWWbkPWFmOjXH50TQWNAYg
 - Linkedin: https://linkedin.com/in/orlandoosantos
 - Facebook: https://www.facebook.com/proforlandosantosmsc/
 - Twitter: https://twitter.com/ProfOrlandoMsC
 - Instagram: https://www.instagram.com/proforlandosantosmsc/



## Formação Acadêmica
- Mestrado em Computação Aplicada - UnB (2014 – 2016)	
- MBA, Administração Estratégica de Sistemas de Informação – FGV (2011 – 2013)
- Tecnólogo em Processamento de Dados, Análise e Desenvolvimento de Sistemas – FAETEC/SP (2000-2002)

# Acessando e Manipulando Arquivos XML com requests e xml.etree.ElementTree

- Requests é uma biblioteca HTTP para Python simples e elegante, feita para seres humanos.
- https://requests.readthedocs.io/pt_BR/latest/index.html

- xml.etree.ElementTreemódulo implementa uma API simples e eficiente para analisar e criar dados XML.
- https://docs.python.org/3/library/xml.etree.elementtree.html

In [1]:
import requests
url = 'https://dadosabertos.camara.leg.br/api/v2/deputados' 
headers = {'accept': 'application/xml'}
r = requests.get(url, headers=headers)
r.text

"<xml><dados><deputado_><id>204521</id><uri>https://dadosabertos.camara.leg.br/api/v2/deputados/204521</uri><nome>Abou Anni</nome><siglaPartido>UNIÃO</siglaPartido><uriPartido>https://dadosabertos.camara.leg.br/api/v2/partidos/38009</uriPartido><siglaUf>SP</siglaUf><idLegislatura>56</idLegislatura><urlFoto>https://www.camara.leg.br/internet/deputado/bandep/204521.jpg</urlFoto><email/></deputado_><deputado_><id>204379</id><uri>https://dadosabertos.camara.leg.br/api/v2/deputados/204379</uri><nome>Acácio Favacho</nome><siglaPartido>MDB</siglaPartido><uriPartido>https://dadosabertos.camara.leg.br/api/v2/partidos/36899</uriPartido><siglaUf>AP</siglaUf><idLegislatura>56</idLegislatura><urlFoto>https://www.camara.leg.br/internet/deputado/bandep/204379.jpg</urlFoto><email/></deputado_><deputado_><id>204560</id><uri>https://dadosabertos.camara.leg.br/api/v2/deputados/204560</uri><nome>Adolfo Viana</nome><siglaPartido>PSDB</siglaPartido><uriPartido>https://dadosabertos.camara.leg.br/api/v2/parti

## Parsing XML Content

O Método fromstring()analisa o XML de uma string diretamente em um Element, que é o elemento raiz da árvore analisada.

In [2]:
import xml.etree.ElementTree as ET
root = ET.fromstring(r.text) 

### Como um Element, root tem uma tag e um dicionário de atributo

In [3]:
root.tag

'xml'

In [4]:
root.attrib

{}

### O root também tem nós filhos sobre os quais podemos iterar:

### Encontrando elementos interessantes com  Element.iter()
Element possui alguns métodos úteis que ajudam a iterar recursivamente em toda a subárvore abaixo dela (seus filhos, seus filhos e assim por diante). Por 
#### Exemplo acessando os dados de todos deputados e gerando uma lista de tuplas

In [5]:
deputados = []
for deputado in list(root.iter('deputado_'))[:3]:
  dadosdep = []
  for dado in deputado:
    dadosdep.append(dado.text)
  deputados.append(tuple(dadosdep))

deputados

[('204521',
  'https://dadosabertos.camara.leg.br/api/v2/deputados/204521',
  'Abou Anni',
  'UNIÃO',
  'https://dadosabertos.camara.leg.br/api/v2/partidos/38009',
  'SP',
  '56',
  'https://www.camara.leg.br/internet/deputado/bandep/204521.jpg',
  None),
 ('204379',
  'https://dadosabertos.camara.leg.br/api/v2/deputados/204379',
  'Acácio Favacho',
  'MDB',
  'https://dadosabertos.camara.leg.br/api/v2/partidos/36899',
  'AP',
  '56',
  'https://www.camara.leg.br/internet/deputado/bandep/204379.jpg',
  None),
 ('204560',
  'https://dadosabertos.camara.leg.br/api/v2/deputados/204560',
  'Adolfo Viana',
  'PSDB',
  'https://dadosabertos.camara.leg.br/api/v2/partidos/36835',
  'BA',
  '56',
  'https://www.camara.leg.br/internet/deputado/bandep/204560.jpg',
  None)]

In [6]:
for dado in deputado:
  print(dado)

<Element 'id' at 0x000002597F54A048>
<Element 'uri' at 0x000002597F54A098>
<Element 'nome' at 0x000002597F54A0E8>
<Element 'siglaPartido' at 0x000002597F54A138>
<Element 'uriPartido' at 0x000002597F54A188>
<Element 'siglaUf' at 0x000002597F54A1D8>
<Element 'idLegislatura' at 0x000002597F54A228>
<Element 'urlFoto' at 0x000002597F54A278>
<Element 'email' at 0x000002597F54A2C8>


In [7]:
dado.text

In [8]:
dado.tag

'email'

In [11]:
deputados = []
for deputado in list(root.iter('deputado_'))[:3]:
    dadosdep = {}
    for dado in deputado:
        dadosdep[dado.tag] = dado.text
    deputados.append(dadosdep)

deputados

[{'id': '204521',
  'uri': 'https://dadosabertos.camara.leg.br/api/v2/deputados/204521',
  'nome': 'Abou Anni',
  'siglaPartido': 'UNIÃO',
  'uriPartido': 'https://dadosabertos.camara.leg.br/api/v2/partidos/38009',
  'siglaUf': 'SP',
  'idLegislatura': '56',
  'urlFoto': 'https://www.camara.leg.br/internet/deputado/bandep/204521.jpg',
  'email': None},
 {'id': '204379',
  'uri': 'https://dadosabertos.camara.leg.br/api/v2/deputados/204379',
  'nome': 'Acácio Favacho',
  'siglaPartido': 'MDB',
  'uriPartido': 'https://dadosabertos.camara.leg.br/api/v2/partidos/36899',
  'siglaUf': 'AP',
  'idLegislatura': '56',
  'urlFoto': 'https://www.camara.leg.br/internet/deputado/bandep/204379.jpg',
  'email': None},
 {'id': '204560',
  'uri': 'https://dadosabertos.camara.leg.br/api/v2/deputados/204560',
  'nome': 'Adolfo Viana',
  'siglaPartido': 'PSDB',
  'uriPartido': 'https://dadosabertos.camara.leg.br/api/v2/partidos/36835',
  'siglaUf': 'BA',
  'idLegislatura': '56',
  'urlFoto': 'https://www.

#### Exemplo acessando os dados de todos deputados e gerando uma matriz ndarray

In [12]:
import numpy as np
deputados = None
for deputado in list(root.iter('deputado_'))[:3]:
    dadosdep = None
    for dado in deputado:
        valor =  np.array(dado.text, dtype=str, ndmin=2)
        if dadosdep is None:
            dadosdep= valor
        else:
            dadosdep = np.append(dadosdep, valor)
  
    if deputados is None:
        deputados = dadosdep.copy()
    else:
        deputados = np.vstack((deputados,dadosdep))

deputados[:,[2,3]]

array([['Abou Anni', 'UNIÃO'],
       ['Acácio Favacho', 'MDB'],
       ['Adolfo Viana', 'PSDB']], dtype='<U61')

In [13]:
deputados[:]

array([['204521',
        'https://dadosabertos.camara.leg.br/api/v2/deputados/204521',
        'Abou Anni', 'UNIÃO',
        'https://dadosabertos.camara.leg.br/api/v2/partidos/38009', 'SP',
        '56',
        'https://www.camara.leg.br/internet/deputado/bandep/204521.jpg',
        'None'],
       ['204379',
        'https://dadosabertos.camara.leg.br/api/v2/deputados/204379',
        'Acácio Favacho', 'MDB',
        'https://dadosabertos.camara.leg.br/api/v2/partidos/36899', 'AP',
        '56',
        'https://www.camara.leg.br/internet/deputado/bandep/204379.jpg',
        'None'],
       ['204560',
        'https://dadosabertos.camara.leg.br/api/v2/deputados/204560',
        'Adolfo Viana', 'PSDB',
        'https://dadosabertos.camara.leg.br/api/v2/partidos/36835', 'BA',
        '56',
        'https://www.camara.leg.br/internet/deputado/bandep/204560.jpg',
        'None']], dtype='<U61')

Exemplo acessando os nomes dos deputados e gerando uma lista

In [14]:
nomes = [ nome.text for nome in list(root.iter('nome'))]
print(nomes)

['Abou Anni', 'Acácio Favacho', 'Adolfo Viana', 'Adriana Ventura', 'Adriano do Baldy', 'Aécio Neves', 'Aelton Freitas', 'Afonso Florence', 'Afonso Hamm', 'Afonso Motta', 'Airton Faleiro', 'AJ Albuquerque', 'Alceu Moreira', 'Alcides Rodrigues', 'Alê Silva', 'Alencar Santana', 'Alessandro Molon', 'Alex Manente', 'Alex Santana', 'Alexandre Figueiredo', 'Alexandre Frota', 'Alexandre Leite', 'Alexandre Padilha', 'Alexis Fonteyne', 'Alice Portugal', 'Aliel Machado', 'Aline Gurgel', 'Aline Sleutjes', 'Altineu Côrtes', 'Aluisio Mendes', 'Amaro Neto', 'André Abdon', 'André de Paula', 'André Ferreira', 'André Figueiredo', 'André Fufuca', 'André Janones', 'Angela Amin', 'Antônia Lúcia', 'Antonio Brito', 'Arlindo Chinaglia', 'Arnaldo Jardim', 'Aroldo Martins', 'Arthur Lira', 'Arthur Oliveira Maia', 'Átila Lins', 'Átila Lira', 'Augusto Coutinho', 'Áurea Carolina', 'Aureo Ribeiro', 'Bacelar', 'Baleia Rossi', 'Benedita da Silva', 'Benes Leocádio', 'Beto Faro', 'Beto Pereira', 'Beto Rosado', 'Bia Kici

### Navegando da na estrutura do XML nível a nível da árvore

In [15]:
for filho in root:
    print(filho.tag, filho.attrib)
    for neto in list(filho)[:2]:
        print(neto.tag, neto.attrib)
        for bisneto in neto:
            print(bisneto.tag, bisneto.text)

dados {}
deputado_ {}
id 204521
uri https://dadosabertos.camara.leg.br/api/v2/deputados/204521
nome Abou Anni
siglaPartido UNIÃO
uriPartido https://dadosabertos.camara.leg.br/api/v2/partidos/38009
siglaUf SP
idLegislatura 56
urlFoto https://www.camara.leg.br/internet/deputado/bandep/204521.jpg
email None
deputado_ {}
id 204379
uri https://dadosabertos.camara.leg.br/api/v2/deputados/204379
nome Acácio Favacho
siglaPartido MDB
uriPartido https://dadosabertos.camara.leg.br/api/v2/partidos/36899
siglaUf AP
idLegislatura 56
urlFoto https://www.camara.leg.br/internet/deputado/bandep/204379.jpg
email None
links {}
link {}
rel self
href https://dadosabertos.camara.leg.br/api/v2/deputados
link {}
rel first
href https://dadosabertos.camara.leg.br/api/v2/deputados?pagina=1&itens=1000


### Acessando os dados do XML com  XPath 

Este módulo fornece suporte limitado para expressões XPath para localizar elementos em uma árvore. O objetivo é oferecer suporte a um pequeno subconjunto da sintaxe abreviada

#### Exemplo:  Acessando a todos os elementos com a  tag nome

In [16]:
nomes = [depnome.text for depnome in root.findall(".//nome")][:10]
print(nomes)

['Abou Anni', 'Acácio Favacho', 'Adolfo Viana', 'Adriana Ventura', 'Adriano do Baldy', 'Aécio Neves', 'Aelton Freitas', 'Afonso Florence', 'Afonso Hamm', 'Afonso Motta']


#### Exemplo:  Acessando a todos os elementos com a  tag deputado_ em seguinda os elementos com a tag nome dentre de cada elemento deputado

In [17]:
path = './dados/deputado_'
for dep in list(root.findall(path))[:3]:
    nome = dep.find('./nome')
    print(nome.text)

Abou Anni
Acácio Favacho
Adolfo Viana


#### Exemplo:  Acessando a todos os elementos com path = /dados/deputado_/nome

In [18]:
path = './dados/deputado_/nome'
for dep_nome in list(root.findall(path))[:3]:
    print(dep_nome.text)

Abou Anni
Acácio Favacho
Adolfo Viana


# Manipulando conteúdo xml com o pacote xmltodict
- https://github.com/martinblech/xmltodict
- xmltodict é um módulo Python que faz com que trabalhar com XML pareça que você está trabalhando com JSON

## Instalação do xmltodict

In [19]:
!pip install xmltodict

Collecting xmltodict
  Downloading xmltodict-0.13.0-py2.py3-none-any.whl (10.0 kB)
Installing collected packages: xmltodict
Successfully installed xmltodict-0.13.0


You should consider upgrading via the 'c:\python\envs\jupyter\scripts\python.exe -m pip install --upgrade pip' command.


## Baixando o conteúdo XML com o Requests

In [20]:
import requests
url = 'https://dadosabertos.camara.leg.br/api/v2/deputados' 
headers = {'accept': 'application/xml'}
r = requests.get(url, headers=headers)
r.text

"<xml><dados><deputado_><id>204521</id><uri>https://dadosabertos.camara.leg.br/api/v2/deputados/204521</uri><nome>Abou Anni</nome><siglaPartido>UNIÃO</siglaPartido><uriPartido>https://dadosabertos.camara.leg.br/api/v2/partidos/38009</uriPartido><siglaUf>SP</siglaUf><idLegislatura>56</idLegislatura><urlFoto>https://www.camara.leg.br/internet/deputado/bandep/204521.jpg</urlFoto><email/></deputado_><deputado_><id>204379</id><uri>https://dadosabertos.camara.leg.br/api/v2/deputados/204379</uri><nome>Acácio Favacho</nome><siglaPartido>MDB</siglaPartido><uriPartido>https://dadosabertos.camara.leg.br/api/v2/partidos/36899</uriPartido><siglaUf>AP</siglaUf><idLegislatura>56</idLegislatura><urlFoto>https://www.camara.leg.br/internet/deputado/bandep/204379.jpg</urlFoto><email/></deputado_><deputado_><id>204560</id><uri>https://dadosabertos.camara.leg.br/api/v2/deputados/204560</uri><nome>Adolfo Viana</nome><siglaPartido>PSDB</siglaPartido><uriPartido>https://dadosabertos.camara.leg.br/api/v2/parti

## Convertendo o response.Text em um dicionário com o xmltodict

In [21]:
import xmltodict
doc = xmltodict.parse(r.text)

## Acessando o conteúdo como um dicionário pelo nome das chaves

In [22]:
doc['xml']['dados']['deputado_'][3]

{'id': '204528',
 'uri': 'https://dadosabertos.camara.leg.br/api/v2/deputados/204528',
 'nome': 'Adriana Ventura',
 'siglaPartido': 'NOVO',
 'uriPartido': 'https://dadosabertos.camara.leg.br/api/v2/partidos/37901',
 'siglaUf': 'SP',
 'idLegislatura': '56',
 'urlFoto': 'https://www.camara.leg.br/internet/deputado/bandep/204528.jpg',
 'email': None}

## Acessando o conteúdo como um dicionário com loops for aninhados

In [24]:
for k, v in doc.items():
    print(k)
    for k1, v1 in v.items():
        print(k1)
        for k2, v2 in list(v1.items())[:4]:
            print(k2, v2 )


xml
dados
deputado_ [{'id': '204521', 'uri': 'https://dadosabertos.camara.leg.br/api/v2/deputados/204521', 'nome': 'Abou Anni', 'siglaPartido': 'UNIÃO', 'uriPartido': 'https://dadosabertos.camara.leg.br/api/v2/partidos/38009', 'siglaUf': 'SP', 'idLegislatura': '56', 'urlFoto': 'https://www.camara.leg.br/internet/deputado/bandep/204521.jpg', 'email': None}, {'id': '204379', 'uri': 'https://dadosabertos.camara.leg.br/api/v2/deputados/204379', 'nome': 'Acácio Favacho', 'siglaPartido': 'MDB', 'uriPartido': 'https://dadosabertos.camara.leg.br/api/v2/partidos/36899', 'siglaUf': 'AP', 'idLegislatura': '56', 'urlFoto': 'https://www.camara.leg.br/internet/deputado/bandep/204379.jpg', 'email': None}, {'id': '204560', 'uri': 'https://dadosabertos.camara.leg.br/api/v2/deputados/204560', 'nome': 'Adolfo Viana', 'siglaPartido': 'PSDB', 'uriPartido': 'https://dadosabertos.camara.leg.br/api/v2/partidos/36835', 'siglaUf': 'BA', 'idLegislatura': '56', 'urlFoto': 'https://www.camara.leg.br/internet/deput

In [25]:
[ x['siglaPartido'] for x in   doc['xml']['dados']['deputado_'][:3] ]

['UNIÃO', 'MDB', 'PSDB']