# BeautifulSoup

## Introdução
        
<figure style="color:black;text-align:center" name="alice-pais">
  <center>
    <img src="https://www.crummy.com/software/BeautifulSoup/bs4/doc/_images/6.1.jpg" align="middle" class="ilustracao-livro">            
   <figcaption style="text-align: center;">
                Figura.1 - O nome BeautifulSoup é inspirado no livro Alice no País das Maravilhas.
   </figcaption>
  </center>
</figure>
        <br>
        <div id="content">
            BeautifulSoup é um pacote para extração de dados de HTML e XML. A documentação pode ser encontrada neste
            <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">link</a>.
        </div>
        <ul name="lista-caracteristicas">
            <li>Criado em 2004</li>
            <li>Extração de dados em arquivos <b>XML</b> e <b>HTML</b></li>
            <li>Funciona com diferentes parsers</li>
            <li>Linguagem clara e intuitiva</li>
            <li>Detecação e conversão automática da codificação das strings</li>
            <li>Ótima capacidade para lidar com código HTML mal formatado</li>
        </ul>

## Parsers

A tabela abaixo destaca as principais caracerísticas de cada um dos parsers:

<div>
<table>
  <thead align="center">
    <tr>
      <td style="text-align: center;" align="center">Parser</td>
      <td style="text-align: center;" align="center">Forma de uso</td>
      <td style="text-align: center;" align="center">Vantagens</td>
      <td style="text-align: center;" align="center">Desvantagens</td>
    </tr>
  </thead>
  <colgroup>
    <col width="15%">
    <col width="32%">
    <col width="27%">
    <col width="28%">
  </colgroup>
  <tbody valign="top">        
    <tr>      
      <td style="text-align: left;" align="left">
          Python’s html.parser
      </td>      
      <td style="text-align: center;" align="left">
        <code>BeautifulSoup(markup, "html.parser")</code>
      </td>
      <td style="text-align: left;" align="left">        
        <ul>
          <li>Biblioteca padrão</li>
          <li>Rápido</li>
          <li>Bom tratamento de erros</li>
        </ul>        
      </td>
      <td style="text-align: left;" align="left">
        <ul>
          <li>Not very lenient (Python 2.7.3 or 3.2.2)</li>
        </ul>
      </td>
    </tr>
    <tr>
      <td style="text-align: left;" align="left">
          lxml’s HTML parser
      </td>
      <td style="text-align: center;" align="center">
        <code>BeautifulSoup(markup, "lxml")</code>
      </td>
      <td style="text-align: left;" align="left">
        <ul>
          <li>Extremamente rápido</li>
          <li>Bom tratamento de erros</li>
        </ul>
      </td>
      <td style="text-align: left;" align="left">
        <ul>
          <li>Possui dependência externa (C)</li>
        </ul>
      </td>
    </tr>    
    <tr>
      <td style="text-align: left;" align="left">
          html5lib
      </td>
      <td style="text-align: center;" align="center">
        <code>BeautifulSoup(markup, "html5lib")</code>
      </td>
      <td style="text-align: left;" align="left">
        <ul>
          <li>Excelente tratamento de erros</li>
          <li>Faz o parse da mesma forma que um browser</li>
          <li>Cria HTML5 válido</li>
        </ul>
      </td>
      <td style="text-align: left;" align="left">
        <ul>
          <li>Lento</li>
          <li>Não faz parte da biblioteca padrão</li>
        </ul>
      </td>
    </tr>
  </tbody>
</table>
</div>

## Instalação

Para obtermos uma melhor performance vamos instalar os pacotes:
* [lxml](https://lxml.de/) (parser)
* [cchardet](https://pypi.org/project/cchardet/) (cChardet is high speed universal character encoding detector)


```shell
pip install lxml cchardet
```

# Estudo de Caso 1 - Python.org

## Utilizamos Requests para baixar o código HTML da página

In [10]:
import requests

url = 'http://www.python.org'
response = requests.get(url, verify=False)
response.raise_for_status()
html = response.text



In [9]:
html



## Criando um objeto BeautifulSoup

In [12]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'lxml')
print(soup.prettify())

<!DOCTYPE html>
<!--[if lt IE 7]>   <html class="no-js ie6 lt-ie7 lt-ie8 lt-ie9">   <![endif]-->
<!--[if IE 7]>      <html class="no-js ie7 lt-ie8 lt-ie9">          <![endif]-->
<!--[if IE 8]>      <html class="no-js ie8 lt-ie9">                 <![endif]-->
<!--[if gt IE 8]><!-->
<html class="no-js" dir="ltr" lang="en">
 <!--<![endif]-->
 <head>
  <meta charset="utf-8"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <link href="//ajax.googleapis.com/ajax/libs/jquery/1.8.2/jquery.min.js" rel="prefetch"/>
  <meta content="Python.org" name="application-name"/>
  <meta content="The official home of the Python Programming Language" name="msapplication-tooltip"/>
  <meta content="Python.org" name="apple-mobile-web-app-title"/>
  <meta content="yes" name="apple-mobile-web-app-capable"/>
  <meta content="black" name="apple-mobile-web-app-status-bar-style"/>
  <meta content="width=device-width, initial-scale=1.0" name="viewport"/>
  <meta content="True" name="HandheldFriendly"/>
 

## Tipos de Objetos

O BeautifulSoup transforma documentos HTML complexos em uma árvore de objetos Python, composta por quatro tipos de objetos:
* Tag
* NavigableString
* BeautifulSoup
* Comment

## Tag
Um objeto `Tag` corresponde a uma tag HTML no documento original.

In [14]:
soup.title.text

'Welcome to Python.org'

In [15]:
tag = soup.title
type(tag)

bs4.element.Tag

As Tags possuem diversos atributos e métodos, que serão estudados nas próximas seções. Por enquanto verificaremos o nome e os atributos. 

### Name

Todas as tags possuem um nome, acessado pelo atributo `.name`:

In [16]:
tag.name

'title'

Se o nome da tag for alterado a mudança será refletida no objeto BeautifulSoup

In [17]:
tag.name = 'newtitle'
tag

<newtitle>Welcome to Python.org</newtitle>

## Atributos

Uma tag pode possuir qualquer quantidade de atributos. A tag <meta charset="utf-8"> possui um atributo "charset" cujo
valor é "utf-8". Você pode acessar os atributos de uma tag como em um dicionário:

In [6]:
soup.meta['charset']

'utf-8'

O dicionário pode ser acessado diretamente como `.attrs`:

In [19]:
soup.div.attrs

{'id': 'touchnav-wrapper'}

### Atributos com múltiplos valores

*Class* é o atributo que mais frequentemente apresenta múltiplos valores(outros exemplos são rel, rev, accept-charset, headers, e accesskey). Nestes casos, o BeautifulSoup apresenta os valores como uma lista:

In [20]:
soup.section.div.div['class']

['small-widget', 'get-started-widget']

Para obter sempre uma lista ao acessar o valor de um atributo você pode usar o método You can use `get_attribute_list`:

In [21]:
soup.div['id']

'touchnav-wrapper'

In [9]:
soup.div.get_attribute_list('id')

['touchnav-wrapper']

## NavigableString
BeautifulSoup utiliza a classe `NavigableString` para representar o texto dentro de uma tag. `NavigableString` suporta a maior parte das funcionalidades descritas em Navegando a Árvore e Buscando a Árvore. Entretanto, uma vez que uma string não pode conter nenhum elemento, as strings não suportam os atributos `.contents` ou `.string`, ou o método `find()`.

In [24]:
tag.string.parent

<newtitle>Welcome to Python.org</newtitle>

In [11]:
type(tag.string)

bs4.element.NavigableString

## Objeto BeautifulSoup

O objeto `BeautifulSoup` representa o documento como um todo. Em geral, você pode tratá-lo como um objeto `Tag`. Isto significa que ele possui suporte ao métodos descritos nas seções Navegando a Árvore e Buscando a Árvore. Como o objeto `BeautifulSoup` não corresponde ao HTML, mas sim ao documento, possui o nome especial "document" e nenhum atributos.

In [25]:
soup.name

'[document]'

## Comentários
`Tag`, `NavigableString` e `BeautifulSoup`constituiem praticamente todos elementos que você encontrará em um HTML. Existem alguns outros, porém o único que provavelmente você precisará utilizar é o comentário, que é um tipo especial de `NavigableString`

In [26]:
markup = "<b><!--Este é um comentário HTML--></b>"
soup = BeautifulSoup(markup, 'lxml')
comment = soup.b.string
type(comment)

bs4.element.Comment

In [27]:
comment

'Este é um comentário HTML'

# Navegando a Árvore

## Navegando utilizando o nome das tags
A forma mais simples de navegar a árvore é utilizando o nome da tag desejada como atributo, o que retornará a primeira tag encontrada. Por exemplo, para acessar a tag "title", apenas utilize `soup.title`:

In [28]:
soup = BeautifulSoup(html, 'lxml')  # reconstruímos a árvore pois tínhamos alterado o nome da tag title
soup.title

<title>Welcome to Python.org</title>

Você pode utilizar este método várias vezes para acessar outros níveis da árvore:

In [36]:
from IPython.display import HTML, Image

div = soup.body.section.div.div

![](./img/python-org-zoom-tree.png)

## .contents e .children
As tags contidas em uma tag estão disponíveis em uma lista chamada `.contents`:

In [38]:
footer_tag = soup.footer
HTML(str(footer_tag))

In [50]:
conteudo = footer_tag.contents
for tag in conteudo:
    print(tag.name, type(tag))

None <class 'bs4.element.NavigableString'>
div <class 'bs4.element.Tag'>
None <class 'bs4.element.NavigableString'>
None <class 'bs4.element.Comment'>
None <class 'bs4.element.NavigableString'>
div <class 'bs4.element.Tag'>
None <class 'bs4.element.Comment'>
None <class 'bs4.element.NavigableString'>


Outra opção é acessar os elementos através do *generator* `.children`:

In [19]:
for child in footer_tag.children:
    print(child.name)

None
div
None
None
None
div
None
None


## Buscando todas as ocorrências de uma tag

In [61]:
links = soup.find_all('a')
print('Encontrados {} links.'.format(len(links)))

l = links[-1]
print(['href'])
print(l.text)

Encontrados 204 links.
['href']
Powered by Rackspace


## Buscando por ID e Classe

### Por ID

![a](./img/python-top-bar.png)

In [65]:
top_bar = soup.find(id='top')
print(top_bar.text)




Skip to content


▼ Close
                


Python


PSF


Docs


PyPI


Jobs


Community



▲ The Python Network
                




### Por classe

O atributo CSS *class* é uma keyword reservada do Python, logo não pode ser utilizada para buscar elementos. Para buscar
pela classe CSS utilize *class_*

![](./img/python-org-psf-widget.png)

In [66]:
psf_widget = soup.find(class_='psf-widget')
print(psf_widget.prettify())

<div class="psf-widget">
 <div class="python-logo">
 </div>
 <h2 class="widget-title">
  <span class="prompt">
   &gt;&gt;&gt;
  </span>
  <a href="/psf/">
   Python Software Foundation
  </a>
 </h2>
 <p>
  The mission of the Python Software Foundation is to promote, protect, and advance the Python programming language, and to support and facilitate the growth of a diverse and international community of Python programmers.
  <a class="readmore" href="/psf/">
   Learn more
  </a>
 </p>
 <p class="click-these">
  <a class="button" href="/users/membership/">
   Become a Member
  </a>
  <a class="button" href="/psf/donations/">
   Donate to the PSF
  </a>
 </p>
</div>



* acessando todos elementos dentro do elemento pai

# Extraindo uma tabela HTML - CoinMarketCap
https://coinmarketcap.com/

![](./img/coinmarket.png)

* Baixamos o HTML e criamos o soup

In [84]:
URL = 'https://coinmarketcap.com'
response = requests.get(URL)
response.raise_for_status()
soup = BeautifulSoup(response.text, 'lxml')

In [73]:
print(soup.table.prettify())

<table class="table floating-header " id="currencies">
 <thead>
  <tr>
   <th class="col-rank text-center sortable">
    #
   </th>
   <th class="sortable" id="th-name">
    Name
   </th>
   <th class="sortable text-right" data-mobile-text="M. Cap" id="th-marketcap">
    Market Cap
   </th>
   <th class="sortable text-right" id="th-price">
    Price
   </th>
   <th class="sortable text-right" data-mobile-text="Volume" id="th-volume">
    Volume (24h)
   </th>
   <th class="sortable text-right" data-mobile-text="Supply" id="th-totalsupply" title="The number of coins in existence available to the public">
    Circulating Supply
   </th>
   <th class="sortable text-right" data-mobile-text="Change" id="th-change">
    Change (24h)
   </th>
   <th class="text-right" id="th-marketcap-graph">
    Price Graph (7d)
   </th>
   <th id="th-more-options">
   </th>
  </tr>
 </thead>
 <tbody>
  <tr class="" id="id-bitcoin">
   <td class="text-center">
    1
   </td>
   <td class="no-wrap currency-na

In [76]:
soup.find(id='currencies')

<table class="table floating-header " id="currencies">
<thead>
<tr>
<th class="col-rank text-center sortable">#</th>
<th class="sortable" id="th-name">Name</th>
<th class="sortable text-right" data-mobile-text="M. Cap" id="th-marketcap">Market Cap</th>
<th class="sortable text-right" id="th-price">Price</th>
<th class="sortable text-right" data-mobile-text="Volume" id="th-volume">Volume (24h)</th>
<th class="sortable text-right" data-mobile-text="Supply" id="th-totalsupply" title="The number of coins in existence available to the public">Circulating Supply</th>
<th class="sortable text-right" data-mobile-text="Change" id="th-change">Change (24h)</th>
<th class="text-right" id="th-marketcap-graph">Price Graph (7d)</th>
<th id="th-more-options"></th>
</tr>
</thead>
<tbody>
<tr class="" id="id-bitcoin">
<td class="text-center">
1
</td>
<td class="no-wrap currency-name" data-sort="Bitcoin">
<img alt="Bitcoin" class="logo-sprite" height="16" src="https://s2.coinmarketcap.com/static/img/coin

* Utilizamos o pandas para ler a tabela HTML

In [81]:
import pandas as pd

html_tabela = str(soup.find(id='currencies'))

df = pd.read_html(html_tabela)[0]
df

Unnamed: 0,#,Name,Market Cap,Price,Volume (24h),Circulating Supply,Change (24h),Price Graph (7d),Unnamed: 8
0,1,BTC Bitcoin,"$115,540,243,979",$6685.64,"$5,836,848,259","17,281,862 BTC",-0.66%,,Add to Watchlist Remove from Watchlist Watchli...
1,2,ETH Ethereum,"$24,532,550,810",$240.24,"$2,666,425,475","102,116,858 ETH",5.32%,,Add to Watchlist Remove from Watchlist Watchli...
2,3,XRP XRP,"$23,257,595,189",$0.584229,"$4,630,259,778","39,809,069,106 XRP *",0.32%,,Add to Watchlist Remove from Watchlist Watchli...
3,4,BCH Bitcoin Cash,"$8,304,232,935",$478.29,"$523,609,327","17,362,363 BCH",-1.46%,,Add to Watchlist Remove from Watchlist Watchli...
4,5,EOS EOS,"$5,371,631,387",$5.93,"$951,349,963","906,245,118 EOS *",1.12%,,Add to Watchlist Remove from Watchlist Watchli...
5,6,XLM Stellar,"$4,475,118,147",$0.238223,"$156,080,752","18,785,416,163 XLM *",-7.83%,,Add to Watchlist Remove from Watchlist Watchli...
6,7,LTC Litecoin,"$3,451,467,663",$59.10,"$370,705,713","58,403,606 LTC",1.23%,,Add to Watchlist Remove from Watchlist Watchli...
7,8,USDT Tether,"$2,791,457,187",$0.994668,"$4,933,504,454","2,806,421,736 USDT *",-0.42%,,Add to Watchlist Remove from Watchlist Watchli...
8,9,ADA Cardano,"$2,149,579,937",$0.082909,"$167,343,494","25,927,070,538 ADA *",-5.36%,,Add to Watchlist Remove from Watchlist Watchli...
9,10,XMR Monero,"$1,979,405,833",$120.49,"$37,763,050","16,427,897 XMR",-0.45%,,Add to Watchlist Remove from Watchlist Watchli...


In [97]:
url = 'https://en.wikipedia.org/wiki/Campeonato_Brasileiro_S%C3%A9rie_A'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')
tables = soup.find_all('table')
len(tables)

tabelas = pd.read_html(str(soup), header=0)
len(tabelas)

dados = tabelas[1]

In [103]:
dados.head()

Unnamed: 0,Club,Won,Runner-up,Years won,Years Runner-up
0,Palmeiras,9,4,"1960, 1967, 1967, 1969, 1972, 1973, 1993, 1994...","1970, 1978, 1997, 2017"
1,Santos,8,7,"1961, 1962, 1963, 1964, 1965, 1968, 2002, 2004","1959, 1966, 1983, 1995, 2003, 2007, 2016"
2,Corinthians,7,3,"1990, 1998, 1999, 2005, 2011, 2015, 2017","1976, 1994, 2002"
3,São Paulo,6,6,"1977, 1986, 1991, 2006, 2007, 2008","1971, 1973, 1981, 1989, 1990, 2014"
4,Flamengo,5,1,"1980, 1982, 1983, 1992, 2009",1964


In [104]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 5 columns):
Club               24 non-null object
Won                24 non-null int64
Runner-up          24 non-null int64
Years won          24 non-null object
Years Runner-up    24 non-null object
dtypes: int64(2), object(3)
memory usage: 1.0+ KB


In [105]:
dados.describe()

Unnamed: 0,Won,Runner-up
count,24.0,24.0
mean,2.541667,2.541667
std,2.750165,2.063749
min,0.0,0.0
25%,0.0,1.0
50%,1.5,2.0
75%,4.0,4.0
max,9.0,7.0


In [114]:
dados.sort_values(by='Won', ascending=False)
dados.query('Club == "Cruzeiro"')
dados.query('Club in ("Cruzeiro", "Flamengo")')

Unnamed: 0,Club,Won,Runner-up,Years won,Years Runner-up
4,Flamengo,5,1,"1980, 1982, 1983, 1992, 2009",1964
5,Cruzeiro,4,5,"1966, 2003, 2013, 2014","1969, 1974, 1975, 1998, 2010"


In [115]:
dados['Won'].mean()

2.5416666666666665

In [127]:
dados.groupby(dados['Won']).count()


Unnamed: 0_level_0,Club,Runner-up,Years won,Years Runner-up
Won,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,7,7,7,7
1,5,5,5,5
2,3,3,3,3
3,1,1,1,1
4,3,3,3,3
5,1,1,1,1
6,1,1,1,1
7,1,1,1,1
8,1,1,1,1
9,1,1,1,1


In [133]:
dados['Club'] = dados['Club'].str.upper()

In [134]:
dados.head()

Unnamed: 0,Club,Won,Runner-up,Years won,Years Runner-up,club
0,PALMEIRAS,9,4,"1960, 1967, 1967, 1969, 1972, 1973, 1993, 1994...","1970, 1978, 1997, 2017",PALMEIRAS
1,SANTOS,8,7,"1961, 1962, 1963, 1964, 1965, 1968, 2002, 2004","1959, 1966, 1983, 1995, 2003, 2007, 2016",SANTOS
2,CORINTHIANS,7,3,"1990, 1998, 1999, 2005, 2011, 2015, 2017","1976, 1994, 2002",CORINTHIANS
3,SÃO PAULO,6,6,"1977, 1986, 1991, 2006, 2007, 2008","1971, 1973, 1981, 1989, 1990, 2014",SÃO PAULO
4,FLAMENGO,5,1,"1980, 1982, 1983, 1992, 2009",1964,FLAMENGO


In [137]:
dados.to_excel('brasileirao.xlsx')
dados.to_csv('brasileirao.csv', sep='|')

# Exportando para o Excel

In [28]:
!pip3 install openpyxl

[33mYou are using pip version 9.0.1, however version 18.0 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m


In [29]:
df.to_excel('criptomoedas.xlsx', index=False)

# Exercício - IHDI Wikipedia
url = https://en.wikipedia.org/wiki/List_of_countries_by_inequality-adjusted_HDI

Salvar a tabela **2015 inequality-adjusted HDI (IHDI) (2016 report)** no formato csv com os países marcados como acima da média ou abaixo da média.

In [138]:
response = requests.get('https://en.wikipedia.org/wiki/List_of_countries_by_inequality-adjusted_HDI')
response.raise_for_status()
soup = BeautifulSoup(response.text, 'lxml')

In [139]:
tab1, tab2 = soup.find_all(class_=["wikitable sortable", 'jquery-tablesorter'])
df1 = pd.read_html(str(tab1))[0]
df1['class'] = 'Acima da média'
df1.head()

Unnamed: 0,0,1,2,class
0,Rank,Country,IHDI,Acima da média
1,1,Iceland,0.878,Acima da média
2,2,Japan,0.876,Acima da média
3,2,Norway,0.876,Acima da média
4,4,Switzerland,0.871,Acima da média


In [44]:
df2 = pd.read_html(str(tab2))[0]
df2['class'] = 'Abaixo da média'
df2.head()

Unnamed: 0,0,1,2,class
0,Rank,Country,IHDI,Abaixo da média
1,79,Philippines,0.556,Abaixo da média
2,80,Suriname,0.551,Abaixo da média
3,81,Colombia,0.548,Abaixo da média
4,82,Belize,0.546,Abaixo da média


In [49]:
tabela_final = pd.concat([df1, df2])
tabela_final.to_csv('idhi.csv', sep=';', index=False)