# **Web Scraping**


O intuito desse projeto é praticar o conhecimento adquirido no certificado da [IBM de análise de dados](https://www.coursera.org/professional-certificates/ibm-data-analyst?).


## Objetivos

Usar o BeautifulSoup para extrair dados de tabelas HTML para um DataFrame. 


Usei o Python e várias bibliotecas. Algumas dessas bibliotecas podem ser instaladas em seu ambiente, outros podem precisar ser instalados por você. As células abaixo instalarão essas bibliotecas quando executadas.

In [None]:
!pip install bs4
!pip install lxml
!pip install html5lib
!pip install requests

Import the required modules and functions


In [3]:
from bs4 import BeautifulSoup # este módulo ajuda na web scraping.
import requests  # este módulo ajuda a baixar uma página da web

## Objetos Beautiful Soup


Beautiful Soup é uma biblioteca Python para extrair dados de arquivos HTML e XML, irei me concentrar em arquivos HTML. Isso é feito representando o HTML como um conjunto de objetos com métodos usados para analisar o HTML. Podemos navegar pelo HTML como uma árvore e/ou filtrar o que estamos procurando.

In [5]:
%%html
<!DOCTYPE html>
<html>
<head>
<title>Título da Página</title>
</head>
<body>
<h3><b id='boldest'>Lebron James</b></h3>
<p> Sálario: $ 92,000,000 </p>
<h3> Stephen Curry</h3>
<p> Sálario: $85,000, 000 </p>
<h3> Kevin Durant </h3>
<p> Sálario: $73,200, 000</p>
</body>
</html>

Armazenando como uma cadeia de caracteres na variável HTML:

In [6]:
html = "<!DOCTYPE html><html><head><title>Título da Página</title></head><body><h3><b id='boldest'>Lebron James</b></h3><p> Sálario: $ 92,000,000 </p><h3> Stephen Curry</h3><p> Sálario: $85,000, 000 </p><h3> Kevin Durant </h3><p> Sálario: $73,200, 000</p></body></html>"

Para analisar um documento, passe-o para o construtor **BeautifulSoup** , o objeto **BeautifulSoup**, que representa o documento como uma estrutura de dados aninhada:

In [7]:
soup = BeautifulSoup(html, "html.parser")

Primeiro, o documento é convertido para Unicode (semelhante ao ASCII) e as entidades HTML são convertidas para caracteres Unicode. Beautiful Soup transforma um documento HTML complexo em uma árvore complexa de objetos Python. O objeto **BeautifulSoup** pode criar outros tipos de objetos.

Podemos usar o método **prettify()** para exibir o HTML na estrutura aninhada:

In [8]:
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Título da Página
  </title>
 </head>
 <body>
  <h3>
   <b id="boldest">
    Lebron James
   </b>
  </h3>
  <p>
   Sálario: $ 92,000,000
  </p>
  <h3>
   Stephen Curry
  </h3>
  <p>
   Sálario: $85,000, 000
  </p>
  <h3>
   Kevin Durant
  </h3>
  <p>
   Sálario: $73,200, 000
  </p>
 </body>
</html>



## Tags


Digamos que queremos o título da página e o nome do jogador mais bem pago, podemos usar a **Tag**. O objeto **Tag** corresponde a uma tag HTML no documento original, por exemplo, o título da tag.

In [11]:
tag_object = soup.title
print("tag object:", tag_object)

tag object: <title>Título da Página</title>


podemos ver o tipo de tag **bs4.element.Tag**

In [12]:
print("tag object type:", type(tag_object))

tag object type: <class 'bs4.element.Tag'>


Se houver mais de uma **Tag** com o mesmo nome, o primeiro elemento com esse nome de **Tag** é chamado, correspondendo ao jogador mais pago:

In [13]:
tag_object = soup.h3
tag_object

<h3><b id="boldest">Lebron James</b></h3>

Colocado no atributo em negrito **b**, ajuda a usar a representação em árvore. Podemos navegar pela árvore usando o atributo filho para obter o nome.

### Children, Parents, and Siblings


Conforme afirmado acima, o objeto **Tag** é uma árvore de objetos que podemos acessar o filho da tag ou navegar pelo ramo da seguinte maneira:

In [14]:
tag_child = tag_object.b
tag_child

<b id="boldest">Lebron James</b>

Você pode acessar o pai com o **parent**

In [15]:
parent_tag = tag_child.parent
parent_tag

<h3><b id="boldest">Lebron James</b></h3>

isso é idêntico a:


In [16]:
tag_object

<h3><b id="boldest">Lebron James</b></h3>

**body** é o elemento pai de **tag_object**

In [17]:
tag_object.parent

<body><h3><b id="boldest">Lebron James</b></h3><p> Sálario: $ 92,000,000 </p><h3> Stephen Curry</h3><p> Sálario: $85,000, 000 </p><h3> Kevin Durant </h3><p> Sálario: $73,200, 000</p></body>

<code>tag_object</code> é o elemento irmão de <code>paragraph</code>

In [18]:
sibling_1 = tag_object.next_sibling
sibling_1

<p> Sálario: $ 92,000,000 </p>

**sibling_2** é o elemento **header** que também é um irmão de **sibling_1** e **tag_object**

In [19]:
sibling_2 = sibling_1.next_sibling
sibling_2

<h3> Stephen Curry</h3>

Usando o objeto **sibling_2** e a propriedade **next_sibling** para encontrar o salário de Stephen Curry:

In [20]:
sibling_2.next_sibling

<p> Sálario: $85,000, 000 </p>

## Atributos HTML


Se a tag tiver atributos, a tag **id="boldest"** possui um atributo **id** cujo valor é **boldest**. Você pode acessar os atributos de uma tag tratando-a como um dicionário:

In [21]:
tag_child['id'] # tag_child contem: <b id="boldest">Lebron James</b>

'boldest'

Você pode acessar esse dicionário diretamente com o **attrs**:

In [22]:
tag_child.attrs

{'id': 'boldest'}

You can also work with Multi-valued attribute check out <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMDeveloperSkillsNetworkPY0220ENSkillsNetwork23455606-2021-01-01">Beautiful Soup Documentation</a> for more.

Também podemos obter o conteúdo do atributo da **tag** usando o método Python **get()**:

In [23]:
tag_child.get('id')

'boldest'

### String navegável


Uma string corresponde a um pedaço de texto ou conteúdo dentro de uma tag. Beautiful Soup usa a classe **NavigableString** para conter este texto. Podemos obter o nome do primeiro jogador extraindo o sting do objeto **Tag** (**tag_child**) da seguinte forma:

In [24]:
tag_string = tag_child.string
tag_string

'Lebron James'

podemos verificar se o tipo é uma string navegável

In [25]:
type(tag_string)

bs4.element.NavigableString

Um NavigableString é como uma string Python ou Unicode, para ser mais preciso. A principal diferença é que ele também suporta alguns recursos do **BeautifulSoup**. Podemos convertê-lo em objeto sting em Python:

In [28]:
unicode_string = str(tag_string)
unicode_string

'Lebron James'

## Filtro


Os filtros permitem encontrar padrões complexos, o filtro mais simples é uma string. Vou passar uma string para um método de filtro diferente e o Beautiful Soup realizará uma correspondência com essa string exata.

In [30]:
%%html
<table>
  <tr>
    <td id='flight'>Flight No</td>
    <td>Launch site</td> 
    <td>Payload mass</td>
   </tr>
  <tr> 
    <td>1</td>
    <td><a href='https://en.wikipedia.org/wiki/Florida'>Florida</a></td>
    <td>300 kg</td>
  </tr>
  <tr>
    <td>2</td>
    <td><a href='https://en.wikipedia.org/wiki/Texas'>Texas</a></td>
    <td>94 kg</td>
  </tr>
  <tr>
    <td>3</td>
    <td><a href='https://en.wikipedia.org/wiki/Florida'>Florida</a> </td>
    <td>80 kg</td>
  </tr>
</table>

0,1,2
Flight No,Launch site,Payload mass
1,Florida,300 kg
2,Texas,94 kg
3,Florida,80 kg


Podemos armazená-lo como uma string na variável **table**:

In [31]:
table = "<table><tr><td id='flight'>Flight No</td><td>Launch site</td><td>Payload mass</td></tr><tr><td>1</td><td><a href='https://en.wikipedia.org/wiki/Florida'>Florida</a></td><td>300 kg</td></tr><tr><td>2</td><td><a href='https://en.wikipedia.org/wiki/Texas'>Texas</a></td><td>94 kg</td></tr><tr><td>3</td><td><a href='https://en.wikipedia.org/wiki/Florida'>Florida</a> </td><td>80 kg</td></tr></table>"

In [32]:
table_bs = BeautifulSoup(table, "html.parser")

## find All


O método **find_all()** examina os descendentes de uma tag e recupera todos os descendentes que correspondem aos seus filtros.

A assinatura do método para **find_all(name, attrs, recursive, string, limit, kwargs)**

### Name


Quando definimos o parâmetro **name** como um nome de tag, o método extrairá todas as tags com esse nome e seus filhos.

In [33]:
table_rows = table_bs.find_all('tr')
table_rows

[<tr><td id="flight">Flight No</td><td>Launch site</td><td>Payload mass</td></tr>,
 <tr><td>1</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a></td><td>300 kg</td></tr>,
 <tr><td>2</td><td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td><td>94 kg</td></tr>,
 <tr><td>3</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a> </td><td>80 kg</td></tr>]

O resultado é um Python Iterable como uma lista, cada elemento é um objeto **tag**:

In [34]:
first_row = table_rows[0]
first_row

<tr><td id="flight">Flight No</td><td>Launch site</td><td>Payload mass</td></tr>

O tipo é **tag**

In [35]:
print(type(first_row))

<class 'bs4.element.Tag'>


podemos obter a criança


In [36]:
first_row.td

<td id="flight">Flight No</td>

Se iterarmos na lista, cada elemento corresponderá a uma linha da tabela:

In [37]:
for i,row in enumerate(table_rows):
    print("row",i,"is",row)

row 0 is <tr><td id="flight">Flight No</td><td>Launch site</td><td>Payload mass</td></tr>
row 1 is <tr><td>1</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a></td><td>300 kg</td></tr>
row 2 is <tr><td>2</td><td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td><td>94 kg</td></tr>
row 3 is <tr><td>3</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a> </td><td>80 kg</td></tr>


Como **row** é um objeto **cell**, podemos aplicar o método **find_all** a ele e extrair células da tabela no objeto **cells** usando a tag **td**, isso é todos os filhos com o nome **td**. O resultado é uma lista, cada elemento corresponde a uma célula e é um objeto **Tag**, podemos iterar por essa lista também. Podemos extrair o conteúdo usando o atributo **string**.

In [38]:
for i, row in enumerate(table_rows):
    print("row",i)
    cells = row.find_all('td')
    for j, cell in enumerate(cells):
        print('colunm', j, "cell", cell)

row 0
colunm 0 cell <td id="flight">Flight No</td>
colunm 1 cell <td>Launch site</td>
colunm 2 cell <td>Payload mass</td>
row 1
colunm 0 cell <td>1</td>
colunm 1 cell <td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a></td>
colunm 2 cell <td>300 kg</td>
row 2
colunm 0 cell <td>2</td>
colunm 1 cell <td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td>
colunm 2 cell <td>94 kg</td>
row 3
colunm 0 cell <td>3</td>
colunm 1 cell <td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a> </td>
colunm 2 cell <td>80 kg</td>


Se usarmos uma lista, podemos comparar qualquer item dessa lista.

In [39]:
list_input = table_bs.find_all(name=["tr", "td"])
list_input

[<tr><td id="flight">Flight No</td><td>Launch site</td><td>Payload mass</td></tr>,
 <td id="flight">Flight No</td>,
 <td>Launch site</td>,
 <td>Payload mass</td>,
 <tr><td>1</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a></td><td>300 kg</td></tr>,
 <td>1</td>,
 <td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a></td>,
 <td>300 kg</td>,
 <tr><td>2</td><td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td><td>94 kg</td></tr>,
 <td>2</td>,
 <td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td>,
 <td>94 kg</td>,
 <tr><td>3</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a> </td><td>80 kg</td></tr>,
 <td>3</td>,
 <td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a> </td>,
 <td>80 kg</td>]

## Attributes


Caso o argumento não seja reconhecido ele será transformado em um filtro nos atributos da tag. Por exemplo, o argumento **id**, Beautiful Soup irá filtrar o atributo **id** de cada tag. Por exemplo, os primeiros elementos **td** têm um valor de **id** de **flight**, portanto, podemos filtrar com base nesse valor de **id**.

In [40]:
table_bs.find_all(id="flight")

[<td id="flight">Flight No</td>]

Podemos encontrar todos os elementos que possuem links para a página da Wikipedia da Flórida:

In [41]:
list_input = table_bs.find_all(href="https://en.wikipedia.org/wiki/Florida")
list_input

[<a href="https://en.wikipedia.org/wiki/Florida">Florida</a>,
 <a href="https://en.wikipedia.org/wiki/Florida">Florida</a>]

Se definirmos o atributo **href** como True, independentemente de qual seja o valor, o código encontrará todas as tags com valor **href**:

In [42]:
table_bs.find_all(href=True)

[<a href="https://en.wikipedia.org/wiki/Florida">Florida</a>,
 <a href="https://en.wikipedia.org/wiki/Texas">Texas</a>,
 <a href="https://en.wikipedia.org/wiki/Florida">Florida</a>]

Existem outros métodos para lidar com atributos e outros métodos relacionados. Confira o seguinte <a href='https://www.crummy.com/software/BeautifulSoup/bs4/doc/?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMDeveloperSkillsNetworkPY0220ENSkillsNetwork23455606-2021-01-01#css-selectors'>link</a>


Usando a lógica acima, podemos encontrar todos os elementos sem valor **href**

In [48]:
table_bs.find_all('a', href=True)

[<a href="https://en.wikipedia.org/wiki/Florida">Florida</a>,
 <a href="https://en.wikipedia.org/wiki/Texas">Texas</a>,
 <a href="https://en.wikipedia.org/wiki/Florida">Florida</a>]

Usando o objeto **soup**, podemos encontrar o elemento com o conteúdo do atributo **id** definido como **"boldest"**.

In [50]:
soup.find_all(id="boldest")

[<b id="boldest">Lebron James</b>]

### string


Com **string** você pode procurar por strings em vez de tags, onde encontramos todos os elementos com Florida:

In [51]:
table_bs.find_all(string="Florida")

['Florida', 'Florida']

## find


O método **find_all()** verifica todo o documento em busca de resultados. Se você estiver procurando por um elemento, pode usar o método **find()** para encontrar o primeiro elemento no documento. Considere as duas tabelas a seguir:

In [52]:
%%html
<h3>Rocket Launch </h3>

<p>
<table class='rocket'>
  <tr>
    <td>Flight No</td>
    <td>Launch site</td> 
    <td>Payload mass</td>
  </tr>
  <tr>
    <td>1</td>
    <td>Florida</td>
    <td>300 kg</td>
  </tr>
  <tr>
    <td>2</td>
    <td>Texas</td>
    <td>94 kg</td>
  </tr>
  <tr>
    <td>3</td>
    <td>Florida </td>
    <td>80 kg</td>
  </tr>
</table>
</p>
<p>

<h3>Pizza Party  </h3>
  
    
<table class='pizza'>
  <tr>
    <td>Pizza Place</td>
    <td>Orders</td> 
    <td>Slices </td>
   </tr>
  <tr>
    <td>Domino's Pizza</td>
    <td>10</td>
    <td>100</td>
  </tr>
  <tr>
    <td>Little Caesars</td>
    <td>12</td>
    <td >144 </td>
  </tr>
  <tr>
    <td>Papa John's </td>
    <td>15 </td>
    <td>165</td>
  </tr>


0,1,2
Flight No,Launch site,Payload mass
1,Florida,300 kg
2,Texas,94 kg
3,Florida,80 kg

0,1,2
Pizza Place,Orders,Slices
Domino's Pizza,10,100
Little Caesars,12,144
Papa John's,15,165


Armazenamos o HTML como uma string Python e atribuímos **two_tables**:

In [53]:
two_tables = "<h3>Rocket Launch </h3><p><table class='rocket'><tr><td>Flight No</td><td>Launch site</td> <td>Payload mass</td></tr><tr><td>1</td><td>Florida</td><td>300 kg</td></tr><tr><td>2</td><td>Texas</td><td>94 kg</td></tr><tr><td>3</td><td>Florida </td><td>80 kg</td></tr></table></p><p><h3>Pizza Party  </h3><table class='pizza'><tr><td>Pizza Place</td><td>Orders</td> <td>Slices </td></tr><tr><td>Domino's Pizza</td><td>10</td><td>100</td></tr><tr><td>Little Caesars</td><td>12</td><td >144 </td></tr><tr><td>Papa John's </td><td>15 </td><td>165</td></tr>"

Criamos um objeto **BeautifulSoup** chamado **two_tables_bs**

In [54]:
two_tables_bs = BeautifulSoup(two_tables, 'html.parser')

Podemos encontrar a primeira tabela usando a tabela de nomes de tags

In [55]:
two_tables_bs.find("table")

<table class="rocket"><tr><td>Flight No</td><td>Launch site</td> <td>Payload mass</td></tr><tr><td>1</td><td>Florida</td><td>300 kg</td></tr><tr><td>2</td><td>Texas</td><td>94 kg</td></tr><tr><td>3</td><td>Florida </td><td>80 kg</td></tr></table>

Podemos filtrar o atributo class para encontrar a segunda tabela, mas como class é uma palavra-chave em Python, adicionamos um sublinhado.

In [56]:
two_tables_bs.find("table",class_='pizza')

<table class="pizza"><tr><td>Pizza Place</td><td>Orders</td> <td>Slices </td></tr><tr><td>Domino's Pizza</td><td>10</td><td>100</td></tr><tr><td>Little Caesars</td><td>12</td><td>144 </td></tr><tr><td>Papa John's </td><td>15 </td><td>165</td></tr></table>

## Baixando e raspando o conteúdo de uma página da web

Baixei o conteúdo da página web:

In [57]:
url = "http://www.ibm.com"

Usamos **get** para baixar o conteúdo da página web em formato de texto e armazená-lo em uma variável chamada **data**:

In [58]:
data = requests.get(url).text 

Criamos um objeto **BeautifulSoup** usando o construtor **BeautifulSoup**

In [59]:
soup = BeautifulSoup(data, "html.parser")  # crie um objeto soup usando a variável 'data'

Scrape all links


In [1]:
for link in soup.find_all('a', href=True):  # em html âncora/link é representado pela tag <a>
    print(link.get('href'))

NameError: name 'soup' is not defined

## Raspe todas as imagens Tags


In [61]:
for link in soup.find_all('img'): # em HTML, imagem é representada pela tag <img>
    print(link)
    print(link.get('src'))

<img alt="Retratos de consultores da IBM" class="bx--image__img" id="image--1877804652" loading="lazy" src="/content/dam/adobe-cms/default-images/home-consultants.component.crop-16by9-xl.ts=1698087830527.jpg/content/adobe-cms/br/pt/homepage/_jcr_content/root/table_of_contents/simple_image"/>
/content/dam/adobe-cms/default-images/home-consultants.component.crop-16by9-xl.ts=1698087830527.jpg/content/adobe-cms/br/pt/homepage/_jcr_content/root/table_of_contents/simple_image


## Raspe dados de tabelas HTML


In [62]:
# O URL abaixo contém uma tabela html com dados sobre cores e códigos de cores.
url = "https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-DA0321EN-SkillsNetwork/labs/datasets/HTMLColorCodes.html"

Antes de prosseguir com a raspagem de um site, você precisa examinar o conteúdo e a forma como os dados são organizados no site. Abra o URL acima em seu navegador e verifique quantas linhas e colunas existem na tabela de cores.

In [63]:
# obtém o conteúdo da página web em formato de texto e armazena em uma variável chamada data
data  = requests.get(url).text

In [64]:
soup = BeautifulSoup(data,"html.parser")

In [65]:
# encontre uma tabela HTML na página web
table = soup.find('table') # Em html, a tabela é represenada pela tag <table>

In [66]:
# Pegue todas as linhas da tabela
for row in table.find_all('tr'): # Em html, a linha da tabela é representada pela tag <tr>
    # Obtém todas as colunas de cada linha.
    cols = row.find_all('td') # Em html,  a column é representada pela tag <td>
    color_name = cols[2].string # armazena o valor na coluna 3 como color_name
    color_code = cols[3].string # armazena o valor na coluna 4 como color_code
    print("{}--->{}".format(color_name,color_code))

Color Name--->None
lightsalmon--->#FFA07A
salmon--->#FA8072
darksalmon--->#E9967A
lightcoral--->#F08080
coral--->#FF7F50
tomato--->#FF6347
orangered--->#FF4500
gold--->#FFD700
orange--->#FFA500
darkorange--->#FF8C00
lightyellow--->#FFFFE0
lemonchiffon--->#FFFACD
papayawhip--->#FFEFD5
moccasin--->#FFE4B5
peachpuff--->#FFDAB9
palegoldenrod--->#EEE8AA
khaki--->#F0E68C
darkkhaki--->#BDB76B
yellow--->#FFFF00
lawngreen--->#7CFC00
chartreuse--->#7FFF00
limegreen--->#32CD32
lime--->#00FF00
forestgreen--->#228B22
green--->#008000
powderblue--->#B0E0E6
lightblue--->#ADD8E6
lightskyblue--->#87CEFA
skyblue--->#87CEEB
deepskyblue--->#00BFFF
lightsteelblue--->#B0C4DE
dodgerblue--->#1E90FF


## Colete dados de tabelas HTML em um DataFrame usando BeautifulSoup e Pandas

In [67]:
import pandas as pd

In [68]:
# O URL abaixo contém tabelas html com dados sobre a população mundial.
url = "https://en.wikipedia.org/wiki/World_population"

Antes de prosseguir com a raspagem de um site, você precisa examinar o conteúdo e a forma como os dados são organizados no site. Abra o URL acima em seu navegador e verifique as tabelas da página.

In [69]:
# obtém o conteúdo da página web em formato de texto e armazena em uma variável chamada data
data  = requests.get(url).text

In [70]:
soup = BeautifulSoup(data,"html.parser")

In [71]:
# encontra todas as tabelas HTML na página web
tables = soup.find_all('table')

In [72]:
# podemos ver quantas tabelas foram encontradas verificando o comprimento da lista de tabelas
len(tables)

30

Suponha que estamos procurando a tabela dos **10 países mais densamente povoados**, podemos examinar a lista de tabelas e encontrar a que procuramos com base nos dados de cada tabela ou podemos pesquisar o nome da tabela, mas esta opção nem sempre funciona.

In [73]:
for index,table in enumerate(tables):
    if ("10 most densely populated countries" in str(table)):
        table_index = index
print(table_index)

7


## Raspe dados de tabelas HTML em um DataFrame usando BeautifulSoup e read_html


Usando objetos _url_, _data_, _soup_ e _tables_, podemos usar a função **read_html** para criar um DataFrame.

Lembre-se de que a tabela que precisamos está localizada em **tables[table_index]**

Agora podemos usar a função **pandas** **read_html** e fornecer a ela a versão string da tabela, bem como o **flavor** que é o mecanismo de análise **bs4**.

In [None]:
pd.read_html(str(tables[5]), flavor='bs4')

A função **read_html** sempre retorna uma lista de DataFrames então devemos escolher aquele que queremos da lista.

In [79]:
population_data_read_html = pd.read_html(str(tables[5]), flavor='bs4')[0]

population_data_read_html

  population_data_read_html = pd.read_html(str(tables[5]), flavor='bs4')[0]


Unnamed: 0_level_0,#,Most populous countries,2000,2015,2030[A],Graphs are unavailable due to technical issues. There is more info on Phabricator and on MediaWiki.org.
Unnamed: 0_level_1,Graphs are unavailable due to technical issues. There is more info on Phabricator and on MediaWiki.org.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Unnamed: 0_level_2,Graphs are unavailable due to technical issues. There is more info on Phabricator and on MediaWiki.org.,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Unnamed: 0_level_3,Graphs are unavailable due to technical issues. There is more info on Phabricator and on MediaWiki.org.,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3
Unnamed: 0_level_4,Graphs are unavailable due to technical issues. There is more info on Phabricator and on MediaWiki.org.,Unnamed: 1_level_4,Unnamed: 2_level_4,Unnamed: 3_level_4,Unnamed: 4_level_4,Unnamed: 5_level_4
Unnamed: 0_level_5,Graphs are unavailable due to technical issues. There is more info on Phabricator and on MediaWiki.org.,Unnamed: 1_level_5,Unnamed: 2_level_5,Unnamed: 3_level_5,Unnamed: 4_level_5,Unnamed: 5_level_5
Unnamed: 0_level_6,Graphs are unavailable due to technical issues. There is more info on Phabricator and on MediaWiki.org.,Unnamed: 1_level_6,Unnamed: 2_level_6,Unnamed: 3_level_6,Unnamed: 4_level_6,Unnamed: 5_level_6
Unnamed: 0_level_7,Graphs are unavailable due to technical issues. There is more info on Phabricator and on MediaWiki.org.,Unnamed: 1_level_7,Unnamed: 2_level_7,Unnamed: 3_level_7,Unnamed: 4_level_7,Unnamed: 5_level_7
Unnamed: 0_level_8,Graphs are unavailable due to technical issues. There is more info on Phabricator and on MediaWiki.org.,Unnamed: 1_level_8,Unnamed: 2_level_8,Unnamed: 3_level_8,Unnamed: 4_level_8,Unnamed: 5_level_8
Unnamed: 0_level_9,Graphs are unavailable due to technical issues. There is more info on Phabricator and on MediaWiki.org.,Unnamed: 1_level_9,Unnamed: 2_level_9,Unnamed: 3_level_9,Unnamed: 4_level_9,Unnamed: 5_level_9
Unnamed: 0_level_10,Graphs are unavailable due to technical issues. There is more info on Phabricator and on MediaWiki.org.,Unnamed: 1_level_10,Unnamed: 2_level_10,Unnamed: 3_level_10,Unnamed: 4_level_10,Unnamed: 5_level_10
Unnamed: 0_level_11,Graphs are unavailable due to technical issues. There is more info on Phabricator and on MediaWiki.org.,Unnamed: 1_level_11,Unnamed: 2_level_11,Unnamed: 3_level_11,Unnamed: 4_level_11,Unnamed: 5_level_11
0,,Graphs are unavailable due to technical issues...,,,,
1,1,China[B],1270,1376,1416,
2,2,India,1053,1311,1528,
3,3,United States,283,322,356,
4,4,Indonesia,212,258,295,
5,5,Pakistan,136,208,245,
6,6,Brazil,176,206,228,
7,7,Nigeria,123,182,263,
8,8,Bangladesh,131,161,186,
9,9,Russia,146,146,149,


## Raspe dados de tabelas HTML em um DataFrame usando read_html


Também podemos usar a função **read_html** para obter DataFrames diretamente de um **url**.

In [80]:
dataframe_list = pd.read_html(url, flavor='bs4')

Podemos ver que existem 27 DataFrames

In [81]:
len(dataframe_list)

27

Finalmente podemos escolher o DataFrame que precisamos na lista.

In [82]:
dataframe_list[5]

Unnamed: 0_level_0,#,Most populous countries,2000,2015,2030[A],Graphs are unavailable due to technical issues. There is more info on Phabricator and on MediaWiki.org.
Unnamed: 0_level_1,Graphs are unavailable due to technical issues. There is more info on Phabricator and on MediaWiki.org.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Unnamed: 0_level_2,Graphs are unavailable due to technical issues. There is more info on Phabricator and on MediaWiki.org.,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Unnamed: 0_level_3,Graphs are unavailable due to technical issues. There is more info on Phabricator and on MediaWiki.org.,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3
Unnamed: 0_level_4,Graphs are unavailable due to technical issues. There is more info on Phabricator and on MediaWiki.org.,Unnamed: 1_level_4,Unnamed: 2_level_4,Unnamed: 3_level_4,Unnamed: 4_level_4,Unnamed: 5_level_4
Unnamed: 0_level_5,Graphs are unavailable due to technical issues. There is more info on Phabricator and on MediaWiki.org.,Unnamed: 1_level_5,Unnamed: 2_level_5,Unnamed: 3_level_5,Unnamed: 4_level_5,Unnamed: 5_level_5
Unnamed: 0_level_6,Graphs are unavailable due to technical issues. There is more info on Phabricator and on MediaWiki.org.,Unnamed: 1_level_6,Unnamed: 2_level_6,Unnamed: 3_level_6,Unnamed: 4_level_6,Unnamed: 5_level_6
Unnamed: 0_level_7,Graphs are unavailable due to technical issues. There is more info on Phabricator and on MediaWiki.org.,Unnamed: 1_level_7,Unnamed: 2_level_7,Unnamed: 3_level_7,Unnamed: 4_level_7,Unnamed: 5_level_7
Unnamed: 0_level_8,Graphs are unavailable due to technical issues. There is more info on Phabricator and on MediaWiki.org.,Unnamed: 1_level_8,Unnamed: 2_level_8,Unnamed: 3_level_8,Unnamed: 4_level_8,Unnamed: 5_level_8
Unnamed: 0_level_9,Graphs are unavailable due to technical issues. There is more info on Phabricator and on MediaWiki.org.,Unnamed: 1_level_9,Unnamed: 2_level_9,Unnamed: 3_level_9,Unnamed: 4_level_9,Unnamed: 5_level_9
Unnamed: 0_level_10,Graphs are unavailable due to technical issues. There is more info on Phabricator and on MediaWiki.org.,Unnamed: 1_level_10,Unnamed: 2_level_10,Unnamed: 3_level_10,Unnamed: 4_level_10,Unnamed: 5_level_10
Unnamed: 0_level_11,Graphs are unavailable due to technical issues. There is more info on Phabricator and on MediaWiki.org.,Unnamed: 1_level_11,Unnamed: 2_level_11,Unnamed: 3_level_11,Unnamed: 4_level_11,Unnamed: 5_level_11
0,,Graphs are unavailable due to technical issues...,,,,
1,1,China[B],1270,1376,1416,
2,2,India,1053,1311,1528,
3,3,United States,283,322,356,
4,4,Indonesia,212,258,295,
5,5,Pakistan,136,208,245,
6,6,Brazil,176,206,228,
7,7,Nigeria,123,182,263,
8,8,Bangladesh,131,161,186,
9,9,Russia,146,146,149,


Também podemos usar o parâmetro **match** para selecionar a tabela específica que desejamos. Se a tabela contiver uma string correspondente ao texto, ela será lida.

In [83]:
pd.read_html(url, match="10 most densely populated countries", flavor='bs4')[0]

Unnamed: 0,Rank,Country,Population,Area (km2),Density (pop/km2)
0,1,Singapore,5921231,719,8235
1,2,Bangladesh,165650475,148460,1116
2,3,Palestine[note 3][101],5223000,6025,867
3,4,Taiwan[note 4],23580712,35980,655
4,5,South Korea,51844834,99720,520
5,6,Lebanon,5296814,10400,509
6,7,Rwanda,13173730,26338,500
7,8,Burundi,12696478,27830,456
8,9,Israel,9402617,21937,429
9,10,India,1389637446,3287263,423


## Autores


Felipe Oliveira (CodeLipe), com base no conteúdo de estudo do: [Certificado Profissional de Analista de Dados IBM](https://www.coursera.org/professional-certificates/ibm-data-analyst?)