<center>
    <img src="https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-PY0101EN-SkillsNetwork/IDSNlogo.png" width="300" alt="cognitiveclass.ai logo">
</center>

# **Laboratório de Web Scraping**

## Objectivos

Depois de concluir este laboratório, você será:

* Familiarizado com os fundamentos da biblioteca Python `BeautifulSoup`
* Ser capaz de extrair dados de páginas da web e filtrar os dados

<hr>

Neste laboratório, usaremos Python e várias bibliotecas Python. Algumas dessas bibliotecas podem ser instaladas em seu ambiente de laboratório ou no SN Labs. Outros podem precisar ser instalados por você. As células abaixo instalarão essas bibliotecas quando executadas.

Importe os módulos e funções necessários

In [1]:
from bs4 import BeautifulSoup # este módulo ajuda na web scraping.
import requests # este módulo nos ajuda a baixar uma página da web

## Objeto Beautiful Soup


Beautiful Soup é uma biblioteca Python para extrair dados de arquivos HTML e XML, vamos nos concentrar em arquivos HTML. Isto é conseguido representando o HTML como um conjunto de objetos com métodos usados para analisar o HTML. Podemos navegar no HTML como uma árvore e/ou filtrar o que procuramos.

Considere o seguinte HTML:

In [2]:
%%html
<!DOCTYPE html>
<html>
<head>
<title>Page Title</title>
</head>
<body>
<h3><b id='boldest'>Lebron James</b></h3>
<p> Salary: $ 92,000,000 </p>
<h3> Stephen Curry</h3>
<p> Salary: $85,000, 000 </p>
<h3> Kevin Durant </h3>
<p> Salary: $73,200, 000</p>
</body>
</html>

Podemos armazená-lo como uma string na variável HTML

In [4]:
html = "<!DOCTYPE html><html><head><title>Page Title</title></head><body><h3> \
<b id='boldest'>Lebron James</b></h3><p> Salary: $ 92,000,000 </p> \
<h3>Stephen Curry</h3><p> Salary: $85,000,000</p> \
<h3>Kevin Durant</h3><p> Salary: $73,200,000</p></body></html>"

Para analisar um documento, passe-o para o construtor <code>BeautifulSoup</code>. O objeto <code>BeautifulSoup</code> representa o documento como uma estrutura de dados aninhada:

In [5]:
soup = BeautifulSoup(html, 'html5lib')

In [6]:
soup

<!DOCTYPE html>
<html><head><title>Page Title</title></head><body><h3> <b id="boldest">Lebron James</b></h3><p> Salary: $ 92,000,000 </p> <h3>Stephen Curry</h3><p> Salary: $85,000,000</p> <h3>Kevin Durant</h3><p> Salary: $73,200,000</p></body></html>

Primeiro, o documento é convertido para Unicode (semelhante ao ASCII) e as entidades HTML são convertidas para caracteres Unicode. Beautiful Soup transforma um documento HTML complexo em uma árvore complexa de objetos Python. O objeto <code>BeautifulSoup</code> pode criar outros tipos de objetos. Neste laboratório, abordaremos os objetos <code>BeautifulSoup</code> e <code>Tag</code>, que para os propósitos deste laboratório são idênticos. Finalmente, veremos os objetos <code>NavigableString</code>.

Podemos usar o método <code>prettify()</code> para exibir o HTML na estrutura aninhada:

In [7]:
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Page Title
  </title>
 </head>
 <body>
  <h3>
   <b id="boldest">
    Lebron James
   </b>
  </h3>
  <p>
   Salary: $ 92,000,000
  </p>
  <h3>
   Stephen Curry
  </h3>
  <p>
   Salary: $85,000,000
  </p>
  <h3>
   Kevin Durant
  </h3>
  <p>
   Salary: $73,200,000
  </p>
 </body>
</html>



<hr>

## Tags

Digamos que queremos o título da página e o nome do jogador mais bem pago. Podemos usar a <code>Tag</code>. O objeto <code>Tag</code> corresponde a uma tag HTML no documento original, por exemplo, o título da tag.

In [8]:
tag_object = soup.title
print("tag object:", tag_object)

tag object: <title>Page Title</title>


podemos ver o tipo de tag <code>bs4.element.Tag</code>

In [9]:
print("tag object type:", type(tag_object))

tag object type: <class 'bs4.element.Tag'>


Se houver mais de uma <code>Tag</code> com o mesmo nome, o primeiro elemento com esse nome de <code>Tag</code> será chamado. Isso corresponde ao jogador mais pago:

In [10]:
tag_object = soup.h3
tag_object

<h3> <b id="boldest">Lebron James</b></h3>

Colocado no atributo em negrito <code>b</code>, ajuda a usar a representação em árvore. Podemos navegar pela árvore usando o atributo filho para obter o nome.

### Filhos, Pais e Irmãos

Conforme afirmado acima, o objeto <code>Tag</code> é uma árvore de objetos. Podemos acessar o filho da tag ou navegar pelo branch da seguinte forma:

In [11]:
tag_child = tag_object.b
tag_child

<b id="boldest">Lebron James</b>

Você pode acessar o pai com o <code>parent</code>.

In [12]:
parent_tag = tag_child.parent
parent_tag

<h3> <b id="boldest">Lebron James</b></h3>

isso é idêntico a:

In [14]:
tag_object

<h3> <b id="boldest">Lebron James</b></h3>

<code>tag_object</code> Pai é o elemento <code>body</code>.

In [15]:
tag_object.parent

<body><h3> <b id="boldest">Lebron James</b></h3><p> Salary: $ 92,000,000 </p> <h3>Stephen Curry</h3><p> Salary: $85,000,000</p> <h3>Kevin Durant</h3><p> Salary: $73,200,000</p></body>

<code>tag_object</code> Irmão  é o elemento <code>paragraph</code>.

In [51]:
sibling_1 = tag_object.next_sibling
sibling_1

<p> Salary: $ 92,000,000 </p>

`sibling_2` é o elemento `header`, que também é irmão de `sibling_1` e `tag_object`

<h3 id="first_question">Exercício: <code>next_sibling</code></h3>

Use o objeto <code>sibling\_2</code> e o método <code>next_sibling</code> para encontrar o salário de Stephen Curry:

In [57]:
sibling_2 = sibling_2.next_sibling
sibling_2

<p> Salary: $85,000,000</p>

### Atributos HTML 

Se a tag possui atributos, a tag <code>id="boldest"</code> possui um atributo <code>id</code> cujo valor é <code>boldest</code>. Você pode acessar os atributos de uma tag tratando-a como um dicionário:

In [58]:
tag_child['id']

'boldest'

Você pode acessar esse dicionário diretamente como <code>attrs</code>:

In [59]:
tag_child.attrs

{'id': 'boldest'}

Você também pode trabalhar com atributos com vários valores. Confira <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMDeveloperSkillsNetworkPY0101 ENSkillsNetwork19487395-2021-01-01" >\[1]</a> para mais.

Também podemos obter o conteúdo do atributo da <code>tag</code> usando o método Python <code>get()</code>.

In [60]:
tag_child.get('id')

'boldest'

### String Navegável

Uma string corresponde a um pedaço de texto ou conteúdo dentro de uma tag. Beautiful Soup usa a classe <code>NavigableString</code> para conter este texto. Em nosso HTML podemos obter o nome do primeiro jogador extraindo a string do objeto <code>Tag</code> <code>tag_child</code> da seguinte forma:

In [62]:
tag_string = tag_child.string
tag_string

'Lebron James'

podemos verificar se o tipo é Navegável String

In [63]:
type(tag_string)

bs4.element.NavigableString

Um NavigableString é semelhante a uma string Python ou Unicode. Para ser mais preciso, a principal diferença é que ele também suporta alguns recursos do <code>BeautifulSoup</code>. Podemos convertê-lo em objeto string em Python:

In [64]:
unicode_string = str(tag_string)
unicode_string

'Lebron James'

<hr>

## Filter (Filtro)

Os filtros permitem encontrar padrões complexos, o filtro mais simples é uma string. Nesta seção, passaremos uma string para um método de filtro diferente e o Beautiful Soup realizará uma correspondência com essa string exata. Considere o seguinte HTML de lançamentos de foguetes:

In [65]:
%%html
<table>
  <tr>
    <td id='flight' >Flight No</td>
    <td>Launch site</td> 
    <td>Payload mass</td>
   </tr>
  <tr> 
    <td>1</td>
    <td><a href='https://en.wikipedia.org/wiki/Florida'>Florida</a></td>
    <td>300 kg</td>
  </tr>
  <tr>
    <td>2</td>
    <td><a href='https://en.wikipedia.org/wiki/Texas'>Texas</a></td>
    <td>94 kg</td>
  </tr>
  <tr>
    <td>3</td>
    <td><a href='https://en.wikipedia.org/wiki/Florida'>Florida<a> </td>
    <td>80 kg</td>
  </tr>
</table>

0,1,2
Flight No,Launch site,Payload mass
1,Florida,300 kg
2,Texas,94 kg
3,Florida,80 kg


Podemos armazená-lo como uma string na variável <code>table</code>:

In [66]:
table = "<table><tr><td id='flight'>Flight No</td><td>Launch site</td> \
<td>Payload mass</td></tr><tr> <td>1</td> \
<td><a href='https://en.wikipedia.org/wiki/Florida'>Florida<a></td> \
<td>300 kg</td></tr><tr><td>2</td> \
<td><a href='https://en.wikipedia.org/wiki/Texas'>Texas</a></td> \
<td>94 kg</td></tr><tr><td>3</td> \
<td><a href='https://en.wikipedia.org/wiki/Florida'>Florida<a> </td> \
<td>80 kg</td></tr></table>"

In [67]:
table_bs = BeautifulSoup(table, 'html5lib')

<hr>

## find_All

O método <code>find_all()</code> examina os descendentes de uma tag e recupera todos os descendentes que correspondem aos seus filtros.

<p>
A assinatura do método para <code>find_all(name, attrs, recursive, string, limit, **kwargs)<c/ode>
</p>

### Name


Quando definimos o parâmetro <code>name</code> como um nome de tag, o método extrairá todas as tags com esse nome e seus filhos.

In [68]:
table_rows = table_bs.find_all('tr')
table_rows

[<tr><td id="flight">Flight No</td><td>Launch site</td> <td>Payload mass</td></tr>,
 <tr> <td>1</td> <td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a><a></a></td> <td>300 kg</td></tr>,
 <tr><td>2</td> <td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td> <td>94 kg</td></tr>,
 <tr><td>3</td> <td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a><a> </a></td> <td>80 kg</td></tr>]

O resultado é um Python iterável como uma lista, cada elemento é um objeto <code>tag</code>:

In [69]:
first_row = table_rows[0]
first_row

<tr><td id="flight">Flight No</td><td>Launch site</td> <td>Payload mass</td></tr>

O tipo é <code>tag</code>

In [70]:
print(type(first_row))

<class 'bs4.element.Tag'>


podemos obter a criança

In [71]:
first_row.td

<td id="flight">Flight No</td>

Se iterarmos na lista, cada elemento corresponderá a uma linha da tabela:

In [72]:
for i, row in enumerate(table_rows):
    print("row", i, "is", row)

row 0 is <tr><td id="flight">Flight No</td><td>Launch site</td> <td>Payload mass</td></tr>
row 1 is <tr> <td>1</td> <td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a><a></a></td> <td>300 kg</td></tr>
row 2 is <tr><td>2</td> <td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td> <td>94 kg</td></tr>
row 3 is <tr><td>3</td> <td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a><a> </a></td> <td>80 kg</td></tr>


Como <code>row</code> é um objeto <code>cell</code>, podemos aplicar o método <code>find_all</code> a ele e extrair células da tabela no objeto <code>cells</code > usando a tag <code>td</code>, são todos os filhos com o nome <code>td</code>. O resultado é uma lista, cada elemento corresponde a uma célula e é um objeto <code>Tag</code>, podemos iterar por esta lista também. Podemos extrair o conteúdo usando o atributo <code>string</code>.

In [73]:
for i, row in enumerate(table_rows):
    print("row", i)
    cells = row.find_all('td')
    for j, cell in enumerate(cells):
        print('colunm', j, "cell", cell)

row 0
colunm 0 cell <td id="flight">Flight No</td>
colunm 1 cell <td>Launch site</td>
colunm 2 cell <td>Payload mass</td>
row 1
colunm 0 cell <td>1</td>
colunm 1 cell <td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a><a></a></td>
colunm 2 cell <td>300 kg</td>
row 2
colunm 0 cell <td>2</td>
colunm 1 cell <td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td>
colunm 2 cell <td>94 kg</td>
row 3
colunm 0 cell <td>3</td>
colunm 1 cell <td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a><a> </a></td>
colunm 2 cell <td>80 kg</td>


Se usarmos uma lista, podemos comparar qualquer item dessa lista.

In [74]:
list_input = table_bs.find_all(name=["tr", "td"])
list_input

[<tr><td id="flight">Flight No</td><td>Launch site</td> <td>Payload mass</td></tr>,
 <td id="flight">Flight No</td>,
 <td>Launch site</td>,
 <td>Payload mass</td>,
 <tr> <td>1</td> <td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a><a></a></td> <td>300 kg</td></tr>,
 <td>1</td>,
 <td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a><a></a></td>,
 <td>300 kg</td>,
 <tr><td>2</td> <td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td> <td>94 kg</td></tr>,
 <td>2</td>,
 <td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td>,
 <td>94 kg</td>,
 <tr><td>3</td> <td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a><a> </a></td> <td>80 kg</td></tr>,
 <td>3</td>,
 <td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a><a> </a></td>,
 <td>80 kg</td>]

### Atributos

Caso o argumento não seja reconhecido ele será transformado em um filtro nos atributos da tag. Por exemplo, com o argumento <code>id</code>, Beautiful Soup irá filtrar o atributo <code>id</code> de cada tag. Por exemplo, os primeiros elementos <code>td</code> têm um valor de <code>id</code> de <code>flight</code>, portanto podemos filtrar com base nesse <code>id</code > valor.

In [75]:
table_bs.find_all(id="flight")

[<td id="flight">Flight No</td>]

Podemos encontrar todos os elementos que possuem links para a página da Wikipedia da Flórida:

In [76]:
list_input = table_bs.find_all(href="https://en.wikipedia.org/wiki/Florida")
list_input

[<a href="https://en.wikipedia.org/wiki/Florida">Florida</a>,
 <a href="https://en.wikipedia.org/wiki/Florida">Florida</a>]

Se definirmos o atributo <code>href</code> como True, independentemente de qual seja o valor, o código encontrará todas as tags âncora com valor <code>href</code>:

In [77]:
table_bs.find_all('a', href=True)

[<a href="https://en.wikipedia.org/wiki/Florida">Florida</a>,
 <a href="https://en.wikipedia.org/wiki/Texas">Texas</a>,
 <a href="https://en.wikipedia.org/wiki/Florida">Florida</a>]

Existem outros métodos para lidar com atributos e outros métodos relacionados. Confira o seguinte <a href='https://www.crummy.com/software/BeautifulSoup/bs4/doc/?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMDeveloperSkillsNetworkPY0 101ENSkillsNetwork19487395-2021-01- 01#css-selectors'>link</a>

<h3 id="exer_type">Exercício: <code>find_all</code></h3>

Usando a lógica acima, encontre todas as tags âncora sem valor <code>href</code>

In [78]:
table_bs.find_all('a', href=False)

[<a></a>, <a> </a>]

Usando o objeto sopa <code>soup</code>, encontre o elemento com o conteúdo do atributo <code>id</code> definido como <code>"boldest"</code>.

In [79]:
soup.find_all(id="boldest")

[<b id="boldest">Lebron James</b>]

### string

Com string você pode procurar por strings em vez de tags, onde encontramos todos os elementos com Florida:

In [80]:
table_bs.find_all(string="Florida")

['Florida', 'Florida']

<hr>

## find

O método <code>find_all()</code> verifica todo o documento em busca de resultados. É útil se você estiver procurando por um elemento, pois você pode usar o método <code>find()</code> para encontrar o primeiro elemento no documento. Considere as duas tabelas a seguir:

In [81]:
%%html
<h3>Rocket Launch </h3>

<p>
<table class='rocket'>
  <tr>
    <td>Flight No</td>
    <td>Launch site</td> 
    <td>Payload mass</td>
  </tr>
  <tr>
    <td>1</td>
    <td>Florida</td>
    <td>300 kg</td>
  </tr>
  <tr>
    <td>2</td>
    <td>Texas</td>
    <td>94 kg</td>
  </tr>
  <tr>
    <td>3</td>
    <td>Florida </td>
    <td>80 kg</td>
  </tr>
</table>
</p>
<p>

<h3>Pizza Party</h3>
  
    
<table class='pizza'>
  <tr>
    <td>Pizza Place</td>
    <td>Orders</td> 
    <td>Slices </td>
   </tr>
  <tr>
    <td>Domino's Pizza</td>
    <td>10</td>
    <td>100</td>
  </tr>
  <tr>
    <td>Little Caesars</td>
    <td>12</td>
    <td >144 </td>
  </tr>
  <tr>
    <td>Papa John's </td>
    <td>15 </td>
    <td>165</td>
  </tr>


0,1,2
Flight No,Launch site,Payload mass
1,Florida,300 kg
2,Texas,94 kg
3,Florida,80 kg

0,1,2
Pizza Place,Orders,Slices
Domino's Pizza,10,100
Little Caesars,12,144
Papa John's,15,165


Armazenamos o HTML como uma string Python e atribuímos <code>two_tables</code>:

In [82]:
two_tables="<h3>Rocket Launch </h3> \
<p><table class='rocket'> \
<tr><td>Flight No</td><td>Launch site</td><td>Payload mass</td></tr> \
<tr><td>1</td><td>Florida</td><td>300 kg</td></tr> \
<tr><td>2</td><td>Texas</td><td>94 kg</td></tr> \
<tr><td>3</td><td>Florida </td><td>80 kg</td></tr></table></p>\
<p><h3>Pizza Party</h3> \
<table class='pizza'> \
<tr><td>Pizza Place</td><td>Orders</td><td>Slices </td></tr> \
<tr><td>Domino's Pizza</td><td>10</td><td>100</td></tr> \
<tr><td>Little Caesars</td><td>12</td><td >144 </td></tr> \
<tr><td>Papa John's</td><td>15 </td><td>165</td></tr>"

Criamos um objeto <code>BeautifulSoup</code> <code>two_tables_bs</code>

In [83]:
two_tables_bs = BeautifulSoup(two_tables, 'html.parser')

Podemos encontrar a primeira tabela usando a tabela de nomes de tags

In [84]:
two_tables_bs.find("table")

<table class="rocket"> <tr><td>Flight No</td><td>Launch site</td><td>Payload mass</td></tr> <tr><td>1</td><td>Florida</td><td>300 kg</td></tr> <tr><td>2</td><td>Texas</td><td>94 kg</td></tr> <tr><td>3</td><td>Florida </td><td>80 kg</td></tr></table>

Podemos filtrar o atributo class para encontrar a segunda tabela, mas como class é uma palavra-chave em Python, adicionamos um sublinhado para diferenciá-los

In [85]:
two_tables_bs.find("table", class_='pizza')

<table class="pizza"> <tr><td>Pizza Place</td><td>Orders</td><td>Slices </td></tr> <tr><td>Domino's Pizza</td><td>10</td><td>100</td></tr> <tr><td>Little Caesars</td><td>12</td><td>144 </td></tr> <tr><td>Papa John's</td><td>15 </td><td>165</td></tr></table>

<hr>

<h2 id="DSCW">Baixando e copiando o conteúdo de uma página da Web</h2>

Baixamos o conteúdo da página web:

In [91]:
url = "http://www.ibm.com"

Usamos <code>get</code> para baixar o conteúdo da página web em formato de texto e armazená-lo em uma variável chamada <code>data</code>:

In [92]:
data = requests.get(url).text

Criamos um objeto <code>BeautifulSoup</code> usando o construtor <code>BeautifulSoup</code>

In [99]:
sopa = BeautifulSoup(data, "html5lib") # cria um objeto sopa usando a variável 'data'

Raspe todos os links

In [100]:
for link in soup.find_all('a', href=True):  # em html âncora/link é representado pela tag <a>
    print(link.get('href'))

### Raspe todas as imagens Tags

In [97]:
for link in soup.find_all('img'):  # in html image is represented by the tag <img>
    print(link)
    print(link.get('src'))

### Extraia dados de tabelas HTML

In [101]:
# O URL abaixo contém uma tabela html com dados sobre cores e códigos de cores.
url = "https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-DA0321EN-SkillsNetwork/labs/datasets/HTMLColorCodes.html"

Antes de prosseguir com a raspagem de um site, você precisa examinar o conteúdo e a forma como os dados são organizados no site. Abra o URL acima em seu navegador e verifique quantas linhas e colunas existem na tabela de cores.

In [106]:
# obtém o conteúdo da página web em formato de texto e armazena em uma variável chamada data
data = requests.get(url).text

In [105]:
soup = BeautifulSoup(data, "html5lib")

In [None]:
soup

In [114]:
#encontre uma tabela HTML na página web
table = soup.find('table') # em tabela html é representada pela tag <table>

In [116]:
# Obtém todas as linhas da tabela
for row in table.find_all('tr'): # na linha da tabela html representada pela tag <tr>
     # Obtém todas as colunas de cada linha.
     cols = row.find_all('td') # em html uma coluna é representada pela tag <td>
     color_name = cols[2].string # armazena o valor na coluna 3 como color_name
     color_code = cols[3].text # armazena o valor na coluna 4 como color_code
     print("{}--->{}".format(color_name, color_code))

Color Name--->Hex Code#RRGGBB
lightsalmon--->#FFA07A
salmon--->#FA8072
darksalmon--->#E9967A
lightcoral--->#F08080
coral--->#FF7F50
tomato--->#FF6347
orangered--->#FF4500
gold--->#FFD700
orange--->#FFA500
darkorange--->#FF8C00
lightyellow--->#FFFFE0
lemonchiffon--->#FFFACD
papayawhip--->#FFEFD5
moccasin--->#FFE4B5
peachpuff--->#FFDAB9
palegoldenrod--->#EEE8AA
khaki--->#F0E68C
darkkhaki--->#BDB76B
yellow--->#FFFF00
lawngreen--->#7CFC00
chartreuse--->#7FFF00
limegreen--->#32CD32
lime--->#00FF00
forestgreen--->#228B22
green--->#008000
powderblue--->#B0E0E6
lightblue--->#ADD8E6
lightskyblue--->#87CEFA
skyblue--->#87CEEB
deepskyblue--->#00BFFF
lightsteelblue--->#B0C4DE
dodgerblue--->#1E90FF


<hr>

## Extraindo tabelas de uma página da Web usando Pandas

Particularmente para extrair dados tabulares de uma página web, você também pode usar o método `read_html()` da biblioteca Pandas.

In [118]:
# O URL abaixo contém uma tabela html com dados sobre cores e códigos de cores.
url = "https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-DA0321EN-SkillsNetwork/labs/datasets/HTMLColorCodes.html"

Você pode extrair todas as tabelas de uma determinada página da web simplesmente usando os seguintes comandos.

In [119]:
import pandas as pd

tables = pd.read_html(url)
tables

[         0      1               2                 3                     4
 0   Number  Color      Color Name  Hex Code #RRGGBB  Decimal Code (R,G,B)
 1        1    NaN     lightsalmon           #FFA07A      rgb(255,160,122)
 2        2    NaN          salmon           #FA8072      rgb(250,128,114)
 3        3    NaN      darksalmon           #E9967A      rgb(233,150,122)
 4        4    NaN      lightcoral           #F08080      rgb(240,128,128)
 5        5    NaN           coral           #FF7F50       rgb(255,127,80)
 6        6    NaN          tomato           #FF6347        rgb(255,99,71)
 7        7    NaN       orangered           #FF4500         rgb(255,69,0)
 8        8    NaN            gold           #FFD700        rgb(255,215,0)
 9        9    NaN          orange           #FFA500        rgb(255,165,0)
 10      10    NaN      darkorange           #FF8C00        rgb(255,140,0)
 11      11    NaN     lightyellow           #FFFFE0      rgb(255,255,224)
 12      12    NaN    lem

`tables` agora é uma lista de dataframes que representam as tabelas da página web, na sequência de seu aparecimento. Na URL atual, existe apenas uma tabela, portanto a mesma pode ser acessada conforme mostrado abaixo.

In [120]:
tables[0]

Unnamed: 0,0,1,2,3,4
0,Number,Color,Color Name,Hex Code #RRGGBB,"Decimal Code (R,G,B)"
1,1,,lightsalmon,#FFA07A,"rgb(255,160,122)"
2,2,,salmon,#FA8072,"rgb(250,128,114)"
3,3,,darksalmon,#E9967A,"rgb(233,150,122)"
4,4,,lightcoral,#F08080,"rgb(240,128,128)"
5,5,,coral,#FF7F50,"rgb(255,127,80)"
6,6,,tomato,#FF6347,"rgb(255,99,71)"
7,7,,orangered,#FF4500,"rgb(255,69,0)"
8,8,,gold,#FFD700,"rgb(255,215,0)"
9,9,,orange,#FFA500,"rgb(255,165,0)"


<hr>

## Raspagem na Web

A raspagem da Web envolve a extração de informações de páginas da web usando Python. Pode economizar tempo e automatizar a coleta de dados.

### Ferramentas necessárias

A raspagem da Web requer código Python e dois módulos essenciais: Requests e Beautiful Soup. Certifique-se de ter ambos os módulos instalados no seu ambiente Python.

In [122]:
# Import Beautiful Soup to parse the web page content
from bs4 import BeautifulSoup

### Obtendo e anarsando HTML

Para iniciar a raspagem da web, você precisa buscar o conteúdo HTML de uma página da web e analisá-la usando a Beautiful Soup. Aqui está um exemplo passo a passo:

In [123]:
import requests
from bs4 import BeautifulSoup

# Specify the URL of the webpage you want to scrape
url = 'https://en.wikipedia.org/wiki/IBM'

# Send an HTTP GET request to the webpage
response = requests.get(url)

# Store the HTML content in a variable
html_content = response.text

# Create a BeautifulSoup object to parse the HTML
soup = BeautifulSoup(html_content, 'html.parser')

# Display a snippet of the HTML content
print(html_content[:500])

<!DOCTYPE html>
<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-0 vector-feature-client-preferences-disabled vector-feature-client-prefs-p


### Navegando pela estrutura HTML

BeautifulSoup representa conteúdo HTML como uma estrutura semelhante a uma árvore, permitindo uma navegação fácil. Você pode usar métodos como find_all para filtrar e extrair elementos HTML específicos. Por exemplo, para encontrar todas as tags âncora () e imprimir seu texto:

In [125]:
# Find all <a> tags (anchor tags) in the HTML
links = soup.find_all('a')

# Iterate through the list of links and print their text
for link in links:
    print(link.text)

Jump to content
Main page
Contents
Current events
Random article
About Wikipedia
Contact us
Donate
Help
Learn to edit
Community portal
Recent changes
Upload file








Search

Create account
Log in
 Create account
 Log in
learn more
Contributions
Talk

(Top)



1History



2Headquarters and offices



3Finance



4Products and services



5Research



6Brand and reputation



7People and culture



7.1Employees



7.1.1IBM alumni



7.2Board and shareholders



8See also



9References



10Further reading



11External links

Afrikaans
Alemannisch
العربية
Asturianu
Azərbaycanca
تۆرکجه
বাংলা
Bân-lâm-gú
Башҡортса
Беларуская
Беларуская (тарашкевіца)
Български
Bosanski
Català
Чӑвашла
Čeština
Dansk
Deutsch
Eesti
Ελληνικά
Español
Esperanto
Euskara
فارسی
Français
Gaeilge
Galego
Gĩkũyũ
한국어
Հայերեն
हिन्दी
Hrvatski
Ido
Bahasa Indonesia
Interlingue
Íslenska
Italiano
עברית
Jawa
ಕನ್ನಡ
ქართული
Қазақша
Kiswahili
Kurdî
Кыргызча
Latina
Latviešu
Lëtzebuergesch
Lietuvių
Magyar
मैथिली
Македонски
മലയാളം

In [128]:
tables1 = pd.read_html(url)


In [127]:
tables1[0]

Unnamed: 0,0,1
0,"Logo since 1972, designed by Paul Rand","Logo since 1972, designed by Paul Rand"
1,Trade name,IBM
2,Formerly,Computing-Tabulating-Recording Company (1911–1...
3,Company type,Public
4,Traded as,".mw-parser-output .plainlist ol,.mw-parser-out..."
5,ISIN,US4592001014
6,Industry,Information technology
7,Predecessors,Bundy Manufacturing Company Computing Scale Co...
8,Founded,"June 16, 1911; 112 years agoComputing-Tabulati..."
9,Founders,George Winthrop Fairchild Charles Ranlett Flin...
