<h1 id='parte-2'>2- Lendo e extraindo informações de uma página web pelo python (Web Scraping)</h1>

<h2 id='parte-2a' style="color:blue;">a. Bibliotecas</h2>

<p>Nessa aula usaremos duas bibliotecas básicas, mas importantíssimas para começar o aprendizado em Web Scraping:</p>
<ul>
    <li><b>requests:</b> biblioteca capaz de fazer requests na página(get, post, etc). Apesar dela ser uma ferramenta muito mais complexa do que nosso uso aqui, para nós por enquanto só nos interessa saber que ela é capaz de pegar o código fonte de uma página por meio de uma requisição(GET).</li>
    

<li><b>bs4(BeautifulSoup):</b> ferramente que organiza e abstrai o código fonte para uma formatação que o python entenda e que possamos trabalhar.</li>
</ul>

#### Importando as bibliotecas

In [1]:
import requests
from bs4 import BeautifulSoup

<h2 id='parte-2b' style="color:blue;">b. Lendo nosso exemplo2.html e utilizando 'bs4'</h2>

<p>Já aprendemos a inspecionar uma página e descobrir o que está dentro dela, agora vamos utilizar a biblioteca <b>'bs4'</b> para exrair informações e entender a intuição por trás da biblioteca</p>

<p>Primeiro abrimos nosso arquivo <b>'exemplo2.html'</b> de forma básica pelo python(por enquanto não precisamos do <b>'requests'</b>, já que nosso arquivo html está local):</p>

In [3]:
html_fonte = open('exemplo2.html', "r", encoding='utf8').read()

html_fonte

"<!DOCTYPE html>\n<html>\n    <head>\n        <title>Page Title</title>\n    </head>\n\n    <body>\n\n        <div class='parte-1-heading'>\n            <h1 id='titulo-1'>Isto é um título</h1>\n            <p>Isto é um parágrafo</p>\n            <a href='https://www.google.com.br'>Link do google</a>\n        </div>\n\n        <div class='parte-2-lista'>\n            <h2>Lista não ordenada</h2>\n\n            <ul>\n                <li>Café</li>\n                <li>Chá</li>\n                <li>Leite</li>\n            </ul>\n\n            <h2>Lista ordenada</h2>\n\n            <ol>\n                <li>Café</li>\n                <li>Chá</li>\n                <li>Leite</li>\n            </ol>\n        </div>\n\n        <div class='parte-3-tabela'>\n            <h2>Exemplo de uma tabela</h2>\n\n            <table>\n                <tr>\n                    <th>Nome</th>\n                    <th>Sobrenome</th>\n                    <th>Idade</th>\n                </tr>\n                <tr>

<p>Ao imprimir <b>html_fonte</b>, vemos que o código parece muito confuso, totalmente diferente de quando inspecionamos ele no chrome. Na verdade ele é apenas uma string contendo tudo que estava dentro do HTML. Nós poderiamos, com um pouco de trabalho e usando ferramentes simples do próprio python, organizar a string e retirar tudo que precisamos dela. Mas como é fácil notar, esse é um HTML de exemplo, com poucas linhas de código, enquanto páginas de web reais podem ter incontáveis linhas. É aí que entra o trabalho do <b>BeautifulSoup</b>, que organiza e abstrai toda a string que apresenta um código HTML, de forma a facilitar o uso no python</p>

<p>Utilizando <b>html_fonte</b> e <b>"html.parser"</b> como parâmetros da função <b>BeautifulSoup</b>, conseguimos organizar nosso código HTML:</p>

In [4]:
html = BeautifulSoup(html_fonte, "html.parser")

html

<!DOCTYPE html>

<html>
<head>
<title>Page Title</title>
</head>
<body>
<div class="parte-1-heading">
<h1 id="titulo-1">Isto é um título</h1>
<p>Isto é um parágrafo</p>
<a href="https://www.google.com.br">Link do google</a>
</div>
<div class="parte-2-lista">
<h2>Lista não ordenada</h2>
<ul>
<li>Café</li>
<li>Chá</li>
<li>Leite</li>
</ul>
<h2>Lista ordenada</h2>
<ol>
<li>Café</li>
<li>Chá</li>
<li>Leite</li>
</ol>
</div>
<div class="parte-3-tabela">
<h2>Exemplo de uma tabela</h2>
<table>
<tr>
<th>Nome</th>
<th>Sobrenome</th>
<th>Idade</th>
</tr>
<tr>
<td>Jill</td>
<td>Smith</td>
<td>50</td>
</tr>
<tr>
<td>Eve</td>
<td>Jackson</td>
<td>94</td>
</tr>
</table>
</div>
</body>
</html>

<p>Percebemos que o output é bem mais amigável dessa vez, mas o mais importante está nos métodos de filtro e busca que podemos fazer com ele. Apesar do <b>'bs4'</b> apresentar muitos métodos úteis, inicialmente podemos começar com apenas 3 deles:</p>

<ul>
    <li><b>.find_all()</b>: Faz buscas em todo o código a partir de parâmetros como a <b>tag</b> ou <b>class</b> e <b>id</b></li>
    <li><b>.text</b>: Extrai o texto de dentro de uma ou várias <b>tags</b>
    <li><b>.get()</b>: Consegue extrair os atributos de dentro de uma <b>tag</b>, como <b>href</b>, <b>title</b>, etc...</li>
</ul>

<p>_____________________________________________________________________________________________________________________</p>

<h3 id='parte-2b1' style="color:green;">b.1. Buscando pela tag</h3>

<p>Utilizando o <b>'html'</b> gerado pelo <b>BeautifulSoup</b> na etapa anterior, podemos filtrar nosso código:</p>

In [5]:
h1 = html.find_all('h1')
table = html.find_all('table')

print('h1: ', h1)
print()
print('table: ', table)

h1:  [<h1 id="titulo-1">Isto é um título</h1>]

table:  [<table>
<tr>
<th>Nome</th>
<th>Sobrenome</th>
<th>Idade</th>
</tr>
<tr>
<td>Jill</td>
<td>Smith</td>
<td>50</td>
</tr>
<tr>
<td>Eve</td>
<td>Jackson</td>
<td>94</td>
</tr>
</table>]


<p>Veja que conseguimos extrair a parte do código onde contém a tag <b>&lt;h1&gt;...&lt;/h1&gt;</b> e tudo que está dentro da tag <b>&lt;table&gt;...&lt;/table&gt;</b> usando o método <b>'.find_all()'</b></p>

<p>No exemplo de <b>'h1'</b>, basta usarmos o método <b>'.text'</b> para extrair o texto de dentro:</p>

In [6]:
h1[0].text

'Isto é um título'

<p>_____________________________________________________________________________________________________________________</p>

<h3 id='parte-2b2' style="color:green;">b.2. Buscando por 'class' ou 'id'</h3>

<p>É fácil entender que, caso buscassemos a tag <b>&lt;div&gt;...&lt;/div&gt;</b> em <b>'.find_all()'</b>, receberiamos como output todos os <b>&lt;div&gt;...&lt;/div&gt;</b>, o que não traria nenhuma informação útil, já que na prática tudo no nosso código de exemplo é composto por <b>&lt;div&gt;...&lt;/div&gt;</b>. Para separarmos cada um, usamos as tags <b>'class'</b> ou <b>'id'</b> na busca, da seguinte forma:

In [7]:
div_lista = html.find_all(attrs={'class': 'parte-2-lista'})
div_header = html.find_all(attrs={'class': 'parte-1-heading'})
h1 = html.find_all(attrs={'id': 'titulo-1'})

print('h1: ', h1)
print()
print('div lista: ', div_lista)

h1:  [<h1 id="titulo-1">Isto é um título</h1>]

div lista:  [<div class="parte-2-lista">
<h2>Lista não ordenada</h2>
<ul>
<li>Café</li>
<li>Chá</li>
<li>Leite</li>
</ul>
<h2>Lista ordenada</h2>
<ol>
<li>Café</li>
<li>Chá</li>
<li>Leite</li>
</ol>
</div>]


<p>Dentro de <b>div_header</b> temos 3 tags diferentes, então ainda podemos fazer uma nova busca dentro dele para extrair mais informações. Como só achamos um elemento, utilizaremos <b>div_header[0]</b> para criar uma nova busca:</p>

In [8]:
div_header[0]

<div class="parte-1-heading">
<h1 id="titulo-1">Isto é um título</h1>
<p>Isto é um parágrafo</p>
<a href="https://www.google.com.br">Link do google</a>
</div>

In [9]:
h1 = div_header[0].find_all('h1')
p = div_header[0].find_all('p')
a = div_header[0].find_all('a')

print('h1: ', h1)
print()
print('p: ', p)
print()
print('a: ', a)

h1:  [<h1 id="titulo-1">Isto é um título</h1>]

p:  [<p>Isto é um parágrafo</p>]

a:  [<a href="https://www.google.com.br">Link do google</a>]


<p>Para extrair os textos, basta apenas aplicar o <b>'.text':</b></p>

In [10]:
print('h1: ', h1[0].text)
print()
print('p: ', p[0].text)
print()
print('a: ', a[0].text)

h1:  Isto é um título

p:  Isto é um parágrafo

a:  Link do google


<p>_____________________________________________________________________________________________________________________</p>

<h3 id='parte-2b3' style="color:green;">b.3. Extraindo atributos de tags</h3>

<p>Em <b>&lt;a...&gt;</b> nós temos o atributo <b>'href'</b>, que pode ser facilmente extraido usando o método <b>'.get()'</b>, usando como parâmetro o nome do atributo:<p>

In [11]:
link = a[0].get('href')

print(a[0])
print('link: ', link)

<a href="https://www.google.com.br">Link do google</a>
link:  https://www.google.com.br
