# WebScraping - Primeiros Passos

A ideia deste notebook será sobre a biblioteca ```BeautifulSoup```, que realiza a tarefa de "raspar" dados de sites na internet; em particular, de páginas HTML. Na verdade, essa biblioteca também faz webscraping de outro formato, mas é necessário instalar manualmente o interpretador.

Como este é o primeiro notebook, vamos nos atentar na classe ```BeautifulSoup``` e alguns de seus métodos.

Para importá-lo, digitamos

In [2]:
from bs4 import BeautifulSoup

Agora que importamos a classe, coletemos o código fonte do site em html usado como exemplo na documentação, https://www.crummy.com/software/BeautifulSoup/bs4/doc/#encodings.

In [3]:
html_doc = """<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

Para instanciar a classe, colocamos como primeiro parâmetro a string do código em HTML, e depois o parser, que é ```html.parser```.

In [4]:
sopa = BeautifulSoup(html_doc, 'html.parser')

Vejamos como o string do código fonte é tratado.

In [10]:
sopa

<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html>

Os objetos nessa biblioteca que são mais relevantes por hora são o ```BeautifulSoup``` e ```Tag```. O primeiro objeto pode ser tratado, a grosso modo, como uma tag.

Para acessar alguma tag específica, devemos colocá-la depois de intanciar o ```BeautifulSoup```. Por exemplo,

In [5]:
sopa.title

<title>The Dormouse's story</title>

Verificando que esse objeto é do tipo ```Tag```, digitamos

In [6]:
type(sopa.title)

bs4.element.Tag

Uma tag pode conter outra tag, como no caso do cabeçalho por exemplo.

In [7]:
cabecalho = sopa.head

cabecalho

<head><title>The Dormouse's story</title></head>

Além disso, uma tag quase sempre contém um atributo chamado ```string```, que é o texto associado que aparece no site.

In [19]:
cabecalho.string

"The Dormouse's story"

Caso queiramos imprimir o nome da tag, usamos o atributo ```name```.

In [20]:
cabecalho.name

'head'

Note que as tags do tipo ```a``` (hiperlink) possuem vários atributos.

In [21]:
sopa.a

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

Para ver todas os atributos dela, podemos usar a variável de instância ```attrs```, que retorna um dicionário contendo os atributos da tag.

In [22]:
sopa.a.attrs

{'href': 'http://example.com/elsie', 'class': ['sister'], 'id': 'link1'}

Cada um deles pode ser acessado como se o objeto ```tag``` fosse um dicionário.

In [25]:
# Isso aqui também daria na mesma: 
# sopa.a['href']

tag = sopa.a

tag['href']

'http://example.com/elsie'

Para achar todas as linhas de um mesmo tipo de tag, usamos o método ```find_all()```.

## ```find_all()```

O método ```find_all()``` retorna uma lista de descendentes de uma tag que contenham determinadas características colocadas no argumento. Dentre os parâmetros que podemos colocar, destacamos o ```name```, que é o tipo de tag (a, p, body, title, etc), e o ```*kwargs```, onde podemos inserir os atributos dessa tag. Por exemplo, vejamos todas as tags correspondentes aos links.

In [26]:
sopa.find_all(name = 'a')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

Se quisermos inserir o nome da classe, devemos escrever "class_" ao invés de "class", pois o último termo é uma palavra reservada em pyhton.

In [25]:
sopa.find_all(class_='sister')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

Para pegar a segunda linha apenas, podemos ver que ela se diferencia das demais pelo atributo ```id```. Assim, temos

In [27]:
sopa.find_all(name = 'a', id ='link2')

[<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

Tanto nesse caso quanto nos outros, cada elemento da lista retornada é um objeto ```Tag```. Logo, se quisermos extrair apenas o texto que elas possuem (Elsie, Lacie e Tillie), então podemos usar o atributo ```string```.

In [32]:
for tag in sopa.find_all(name = 'a'):
    print(tag.string)

Elsie
Lacie
Tillie
