# WebScraping - Primeiros Passos

A ideia deste notebook será sobre a biblioteca ```BeautifulSoup```, que realiza a tarefa de "raspar" dados de sites na internet; em particular, de páginas HTML. Na verdade, essa biblioteca também faz webscraping de outro formato, mas é necessário instalar manualmente o parser.

Como este é o primeiro notebook, vamos nos atentar na classe ```BeautifulSoup``` e alguns de seus métodos.

Para importá-lo, digitamos

In [3]:
from bs4 import BeautifulSoup

Agora que importamos a classe, coletemos o código fonte do site em html usado como exemplo na documentação, https://www.crummy.com/software/BeautifulSoup/bs4/doc/#encodings.

In [4]:
html_doc = """<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

Para instanciar a classe, colocamos como primeiro parâmetro a string do código em HTML, e depois o parser, que é ```html.parser```.

In [6]:
sopa = BeautifulSoup(html_doc, 'html.parser')

Vejamos como o string do código fonte é tratado.

In [10]:
sopa

<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html>

Para pegar uma tag específica do código, basta inserí-la como atributo. Por exemplo, caso queiramos só o título, basta fazer

In [17]:
sopa.title

<title>The Dormouse's story</title>

Se quisermos apenas o texto da tag, ao invés de sua linha de código, colocamos ```.string``` depois da tag inserida, como se fosse um "atributo de um atributo".

In [18]:
sopa.title.string

"The Dormouse's story"

Note que temos 3 tags do tipo ```a```, isto é, 3 tags de hiperlink. Se usarmos o atributo como nos casos anteriores, obteríamos apenas a primeria tag que aparece no código fonte.

In [19]:
sopa.a

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

Para achar todas as linhas de um mesmo tipo de tag, usamos o método ```find_all()```.

## ```find_all()```

In [25]:
sopa.find_all(class_='sister')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [23]:
for tag in sopa.find_all(class_='sister'):
    print(tag.string)

Elsie
Lacie
Tillie
