# Introdução ao beautifulsoup #

<img src="beautifulsoup.png">

### O que é BeautifulSoup e porquê tem esse nome?###

BeautifulSoup é uma biblioteca Python para extrair dados de arquivos HTML e XML.
O nome beautifulsoup se origina do livro Aventuras de Alice no País das Maravilhas, de Lewis Carroll. Beautifulsoup, ou bela sopa, é uma canção cantada pela tartaruga durante o capítulo A Quadrilha da Lagosta. O nome foi escolhido para essa biblioteca porque ela ajuda a dar sentido, entenda por sentido o ato de parsear, à "sopa de código HTML e XML". Você pode ouvir essa música no link a seguir:
    
[Beautiful Soup - 1947 Demo - Alice in Wonderland](https://www.youtube.com/watch?v=7BjIn4p3ki8)

### O que escolher, BeautifulSoup versão 3 ou 4? ###

BeautifulSoup 3 foi substituído por BeautifulSoup 4. A versão do BeautifulSoup 3 só irá funcionar para as versões de Python 2.x, já o BeautifulSoup 4 funcionará tanto em Python 2.x como em Python 3.x. Além disso, BeautifulSoup 4 é mais rápido e tem mais recursos que a sua antiga versão. Portanto faz mais sentido usar BeautifulSoup 4 para seus projetos.

### Como instalar o BeautifulSoup? ###

Se você usa o sistema operacional Debian ou Ubuntu, você poderá instalar BeautifulSoup digitando o seguinte na sua linha de comando:

```ssh
apt-get install python-bs4
```

Caso tenha o pip instalado:

```ssh
pip install python-bs4
```
Se tiver algum problema na hora da instalação, execute o código acima como usuário root. 

### Usando BeautifulSoup ###

Logo após a instalação, você pode começar a usar o BeautifulSoup. No início do seu script Python, escreva:

```python
from bs4 import BeautifulSoup
```
Agora você tem que passar algo para BeautifulSoup para instanciar um objeto. Esse algo pode ser um documento ou um URL. BeautifulSoup não busca a página da web para você, você tem que fazer isso sozinho, para isso você pode usar alguma biblioteca python que faça isso, eu particulamento uso a biblioteca requests. Como exemplo, vamos usar o link da wikisource onde tem o capítulo do livro em que tataruga canta a música BeautifulSoup :

In [1]:
from bs4 import BeautifulSoup
import requests

url = "https://pt.wikisource.org/wiki/Alice_no_Pa%C3%ADs_das_Maravilhas/Cap%C3%ADtulo_X"

pagina = requests.get(url)

Vamos verificar se a bágina foi baixada com sucesso, para isso verificamos se estatus code tem o valor 200, se sim, tudo ocorreu bem:

In [2]:
pagina.status_code

200

Tudo ok! Agora vamos dar uma olhada no conteúdo da página. 

In [3]:
pagina.content

'<!DOCTYPE html>\n<html class="client-nojs" lang="pt" dir="ltr">\n<head>\n<meta charset="UTF-8"/>\n<title>Alice no Pa\xc3\xads das Maravilhas/Cap\xc3\xadtulo X - Wikisource</title>\n<script>document.documentElement.className = document.documentElement.className.replace( /(^|\\s)client-nojs(\\s|$)/, "$1client-js$2" );</script>\n<script>(window.RLQ=window.RLQ||[]).push(function(){mw.config.set({"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Alice_no_Pa\xc3\xads_das_Maravilhas/Cap\xc3\xadtulo_X","wgTitle":"Alice no Pa\xc3\xads das Maravilhas/Cap\xc3\xadtulo X","wgCurRevisionId":243731,"wgRevisionId":243731,"wgArticleId":7220,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Unidade de texto sem conex\xc3\xa3o no Wikidata","!Unidades de texto com fichas de dados","Alice no Pa\xc3\xads das Maravilhas"],"wgBreakFrames":false,"wgPageContentLanguage":"pt","wgPageContentModel":"wiki

O conteúdo está tudo bem bagunçado e confuso não é? Vamos então parsear essa página no formato HTML. Não sabe o que significa parsear? Parsear tem origem no verbo inglês "To Parse". Consiste em um neologismo utilizado por programadores e desenvolvedores da área de TI. Ainda não foi elegido um termo equivalente que represente uma tradução exata em português. Os possíveis significados são: "decodificar", "interpretar" e dependendo do caso "converter". Depois desta aula de etimologia vamos então parsear o conteúdo da paǵina para que fique tudo bonitinho no formato HTML: 

In [4]:
sopa = BeautifulSoup(pagina.content, 'html.parser')

Podemos agora printar a página toda formatada: 

In [5]:
print(sopa.prettify())

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="pt">
 <head>
  <meta charset="utf-8"/>
  <title>
   Alice no País das Maravilhas/Capítulo X - Wikisource
  </title>
  <script>
   document.documentElement.className = document.documentElement.className.replace( /(^|\s)client-nojs(\s|$)/, "$1client-js$2" );
  </script>
  <script>
   (window.RLQ=window.RLQ||[]).push(function(){mw.config.set({"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Alice_no_País_das_Maravilhas/Capítulo_X","wgTitle":"Alice no País das Maravilhas/Capítulo X","wgCurRevisionId":243731,"wgRevisionId":243731,"wgArticleId":7220,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Unidade de texto sem conexão no Wikidata","!Unidades de texto com fichas de dados","Alice no País das Maravilhas"],"wgBreakFrames":false,"wgPageContentLanguage":"pt","wgPageContentModel":"wikitext","wgSeparatorTransformTable":[",\

Podemos agora explorar essa página. Vamos obter todas as tags "p"(em HTML essa tag indica parágrafos) como exemplo:

In [6]:
sopa.find_all("p")

[<p><small><i>A informa\xe7\xe3o acima ser\xe1 v\xe1lida apenas para usos nos Estados Unidos \u2014 o que inclui a disponibiliza\xe7\xe3o no Wikisource. (<a href="/wiki/Ajuda:Dom%C3%ADnio_p%C3%BAblico" title="Ajuda:Dom\xednio p\xfablico">detalhes</a>)</i></small></p>,
 <p><small><span style="color:gray">Utilize esta marca\xe7\xe3o apenas se n\xe3o for poss\xedvel apresentar outro racioc\xednio para a manuten\xe7\xe3o da obra. (<a href="/wiki/Wikisource:Esplanada/Predefini%C3%A7%C3%A3o:DP-1" title="Wikisource:Esplanada/Predefini\xe7\xe3o:DP-1">mais...</a>)</span></small></p>,
 <p><br/></p>,
 <p>A Quadrilha da Lagosta</p>,
 <p>A Tartaruga Falsa respirou profundamente, e colocou as costas de uma de suas nadadeiras em frente de seus olhos. Ele olhou para Alice e tentou falar, mas por um minuto ou dois o choro sufocou sua voz. "Como se tivesse um osso em sua garganta", disse o Grifo: e come\xe7ou a sacudi-lo e a bater em suas costas. Por fim a Tartaruga Falsa recuperou sua voz, e com l\xe1g

Esse método que acabamos de usar, fing_all(), é usado com filtro. Podemos passar para esse filtro strings, texto, expressões regulares, atributos de classe ou alguma combinação dos mesmos. Vamos procurar todos os parágrafos do texto em que a palavra "sopa" aparece:  

In [7]:
import re # pesquise sobre 'expressões regulares' caso não entenda o uso abaixo da biblioteca re

for paragrafo in sopa.find_all('p', text = re.compile('(?i)sopa')):
    print paragrafo.text

"Oh, uma música, por favor, se a Tartaruga Falsa for tão gentil", Alice replicou, tão ansiosamente que o Grifo disse, em um tom particularmente ofendido, "Hum! Sem explicações para gostos! Cantaria para ela 'Sopa de Tartaruga', velho amigo?"
<poem> "Linda Sopa, tão rica e verde, Esperando em uma sopeira quente! Para tal guloseima não iria parar? Sopa da noite, bela Sopa! Sopa da noite, bela Sopa! Be...la So..pa! Be...la So..pa! So...pa da noi...te, Bela, bela Sopa!
"Bela Sopa! Quem liga para peixe, Caça, ou qualquer outro prato? Quem não daria tudo mais por somente duas quantias da bela Sopa? Duas quantias da bela Sopa? Be...la So..pa! Be...la So..pa! So...pa da noi...te, Bela, bela Sopa!
So...pa da noi...te, Bela, bela Sopa!


Vamos contar quantas vezes a palavra sopa aparece no texto

In [8]:
texto = ''

for paragrafo in sopa.find_all('p', text = re.compile('(?i)sopa')):
    texto += paragrafo.text
    
lista_texto = texto.split() 
filtro = re.compile('(?i)sopa')
sopa = []

for palavra in lista_texto:
    if filtro.match(palavra):
        sopa.append(palavra)
        
print "A palavra 'sopa' aparece %d vezes no texto." %len(sopa)
print "Segue a lista da palavra 'sopa' encontrada no texto"
print sopa

A palavra 'sopa' aparece 11 vezes no texto.
Segue a lista da palavra 'sopa' encontrada no texto
[u'Sopa,', u'Sopa', u'Sopa!', u'Sopa', u'Sopa!', u'Sopa!"Bela', u'Sopa!', u'Sopa?', u'Sopa?', u'Sopa!So...pa', u'Sopa!']


## Bibliografia ##

http://www.pythonforbeginners.com/python-on-the-web/web-scraping-with-beautifulsoup/

https://www.dataquest.io/blog/web-scraping-tutorial-python/