### Disciplina de Análise de Dados    
### Curso de Gestão de Dados
### Universidade Federal do Piauí
##### Prof. Arlino Magalhães
arlino@ufpi.edu.br | @arlino.magalhaes


# Extraindo Dados da _Internet_

Referência: Grus, Joel. Data Science do Zero. Capítulo 9. Disponível em: Minha Biblioteca, Editora Alta Books, 2021. 
| Link da Minha Biblioteca: https://integrada.minhabiblioteca.com.br/books/9788550816463

As páginas da *web* são escritas em HTML, uma linguagem em que o texto (idealmente) é 
marcado em elementos e atributos:

    <html> 
        <head>
            <title>A web page</title>
        </head>
        <body>
            <p id="author">Joel Grus</p>
            <p id="subject">Data Science</p>
        </body>
    </html>

Para extrair dados do HTML, usaremos a biblioteca **Beautiful Soup** (http://www.crummy.com/software/BeautifulSoup/). 

Também usaremos a biblioteca **Requests** (http://docs.python-requests.org/en/latest/), uma maneira mais simpática 
de fazer solicitações ao HTTP do que os recursos do Python.

> `sudo pip3 install beautifulsoup4`

> `pip install beautifulsoup4`


O analisador HTML interno do Python não é muito flexível, ou seja, nem sempre processa bem o HTML com falhas na 
formação. Por isso, precisamos instalar o analisador **html5lib**. Confirme se está no ambiente virtual correto e instale as bibliotecas:

> `python -m pip install beautifulsoup4 requests html5lib`

O código abaixo extrai textos de página https://raw.githubusercontent.com/joelgrus/data/master/getting-data.html.

In [None]:
# Recupera o html da página
import requests

url = ("https://raw.githubusercontent.com/joelgrus/data/master/getting-data.html") 
html = requests.get(url).text
html

In [None]:
# Formata o html
from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html5lib')
soup

In [None]:
# Para encontrar a primeira tag <p> (e seu conteúdo), faça isto:
first_paragraph = soup.find('p') # ou apenas soup.p
first_paragraph

In [None]:
# Para obter o conteúdo de texto de uma Tag, use a propriedade text:

first_paragraph_text = soup.p.text
first_paragraph_text

In [None]:
first_paragraph_words = soup.p.text.split()
first_paragraph_words

In [None]:
# Para extrair os atributos de uma tag, trate-a como um dict:

first_paragraph_id = soup.p['id'] # gera KeyError se não houver ‘id’
first_paragraph_id

In [None]:
first_paragraph_id2 = soup.p.get('id') # retorna None se não houver ‘id’
first_paragraph_id2

In [None]:
# Para obter múltiplas tags ao mesmo tempo:

all_paragraphs = soup.find_all('p') # ou apenas soup(‘p’)
all_paragraphs

In [None]:
# Filtra as tag p que possuem id
paragraphs_with_ids = [p for p in soup('p') if p.get('id')]
paragraphs_with_ids

In [None]:
# Encontra tags com uma class específica:

important_paragraphs = soup('p', {'id' : 'p1'}) 
important_paragraphs

In [None]:
important_paragraphs2 = soup('p', 'important')
important_paragraphs2

In [None]:
important_paragraphs3 = [p for p in soup('p') if 'important' in p.get('class', [])]
important_paragraphs3

Podemos fazer muita coisa com esses poucos recursos. Para executar ações mais complicadas (ou por curiosidade), 
confira a documentação (https://www.crummy.com/software/BeautifulSoup/bs4/doc/).