# Web Scraping com Python (Parte 1)

## Resumo

Neste notebook, iremos conhecer o [Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) e faremos alguns exemplos com HTML para entendemos o funcionamento desta biblioteca.

## Para saber mais:

* Palestras e cursos do [Samsung Ocean](http://www.oceanbrasil.com/).
* Ryan Mitchell. Web Scraping com Python: Coletando Mais Dados da Web Moderna. Novatec Editora, 2019.

## 1) Explorando o HTML

Para os exemplos a seguir, iremos utilizar o código HTML abaixo.

<html>
    <head>
        <title>Indicados e vencedores do Oscar em 2020</title>
    </head>
    <body>
        <h1>Oscar 2020</h1>
        <p>A maior premiação do cinema aconteceu em Fevereiro. Os destaques deste ano foram:</p>
        <ul class="destaques">
            <li>Coringa</li>
            <li>1917</li>
            <li>Era Uma Vez em Hollywood</li>
            <li>O Irlandês</li>
        </ul>
        <p>Veja abaixo os vencedores de 3 categorias.</p>
        <div>
            <div class="categoria-melhor-filme">
                <h2>Categoria: melhor filme</h2>
                <ul>
                    <li>Ford vs Ferrari</li>
                    <li>O Irlandês</li>
                    <li>JoJo Rabbit</li>
                    <li>Coringa</li>
                    <li>Adoráveis Mulheres</li>
                    <li>História de um Casamento</li>
                    <li>1917</li>
                    <li>Era Uma Vez Em Hollywood</li>
                    <li class="vencedor">Parasita <strong>[VENCEDOR]</strong></li>
                </ul>
            </div>
            <br>
            <div class="categoria-melhor-ator">
                <h2>Categoria: melhor ator</h2>
                <ul>
                    <li>Antonio Banderas - Dor e Glória</li>
                    <li>Leonardo DiCaprio - Era Uma Vez Em... Hollywood</li>
                    <li>Adam Driver - História de um Casamento</li>
                    <li class="vencedor">Joaquin Phoenix - Coringa <strong>[VENCEDOR]</strong></li>
                    <li>Jonathan Price - Dois Papas</li>
                </ul>
            </div>
            <br>
            <div class="categoria-melhor-atriz">
                <h2>Categoria: melhor atriz</h2>
                <ul>
                    <li>Cythia Erivo - Harriet</li>
                    <li>Scarlett Johansson - História de um Casamento</li>
                    <li>Saoirse Ronan - Adoráveis Mulheres</li>
                    <li>Charlize Theron - O Escândalo</li>
                    <li class="vencedor">Renée Zellweger - Judy: Muito Além do Arco-Íris <strong>[VENCEDOR]</strong></li>
                </ul>
            </div>
        </div>
    </body>
</html>

In [None]:
html = """
<html>
    <head>
        <title>Indicados e vencedores do Oscar em 2020</title>
    </head>
    <body>
        <h1>Oscar 2020</h1>
        <p>A maior premiação do cinema aconteceu em Fevereiro. Os destaques deste ano foram:</p>
        <ul class="destaques">
            <li>Coringa</li>
            <li>1917</li>
            <li>Era Uma Vez em Hollywood</li>
            <li>O Irlandês</li>
        </ul>
        <p>Veja abaixo os vencedores de 3 categorias.</p>
        <div>
            <div class="categoria-melhor-filme">
                <h2>Categoria: melhor filme</h2>
                <ul>
                    <li>Ford vs Ferrari</li>
                    <li>O Irlandês</li>
                    <li>JoJo Rabbit</li>
                    <li>Coringa</li>
                    <li>Adoráveis Mulheres</li>
                    <li>História de um Casamento</li>
                    <li>1917</li>
                    <li>Era Uma Vez Em Hollywood</li>
                    <li class="vencedor">Parasita <strong>[VENCEDOR]</strong></li>
                </ul>
            </div>
            <br>
            <div class="categoria-melhor-ator">
                <h2>Categoria: melhor ator</h2>
                <ul>
                    <li>Antonio Banderas - Dor e Glória</li>
                    <li>Leonardo DiCaprio - Era Uma Vez Em... Hollywood</li>
                    <li>Adam Driver - História de um Casamento</li>
                    <li class="vencedor">Joaquin Phoenix - Coringa <strong>[VENCEDOR]</strong></li>
                    <li>Jonathan Price - Dois Papas</li>
                </ul>
            </div>
            <br>
            <div class="categoria-melhor-atriz">
                <h2>Categoria: melhor atriz</h2>
                <ul>
                    <li>Cythia Erivo - Harriet</li>
                    <li>Scarlett Johansson - História de um Casamento</li>
                    <li>Saoirse Ronan - Adoráveis Mulheres</li>
                    <li>Charlize Theron - O Escândalo</li>
                    <li class="vencedor">Renée Zellweger - Judy: Muito Além do Arco-Íris <strong>[VENCEDOR]</strong></li>
                </ul>
            </div>
        </div>
    </body>
</html>
"""

## 2) Criando um objeto Beautiful Soup

In [None]:
from bs4 import BeautifulSoup

In [None]:
soup = BeautifulSoup(html, 'html.parser')

In [None]:
type(soup)

In [None]:
soup

In [None]:
print(soup.prettify())

## 3) Aprendendo a extrair dados de tags no HTML

### 3.1) Começando pelo começo: como extrair o título da página?

In [None]:
soup.html.head.title

In [None]:
soup.title

In [None]:
soup.title.get_text()

### 3.2) E se eu quiser extrair o título do maior hierarquia no corpo da página?

In [None]:
soup.html.body.h1

In [None]:
soup.h1

In [None]:
soup.h1.get_text()

### Questionário 1: com qual dos comandos abaixo eu NÃO coleto o texto "Categoria: melhor filme"?

a) soup.body.div.div.h2.get_text()

b) soup.div.div.h2.get_text()

c) soup.div.ul.h2.get_text()

d) soup.h2.get_text()

### 3.3) Coletando o texto "A maior premiação do cinema aconteceu em Fevereiro. Os destaques deste ano foram:"

In [None]:
soup.p.get_text()

### Mas... E se eu quiser coletar o texto "Veja abaixo os vencedores de 3 categorias."?

### 3.4) O método find()

In [None]:
soup.find("p")

In [None]:
soup.find("p").get_text()

### 3.5) O método find_all()

In [None]:
soup.find_all("p")

In [None]:
soup.find_all("p")[1]

In [None]:
soup.find_all("p")[1].get_text()

In [None]:
soup.find_all("h2")

### 3.6) Coletando a lista de destaques

In [None]:
soup.ul.find_all("li")

In [None]:
print("Lista de destaques:")

for filme in soup.ul.find_all("li"):
    print(filme.get_text())

### Mini-desafio 1: colete todos os filmes da categoria de melhor filme

In [None]:
# Insira a sua resposta aqui

### 3.7) O método find_all() pode ser equivalente ao método find()

In [None]:
soup.find_all('p', limit = 1)

In [None]:
soup.find_all('p')[0]

### 3.8) Também posso passar uma lista de tags para o find_all()

In [None]:
soup.find_all(["h2", "li"])

### 3.9) Posso buscar por tags com um conteúdo específico?

In [None]:
soup.find_all("li", text="Coringa")

In [None]:
soup.find_all("li", text="1917")

In [None]:
soup.find_all("li", text="O Irlandês")

In [None]:
import re

In [None]:
soup.find_all("h2", text=re.compile("^Categoria"))

### 3.10) Coletando por meio de atributos

In [None]:
soup.find_all("ul", {"class": "destaques"})

In [None]:
for item in soup.find_all("ul", {"class": "destaques"}):
    print(item.get_text())

In [None]:
soup.find_all("li", {"class": "vencedor"})

In [None]:
for item in soup.find_all("li", {"class": "vencedor"}):
    print(item.get_text())

In [None]:
for item in soup.find_all("li", {"class": "vencedor"}):
    print(item.get_text().replace(" [VENCEDOR]", ""))

### 3.11) Parents, siblings, next e previous: outra forma de percorrer o HTML

* Quando as tags que precisamos pesquisar não apresentam atributos que as diferencie (como as classes, por exemplo), podemos percorrer o HTML de outras formas.

#### Parents

In [None]:
soup.find("li", {"class": "vencedor"}).get_text()

In [None]:
soup.find("li", {"class": "vencedor"}).find_parent()

In [None]:
soup.find("li", {"class": "vencedor"}).find_parent('div')

In [None]:
soup.find("li", {"class": "vencedor"}).find_parent('div').find('h2').get_text()

#### Siblings

In [None]:
soup.find('h2').get_text()

In [None]:
soup.find('h2').find_next_sibling()

In [None]:
soup.find('div', {'class': 'categoria-melhor-filme'}).find_next_siblings()

In [None]:
soup.find('li', {'class': 'vencedor'}).find_previous_sibling().get_text()

In [None]:
soup.find('div', {'class': 'categoria-melhor-atriz'}).find_previous_siblings()

#### Next e Previous

In [None]:
soup.find('div', {'class': 'categoria-melhor-ator'}).find('li', {'class': 'vencedor'}).get_text()

In [None]:
soup.find('div', {'class': 'categoria-melhor-ator'}).find('li', {'class': 'vencedor'}).find_next('li').get_text()

In [None]:
soup.find('div', {'class': 'categoria-melhor-ator'}).find('li', {'class': 'vencedor'}).find_previous('li').get_text()

In [None]:
soup.find('div', {'class': 'categoria-melhor-ator'}).find('li', {'class': 'vencedor'}).find_all_next('li')

In [None]:
soup.find('div', {'class': 'categoria-melhor-ator'}).find('li', {'class': 'vencedor'}).find_all_previous('li')

### Mini-desafio 2: colete todos os filmes que não tenham vencido suas categorias

In [None]:
# Insira a sua resposta aqui

## 4) Trabalhando com dicionários e DataFrames

In [None]:
import pandas as pd

In [None]:
soup.find_all("h2", text=re.compile("^Categoria"))

In [None]:
categorias = soup.find_all("h2", text=re.compile("^Categoria"))

In [None]:
soup.find_all("li", {"class": "vencedor"})

In [None]:
vencedores = soup.find_all("li", {"class": "vencedor"})

In [None]:
vencedores_categorias = {}

In [None]:
for cat, ven in zip(categorias, vencedores):
    categoria = cat.get_text().replace("Categoria: ", "")
    vencedor = ven.get_text().replace(" [VENCEDOR]", "")
    
    vencedores_categorias.update({categoria: [vencedor]})

In [None]:
vencedores_categorias

In [None]:
vencedores_categorias_df = pd.DataFrame.from_dict(vencedores_categorias, orient="index", columns=["Vencedores"])

In [None]:
vencedores_categorias_df

## 5) Coletando dados da Web

In [None]:
from urllib.request import urlopen

In [None]:
url = 'https://ocean-web-scraping.herokuapp.com/'

In [None]:
response = urlopen(url)

In [None]:
html_ocean_ws = response.read()

In [None]:
html_ocean_ws

In [None]:
soup_ocean_ws = BeautifulSoup(html_ocean_ws, 'html.parser')

In [None]:
soup_ocean_ws

In [None]:
print(soup_ocean_ws.prettify())

### Mini-desafio 3: complete a lista de desafios da página 'Sobre'


* https://ocean-web-scraping.herokuapp.com/sobre.html

In [None]:
# Insira a sua resposta aqui