# Web Scraping com Python

(Adaptado de https://www.kaggle.com/aliceadativa/web-scraping-com-python-parte-1)

<br>

Web Scraping é o termo utilizado para definir a prática de coletar automaticamente informações na Internet. Isto é feito, geralmente, por meio de programas que simulam a navegação humana na Web.
<br><br>

## Resumo

Neste notebook, iremos conhecer o [Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) e faremos alguns exemplos com HTML para entendemos o funcionamento desta biblioteca.

<br>

## Para saber mais:

* Ryan Mitchell. Web Scraping com Python: Coletando Mais Dados da Web Moderna. Novatec Editora, 2019.
* O que é Web Scraping? Para iniciantes - https://www.gocache.com.br/seguranca/o-que-e-web-scraping-para-iniciantes
* Descubra o que é Web Scraping e como isso pode ajudar a sua estratégia digital - https://rockcontent.com/br/blog/web-scraping
* Beautiful Soup: parseamento de html - https://medium.com/pyladiesbh/beautiful-soup-parseamento-de-html-337197a7d4b9
* Web scraping com Python para preguiçosos (unindo BeautifulSoup e Selenium) — Parte 1 - https://medium.com/data-hackers/web-scraping-com-python-para-pregui%C3%A7osos-unindo-beautifulsoup-e-selenium-parte-1-9677fc5e2385

## 1) Explorando o HTML

Para os exemplos a seguir, iremos utilizar o código HTML abaixo.

<html>
    <head>
        <title>Indicados e vencedores do Oscar em 2020</title>
    </head>
    <body>
        <h1>Oscar 2020</h1>
        <p>A maior premiação do cinema aconteceu em Fevereiro. Os destaques deste ano foram:</p>
        <ul class="destaques">
            <li>Coringa</li>
            <li>1917</li>
            <li>Era Uma Vez em Hollywood</li>
            <li>O Irlandês</li>
        </ul>
        <p>Veja abaixo os vencedores de 3 categorias.</p>
        <div>
            <div class="categoria-melhor-filme">
                <h2>Categoria: melhor filme</h2>
                <ul>
                    <li>Ford vs Ferrari</li>
                    <li>O Irlandês</li>
                    <li>JoJo Rabbit</li>
                    <li>Coringa</li>
                    <li>Adoráveis Mulheres</li>
                    <li>História de um Casamento</li>
                    <li>1917</li>
                    <li>Era Uma Vez Em Hollywood</li>
                    <li class="vencedor">Parasita <strong>[VENCEDOR]</strong></li>
                </ul>
            </div>
            <br>
            <div class="categoria-melhor-ator">
                <h2>Categoria: melhor ator</h2>
                <ul>
                    <li>Antonio Banderas - Dor e Glória</li>
                    <li>Leonardo DiCaprio - Era Uma Vez Em... Hollywood</li>
                    <li>Adam Driver - História de um Casamento</li>
                    <li class="vencedor">Joaquin Phoenix - Coringa <strong>[VENCEDOR]</strong></li>
                    <li>Jonathan Price - Dois Papas</li>
                </ul>
            </div>
            <br>
            <div class="categoria-melhor-atriz">
                <h2>Categoria: melhor atriz</h2>
                <ul>
                    <li>Cythia Erivo - Harriet</li>
                    <li>Scarlett Johansson - História de um Casamento</li>
                    <li>Saoirse Ronan - Adoráveis Mulheres</li>
                    <li>Charlize Theron - O Escândalo</li>
                    <li class="vencedor">Renée Zellweger - Judy: Muito Além do Arco-Íris <strong>[VENCEDOR]</strong></li>
                </ul>
            </div>
        </div>
    </body>
</html>

In [1]:
html = """
<html>
    <head>
        <title>Indicados e vencedores do Oscar em 2020</title>
    </head>
    <body>
        <h1>Oscar 2020</h1>
        <p>A maior premiação do cinema aconteceu em Fevereiro. Os destaques deste ano foram:</p>
        <ul class="destaques">
            <li>Coringa</li>
            <li>1917</li>
            <li>Era Uma Vez em Hollywood</li>
            <li>O Irlandês</li>
        </ul>
        <p>Veja abaixo os vencedores de 3 categorias.</p>
        <div>
            <div class="categoria-melhor-filme">
                <h2>Categoria: melhor filme</h2>
                <ul>
                    <li>Ford vs Ferrari</li>
                    <li>O Irlandês</li>
                    <li>JoJo Rabbit</li>
                    <li>Coringa</li>
                    <li>Adoráveis Mulheres</li>
                    <li>História de um Casamento</li>
                    <li>1917</li>
                    <li>Era Uma Vez Em Hollywood</li>
                    <li class="vencedor">Parasita <strong>[VENCEDOR]</strong></li>
                </ul>
            </div>
            <br>
            <div class="categoria-melhor-ator">
                <h2>Categoria: melhor ator</h2>
                <ul>
                    <li>Antonio Banderas - Dor e Glória</li>
                    <li>Leonardo DiCaprio - Era Uma Vez Em... Hollywood</li>
                    <li>Adam Driver - História de um Casamento</li>
                    <li class="vencedor">Joaquin Phoenix - Coringa <strong>[VENCEDOR]</strong></li>
                    <li>Jonathan Price - Dois Papas</li>
                </ul>
            </div>
            <br>
            <div class="categoria-melhor-atriz">
                <h2>Categoria: melhor atriz</h2>
                <ul>
                    <li>Cythia Erivo - Harriet</li>
                    <li>Scarlett Johansson - História de um Casamento</li>
                    <li>Saoirse Ronan - Adoráveis Mulheres</li>
                    <li>Charlize Theron - O Escândalo</li>
                    <li class="vencedor">Renée Zellweger - Judy: Muito Além do Arco-Íris <strong>[VENCEDOR]</strong></li>
                </ul>
            </div>
        </div>
    </body>
</html>
"""

## 2) Criando um objeto Beautiful Soup
https://www.crummy.com/software/BeautifulSoup/<br>
https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [2]:
from bs4 import BeautifulSoup

In [3]:
soup = BeautifulSoup(html, 'html.parser')

In [4]:
type(soup)

bs4.BeautifulSoup

In [5]:
soup


<html>
<head>
<title>Indicados e vencedores do Oscar em 2020</title>
</head>
<body>
<h1>Oscar 2020</h1>
<p>A maior premiação do cinema aconteceu em Fevereiro. Os destaques deste ano foram:</p>
<ul class="destaques">
<li>Coringa</li>
<li>1917</li>
<li>Era Uma Vez em Hollywood</li>
<li>O Irlandês</li>
</ul>
<p>Veja abaixo os vencedores de 3 categorias.</p>
<div>
<div class="categoria-melhor-filme">
<h2>Categoria: melhor filme</h2>
<ul>
<li>Ford vs Ferrari</li>
<li>O Irlandês</li>
<li>JoJo Rabbit</li>
<li>Coringa</li>
<li>Adoráveis Mulheres</li>
<li>História de um Casamento</li>
<li>1917</li>
<li>Era Uma Vez Em Hollywood</li>
<li class="vencedor">Parasita <strong>[VENCEDOR]</strong></li>
</ul>
</div>
<br/>
<div class="categoria-melhor-ator">
<h2>Categoria: melhor ator</h2>
<ul>
<li>Antonio Banderas - Dor e Glória</li>
<li>Leonardo DiCaprio - Era Uma Vez Em... Hollywood</li>
<li>Adam Driver - História de um Casamento</li>
<li class="vencedor">Joaquin Phoenix - Coringa <strong>[VENCEDOR]</

In [6]:
print(soup.prettify())

<html>
 <head>
  <title>
   Indicados e vencedores do Oscar em 2020
  </title>
 </head>
 <body>
  <h1>
   Oscar 2020
  </h1>
  <p>
   A maior premiação do cinema aconteceu em Fevereiro. Os destaques deste ano foram:
  </p>
  <ul class="destaques">
   <li>
    Coringa
   </li>
   <li>
    1917
   </li>
   <li>
    Era Uma Vez em Hollywood
   </li>
   <li>
    O Irlandês
   </li>
  </ul>
  <p>
   Veja abaixo os vencedores de 3 categorias.
  </p>
  <div>
   <div class="categoria-melhor-filme">
    <h2>
     Categoria: melhor filme
    </h2>
    <ul>
     <li>
      Ford vs Ferrari
     </li>
     <li>
      O Irlandês
     </li>
     <li>
      JoJo Rabbit
     </li>
     <li>
      Coringa
     </li>
     <li>
      Adoráveis Mulheres
     </li>
     <li>
      História de um Casamento
     </li>
     <li>
      1917
     </li>
     <li>
      Era Uma Vez Em Hollywood
     </li>
     <li class="vencedor">
      Parasita
      <strong>
       [VENCEDOR]
      </strong>
     </li>
    </ul

## 3) Aprendendo a extrair dados de tags no HTML

### 3.1) Começando pelo começo: como extrair o título da página?

In [70]:
soup.html.head.title

<title>Indicados e vencedores do Oscar em 2020</title>

In [71]:
soup.title

<title>Indicados e vencedores do Oscar em 2020</title>

In [72]:
soup.title.get_text()

'Indicados e vencedores do Oscar em 2020'

### 3.2) E se eu quiser extrair o título do maior hierarquia no corpo da página?

In [73]:
soup.html.body.h1

<h1>Oscar 2020</h1>

In [74]:
soup.h1

<h1>Oscar 2020</h1>

In [75]:
soup.h1.get_text()

'Oscar 2020'

### Questionário 1: com qual dos comandos abaixo eu NÃO coleto o texto "Categoria: melhor filme"?  

#Resposta: opção C

a) soup.body.div.div.h2.get_text()

b) soup.div.div.h2.get_text()

c) soup.div.ul.h2.get_text()     ______  

d) soup.h2.get_text()

In [220]:
print(soup.body.div.div.h2.get_text())

print(soup.div.div.h2.get_text())

#print(soup.div.ul.h2.get_text()) __

print(soup.h2.get_text())

Categoria: melhor filme
Categoria: melhor filme
Categoria: melhor filme


### 3.3) Coletando o texto "A maior premiação do cinema aconteceu em Fevereiro. Os destaques deste ano foram:"

In [76]:
soup.p.get_text()

'A maior premiação do cinema aconteceu em Fevereiro. Os destaques deste ano foram:'

### Mas... E se eu quiser coletar o texto "Veja abaixo os vencedores de 3 categorias."?

### 3.4) O método find()

- *find(tag, attributes, recursive, text, **kwargs)*

- *findAll(tag, attributes, recursive, text, limit, **kwargs)*

- https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find
- https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all

> **Observação:**
> - *findAll()* também pode ser utilizado como *find_all()*


In [77]:
soup.find("p")

<p>A maior premiação do cinema aconteceu em Fevereiro. Os destaques deste ano foram:</p>

In [78]:
soup.find("p").get_text()

'A maior premiação do cinema aconteceu em Fevereiro. Os destaques deste ano foram:'

### 3.5) O método find_all()

In [79]:
soup.find_all("p")

[<p>A maior premiação do cinema aconteceu em Fevereiro. Os destaques deste ano foram:</p>,
 <p>Veja abaixo os vencedores de 3 categorias.</p>]

In [80]:
soup.find_all("p")[1]

<p>Veja abaixo os vencedores de 3 categorias.</p>

In [81]:
soup.find_all("p")[1].get_text()

'Veja abaixo os vencedores de 3 categorias.'

In [82]:
soup.find_all("h2")

[<h2>Categoria: melhor filme</h2>,
 <h2>Categoria: melhor ator</h2>,
 <h2>Categoria: melhor atriz</h2>]

### 3.6) Coletando a lista de destaques

In [83]:
soup.ul.find_all("li")

[<li>Coringa</li>,
 <li>1917</li>,
 <li>Era Uma Vez em Hollywood</li>,
 <li>O Irlandês</li>]

In [84]:
print("Lista de destaques:")

for filme in soup.ul.find_all("li"):
    print(filme.get_text())

Lista de destaques:
Coringa
1917
Era Uma Vez em Hollywood
O Irlandês


### Mini-desafio 1: colete todos os filmes da categoria de melhor filme

In [126]:
# Insira a sua resposta aqui

#"filme in soup.div.div.ul.find_all("li")" Busca a lista de filmes 

print("os filmes da categoria de melhor filme são:")

for filme in soup.div.div.ul.find_all("li"):
    print(filme.get_text())

os filmes da categoria de melhor filme são:
Ford vs Ferrari
O Irlandês
JoJo Rabbit
Coringa
Adoráveis Mulheres
História de um Casamento
1917
Era Uma Vez Em Hollywood
Parasita [VENCEDOR]


### 3.7) O método find_all() pode ser equivalente ao método find()

In [127]:
soup.find_all('p', limit = 1)

[<p>A maior premiação do cinema aconteceu em Fevereiro. Os destaques deste ano foram:</p>]

In [87]:
soup.find_all('p')[0]

<p>A maior premiação do cinema aconteceu em Fevereiro. Os destaques deste ano foram:</p>

### 3.8) Também posso passar uma lista de tags para o find_all()

In [88]:
soup.find_all(["h2", "li"])

[<li>Coringa</li>,
 <li>1917</li>,
 <li>Era Uma Vez em Hollywood</li>,
 <li>O Irlandês</li>,
 <h2>Categoria: melhor filme</h2>,
 <li>Ford vs Ferrari</li>,
 <li>O Irlandês</li>,
 <li>JoJo Rabbit</li>,
 <li>Coringa</li>,
 <li>Adoráveis Mulheres</li>,
 <li>História de um Casamento</li>,
 <li>1917</li>,
 <li>Era Uma Vez Em Hollywood</li>,
 <li class="vencedor">Parasita <strong>[VENCEDOR]</strong></li>,
 <h2>Categoria: melhor ator</h2>,
 <li>Antonio Banderas - Dor e Glória</li>,
 <li>Leonardo DiCaprio - Era Uma Vez Em... Hollywood</li>,
 <li>Adam Driver - História de um Casamento</li>,
 <li class="vencedor">Joaquin Phoenix - Coringa <strong>[VENCEDOR]</strong></li>,
 <li>Jonathan Price - Dois Papas</li>,
 <h2>Categoria: melhor atriz</h2>,
 <li>Cythia Erivo - Harriet</li>,
 <li>Scarlett Johansson - História de um Casamento</li>,
 <li>Saoirse Ronan - Adoráveis Mulheres</li>,
 <li>Charlize Theron - O Escândalo</li>,
 <li class="vencedor">Renée Zellweger - Judy: Muito Além do Arco-Íris <strong>

### 3.9) Posso buscar por tags com um conteúdo específico?

In [89]:
soup.find_all("li", text="Coringa")

[<li>Coringa</li>, <li>Coringa</li>]

In [90]:
soup.find_all("li", text="1917")

[<li>1917</li>, <li>1917</li>]

In [91]:
soup.find_all("li", text="O Irlandês")

[<li>O Irlandês</li>, <li>O Irlandês</li>]

In [92]:
import re

In [93]:
soup.find_all("h2", text=re.compile("^Categoria"))

[<h2>Categoria: melhor filme</h2>,
 <h2>Categoria: melhor ator</h2>,
 <h2>Categoria: melhor atriz</h2>]

### 3.10) Coletando por meio de atributos

In [94]:
soup.find_all("ul", {"class": "destaques"})

[<ul class="destaques">
 <li>Coringa</li>
 <li>1917</li>
 <li>Era Uma Vez em Hollywood</li>
 <li>O Irlandês</li>
 </ul>]

In [95]:
for item in soup.find_all("ul", {"class": "destaques"}):
    print(item.get_text())


Coringa
1917
Era Uma Vez em Hollywood
O Irlandês



In [96]:
soup.find_all("li", {"class": "vencedor"})

[<li class="vencedor">Parasita <strong>[VENCEDOR]</strong></li>,
 <li class="vencedor">Joaquin Phoenix - Coringa <strong>[VENCEDOR]</strong></li>,
 <li class="vencedor">Renée Zellweger - Judy: Muito Além do Arco-Íris <strong>[VENCEDOR]</strong></li>]

In [97]:
for item in soup.find_all("li", {"class": "vencedor"}):
    print(item.get_text())

Parasita [VENCEDOR]
Joaquin Phoenix - Coringa [VENCEDOR]
Renée Zellweger - Judy: Muito Além do Arco-Íris [VENCEDOR]


In [98]:
for item in soup.find_all("li", {"class": "vencedor"}):
    print(item.get_text().replace(" [VENCEDOR]", ""))

Parasita
Joaquin Phoenix - Coringa
Renée Zellweger - Judy: Muito Além do Arco-Íris


### 3.11) Parents, siblings, next e previous: outra forma de percorrer o HTML

* Quando as tags que precisamos pesquisar não apresentam atributos que as diferencie (como as classes, por exemplo), podemos percorrer o HTML de outras formas.




<img src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/BeautifulSoup-method.png" width=80% align="right">

#### Parents


- *findParent(tag, attributes, text, **kwargs)*

- *findParents(tag, attributes, text, limit, **kwargsz)*

- https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-parents-and-find-parent

> **Observação:**
> - *findParent()* e *findParents()* também podem ser utilizados como *find_parent()* e *find_parents()*, respectivamente.
---


In [99]:
soup.find("li", {"class": "vencedor"}).get_text()

'Parasita [VENCEDOR]'

In [100]:
soup.find("li", {"class": "vencedor"}).find_parent()

<ul>
<li>Ford vs Ferrari</li>
<li>O Irlandês</li>
<li>JoJo Rabbit</li>
<li>Coringa</li>
<li>Adoráveis Mulheres</li>
<li>História de um Casamento</li>
<li>1917</li>
<li>Era Uma Vez Em Hollywood</li>
<li class="vencedor">Parasita <strong>[VENCEDOR]</strong></li>
</ul>

In [101]:
soup.find("li", {"class": "vencedor"}).find_parent('div')

<div class="categoria-melhor-filme">
<h2>Categoria: melhor filme</h2>
<ul>
<li>Ford vs Ferrari</li>
<li>O Irlandês</li>
<li>JoJo Rabbit</li>
<li>Coringa</li>
<li>Adoráveis Mulheres</li>
<li>História de um Casamento</li>
<li>1917</li>
<li>Era Uma Vez Em Hollywood</li>
<li class="vencedor">Parasita <strong>[VENCEDOR]</strong></li>
</ul>
</div>

In [102]:
soup.find("li", {"class": "vencedor"}).find_parent('div').find('h2').get_text()

'Categoria: melhor filme'

#### Siblings

- *findNextSibling(tag, attributes, text, **kwargs)*

- *findNextSiblings(tag, attributes, text, limit, **kwargs)*

- *findPreviousSibling(tag, attributes, text, **kwargs)*

- *findPreviousSiblings(tag, attributes, text, limit, **kwargs)*

- https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-next-siblings-and-find-next-sibling
- https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-previous-siblings-and-find-previous-sibling

> **Observação:**
> - *findNextSibling()*, *findNextSiblings()*, *findPreviousSibling()* e *findPreviousSiblings()* também podem ser utilizados como *find_next_sibling()*, *find_next_siblings()*, *find_previous_sibling()* e *find_previous_siblings()*, respectivamente.
---


In [103]:
soup.find('h2').get_text()

'Categoria: melhor filme'

In [104]:
soup.find('h2').find_next_sibling()

<ul>
<li>Ford vs Ferrari</li>
<li>O Irlandês</li>
<li>JoJo Rabbit</li>
<li>Coringa</li>
<li>Adoráveis Mulheres</li>
<li>História de um Casamento</li>
<li>1917</li>
<li>Era Uma Vez Em Hollywood</li>
<li class="vencedor">Parasita <strong>[VENCEDOR]</strong></li>
</ul>

In [105]:
soup.find('div', {'class': 'categoria-melhor-filme'}).find_next_siblings()

[<br/>, <div class="categoria-melhor-ator">
 <h2>Categoria: melhor ator</h2>
 <ul>
 <li>Antonio Banderas - Dor e Glória</li>
 <li>Leonardo DiCaprio - Era Uma Vez Em... Hollywood</li>
 <li>Adam Driver - História de um Casamento</li>
 <li class="vencedor">Joaquin Phoenix - Coringa <strong>[VENCEDOR]</strong></li>
 <li>Jonathan Price - Dois Papas</li>
 </ul>
 </div>, <br/>, <div class="categoria-melhor-atriz">
 <h2>Categoria: melhor atriz</h2>
 <ul>
 <li>Cythia Erivo - Harriet</li>
 <li>Scarlett Johansson - História de um Casamento</li>
 <li>Saoirse Ronan - Adoráveis Mulheres</li>
 <li>Charlize Theron - O Escândalo</li>
 <li class="vencedor">Renée Zellweger - Judy: Muito Além do Arco-Íris <strong>[VENCEDOR]</strong></li>
 </ul>
 </div>]

In [106]:
soup.find('li', {'class': 'vencedor'}).find_previous_sibling().get_text()

'Era Uma Vez Em Hollywood'

In [107]:
soup.find('div', {'class': 'categoria-melhor-atriz'}).find_previous_siblings()

[<br/>, <div class="categoria-melhor-ator">
 <h2>Categoria: melhor ator</h2>
 <ul>
 <li>Antonio Banderas - Dor e Glória</li>
 <li>Leonardo DiCaprio - Era Uma Vez Em... Hollywood</li>
 <li>Adam Driver - História de um Casamento</li>
 <li class="vencedor">Joaquin Phoenix - Coringa <strong>[VENCEDOR]</strong></li>
 <li>Jonathan Price - Dois Papas</li>
 </ul>
 </div>, <br/>, <div class="categoria-melhor-filme">
 <h2>Categoria: melhor filme</h2>
 <ul>
 <li>Ford vs Ferrari</li>
 <li>O Irlandês</li>
 <li>JoJo Rabbit</li>
 <li>Coringa</li>
 <li>Adoráveis Mulheres</li>
 <li>História de um Casamento</li>
 <li>1917</li>
 <li>Era Uma Vez Em Hollywood</li>
 <li class="vencedor">Parasita <strong>[VENCEDOR]</strong></li>
 </ul>
 </div>]

#### Next e Previous

- *findNext(tag, attributes, text, **kwargs)*

- *findAllNext(tag, attributes, text, limit, **kwargs)*

- *findPrevious(tag, attributes, text, **kwargs)*

- *findAllPrevious(tag, attributes, text, limit, **kwargs)*

- https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all-next-and-find-next
- https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all-previous-and-find-previous

> **Observação:**
> - *findNext()*, *findAllNext()*, *findPrevious* e *findAllPrevious* também podem ser utilizados como *find_next()*, *find_all_next()*, *find_previous()* e *find_all_previous()*, respectivamente.

In [108]:
soup.find('div', {'class': 'categoria-melhor-ator'}).find('li', {'class': 'vencedor'}).get_text()

'Joaquin Phoenix - Coringa [VENCEDOR]'

In [109]:
soup.find('div', {'class': 'categoria-melhor-ator'}).find('li', {'class': 'vencedor'}).find_next('li').get_text()

'Jonathan Price - Dois Papas'

In [110]:
soup.find('div', {'class': 'categoria-melhor-ator'}).find('li', {'class': 'vencedor'}).find_previous('li').get_text()

'Adam Driver - História de um Casamento'

In [111]:
soup.find('div', {'class': 'categoria-melhor-ator'}).find('li', {'class': 'vencedor'}).find_all_next('li')

[<li>Jonathan Price - Dois Papas</li>,
 <li>Cythia Erivo - Harriet</li>,
 <li>Scarlett Johansson - História de um Casamento</li>,
 <li>Saoirse Ronan - Adoráveis Mulheres</li>,
 <li>Charlize Theron - O Escândalo</li>,
 <li class="vencedor">Renée Zellweger - Judy: Muito Além do Arco-Íris <strong>[VENCEDOR]</strong></li>]

In [112]:
soup.find('div', {'class': 'categoria-melhor-ator'}).find('li', {'class': 'vencedor'}).find_all_previous('li')

[<li>Adam Driver - História de um Casamento</li>,
 <li>Leonardo DiCaprio - Era Uma Vez Em... Hollywood</li>,
 <li>Antonio Banderas - Dor e Glória</li>,
 <li class="vencedor">Parasita <strong>[VENCEDOR]</strong></li>,
 <li>Era Uma Vez Em Hollywood</li>,
 <li>1917</li>,
 <li>História de um Casamento</li>,
 <li>Adoráveis Mulheres</li>,
 <li>Coringa</li>,
 <li>JoJo Rabbit</li>,
 <li>O Irlandês</li>,
 <li>Ford vs Ferrari</li>,
 <li>O Irlandês</li>,
 <li>Era Uma Vez em Hollywood</li>,
 <li>1917</li>,
 <li>Coringa</li>]

### Mini-desafio 2: colete todos os filmes que não tenham vencido suas categorias

In [136]:
# Insira a sua resposta aqui


print("filmes que não tenham vencido suas categorias:")

for categoria in soup.find_all("h2", text=re.compile("^Categoria")):
    print("\n" " " + categoria.get_text())
    for melhor in categoria.find_next_sibling("ul").find_all("li"):
        if "[VENCEDOR]" not in melhor.get_text():
            print("  " + melhor.get_text())

filmes que não tenham vencido suas categorias:

 Categoria: melhor filme
  Ford vs Ferrari
  O Irlandês
  JoJo Rabbit
  Coringa
  Adoráveis Mulheres
  História de um Casamento
  1917
  Era Uma Vez Em Hollywood

 Categoria: melhor ator
  Antonio Banderas - Dor e Glória
  Leonardo DiCaprio - Era Uma Vez Em... Hollywood
  Adam Driver - História de um Casamento
  Jonathan Price - Dois Papas

 Categoria: melhor atriz
  Cythia Erivo - Harriet
  Scarlett Johansson - História de um Casamento
  Saoirse Ronan - Adoráveis Mulheres
  Charlize Theron - O Escândalo


## 4) Trabalhando com dicionários e DataFrames

In [114]:
import pandas as pd

In [115]:
soup.find_all("h2", text=re.compile("^Categoria"))

[<h2>Categoria: melhor filme</h2>,
 <h2>Categoria: melhor ator</h2>,
 <h2>Categoria: melhor atriz</h2>]

In [116]:
categorias = soup.find_all("h2", text=re.compile("^Categoria"))

In [117]:
soup.find_all("li", {"class": "vencedor"})

[<li class="vencedor">Parasita <strong>[VENCEDOR]</strong></li>,
 <li class="vencedor">Joaquin Phoenix - Coringa <strong>[VENCEDOR]</strong></li>,
 <li class="vencedor">Renée Zellweger - Judy: Muito Além do Arco-Íris <strong>[VENCEDOR]</strong></li>]

In [118]:
vencedores = soup.find_all("li", {"class": "vencedor"})

In [119]:
vencedores_categorias = {}

In [120]:
for cat, ven in zip(categorias, vencedores):
    categoria = cat.get_text().replace("Categoria: ", "")
    vencedor = ven.get_text().replace(" [VENCEDOR]", "")
    
    vencedores_categorias.update({categoria: [vencedor]})

In [121]:
vencedores_categorias

{'melhor ator': ['Joaquin Phoenix - Coringa'],
 'melhor atriz': ['Renée Zellweger - Judy: Muito Além do Arco-Íris'],
 'melhor filme': ['Parasita']}

In [122]:
vencedores_categorias_df = pd.DataFrame.from_dict(vencedores_categorias, orient="index", columns=["Vencedores"])

In [123]:
vencedores_categorias_df

Unnamed: 0,Vencedores
melhor filme,Parasita
melhor ator,Joaquin Phoenix - Coringa
melhor atriz,Renée Zellweger - Judy: Muito Além do Arco-Íris


## 5) Coletando dados da Web

In [61]:
from urllib.request import urlopen

In [62]:
url = 'https://ocean-web-scraping.herokuapp.com/'

In [63]:
response = urlopen(url)

In [64]:
html_ocean_ws = response.read()

In [65]:
html_ocean_ws

b'<!DOCTYPE html>\n<html lang="pt-br">\n\t<head>\n\t\t<meta charset="UTF-8">\n\t\t<meta name="viewport" content="width=device-width">\n\n\t\t<title>Oceano de Alugu\xc3\xa9is</title>\n\t\t\n\t\t<link rel="stylesheet" href="reset.css">\n\t\t<link rel="stylesheet" href="style.css">\n\t\t<link href="https://fonts.googleapis.com/css?family=Montserrat&display=swap" rel="stylesheet">\n\t</head>\n\n\t<body>\n\t\t<header>\n\t\t\t<div>\n\t\t\t\t<img src="imagens/oceano-logo.png">\n\t\t\t\t<h1>Oceano de Alugu\xc3\xa9is</h1>\n\t\t\t\t<nav>\n\t\t\t\t\t<ul>\n\t\t\t\t\t\t<li><a href="results&page=1.html">Resultados</a></li>\n\t\t\t\t\t\t<li><a href="corretoras.html">Corretoras</a></li>\n\t\t\t\t\t\t<li><a href="sobre.html">Sobre</a></li>\n\t\t\t\t\t</ul>\n\t\t\t\t</nav>\n\t\t\t</div>\n\t\t</header>\n\n\t\t<main>\n\t\t\t<div class="ad-card-list">\n\t\t\t\t<p>21 resultados obtidos - P\xc3\xa1gina 1</p>\n\n\t\t\t\t<div class="ad-card">\n\t\t\t\t\t<img src="imagens/apto-01.jpg" class="apto-img">\n\t\t\t\

In [66]:
soup_ocean_ws = BeautifulSoup(html_ocean_ws, 'html.parser')

In [67]:
soup_ocean_ws

<!DOCTYPE html>

<html lang="pt-br">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width" name="viewport"/>
<title>Oceano de Aluguéis</title>
<link href="reset.css" rel="stylesheet"/>
<link href="style.css" rel="stylesheet"/>
<link href="https://fonts.googleapis.com/css?family=Montserrat&amp;display=swap" rel="stylesheet"/>
</head>
<body>
<header>
<div>
<img src="imagens/oceano-logo.png"/>
<h1>Oceano de Aluguéis</h1>
<nav>
<ul>
<li><a href="results&amp;page=1.html">Resultados</a></li>
<li><a href="corretoras.html">Corretoras</a></li>
<li><a href="sobre.html">Sobre</a></li>
</ul>
</nav>
</div>
</header>
<main>
<div class="ad-card-list">
<p>21 resultados obtidos - Página 1</p>
<div class="ad-card">
<img class="apto-img" src="imagens/apto-01.jpg"/>
<div class="ad-card-info">
<h2>Lindo apartamento para alugar</h2>
<ul class="features">
<li><img src="imagens/area.png"/> 100 m²</li>
<li><img src="imagens/bedrooms.png"/> 3 quarto(s)</li>
<li><img src="imagens/toilet.png"/> 2 banh

In [68]:
print(soup_ocean_ws.prettify())

<!DOCTYPE html>
<html lang="pt-br">
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width" name="viewport"/>
  <title>
   Oceano de Aluguéis
  </title>
  <link href="reset.css" rel="stylesheet"/>
  <link href="style.css" rel="stylesheet"/>
  <link href="https://fonts.googleapis.com/css?family=Montserrat&amp;display=swap" rel="stylesheet"/>
 </head>
 <body>
  <header>
   <div>
    <img src="imagens/oceano-logo.png"/>
    <h1>
     Oceano de Aluguéis
    </h1>
    <nav>
     <ul>
      <li>
       <a href="results&amp;page=1.html">
        Resultados
       </a>
      </li>
      <li>
       <a href="corretoras.html">
        Corretoras
       </a>
      </li>
      <li>
       <a href="sobre.html">
        Sobre
       </a>
      </li>
     </ul>
    </nav>
   </div>
  </header>
  <main>
   <div class="ad-card-list">
    <p>
     21 resultados obtidos - Página 1
    </p>
    <div class="ad-card">
     <img class="apto-img" src="imagens/apto-01.jpg"/>
     <div class="ad-

### Mini-desafio 3: complete a lista de desafios da página 'Sobre'


* https://ocean-web-scraping.herokuapp.com/sobre.html

In [160]:
# Insira as suas respostas à partir daqui, uma em cada célula

#1- Que tal coletar o texto "Sobre este site" para começar?

# Biblioteca para acessar sites:
from urllib.request import urlopen

#Biblioteca para reconhecer e percorrer as tags em html:
from bs4 import BeautifulSoup

# definindo a url da página
url = 'https://ocean-web-scraping.herokuapp.com/sobre.html'

# Lendo o HTML da página
url_capture = urlopen(url)

# capturando o HTML da página:
html_sobre = url_capture.read()

# reconhecendo as tags com BeautifulSoup:
soup_html_sobre = BeautifulSoup(html_sobre, 'html.parser')

#print (soup_html_sobre)

# mostrando o texto na div <h2>
soup_html_sobre.main.div.h2.get_text()

'Sobre este site'

In [161]:
#Agora extraia o link contido na palavra "Ocean".

#Mostrando conteudo href(link) da tag <a> dentro de <p>:
soup_html_sobre.main.div.p.a['href']

'http://www.oceanbrasil.com/'

In [179]:
#Em seguida, colete todos os itens desta lista.

# capturando itens da lista
itens = soup_html_sobre.main.div.ol.find_all("li")

#itens

#for para retornar o conteúdo de cada item da lista
for item in itens:
    print(item.get_text() + "\n")
    

Que tal coletar o texto "Sobre este site" para começar?

Agora extraia o link contido na palavra "Ocean".

Em seguida, colete todos os itens desta lista.

Por fim, colete apenas este último item da lista.



In [290]:
#Por fim, colete apenas este último item da lista

# <li> posição [3].

ultimo_item = soup_html_sobre.main.div.ol.find_all("li")[3]

ultimo_item.get_text()

'Por fim, colete apenas este último item da lista.'

# Teste Extra: 

fixação manipulando dados do site da Uniplac(que por sinal é muito lento kkk)




In [291]:
# Biblioteca para acessar sites:
from urllib.request import urlopen

#Biblioteca para reconhecer e percorrer as tags em html:
from bs4 import BeautifulSoup

#Passando URL site da Uniplac
url_2 = 'https://www.uniplaclages.edu.br/'

#Lendo HTML da pagina
url_2_capture = urlopen(url_2)

# capturando o HTML da página:
html_uniplac = url_2_capture.read()

# reconhecendo as tags com BeautifulSoup:
soup_html_uniplac = BeautifulSoup(html_uniplac, 'html.parser')

#print (soup_html_uniplac)

# mostrando o texto e link no primeiro botão do corpo do site 
print(soup_html_uniplac.body.div.ul.li.a.get_text())
soup_html_uniplac.body.div.ul.li.a['href']



Novo Portal Aluno


'https://novoportal.uniplaclages.edu.br/FrameHTML/web/app/edu/portaleducacional/login'

In [289]:
#Exibir todas as tags <h1>

titulos = soup_html_uniplac.find_all(["h1"])

for titulo in titulos:
  print(titulo.get_text())

ENSINO SUPERIOR -  GRADUAÇÃO - LAGES - SC
MESTRADOS
MBAs e Especializações 
Cursos de Extensão
Serviços
Programas e Projetos
Publicações


In [297]:
#Exibir texto de todas as listas 

listas = soup_html_uniplac.find_all(["li"])

for lista in listas:
    print(lista.get_text())





Novo Portal Aluno
Portal Professor/Funcionário
  Biblioteca
 E-mail Institucional

 Intranet

Memorando Eletrônico
Painel Uniplac



Memorando Eletrônico
Painel Uniplac

Institucional


A Uniplac 

 Missão, Visão e Valores
 Identificação
 Localização
 Histórico Uniplac



Documentos Institucionais 

Regimento CONSAD
Regimento Conselho Fiscal
Plano de Cargos e Salários
Regimento Uniplac
Estatuto UNIPLAC - 2ª Alteração
 Contrato Acadêmico 
Demonstrativos Contábeis


Fundação Uniplac 
Reitoria
PDI - 2019/2023
Responsabilidade Social
Identidade Visual
Relações Internacionais



A Uniplac 

 Missão, Visão e Valores
 Identificação
 Localização
 Histórico Uniplac


 Missão, Visão e Valores
 Identificação
 Localização
 Histórico Uniplac

Documentos Institucionais 

Regimento CONSAD
Regimento Conselho Fiscal
Plano de Cargos e Salários
Regimento Uniplac
Estatuto UNIPLAC - 2ª Alteração
 Contrato Acadêmico 
Demonstrativos Contábeis


Regimento CONSAD
Regimento Conselho Fiscal
Plano de Cargos e Sal