# <font color='00aaff'> **Processo Seletivo Pi Júnior 2024/2** <font/>


## <font color='ffffff'> **Python Avançado** <font/>


Olá, trainee! Neste arquivo exploraremos uma área um pouco mais avançada do Python, falaremos sobre uma das técnicas mais importantes quando se fala em coleta de dados chamada Web Scraping. Recomendamos que assista a aula de Python avançado da trilha do conhecimento enquanto a acompanha esse documento, para que possa testar por conta própria o que é dito na aula, modificando valores e códigos para ir compreendendo melhor.


## <font color='ffffff'> **Definição** <font/>


Web scraping é o processo de coletar informações de páginas da web de forma automatizada, ou seja, em vez de coletar informações manualmente, é utilizado scripts para navegar pelos elementos de uma página da web e extrair os dados desejados, como texto, imagens, links e muito mais. Essa técnica é muito importante porque permite coletar informações valiosas disponíveis na internet de maneira eficiente e sistemática.


## <font color='ffffff'> **Site que vamos usar: <a href='https://www.scrapethissite.com/pages/simple/'>**Scrape this site**</a>** <font/>


## **1. Inspecionando o site**


O primeiro passo para realizar o Web Scraping é analisar o site que você quer coletar os dados. Basicamente toda informação que existe nele é possível extrair com o Web Scraping (pode ter algumas exceções). Dessa forma, é possível extrair cada texto, link ou imagem de forma automática usando um script.


### **Primeiro passo**


Vamos começar a implementar o código que vamos usar para realizar o Web Scraping. Primeiramente temos que importar a biblioteca que vamos usar, chamada Beautiful Soup.


In [None]:
from bs4 import BeautifulSoup
import requests

Após rodar esse código já estará pronto para usar suas funcionalidades


### **Segundo Passo**


Agora é preciso definir o site que vamos usar e "baixar" as informações do site para o código


In [None]:
url = "https://www.scrapethissite.com/pages/simple/"

page = requests.get(url)

soup = BeautifulSoup(page.text, "html.parser")


**Mas que informações são essas?**


As informações que usamos do site são as que estão disponíveis no código HTML. Mas não se preocupe, **NÂO** é preciso ter conhecimento de HTML para conseguir coletar as informações


In [None]:
print(
    soup.prettify()[:1400]
)  # não se preocupe com esse print, é só pra mostrar uma pequena parte dos dados que são gigantes!

**Mas como vou saber onde estão os dados que eu quero?**

Não se preocupe, vamos mostrar passo a passo como interpretar esses dados e achar exatamente o que você procura


### **Terceiro Passo**


Para saber onde está as informações que você procura, vá até o <a href='https://www.scrapethissite.com/pages/simple/'>**site**</a> <font/> e clique no botão direito do mouse, então clique em inspecionar elemento.
Com isso você consegue encontrar cada elemento do site e qual sua parte do código correspondente.

(_Se estiver com dúvida volte para a video aula novamente e tende entender com a demonstração_)


## **2. Usando funções**


As duas principais funções que vamos utilizar são o `soup.find( )` e o `soup.find_all( )`


A função `soup.find( )` permite encontrar o primeiro elemento correspondente a um determinado critério de pesquisa


A construção da função segue o modelo a seguir:

`elemento_encontrado = soup.find(nome_do_elemento, atributos)`


Resumindo:

**_nome_do_elemento:_** O nome do elemento HTML que você está procurando (por exemplo, 'div', 'span', 'a').

**_atributos:_** Uma lista de atributos e seus valores que você deseja usar para filtrar os elementos (opcional).


In [None]:
descricao = soup.find("p", class_="lead").text.strip()
# print(descricao)

titulo = soup.find("h1").text.strip()
print(titulo)


### **Exemplo**


Para o primeiro exemplo foi buscado a descrição do site que fica logo abaixo do título.


In [None]:
# inspecione a página e ache no código o local em que a descrição se encontra

descricao = soup.find(
    "p", class_="lead"
)  # perceba que se escreve "class_" com o _ no final

print(descricao.text.strip())

Como pode observar, a exata descrição que aparece no site foi impressa corretamente.

Foi utilizado o `.text.strip()` no final apenas para formatar o texto de forma correta, mas você pode tirar essa parte e ver que o dado continua lá, porém apenas sem formatação.


No exemplo a seguir vamos agora buscar o título da página. Perceba dessa vez que foi utilizado a função duas vezes, isso é algo que também é possível de fazer. Lembre que pode haver vários elementos e classes com o mesmo nome, então tome cuidado e lembre-se que a função `find()` encontra sempre o primeiro elemento com a descrição feita.


In [None]:
titulo = soup.find("div", class_="row")

texto = titulo.find("h1").text.strip()

print(texto)

Agora sobre a função `find_all()`


A função `find_all()` é uma ferramenta poderosa para encontrar todos os elementos correspondentes a determinados critérios. Ela retorna uma lista de todos os elementos encontrados que correspondem aos critérios de pesquisa especificados.

Perceba que essa função **Sempre** retorna uma lista, então para acessar cada elemento vai ser necessário fazer um loop e percorrer cada elemento individualmente


A estrutura é a mesma da função `find()`, ou seja,

`elemento_encontrado = soup.find_all(nome_do_elemento, atributos)`


In [None]:
nome_paises = soup.find_all("h3", class_="country-name")

for nome in nome_paises:
    print(nome.text.strip())

### **Exemplo**


In [None]:
nome_paises = soup.find_all("h3", class_="country-name")

for nome in nome_paises:
    nome = nome.text.strip()
    print(nome)

Nesse caso foi buscado o nome de cada país disponível no site.

Perceba que não é possível pegar o texto de cara, é preciso criar um loop para percorrer cada elemento da lista e pegar o nome de cada um individualmente


### **Salvando esses dados**


Usando o `find_all()`, se você deseja salvar esses dados para usá-los de alguma forma posteriormente, você pode criar listas e salvar cada dado desejado em uma lista diferente.


No exemplo a seguir nós pegamos as informações de cada um daqueles países, sendo elas a Capital, a População e a Area.


In [None]:
# achar o local em que todas essas informações estão guardadas
dados = soup.find_all("div", class_="country-info")

capital = []
populacao = []
area = []

for dado in dados:
    capital.append(dado.find("span", class_="country-capital").text.strip())
    populacao.append(dado.find("span", class_="country-population").text.strip())
    area.append(dado.find("span", class_="country-area").text.strip())

print(capital)
print(populacao)
print(area)


## **3. Trocando de página**


Até agora nós aprendemos a coletar os dados de uma página apenas. Mas e se nós quisermos coletar de várias páginas diferentes?

Por exemplo, se a página que eu estiver coletando possui um link para a próxima página, como fazer para pegar os dados dela?


Simples! Só é preciso coletar esse link da mesma forma que coletamos os outros dados e chamar a função com o novo url


### **Exemplo, agora com <a href='https://www.scrapethissite.com/pages'>**outra página**</a> <font/>**


Nessa nova página, nós possuímos alguns textos e links para outras páginas. Se você observar, o primeiro link é a página que estavamos coletando os dados antes.


Primeiramente, vamos pegar o link da página manualmente, e depois vamos percorrer as outras páginas de forma automática.


In [None]:
# selecionando o novo url da página que vamos coletar
url2 = "https://www.scrapethissite.com/pages/"

page2 = requests.get(url2)

soup2 = BeautifulSoup(page2.text, "html.parser")

In [None]:
paginas = soup2.find_all("h3", class_="page-title")
todos_links = []

for pagina in paginas:
    link = pagina.find("a")
    nome = link.get("href")
    todos_links.append(nome)

print(todos_links)

Agora, da mesma forma que coletamos os dados antes, vamos procurar cada um dos novos links que estão disponíveis na página


In [None]:
# encontrar onde estão os links
paginas = soup2.find_all("h3", class_="page-title")

# como usamos o find_all, precisamos guardar os dados em uma lista
todos_links = []

# usamos um loop para percorrer cada um dos links e salvá-los individualmente
for pagina in paginas:
    nome = pagina.find("a")["href"]
    todos_links.append(nome)

print(todos_links)

Perceba que no caso desse site temos apenas a extensão que fica no fim do url da página, portanto vamos ter que considerar isso quando formos querer passar para a próxima página. Pode haver casos que o link vai estar completo, então sempre verifique como os dados estão armazenados para usá-los corretamente.


Perceba que isso gera um pequeno problema, pois se apenas adicionarmos a extensão no final da url que temos, ficamos com um novo link que duplica a parte de "/pages", gerando um link incorreto


In [None]:
# vamos printar como ficaria os links se apenas adicionarmos as extensões à url que temos
for link in todos_links:
    novo_url = url2 + link
    print(novo_url)

Para corrigir esse problema, irei usar um método para adicionar apenas parte da extensão para o novo link que vamos gerar, tirando assim a parte "/pages" para evitar que se repita no link


Para isso, vamos usar a funcionalidade de python que permite usar apenas parte de um dado, que no nosso caso é um texto que representa a extensão. Para isso, ao invés de usar a variável **link** contendo a extensão inteira, vamos usar **link [7 : ]**, que representa o mesmo dado porém a partir do 7 dígito dele, tirando assim o "/pages" que está se repetindo.


In [None]:
# adicionar as extensões aos links após a correção
for link in todos_links:
    url_correto = url2 + link[7:]
    print(url_correto)

Agora que temos todas as extensões corretamente em uma lista, basta criar um loop e fazer todo o processo inicial de pegar a url e coletar os dados para cada um dos links que nós salvamos.


Perceba que vai gerar um erro nesse código, mas é intencional e ainda sim vai imprimir os resultados


In [None]:
# loop que vai pegar cada url, fazer a correção como mostrado anteriormente e depois coletar dados de cada página que visitar

for link in todos_links:
    novo_url = url2 + link[7:]
    print("site visitado:  ", novo_url)

    # fazer os passos iniciais para coletar as informações da página
    nova_pagina = requests.get(novo_url)
    novo_soup = BeautifulSoup(nova_pagina.text, "html.parser")

    # procurar o elemento que queremos coletar, nesse caso estamos pegando o título
    novo_titulo = novo_soup.find("div", class_="row")

    novo_texto = novo_titulo.find("h1").text.strip()

    print("dado coletado:  ", novo_texto)


O erro foi gerado na última página que ele estava fazendo a coleta, mas por que isso aconteceu?


Lembre-se sempre de analisar cuidadosamente os dados que você está querendo coletar. Em todos os primeiros sites que ele coleta as informações o título da página está no elemento **h1**, porém no último site em que foi gerado o erro, o título está no elemento **h3**, não encontrando assim a informação que procurava e gerando um erro.


Por isso sempre esteja atento tanto na estrutura do site quanto nos códigos que você escreve, sempre haverá desafios diferentes e é sua função encontrá-los e descobrir uma solução.


# **4. Funcões select e select_one**


Por fim, falaremos a respeito de duas funções que, apesar de serem menos utitizadas no geral, possuem sua importância e podem ser usadas como poderosas ferramentas para acessar dados mais especificos ou profundos dentro do codigo HTML.


Estamos falando das funções `select()` e `select_one()`. Elas funcionam como buscadores assim como o find, mas ao inves de receber como argumentos tags HTML ela recebe seletores CSS diretamente. Abaixo será mostrada a sintaxe basica da função select_one, que é equivalente à função find:


`elemento_encontrado = soup.select_one(seletor_css)`


# **Exemplo:**


In [None]:
import requests
from bs4 import BeautifulSoup

url = "https://www.scrapethissite.com/pages/simple/"
resposta = requests.get(url)
soup = BeautifulSoup(resposta.text, "html.parser")

In [None]:
titulo = soup.select_one("h1").text.strip()

print(titulo)

descricao = soup.select_one("p.lead").text.strip()
print(descricao)

Como pode ser observado, a principal diferença se da no argumento recebido pela funcao. Ao inves de escrever da forma `(tag, atributo="")`, escreve-se da forma `("tag.atributo")` nesse caso.


Agora falando da função `select(`). Ela, asism como a funcao `find_all()`, retorna uma lista dos elementos que corresponderem aos argumentos passados dentro do codigo HTML, e possui a mesma sintaxe que a função `select_one()`.


In [None]:
dados = soup.select("div.country-info")

capital = []
populacao = []
area = []

for dado in dados:
    capital.append(dado.select_one("span.country-capital").text.strip())
    populacao.append(dado.select_one("span.country-population").text.strip())
    area.append(dado.select_one("span.country-area").text.strip())

print(capital)
print(populacao)
print(area)

Uma questao importante é sobre como acessar os diferentes seletores CSS. Abaixo serão listados os principais:

**Selecionar por Tag:**
h1 seleciona todas as tags h1.

**Selecionar por Classe:**
.country-name seleciona todos os elementos com class="country-name".

**Selecionar por ID:**
(#hashtag)main-header seleciona o elemento com id="main-header".

**Combinando Tag e Classe:**

h3.country-name seleciona todas as h3 com class="country-name".

**Seleção Hierárquica:**
div.country h3.country-name seleciona h3 class="country-name"> dentro de div class="country".

**Selecionar por Atributo:**
a[href="https://example.com"] seleciona a com href específico.


Outro aspecto relevante é sobre como funciona a hierarquia dos seletores CSS e como podemos usar ele a nosso favor.


# **Exemplo:**


In [None]:
capital = soup.select_one(
    "div.country div.country-info span.country-capital"
).text.strip()

print(capital)


Como é possível ver, a hierarquia pode ser explorada no sentido de que pode-se chamar tags que pertencem à outras tags dando um espaço entre elas. Há outros operadores mais específicos mas no geral eles nao precisam ser usados. Isso permite acessar atributos mais específicos de uma maneira mais simples e prática


## **5. Exercícios**


Agora é sua vez de praticar, tente coletar algumas informações do website a seguir para praticar o que aprendeu.

Não se preocupe, esse site é bem mais simples e com menos informações!


O site que utilizaremos é o <a href='https://quotes.toscrape.com'>**Quotes to Scrape**</a> <font/>, é um site bem simples que possui citações de várias pessoas famosas.


### **Exercício 1**


Escreva um código para coletar a citação em si e o nome do autor da primeira citação que aparece no site. _Lembre-se dos primeiros passos para inicialmente baixar todas as informações do site._


Lembre-se de usar o `.text.strip()` para formatar o seu dado para que seja retornado apenas o texto


In [None]:
from bs4 import BeautifulSoup
import requests

url = "https://quotes.toscrape.com"
page = requests.get(url)
soup = BeautifulSoup(page.text, "html")

print(soup.find("span", class_="text").text.strip())
print(soup.find("small", class_="author").text.strip())

### **Exercício 2**


Colete agora todas as citações e os nomes dos autores que estão na primeira página do site. Para isso vai ser necessário criar uma lista pra cada e salvar os dados respectivos em cada lista.


Lembre-se que é possível usar o text to strip dentro do loop para melhorar a formatação dos dados


In [None]:
caixas = soup.find_all("div", class_="quote")

citacoes = []
autores = []

for caixa in caixas:
    citacoes.append(caixa.find("span", class_="text").text.strip())
    autores.append(caixa.find("small", class_="author").text.strip())

print(citacoes)
print(autores)