# Web Scraping

## Imports

In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

## Requisições HTTP com requests

Para obter o HTML de uma página, usamos GET

In [None]:
# Force o encoding para UTF-8 (ou outro, como 'iso-8859-1')
response.encoding = 'utf-8' 

In [6]:
url = 'https://postech.fiap.com.br/curso/machine-learning-engineering'
response = requests.get(url)
response.encoding = 'utf-8' # forçando o encoding para UTF-8 (ou outro, como 'iso-8859-1')

if response.status_code == 200:
    html_content = response.text
    print('Página obtida com sucesso')
else:
    print(f"Erro ao acessar a página. Código de status: {response.status_code}")


Página obtida com sucesso


## Parse do HTML com BeautifulSoup

In [7]:
soup = BeautifulSoup(html_content, 'html.parser')

## Extração do título

In [8]:
print(soup.title) # retorna a tag completa <title> ... </title>
print(soup.title.string) # retorna só o conteúdo dentro da tag

<title>Pós Tech em Machine Learning Engineering - FIAP+Alura</title>
Pós Tech em Machine Learning Engineering - FIAP+Alura


## Encontrar tags de cabeçalho

In [9]:
for i in range(1, 7):
    headers = soup.find_all(f"h{i}")
    for header in headers:
        print(f"h{i}: {header.get_text(strip = True)}")

h1: Machine Learning Engineering
h2: Seja especialista em Machine Learning e faça parte da revolução digital.
h2: CERTIFICAÇÃOA CADA FASE
h2: conteúdo
h2: Coordenação
h2: ANDREAPAIVA
h2: José RubensRodrigues
h2: Ana RaquelCunha
h2: comuni
h2: dades
h2: ExtensõesInternacionais
h2: Superpoderes techpara superconquistashumanas
h2: E VOCÊ AINDA CONTACOM ACESSOCOMPLETO À MAIORESCOLA ONLINEDE TECNOLOGIA DAAMÉRICA LATINA
h2: nossosparceiros
h2: PerguntasFrequentes
h3: PÓS TECH
h3: VOCÊ VAI SEPREPARAR PARA
h3: Seu curso possui 5 fases. A cada fase concluída, você receberá um certificado, além do certificado do curso completo. Isso possibilitará a comprovação da sua evolução, o que pode gerar oportunidades profissionais mesmo antes do fim do curso.
h3: diretora
h3: gerente acadêmico
h3: COORDENADORA
h3: SUAJORNADA
h3: Você nuncaestará sozinho
h3: E as conexões vãoalém:
h3: UNIDADES + POLOS
h3: special warm up
h4: como funciona
h4: FIAP ACLIMAÇÃO Campus 01
h4: FIAP ACLIMAÇÃO Campus 02
h4: FIAP P

## Extrair links

In [10]:
links = soup.find_all('a')
print(f"Total de links encontrados: {len(links)}\n")

for link in links[:10]:
    href = link.get('href')
    text = link.get_text(strip = True)
    print(f"Texto: {text} | URL: {href}")

Total de links encontrados: 63

Texto: FECHAR | URL: None
Texto: ENVIAR | URL: None
Texto: POLÍTICA DE PRIVACIDADE. | URL: https://www.fiap.com.br/politica-de-privacidade/
Texto: ENVIAR | URL: None
Texto:  | URL: https://postech.fiap.com.br/
Texto: Inscreva-se | URL: None
Texto:  | URL: None
Texto: 01FIAP + AluraSobre | URL: None
Texto: 02CursosDev / Cyber / Data / Tech & Business / Inteligência Artificial | URL: None
Texto: 03Hands-onAprenda fazendo | URL: None


## Buscar classes específicas

In [20]:
div_container = soup.find('div', {"class":'container'})
div_container.__str__()

'None'

In [21]:
div_containers = soup.find_all('div', {"class":'container'})
div_containers

[]

## Pegar tabela

In [23]:
url = 'https://vitibrasil.cnpuv.embrapa.br/index.php?opcao=opt_02'
response = requests.get(url)

# ver se a requisição foi bem sucedida
response.raise_for_status()

# parse com bs
soup = BeautifulSoup(response.text, 'html.parser')

# encontrar a tabela específica para a classe
table = soup.find('table', {'class':'tb_base tb_dados'})

# extrair as linhas da tabela
rows = table.find_all('tr')

# lista para armazenar dados
data = []

for row in rows:
    cells = row.find_all(['th', 'td']) # inclui cabeçalhos (th) e dados (td)
    cells_text = [cell.get_text(strip = True) for cell in cells]
    data.append(cells_text)

# converter os dados em pandas.DataFrame
df = pd.DataFrame(data[1:], columns = data[0]) # a linha 0 é o cabeçalho
print(f"Tamanho da base: {df.shape[0]}")
df.head()

Tamanho da base: 52


Unnamed: 0,Produto,Quantidade (L.)
0,VINHO DE MESA,102.631.280
1,Tinto,86.404.980
2,Branco,14.682.722
3,Rosado,1.543.578
4,VINHO FINO DE MESA (VINIFERA),22.545.581


## Exemplo | Books to scrap

In [24]:
url_books = 'https://books.toscrape.com/index.html'

In [26]:
# requisição HTTP para o site
response = requests.get(url_books)

# ler o conteúdo da página
page_html = response.content

# parsing do HTML
page_soup = BeautifulSoup(page_html, 'html.parser')

# encontrar todos os produtos na página
bookshelf = page_soup.findAll('li', {'class': 'col-xs-6 col-sm-4 col-md-3 col-lg-3'})

In [27]:
len(bookshelf)

20

In [30]:
# armazenar títulos e preços em listas
titles = []
prices = []

for books in bookshelf:
    # coletar título do livro
    book_title = books.h3.a['title']

    # coletar o preço do livro
    book_price = books.find('p', {'class': 'price_color'}).text.strip()

    print(f'Título do livro: {book_title}')
    print(f'Preço do livro: {book_price}')
    print('-' * 50)

    titles.append(book_title)
    prices.append(book_price)

Título do livro: A Light in the Attic
Preço do livro: £51.77
--------------------------------------------------
Título do livro: Tipping the Velvet
Preço do livro: £53.74
--------------------------------------------------
Título do livro: Soumission
Preço do livro: £50.10
--------------------------------------------------
Título do livro: Sharp Objects
Preço do livro: £47.82
--------------------------------------------------
Título do livro: Sapiens: A Brief History of Humankind
Preço do livro: £54.23
--------------------------------------------------
Título do livro: The Requiem Red
Preço do livro: £22.65
--------------------------------------------------
Título do livro: The Dirty Little Secrets of Getting Your Dream Job
Preço do livro: £33.34
--------------------------------------------------
Título do livro: The Coming Woman: A Novel Based on the Life of the Infamous Feminist, Victoria Woodhull
Preço do livro: £17.93
--------------------------------------------------
Título do livr