# Web Scraping de Preços de Produtos na Amazon

## Descrição Geral

Este script faz a automação do processo de extração de dados (web scraping) de um produto específico na Amazon. Ele utiliza **Selenium** para navegar na página, **BeautifulSoup** para extrair o conteúdo HTML, e outras bibliotecas auxiliares para manipulação e organização dos dados extraídos.

O objetivo do script é capturar o preço do produto exibido na página e, posteriormente, armazenar ou manipular essas informações conforme a necessidade.

## Dependências

O script utiliza as seguintes bibliotecas externas:

1. **Selenium**: Para automação do navegador web e interação com a página.
2. **Webdriver-manager**: Para gerenciar automaticamente o download e instalação do WebDriver para o Selenium.
3. **BeautifulSoup (bs4)**: Para fazer o parsing e navegação no HTML da página.
4. **Requests**: Para realizar requisições HTTP e acessar páginas web (opcional neste caso).
5. **re**: Para buscar expressões regulares no HTML.


# Fluxo do Programa

In [None]:
# importação de bibliotecas
!pip install selenium
!pip install webdriver-manager

from selenium import webdriver
from selenium.webdriver.chrome.service import Service as ChromeService
from webdriver_manager.chrome import ChromeDriverManager
from bs4 import BeautifulSoup
import requests
import re

In [14]:
# Conexão com o site

URL = "https://www.amazon.com.br/Fralda-Pampers-Pants-Premium-unidades/dp/B07X5KWJK9/ref=sr_1_2?__mk_pt_BR=%C3%85M%C3%85%C5%BD%C3%95%C3%91&crid=JFLDTRCA0E6G&dib=eyJ2IjoiMSJ9.24NNZgIpxrQ3KhYEF_CSKj8W00UtDKP9IBlEtdIIEkQIJopgToaoYlfzO0MYDHMEHIGDAMniPjysihpNTSbiBpB_60jDptffRvg3x4iyDVajSskC0MV9oUSCnua7p5-Hz5909i6tPn7C1Bj9_84pwRQT9pytP6ut8kHuegbP9sSvdVtwoWGwl8ZKGX8FdFZNsUMsw1UCgXjm5qco_ags6hvVJlVbHDQ8CTOVgiAkwBuV7xS0FiMA2VENTUToN8AuOKKZ1ZGxaOQkjVoZQprTI6uGuNnb2TJe_Qkv1_PTAv0._Vq3Z51G5FbWFFHwqadVP8EVoenLBczgSNoCFG_keK0&dib_tag=se&keywords=fralda+pampers+pants+xg&qid=1729641992&sprefix=fralda+pampers+pants+xg%2Caps%2C225&sr=8-2&ufe=app_do%3Aamzn1.fos.a492fd4a-f54d-4e8d-8c31-35e0a04ce61e"

# Um cabeçalho HTTP é incluído com um "User-Agent" para simular o acesso à página como se fosse um usuário comum utilizando um navegador.
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36"}

site = requests.get(URL, headers=headers)

## Selenium WebDriver

O Selenium é configurado para funcionar com o Chrome. 
O WebDriverManager é usado para garantir que a versão correta do driver do Chrome seja instalada automaticamente. 
O parâmetro --headless é adicionado para rodar o navegador em segundo plano (sem abrir uma janela visual).

In [15]:
# Configuração do Selenium WebDriver

options = webdriver.ChromeOptions()
options.add_argument('--headless')
driver = webdriver.Chrome(service=ChromeService(ChromeDriverManager().install()), options=options)

driver.get(URL)

## Solução para sites dinâmicos
O código usa re.compile('aok-offscreen'). Isso significa que ele está utilizando uma expressão regular (regex), compilada através da função re.compile(). 
Isso permite que o código busque por classes que contenham ou coincidam com o padrão 'aok-offscreen'. 
É útil, por exemplo, se a classe variar ligeiramente, mas você quiser garantir que ele capture todas as variantes.



In [16]:
# Após o carregamento da página, o BeautifulSoup é usado para analisar o HTML e procurar as informações desejadas (preço do produto).
soup = BeautifulSoup(driver.page_source, 'html.parser')

preco = soup.find('span', class_=re.compile('aok-offscreen')).get_text()

print(preco)


   R$ 109,99  
