# **Amazon Web Scraper Project**

Caderno de **Portifolio** <br/>
[Marcos Vinicius](https://www.linkedin.com/in/marcosvmanjos/) - [Github](https://github.com/marcos-anjos)

___

## **Tópicos**

<ol type="1">
  <li>Introdução;</li>
  <li>Web Scraping;</li>
</ol>

## **1\. Introdução**

- **Processamento**:
  
<p> Este projeto visa criar um web scraper em Python para extrair informações de preços de um produto específico na Amazon. Utilizando as bibliotecas BeautifulSoup e Requests, o código se conecta ao site da Amazon, recupera o título e o preço do produto e os armazena em um arquivo CSV. Além disso, é implementada uma função para verificar periodicamente o preço do produto e atualizar o arquivo CSV com os dados mais recentes.</p>



- **Fontes**:
  - Storytelling with Data: A Data Visualization Guide for Business Professionals ([link](https://www.amazon.com/Storytelling-Data-Visualization-Business-Professionals/dp/1119002257/ref=bmx_dp_5kl4ezon_d_sccl_3_1/139-0810955-0548326?pd_rd_w=PDZ4r&content-id=amzn1.sym.628e3119-8afd-4af2-be6b-18415b51e649&pf_rd_p=628e3119-8afd-4af2-be6b-18415b51e649&pf_rd_r=1J9HBCTCPP5A7GJ3RZBX&pd_rd_wg=YulZV&pd_rd_r=b2fa3ebf-3da5-46b0-b9a5-1c2ea86bd7e5&pd_rd_i=1119002257&psc=1));

![Book](https://miro.medium.com/v2/format:webp/1*UK_AEjnD5g0SS0bJ_F2l-A.jpeg)


### **Motivação/Objetivo**


- **Acompanhamento de Preços:**
O objetivo principal deste projeto é monitorar e registrar os preços de um produto específico na Amazon ao longo do tempo. Isso permite aos usuários acompanhar as flutuações de preço e tomar decisões informadas sobre quando comprar o produto com base em seu histórico de preços.

- **Automação e Eficiência:**
Além disso, a automação do processo de monitoramento de preços por meio do web scraper economiza tempo e esforço, fornecendo atualizações regulares sem a necessidade de verificação manual.

## **Contexto**

O código desenvolvido neste projeto é aplicável a uma ampla variedade de produtos vendidos na Amazon. Ele oferece uma solução eficiente para usuários interessados em monitorar e analisar os preços de produtos específicos ao longo do tempo, fornecendo insights valiosos para tomada de decisões de compra.

### **Limitações**

- **Variação de Preços:**

É importante ressaltar que os preços dos produtos na Amazon podem variar frequentemente devido a promoções, descontos sazonais e outros fatores. Portanto, os dados coletados pelo web scraper refletem os preços no momento da extração e podem não representar o preço final de compra.

- **Dependência de Conexão com a Internet:**

O funcionamento adequado do web scraper depende da disponibilidade de conexão com a internet e da acessibilidade do site da Amazon. Interrupções na conexão ou mudanças na estrutura do site podem afetar a capacidade do scraper de coletar dados com precisão.

## **2\. Web Scraping**

### **Bibliotecas**

In [1]:
# Importando bibliotecas necessárias

from bs4 import BeautifulSoup
import requests
import time
import datetime

import smtplib


In [2]:
# Conectar ao site e extrair dados.

URL = 'https://www.amazon.com/Storytelling-Data-Visualization-Business-Professionals/dp/1119002257/ref=bmx_dp_5kl4ezon_d_sccl_3_1/139-0810955-0548326?pd_rd_w=PDZ4r&content-id=amzn1.sym.628e3119-8afd-4af2-be6b-18415b51e649&pf_rd_p=628e3119-8afd-4af2-be6b-18415b51e649&pf_rd_r=1J9HBCTCPP5A7GJ3RZBX&pd_rd_wg=YulZV&pd_rd_r=b2fa3ebf-3da5-46b0-b9a5-1c2ea86bd7e5&pd_rd_i=1119002257&psc=1'

headers = {"User-Agent":
           "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36", "Accept-Encoding":"gzip, deflate", "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", "DNT":"1","Connection":"close", "Upgrade-Insecure-Requests":"1"}

page = requests.get(URL, headers=headers)

soup1 = BeautifulSoup(page.content, "html.parser")

soup2 = BeautifulSoup(soup1.prettify(), "html.parser")

title = soup2.find(id="productTitle").get_text()

price = soup2.find(id="price").get_text()

print(title)
print(price)


             Storytelling with Data: A Data Visualization Guide for Business Professionals
            

                            $22.48
                           


In [3]:
# Limpando os dados
    
price = price.strip()[1:]
title = title.strip()

print(title)
print(price)

Storytelling with Data: A Data Visualization Guide for Business Professionals
22.48


In [4]:
# Data/Hora para sua saída para rastrear quando os dados foram coletados

import datetime
date = datetime.date.today()
print(date)

2024-04-07


In [5]:
# Criar o header

import csv 

header = ['Title', 'Price', 'Date']
data = [title, price, date]


In [6]:
# Inserir os valores 

with open('AmazonWebScraperDataset.csv', 'a+', newline='', encoding='UTF8') as f:
    writer = csv.writer(f)
    writer.writerow(data)

In [7]:
# Função que vai estar conectada ao timer

def check_price():
    URL = 'https://www.amazon.com/Storytelling-Data-Visualization-Business-Professionals/dp/1119002257/ref=bmx_dp_5kl4ezon_d_sccl_3_1/139-0810955-0548326?pd_rd_w=PDZ4r&content-id=amzn1.sym.628e3119-8afd-4af2-be6b-18415b51e649&pf_rd_p=628e3119-8afd-4af2-be6b-18415b51e649&pf_rd_r=1J9HBCTCPP5A7GJ3RZBX&pd_rd_wg=YulZV&pd_rd_r=b2fa3ebf-3da5-46b0-b9a5-1c2ea86bd7e5&pd_rd_i=1119002257&psc=1'

    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36", "Accept-Encoding":"gzip, deflate", "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", "DNT":"1","Connection":"close", "Upgrade-Insecure-Requests":"1"}

    page = requests.get(URL, headers=headers)

    soup1 = BeautifulSoup(page.content, "html.parser")

    soup2 = BeautifulSoup(soup1.prettify(), "html.parser")

    title = soup2.find(id="productTitle").get_text()

    price = soup2.find(id="price").get_text()

    # Limpando os dados
    
    price = price.strip()[1:]
    title = title.strip()

    # Data/Hora para sua saída para rastrear quando os dados foram coletados
    
    import datetime

    today = datetime.date.today()
    
    import csv 

    header = ['Title', 'Price', 'Date']
    data = [title, price, today]

    with open('AmazonWebScraperDataset.csv', 'a+', newline='', encoding='UTF8') as f:
        writer = csv.writer(f)
        writer.writerow(data)

In [None]:
# Executa a função check_price após um tempo definido e insere os dados no seu arquivo CSV

while(True):
    check_price()
    time.sleep(86400)