## **Webscraping com Python**
Python é uma linguagem de programação de propósitos gerais, bastante versátil e eficaz. Para a tecnologia Webscraping, o Python disponibiliza diversos módulos sendo um deles o **Selenium** que iremos utilizar para coletar informações do site da Amazon. Neste caso, iremos coletar os nomes dos produtos e seus respectivos valores, para então salvá-los em uma planilha, utilizando outro módulo eficaz do Python, o **CSV** - CSV File Reading and Writing. Por final, utilizamos os módulos Panda e xlsxwriter para converter o CSV em uma planilha.



# **Selenium**
O Selenium fornece uma API simples para automatizar tarefas relacionadas aos browsers (ou navegadores). De modo eficaz, pela API do Selenium é possível acessar as funcionalidades do Selenium Webdriver de forma intuitiva. Essa API é utilizada pra acessar Webdrivers do Selenium como Firefox, Chrome, IE, Remote, etc. Além disso, possui suporte para as versões Python 2.7, 3.5 e em diante.  Como o Selenium necessita de um driver para interagir com o browser na finalidade de executar algumas ações, é necessário baixar os drivers associados ao navegador utilizado.


## **Primeiro passo**
*  Para que possamos ter acesso ao site, é necessário primeiro utilizarmos um browser para abrir a página que queremos mapear e adquirir o código HTML para identificar os elementos que serão coletados. Para isso, é necessário identificar o driver específico do navegador que será utilizado, neste caso, o **ChromeDriver** pois utilizaremos o Chrome. Por final, instalamos também o módulo Selenium. Após instalado o ChromeDriver e passado o path para o sistema, podemos prosseguir.



In [None]:
# Instala os módulos

# Selenium
# Instala o módulo Selenium
!pip install selenium 
!pip install panda
!pip install xlsxwriter
# Atualiza o sistema para instalar os pacotes da forma correta
!apt-get update 
# Instala o driver do navegador Chrome
!apt install chromium-chromedriver 
!cp /usr/lib/chromium-browser/chromedriver /usr/bin
import sys
sys.path.insert(0,'/usr/lib/chromium-browser/chromedriver') # Inserindo o path para o driver

Collecting selenium
[?25l  Downloading https://files.pythonhosted.org/packages/80/d6/4294f0b4bce4de0abf13e17190289f9d0613b0a44e5dd6a7f5ca98459853/selenium-3.141.0-py2.py3-none-any.whl (904kB)
[K     |████████████████████████████████| 911kB 6.9MB/s 
Installing collected packages: selenium
Successfully installed selenium-3.141.0
Collecting panda
  Downloading https://files.pythonhosted.org/packages/79/03/74996420528fe488ce17c42b6400531c8067d7eb661c304fa3aa8fdad17c/panda-0.3.1.tar.gz
Building wheels for collected packages: panda
  Building wheel for panda (setup.py) ... [?25l[?25hdone
  Created wheel for panda: filename=panda-0.3.1-cp36-none-any.whl size=7259 sha256=c102fc7a631b3fa36ba896ca4403c96ad52a3240b2993d88edb3075d192884a1
  Stored in directory: /root/.cache/pip/wheels/c6/c8/45/06ed898b0bb401c1ff207dbb05b1587ff28860a236d98b1996
Successfully built panda
Installing collected packages: panda
Successfully installed panda-0.3.1
Collecting xlsxwriter
[?25l  Downloading https://files

## **Partindo para o código**


In [None]:
# Importa os módulos
from selenium import webdriver
from google.colab  import files
import csv
import pandas as pd
import xlsxwriter
import os
import re
import time

O código acima importa os módulos instalados anteriormente para utilizarmos no processo de coleta de dados.

## **Definindo o driver e abrindo o navegador**
Definimos o navegador que será utilizado com o módulo Webdriver e então armazenamos este valor na variável "driver". Após isso, usamos a função get para abrir o browser e com o link do site como parâmetro.

In [None]:
# Define o navegador utilizado - Chrome
chrome_options = webdriver.ChromeOptions() 
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')
driver = webdriver.Chrome('chromedriver',options=chrome_options)
# Abre o navegador Chrome e navega até a página
driver.get("https://www.nike.com.br/Snkrs")

## **Extraindo a lista de nomes e preços com o XPath**
Para que possamos filtrar as informações que serão coletadas, usaremos algumas funções do Selenium para identificar o elemento pelo XPath. O XPath (XML Path Language) passa um caminho de identificação do elemento no código HTML. Com isso, é possível obter somente os dados que queremos de forma mais eficaz do que identificar os elementos por meio de classe, nome ou até mesmo por ID.

In [None]:
# Extrai as listas de nome se preços com XPath
tenis = driver.find_elements_by_xpath('//h3[@class="button button--border produto__detalhe-botao"]')
array_links = []
link_tenis = ''
data_lancamento = []

for i in range(len(tenis)):
  if i == 0:
    pass
  else:
    link_tenis = str(tenis[i].get_attribute('onclick'))
    link_tenis = re.sub('\w+[.]\w+[.]\w+', '', link_tenis, 1)
    link_tenis = re.sub('[="]+', '', link_tenis)
    print(link_tenis)
    array_links.append(link_tenis)


!touch saidas.csv

with open('./saidas.csv', 'w+', newline='\n') as csvfile:
    wr = csv.writer(csvfile, dialect='excel')
    for link in array_links:
        wr.writerow([link,])

print(len(array_links))

https://www.nike.com.br/Snkrs/Produto/Lahar-Low-Feminino/1-16-210-305330
https://www.nike.com.br/Snkrs/Produto/Lahar-Low-Feminino/1-16-210-305308
https://www.nike.com.br/Snkrs/Produto/Kobe-6-Protro/153-169-211-295320
https://www.nike.com.br/Snkrs/Produto/Air-Jordan-4-Feminino/1-16-210-296284
https://www.nike.com.br/Snkrs/Produto/Air-Force-1-Experimental/153-169-211-294049
https://www.nike.com.br/Snkrs/Produto/NOCTA/153-169-211-284276
https://www.nike.com.br/Snkrs/Produto/NOCTA/153-169-211-284266
https://www.nike.com.br/Snkrs/Produto/Jordan-Vintage/153-169-211-283440
https://www.nike.com.br/Snkrs/Produto/Jordan-Vintage/153-169-211-283425
https://www.nike.com.br/Snkrs/Produto/Jordan-Vintage/153-169-211-283408
https://www.nike.com.br/Snkrs/Produto/Jordan-Vintage/153-169-211-283392
https://www.nike.com.br/Snkrs/Produto/Nike-x-Undercover/153-169-211-284598
https://www.nike.com.br/Snkrs/Produto/Nike-x-Undercover/153-169-211-284584
https://www.nike.com.br/Snkrs/Produto/Air-Flight-89/153-169-2

In [None]:
import csv
link_list = []
with open('./saidas.csv') as csvfile:
    reader = csv.reader(csvfile, delimiter='\n')
    for row in reader:
        link_list.append(row)

driver = webdriver.Chrome('chromedriver',options=chrome_options)
produtos = []
i = len(link_list) - 1
while i > 0:
    link = str(link_list[i][0])
    try:
        nome = ""
        data_disponibilidade = ""
        valor = ""
        driver.get(str(link_list[i][0]))
        while nome == "":
            try:
                 nome = driver.find_element_by_xpath('//div[@class="nome-preco-produto"]')
            except:
                 break
        try:
             data_disponibilidade = driver.find_element_by_xpath('//h3[@class="detalhes-produto__disponibilidade"]')
        except:
             data_disponibilidade = driver.find_element_by_xpath('//h3[@class="detalhes-produto__disponibilidade-unidades mt-5"]')
        while "R$ " not in valor:
             valor = driver.execute_script("a = $('.js-valor-por').text(); return a;")
        print(nome.text)
        print(data_disponibilidade.text)
        print(valor)
        print(link)
        produtos.append([nome.text, data_disponibilidade.text, valor, link])
        i = i - 1
    except:
      pass

print(produtos)



R$ 649,99
https://www.nike.com.br/Snkrs/Produto/Zoom-Freak-2/153-169-211-305455
LAHAR LOW FEMININO
BLACK
DISPONÍVEL EM 17/02 ÀS 10:00H
R$ 799,99
https://www.nike.com.br/Snkrs/Produto/Lahar-Low-Feminino/1-16-210-305345
LAHAR LOW FEMININO
WHEAT
DISPONÍVEL EM 17/02 ÀS 10:00H
R$ 799,99
https://www.nike.com.br/Snkrs/Produto/Lahar-Low-Feminino/1-16-210-305323
KOBE 6 PROTRO
GREEN APPLE
DISPONÍVEL EM 13/02 ÀS 10:00H
R$ 999,99
https://www.nike.com.br/Snkrs/Produto/Kobe-6-Protro/153-169-211-295337
AIR JORDAN 4 FEMININO
STARFISH
DISPONÍVEL EM 09/02 ÀS 10:00H
R$ 1.099,99
https://www.nike.com.br/Snkrs/Produto/Air-Jordan-4-Feminino/1-16-210-296294
NOCTA
CAMISETA

R$ 229,99
https://www.nike.com.br/Snkrs/Produto/NOCTA/153-169-211-284284
NOCTA
CAMISETA

R$ 229,99
https://www.nike.com.br/Snkrs/Produto/NOCTA/153-169-211-284273
JORDAN VINTAGE
CAMISETA
MÁXIMO DE 1 UNIDADE POR CPF
R$ 199,99
https://www.nike.com.br/Snkrs/Produto/Jordan-Vintage/153-169-211-283449
JORDAN VINTAGE
CAMISETA
MÁXIMO DE 1 UNIDADE 

##**Organizando os dados coletados e transferindo a uma planilha**
Uma vez que os dados coletados foram salvos nas variáveis nomes e precos  podemos organizar os dados para que fiquem adaptados à planilha e então salvá-los na planilha utilizando CSV. É necessário notar que precisamos  utilizar a função "text" do selenium para converter os dados de bytes para string. Após isso, fechamos o navegador com a função "quit".




In [None]:
!cat saidas.csv

## **Referências**
[1] - https://selenium-python.readthedocs.io/installation

[2] - https://docs.python.org/3/library/csv.html

[3] - https://chromedriver.chromium.org/