# Instalando Selenium

In [1]:
!pip install selenium



# Setup do Scraping

## Importando bibliotecas

In [2]:
import pandas as pd
import numpy as np
import time
from selenium import webdriver

## Verifique a versão do navegador

Verifique a versão do seu navegador indo até a aba de configuração obtendo a versão atual

Nesse caso abaixo, estamos verificando a versão do google chrome
![image](imagens/versao_do_navegador.png)

## Baixando driver do navegador utilizado

Baixe o driver do navegador que você irá utilizar no scraping:

Chrome: https://sites.google.com/chromium.org/driver/

Edge: https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/

Firefox: https://github.com/mozilla/geckodriver/releases

Safari: https://webkit.org/blog/6900/webdriver-support-in-safari-10/


Após isso, coloque o driver que você baixou na raiz da aplicação que está desenvolvendo:
![image](imagens/chromedriver_na_pasta_do_projeto.png)

# Manipulando o Navegador

## Abrindo navegador

In [3]:
navegador = webdriver.Chrome() #Esse comando cria um objeto que abre o navegador

## Navegando em sites

In [5]:
navegador.get("https://www.google.com/") #Acessando o google

In [6]:
navegador.get("https://stackoverflow.com/") #Acessando o stackoverflow

In [7]:
navegador.get("https://a3data.com.br/") #Acessando o site da a3data

In [8]:
navegador.get("https://www.reclameaqui.com.br/") #Acessando o reclameaqui

## Localizando Elementos

Para pode localizar os elementos, precisamos de uma ferramenta dos navegadores que são as ferramentas dos desenvolvedores para acessar o código em html da página. Para acessar basta clicar com o botão direito na página e após isso, basta clicar em "Inspecionar", no caso do google chrome. Isso pode mudar para outros tipos de navegadores:

![image](imagens/ferramenta_inspecionar.png)


Após isso, você terá acesso ao código html da página:

![image](imagens/codigo_html_da_pag.png)

In [13]:
from selenium.webdriver.common.by import By

cookie_site = navegador.find_element(By.XPATH, "/html/body/div[7]/div[2]/div/div[2]/div[1]/div/div[2]/div/div[1]/button") #Localizando o aceite de cookies do site
cookie_site

<selenium.webdriver.remote.webelement.WebElement (session="d4288577c047e10bedd81a0d95f08c44", element="0afff52f-db72-4f2b-a0d3-7a8c9108364b")>

In [10]:
from selenium.webdriver.common.by import By

barra_de_pesquisa = navegador.find_element(By.XPATH, "/html/body/div[1]/div[1]/div[1]/div[3]/div[1]/div/div[1]/div/div/div/input")

In [11]:
barra_de_pesquisa.click()

In [12]:
barra_de_pesquisa.send_keys("Instagram")

**Outros tipos de seletores html:**

ID = "id"

NAME = "name"

XPATH = "xpath"

LINK_TEXT = "link text"

PARTIAL_LINK_TEXT = "partial link text"

TAG_NAME = "tag name"

CLASS_NAME = "class name"

CSS_SELECTOR = "css selector"

## Como simular teclado e mouse

In [14]:
cookie_site.click() # Realiza click no elemento identificado

ElementNotInteractableException: Message: element not interactable
  (Session info: chrome=103.0.5060.134)
Stacktrace:
Backtrace:
	Ordinal0 [0x00835FD3+2187219]
	Ordinal0 [0x007CE6D1+1763025]
	Ordinal0 [0x006E3D40+802112]
	Ordinal0 [0x00712C03+994307]
	Ordinal0 [0x007089B3+952755]
	Ordinal0 [0x0072CB8C+1100684]
	Ordinal0 [0x00708394+951188]
	Ordinal0 [0x0072CDA4+1101220]
	Ordinal0 [0x0073CFC2+1167298]
	Ordinal0 [0x0072C9A6+1100198]
	Ordinal0 [0x00706F80+946048]
	Ordinal0 [0x00707E76+949878]
	GetHandleVerifier [0x00AD90C2+2721218]
	GetHandleVerifier [0x00ACAAF0+2662384]
	GetHandleVerifier [0x008C137A+526458]
	GetHandleVerifier [0x008C0416+522518]
	Ordinal0 [0x007D4EAB+1789611]
	Ordinal0 [0x007D97A8+1808296]
	Ordinal0 [0x007D9895+1808533]
	Ordinal0 [0x007E26C1+1844929]
	BaseThreadInitThunk [0x7535FA29+25]
	RtlGetAppContainerNamedObjectPath [0x774C7A9E+286]
	RtlGetAppContainerNamedObjectPath [0x774C7A6E+238]


In [34]:
busca_do_site = navegador.find_element(By.XPATH, "/html/body/div[1]/div[1]/div[1]/div[2]/div[1]/div/div[1]/div/div/div/input")

In [35]:
busca_do_site.click()

In [36]:
busca_do_site.send_keys("Instagram") # Realiza escrita em um campo

In [37]:
from selenium.webdriver.common.keys import Keys

busca_do_site.send_keys(Keys.ENTER) # Utilizando teclado

# Outras teclas -> https://www.geeksforgeeks.org/special-keys-in-selenium-python/

## Como realizar scraping

In [38]:
instagram = navegador.find_element(By.XPATH, "/html/body/div[1]/div[1]/div[1]/div[1]/header/div/div[1]/div[1]/div/section/div/div[2]/div[1]/div/div/div/div/div[1]/div/a/div[1]")

instagram.click()

In [13]:
texto = navegador.find_element(By.XPATH, "/html/body/div[1]/div[1]/div[1]/div[3]/main/section[2]/div[2]/div[2]")

In [14]:
texto.text # Acessando conteúdo do elemento localizado

'Conta inativada a mais de 30 dias\nOla me chamo Juliene O motivo do. Meu contato é uma ação inadequada q fizeram contra uma conta minha de 7 anos E\nNão respondida\nHá 1 hora\nConta bloqueada phishing\nMinha conta foi bloqueada e o e-mail de recuperação simplesmente NÃO CHEGA Já faz 5 horas que minha conta tá bloqueada e nad\nNão respondida\nHá 1 hora\nReativamento de conta não autorizada\nDesativei minha conta temporiamente e o Instagram ativou a conta dias depois sem a minha solicitação ou entrada no aplicativo.\nNão respondida\nHá 1 hora\nNão é possível fazer login\nOlá Tenho o instagram desde 2013, e não consigo fazer login. Já tentei absolutamente tudo que o tutorial do instagram pede i\nNão respondida\nHá 1 hora\n[Editado pelo Reclame Aqui]S PELO INSTAGRAM - APLICATIVO NÃO PARECE SE PREOCUPAR\nVenho manifestar minha indignação ao Instagram, que não demonstra se preocupar em barrar [Editado pelo Reclame Aqui]s e identificar [Editado pelo Reclame Aqui]s. O aplic\nNão respondida\nH

In [15]:
texto.text.split('\n')

['Conta inativada a mais de 30 dias',
 'Ola me chamo Juliene O motivo do. Meu contato é uma ação inadequada q fizeram contra uma conta minha de 7 anos E',
 'Não respondida',
 'Há 1 hora',
 'Conta bloqueada phishing',
 'Minha conta foi bloqueada e o e-mail de recuperação simplesmente NÃO CHEGA Já faz 5 horas que minha conta tá bloqueada e nad',
 'Não respondida',
 'Há 1 hora',
 'Reativamento de conta não autorizada',
 'Desativei minha conta temporiamente e o Instagram ativou a conta dias depois sem a minha solicitação ou entrada no aplicativo.',
 'Não respondida',
 'Há 1 hora',
 'Não é possível fazer login',
 'Olá Tenho o instagram desde 2013, e não consigo fazer login. Já tentei absolutamente tudo que o tutorial do instagram pede i',
 'Não respondida',
 'Há 1 hora',
 '[Editado pelo Reclame Aqui]S PELO INSTAGRAM - APLICATIVO NÃO PARECE SE PREOCUPAR',
 'Venho manifestar minha indignação ao Instagram, que não demonstra se preocupar em barrar [Editado pelo Reclame Aqui]s e identificar [Edi

In [44]:
pd.DataFrame([texto.text.split('\n')], columns=['title', 'description', 'status', 'time'])

Unnamed: 0,title,description,status,time
0,Não consigo entrar no Instagram,"ESTÁ DIZENDO QUE ESTOU BLOQUEADA, NAO SEI O MO...",Não respondida,Há 1 hora


## Como fazer espera

In [45]:
import time

seconds = 5

time.sleep(seconds)

# Criando Coleta Automatizada

In [16]:
def abre_navegador():
    return webdriver.Chrome()

def acessa_site(navegador):
    navegador.get("https://www.reclameaqui.com.br/") 
    time.sleep(3)
    cookie_site = navegador.find_element(By.XPATH, "/html/body/div[7]/div[2]/div/div[2]/div[1]/div/div[2]/div/div[1]/button")
    time.sleep(3)
    cookie_site.click()
    time.sleep(3)

def realiza_pesquisa(navegador,fonte_de_pesquisa):
    busca_do_site = navegador.find_element(By.XPATH, "/html/body/div[1]/div[1]/div[1]/div[4]/div[1]/div/div[2]/div/div/div/input")
    busca_do_site.click()
    time.sleep(3)
    busca_do_site.send_keys(fonte_de_pesquisa)
    time.sleep(3)
    instagram = navegador.find_element(By.XPATH, "/html/body/div[1]/div[1]/div[1]/div[2]/header/div/div[1]/div[1]/div/section/div/div[2]/div[1]/div/div/div[2]/div/div[1]")
    instagram.click()
    time.sleep(3)

def coleta_informacoes(navegador, numero_de_pags_coletadas):
    ver_mais = navegador.find_element(By.XPATH, "/html/body/div[1]/div[1]/div[1]/section/section/div[2]/div[1]/div[2]/a")
    ver_mais.click()
    time.sleep(3)
    data_scraping = pd.DataFrame(None, columns=['title','description','status','time'])
    
    for i in range(0,numero_de_pags_coletadas):
        local_conteudo = navegador.find_element(By.XPATH, '//*[@id="__next"]/div[1]/div[1]/div[4]/main/section[2]/div[2]/div[2]')
        conteudo = local_conteudo.text
        time.sleep(3)
        tratamento_conteudo = np.array_split(conteudo.split("\n")[:-7],10)

        for n in tratamento_conteudo:
            data = pd.DataFrame([n], columns=['title','description','status','time'])
            data_scraping = pd.concat([data_scraping, data])

        time.sleep(3)
        proxima_pag = navegador.find_element(By.XPATH, '//*[@id="__next"]/div[1]/div[1]/div[4]/main/section[2]/div[2]/div[2]/div[11]/ul/li[9]')
        proxima_pag.click()
        
    return data_scraping

def inicia_coleta(fonte_de_pesquisa, numero_de_pags_coletadas):
    navegador = abre_navegador()
    acessa_site(navegador)
    realiza_pesquisa(navegador,fonte_de_pesquisa)
    results = coleta_informacoes(navegador,numero_de_pags_coletadas)
    return results

In [17]:
inicia_coleta("Instagram", 10)

Unnamed: 0,title,description,status,time
0,Erro ao tentar desativar conta no instagram,Tentei por diversas vezes desativar minha cont...,Não respondida,Há poucos segundos
0,Desativaram minha conta por engano,Desde o dia 2 o instagram desativou minha cont...,Não respondida,Há poucos segundos
0,O Instagram esconde meus stories dos seguidores,Quando eu posto mais de um stories o Instagram...,Não respondida,Há 1 hora
0,[Editado pelo Reclame Aqui]am minha conta,Haquearam minha conta sandraborgeswellness no ...,Não respondida,Há 1 hora
0,Conta desativada e não recebo código de ativaç...,"Ola, Minha conta comecial do Instagram foi des...",Não respondida,Há 1 hora
...,...,...,...,...
0,Bloqueios indevidos irritantes,Eu sou músico e estou tentando administrar min...,Não respondida,Há 1 hora
0,não recebo o código de ativação,"Olá, não recebo o código de ativação no meu em...",Não respondida,Há 1 hora
0,Sem acesso a minha conta,Olá. Sou proprietária do @art_dourada e estou ...,Não respondida,Há 1 hora
0,Conta inativada a mais de 30 dias,Ola me chamo Juliene O motivo do. Meu contato ...,Não respondida,Há 1 hora
