<a href="https://colab.research.google.com/github/leticiaplang/lpl_posts/blob/master/web_scraping_part1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Web scraping - Part 1

O **web scraping** é um modo de coletarmos dados de
uma fonte web e armazená-lo de uma forma que permita 
a exploração deles para retirada de insights ou para 
utilização de técnicas de machine learning, por exemplo.

Aborarei esse conetúdo em três  partes, cada uma 
abordando uma das maneiras de realizarmos o processo:
**Selenium**, **Beautiful Soup** e **Requests**. 
Para todos utilizo **Python** e um pouco de conhecimento de web e HTML. 

Bora lá! 

### Web scraping com Selenium e Python

Para inciarmos o processo é importante realizar todas as instalações ou importações das bibliotecas ou pacotes que iremos utilizar. 
* **Webdriver** que é necessário para navegarmos pela página web de modo automatizado. É preciso realizar o download dele conforme o browser que você utiliza e a versão dele instalada por meio desse [site](https://www.selenium.dev/documentation/webdriver/getting_started/install_drivers/) e colocar o programa na mesma pasta do documento/notebook que você estará rodando.
* Utilizarei o browser do chrome, logo importarei também o **Options** para que eu possa definir navegação privada/incognito e tamanho da janela.
* **Pandas** é essencial para transformarmos os dados em estrutura de data frame, que possui mesma estrutura de uma tabela (clolunas e linhas).


In [None]:
# Importações
import time  #se necessário utilizar um tempo de espera para rodar as próximas células
from selenium import webdriver #para conseguirmos navegar de modo automatizado pela página web
from selenium.webdriver.chrome.options import Options #configurar incognito
import pandas as pd #dataframe e exploração dos dados

In [None]:
# Definição de Janela Desktop
chrome_options = Options()
chrome_options.add_argument("--incognito")
chrome_options.add_argument("--window-size=1920x1080")

In [None]:
# Definindo o Driver para abrir a janela de navegação
driver = webdriver.Chrome(chrome_options=chrome_options)

A partir desse ponto definimos a página que gostaremos de estar explorando para captar os dados. 

No meu caso, utilizei o web scraping para puxar os dados dos novos contatos do linkedin (nome, área de atuação e horário da aceitação). Já insiro também uma células com variáveis para login e senha (sem tratamento adequado para proteção desses dados).


In [None]:
## Definindo URL e solicitando acesso
url = "https://www.linkedin.com/login/pt?fromSignIn=true&trk=guest_homepage-basic_nav-header-signin"
driver.get(url)
time.sleep(2) #utilizado para dar tempo extra para carregamento da página antes de rodar a próxima célula

In [None]:
## Dados login
login = 'xpto@gmail.com' #exemplo ilustrativo. Trocar pelo seu e atentar para não compartilhar o dados
password ='x1p2t3o' #exemplo ilustrativo. Trocar pelo seu e atentar para não compartilhar o dados

Para **inspecionar o site** você pode clicar com o botão direito e após clicar em inspecionar elemento. Abrirá uma janela com toda a estrtura do site em html com aspectos em outras linguagens como java ou c. 

O objetivo nesse momento é você identificar o que define o elemento que você quer interagir.

No meu caso, quero clicar no espaço para login, então clico para inspecionar o espaço de preenchimento do usuário e busco o que define adequadamente esse espaço, mas muitas vezes precisamos descobrir na tentativa e erro mesmo.

O Selenium possui diversos comandos para solicitarmos a identificação de determinada parte do site. Sempre iremos iniciar com o driver, uma vez que este define a janela que estamos navegando.

identificação por id
  
    var = driver.find_elements_by_id('inserir aqui')

identificação por nome
    
    var = driver.find_elements_by_name('inserir aqui')

identificação por classe

    var = driver.find_elements_by_class_name('inserir aqui')

identificação por texto especifico

    var = driver.find_elements_by_link_text('inserir aqui')

identificação por parte do texto

    var = driver.find_elements_by_partial_link_text('inserir aqui')

identificação por seletor css

    var = driver.find_elements_by_css_selector('inserir aqui') 

identificação por caminho Xpath

    var = driver.find_elements_by_xpath('inserir aqui')


Após identificarmos o elemento adequadamente, podemos solicitar inserir algum dado ou podemos solicitar que clique no botão que identificamos.

In [None]:
# Inserindo um dado no local
usuario =  driver.find_elements_by_class_name('inserir aqui') #encontrando o local para preenchimento
usuario.send_keys(login) #solicitando inserir o dado da variável login

In [None]:
# Clicando em um botão
botao_entrar = driver.find_elements_by_xpath('inserir aqui') #encontrar o botão
botao_entrar.click() #solicitar click no botão
time.sleep(3) #aguardar 3segundos para rodar a próxima célula

Você vai precisar realizar esse processo até chegar à página que você quer extrair os dados. Após o login, fui na 'minha rede' e 'conexões'. 

No linkedin é necessário rolar a página para carregar mais dados, então realizei a solicitação para rolar até encontrar o útlimo contato que havia visto. para rodar até o final, apenas inserir o elemento que englobe todos os contato na variável último.

In [None]:
# Rolagem
ultimo = driver.find_element_by_xpath('inserir aqui')

while True:
    # Realizar a rolagem
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

    # Aguardar 1 segundo
    time.sleep(1)

    # Calculate new scroll height and compare with last scroll height
    _ = driver.execute_script("return document.body.scrollHeight")
    if _ == ultimo:
        break

Agora necessitamos realizar a retirada dos dados da página. Por meio do código abaixo você capta os dados do elemento definido e após extrai o dados em formato de texto. Realizei isso para nome, cargo e horário conforme já havia dito.

In [None]:
names = people.find_elements_by_css_selector('.mn-connection-card__name')
name = [n.text for n in names]

In [None]:
cargos = people.find_elements_by_css_selector('.mn-connection-card__occupation')
cargo = [c.text for c in cargos]

In [None]:
horarios = people.find_elements_by_css_selector('.time-badge')
horario = [h.text for h in horarios]

Por último precisamos finalizar o driver e construir o data frame para realizar o download dele para máquina local.

In [None]:
# Finalizando o driver
driver.quit()

In [None]:
# Criando o data frame e realizando o download para a máquina local
df = pd.DataFrame({'nome':name, 'cargo':cargo, 'horario':horario})
df.to_csv('linkedin.csv')