# Web Scrapping
- Web scrapping consiste em retirar informações da internet de forma automatica.

## 1. Introdução do HTML
- HTML significa Hyper Markup Language, o HTML nada mais é que uma linguagem de marcação a qual é utilizada na criação de sites.
- O HTML funciona como uma linguagem de marcação (tags)
- Algumas tags possuem atributos, que ficam referenciados dentro da tag de abertura.

### 1.1 Tags HTML

As tags são limitadas por "<" e ">". As tags geralmente contem 3 elementos:
- tag de abertura
- conteudo
- tag de fechamento

In [1]:
# <p> isso é um paragrafo </p>

### 1.2 Tags: head
Dentro da tag "head" colocamos a tag "title" e outras tags que estão relacionadas as fontes que importamos ao nosso site.

In [None]:
# <head> 
#     <title> Nome que vai aparecer na aba do google chrome </title>
# </head>

### 1.3 Tags: body
Dentro da tag "body" colocamos tudo o que nosso site vai ter, por exemplo paragrafos com a tag "p".

In [2]:
# <body>
#     <p> texto </p>
# </body>

### 1.4 Tags: principais tags

In [3]:
# <html></html> : Conteúdo HTML
# <head></head> : Cabeçalho do documento
# <title></title> : Titulo da pagina HTML
# <body></body> : Corpo do documento (pagina)
# <h1></h1> Cabeçalho de nivel 1 (pode variar de 1 a 6)
# <p></p> : Parágrafo
# <div></div> : Conteudo genérico

In [4]:
# <a target="_blank" href="link"></a>
# <span></span> : Conteudo genérico em linha
# <table></table> : Tabela
# <ul></ul> : Lista não numerada
# <ol></ol> : Lista numerada
# <li></li> : Elemento da lista (<ul> ou <ol>)
# <img width="200px"src="diretorio_do_pc.png" alt="descrição da imagem"> : Imagem

## 2. Protocolo HTTP
- Protocolo: Padronização do envio e recebimento de informações.
- HTTP: HyperText Transfer Protocol

O protocolo HTTP é uma forma padronizada de fazer requisições e receber respostas na internet. Quando fazemos uma requisição na internet, o computador ira procurar qual computador possui aquele endereço que queremos acessar e quando ele acha esse computador, também chamado de servidor, o servidor nos enviará uma resposta.

- O protocolo HTTP consiste em:
    - Define o modo como sites são acessados na internet.
    - Requisição -> resposta
    
    
- As respostas das requisições são strings padronizadas, que consistem em:
    - Código de status.
    - Cabeçalho.
    - Conteúdo.

### 2.1 Metodos HTTP
Há varios metodos HTTP que permitem que façamos varias coisas, abaixo temos alguns:

- GET: Solicita um recurso para o servidor (acessar uma página da web, por exemplo)
- POST: Enviamos uma informação para o servidor. (cadastro de uma conta em um site)

### 2.2 Códigos de status
Os codigos de status são divididos em familias, abaixo temos alguns exemplos:
- Familia: Descrição
    - Informativo (1xx): Repostas sem conteúdo, contendo apenas informações sobre a comunicação.
    - Sucesso (2xx): A mensagem chegou ao servidor e era válida.
    - Redirecionamento: (3xx): O recurso buscado está em outro servidor.
    - Erro do cliente (4xx): A requisição possui algum erro.
    - Erro do servidor (5xx): O servidor não pode atender a requisição.

## 3. Biblioteca: requests
Para poder fazer GETs e POSTs, usaremos a biblioteca requests.

### 3.1 Requests: GET

In [2]:
import requests

try:
    req = requests.get("https://gudecks.com/meta/match-results")
except Exception as erro:
    print("DEU ERRO: ", erro)

print(req.status_code, "\n\n") # Status do servidor
# print(req.headers, '\n\n') # Cabeçalho, informações com relação a propria requisição (exemplo: data)
# print(req.content, '\n\n') # Todo o codigo html da pagina
# print(req.text) # Todo o codigo html da pagina na forma de txt

200 




## 4. Biblioteca: BeautifulSoup
O BeautifulSoup é uma biblioteca que nos ajuda a visualizar as informações que recebemos nos requests.

In [6]:
import requests
from bs4 import BeautifulSoup

try:
    req = requests.get("https://g1.globo.com/")
except Exception as erro:
    print("DEU ERRO: ", erro)
    
content = req.content # conteudo do site

site = BeautifulSoup(content, 'html.parser')

# print(site) #: site inteiro
# print(site.prettify()) #: site inteiro, entretanto mais bonito
print(type(site))

<class 'bs4.BeautifulSoup'>


### 4.1 BeautifulSoup: find
Para encontrar alguma "div" dentro do site, usamos o metodo "find" de objetos "bs4.BeautifulSoup". (Abaixo estamos encontrando uma noticia especifica dentro do site)

In [12]:
import requests
from bs4 import BeautifulSoup

try:
    req = requests.get("https://g1.globo.com/")
except Exception as erro:
    print("DEU ERRO: ", erro)
    
content = req.content # conteudo do site

site = BeautifulSoup(content, 'html.parser')

noticia = site.find('div', attrs={'class': 'feed-post-body'}) # O metodo find encontra o primeiro termo correspondente.

# print(noticia, '\n\n\n') #: Todo o HTML da noticia
print(noticia.prettify(), '\n\n\n') #: Todo o HTML da noticia, entretanto mais bonita
print(type(noticia)) #: <class 'bs4.element.Tag'>

<div class="feed-post-body">
 <div class="feed-post-header">
 </div>
 <div class="feed-post-body-title gui-color-primary gui-color-hover">
  <div class="_evt">
   <a class="feed-post-link gui-color-primary gui-color-hover" elementtiming="text-ssr" href="https://g1.globo.com/mundo/noticia/2022/03/02/assembleia-geral-da-onu-aprova-resolucao-contra-invasao-da-russia-pela-ucrania.ghtml">
    Com apoio do Brasil, ONU aprova resolução contra invasão russa
   </a>
  </div>
 </div>
 <div class="feed-media-wrapper">
  <a class="feed-post-figure-link gui-image-hover" href="https://g1.globo.com/mundo/noticia/2022/03/02/assembleia-geral-da-onu-aprova-resolucao-contra-invasao-da-russia-pela-ucrania.ghtml">
   <div class="bstn-fd-item-cover">
    <picture class="bstn-fd-cover-picture">
     <img alt="Foto: (Eduardo Munoz/Reuters)" class="bstn-fd-picture-image" elementtiming="image-ssr" loading="lazy" sizes="(min-width: 540px) 50vw, (min-width: 900px) 30vw, 100vw" src="https://s2.glbimg.com/RI1ZgWDuV

#### 4.1.1 BeautifulSoup: bs4.element.Tag
O objeto "bs4.element.Tag" funciona como um dicionario e podemos acessar os atributos da "tag" com chaves

In [13]:
import requests
from bs4 import BeautifulSoup

try:
    req = requests.get("https://g1.globo.com/")
except Exception as erro:
    print("DEU ERRO: ", erro)
    
content = req.content # conteudo do site

site = BeautifulSoup(content, 'html.parser')

noticia = site.find('div', attrs={'class': 'feed-post-body'}) # O metodo find encontra o primeiro termo correspondente.

titulo = noticia.find('a', attrs={'class':'feed-post-link'})

print(titulo, '\n\n')
print('classe: ', titulo['class'])
print('link: ', titulo['href'])
print('texto: ', titulo.text)


<a class="feed-post-link gui-color-primary gui-color-hover" elementtiming="text-ssr" href="https://g1.globo.com/mundo/noticia/2022/03/02/assembleia-geral-da-onu-aprova-resolucao-contra-invasao-da-russia-pela-ucrania.ghtml">Com apoio do Brasil, ONU aprova resolução contra invasão russa</a> 


classe:  ['feed-post-link', 'gui-color-primary', 'gui-color-hover']
link:  https://g1.globo.com/mundo/noticia/2022/03/02/assembleia-geral-da-onu-aprova-resolucao-contra-invasao-da-russia-pela-ucrania.ghtml
texto:  Com apoio do Brasil, ONU aprova resolução contra invasão russa


### 4.2 Encontrando uma noticia e o titulo da noticia

In [35]:
import requests
from bs4 import BeautifulSoup

try:
    req = requests.get("https://g1.globo.com/")
except Exception as erro:
    print("DEU ERRO: ", erro)
    
content = req.content # conteudo do site

site = BeautifulSoup(content, 'html.parser')

noticia = site.find('div', attrs={'class': 'feed-post-body'}) # O metodo find encontra o primeiro termo correspondente.

titulo = noticia.find('a', attrs={'class': 'feed-post-link gui-color-primary gui-color-hover'})

print(titulo.text)

Saiba como ajudar as vítimas da chuva na Região Serrana do RJ


### 4.3 BeautifulSoup: findAll
Para encontrar todas as "div" dentro do site, usamos o metodo "findAll" de objetos "bs4.BeautifulSoup". (Abaixo estamos encontrando todas as noticias especificas dentro do site)

In [21]:
import requests
from bs4 import BeautifulSoup

try:
    req = requests.get("https://g1.globo.com/")
except Exception as erro:
    print("DEU ERRO: ", erro)
    
content = req.content # conteudo do site

site = BeautifulSoup(content, 'html.parser')

noticias = site.findAll('div', attrs={'class': 'feed-post-body'}) # O metodo findAll encontra todos os termos correspondentes.

# print(noticia[0].prettify()) #: Todo o HTML da noticia
print(type(noticia))


<class 'bs4.element.ResultSet'>


O objeto "bs4.element.ResultSet" é um objeto iteravel.

### 4.4 Programa que pega informações sobre noticias
- Esse programa pega o titulo, subtitulo e link.

In [22]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np


try:
    req = requests.get('https://g1.globo.com/')
except Exception as erro:
    print("DEU ERRO: ", erro)

content = req.content

site = BeautifulSoup(content, 'html.parser')

noticias = site.findAll('div', attrs={'class':'feed-post-body'})

titulo = []
subtitulo = []
links = []
for noticia in noticias:
    title = noticia.find('a', attrs={'class':'feed-post-link'})
    subtitle = noticia.find('div', attrs={'class':'feed-post-body-resumo'})
    subtitle = noticia.find('div', attrs={'class':'feed-post-body-resumo'}).text if subtitle != None else None
    link = title['href']
#    if subtitle != None: # A linha acima foi comprimida para ocultar a condição (não é didatico, mas funciona bem)
#        subtitle = subtitle.text
        
    titulo.append(title.text)
    subtitulo.append(subtitle)
    links.append(link)
    
df = pd.DataFrame({'Titulo': titulo, 'Subtitulo': subtitulo, 'Link': links} )
df

Unnamed: 0,Titulo,Subtitulo,Link
0,"Com voto do Brasil, ONU aprova resolução contr...",,https://g1.globo.com/mundo/noticia/2022/03/02/...
1,VEJA O VOTO DE TODOS OS PAÍSES NA ONU,,https://g1.globo.com/mundo/noticia/2022/03/02/...
2,Rússia e Ucrânia apresentam guerra de narrativ...,,https://g1.globo.com/mundo/noticia/2022/03/02/...
3,GLOBONEWS: comentaristas analisam posição do B...,,https://g1.globo.com/globonews/ao-vivo/globone...
4,O rastro de destruição deixado por Putin e a r...,"Artes, gráficos e vídeos mostram o cerco russo...",https://especiaisg1.globo/mundo/guerra-russia-...
5,VÍDEO: ucranianos formam barricada para bloque...,,https://g1.globo.com/globonews/jornal-globonew...
6,Por que a Rússia ainda não tomou Kiev? Qual a ...,,https://g1.globo.com/mundo/ucrania-russia/noti...
7,Brasil ultrapassa 650 mil mortos por Covid; mé...,,https://g1.globo.com/saude/coronavirus/noticia...
8,"Com pandemia, aluno do ensino médio de SP tem ...","Defasagem é de 6 anos na rede estadual, e 96,6...",https://g1.globo.com/sp/sao-paulo/educacao/not...


#### 4.4.1  Iterando tags: Observação importante
Quando iteramos uma tag, passamos por todas as tags dentro dela. (muito importante)

## 5. Programa que busca de forma automatizada produtos no mercado livre
Iremos fazer uma pesquisa no mercado livre e fazer uma lista com informações. Iremos pegar o titulo, link e preço dos produtos da pesquisa. (LEIA A ANOTAÇÃO ABAIXO)
- Nesse exemplo nos iteramos uma "tag", passando por cada "tag" dela dentro do "for", está assinalado no código essa parte.

In [33]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np

url_base = "https://lista.mercadolivre.com.br/"
produto_nome = input("Qual produto você deseja? ")
url = url_base + produto_nome

try:
    req = requests.get(url)
except Exception as erro:
    print('DEU ERROOOO: ', erro)

site = BeautifulSoup(req.content, 'html.parser')
produtos = site.findAll('div', attrs={'class': 'andes-card andes-card--flat andes-card--default ui-search-result ui-search-result--core andes-card--padding-default'})

titulos = []
links = []
valores = []
for produto in produtos:
    titulo = produto.find('h2', attrs={'class':'ui-search-item__title'}).text
    link = produto.find('a', attrs={'class':'ui-search-link'})['href']
    valor = "".join([i.text for i in produto.find('span', attrs={'class':'price-tag-amount'})]) # iteração da tag, com for
    
    titulos.append(titulo)
    links.append(link)
    valores.append(valor)

df = pd.DataFrame({'Nomes':titulos,'Links':links, 'Valores':valores})
#print(url)
df


Qual produto você deseja? coca


Unnamed: 0,Nomes,Links,Valores
0,Refrigerante Coca-Cola Lata 220ml,https://www.mercadolivre.com.br/refrigerante-c...,"R$2,29"
1,Refrigerante de Laranja Fanta Lata 220ml,https://www.mercadolivre.com.br/refrigerante-d...,"R$2,19"
2,Refrigerante Coca-cola Zero Lata - 350ml,https://produto.mercadolivre.com.br/MLB-192763...,"R$3,39"
3,Coco Ralado Desidratado Sococo Pacote 100g,https://www.mercadolivre.com.br/coco-ralado-de...,"R$4,14"
4,Refrigerante sem Açúcar Coca-Cola Lata 220ml,https://www.mercadolivre.com.br/refrigerante-s...,"R$2,20"
5,Refrigerante Limão Sprite Lata 350ml,https://www.mercadolivre.com.br/refrigerante-l...,"R$3,29"
6,Água de Coco Sococo 1 litro,https://www.mercadolivre.com.br/agua-de-coco-s...,"R$8,20"
7,Refrigerante Coca-cola Zero 350ml Unid - Original,https://produto.mercadolivre.com.br/MLB-185086...,"R$3,39"
8,Refrigerante Coca-Cola Garrafa 250ml,https://www.mercadolivre.com.br/refrigerante-c...,"R$4,90"
9,Óleo extra virgem Copra em pote sem glúten 1 l,https://www.mercadolivre.com.br/oleo-extra-vir...,"R$49,40"


## 6. Biblioteca: Selenium
Alguns sites são criados com react, isso implica que o codigo html do site será gerado aleatoriamente quando ocorrer uma requisição para o servidor, o que torna impossivel utilizar o "BeautifulSoup".

Para esses casos, usamos "Selenium" que é uma biblioteca de web driver, que não faz nada mais nada menos que controlar seu navegador como se você estivesse usando. 

### 6.1 Instalando Selenium

Para instalar o Selenium usamos:

- pip install selenium

Depois de instalarmos a biblioteca do Selenium, precisamos instalar um drive que permite a utilização do Selenium no google Chrome.

Para verificar a versão do Chrome, entramos no canto direito superior (3 pontinhos) -> ajuda -> sobre google chrome.

- https://sites.google.com/chromium.org/driver/

Baixado o drive, coloque na mesma pasta do script que irá usar Selenium e borá programar.

### 6.2 Primeiros passos Selenium

In [34]:
from selenium import webdriver

navegador = webdriver.Chrome() # Abrir o navegador

navegador.get("https://gudecks.com/meta/card-rankings") # Abrir o link no navegador

### 6.3 Selenium: find_element_by_xpath
O "find_element_by_xpath" já não é mais utilizado, abaixo usamos apenas o "find_element".

In [36]:
from selenium import webdriver
from time import sleep

navegador = webdriver.Chrome()

navegador.get("https://gudecks.com/meta/card-rankings")

sleep(10)

elemento = navegador.find_element_by_xpath('//*[@id="root"]/div[1]/div/div[2]/div[1]/div[1]/div[8]/input') # //*[@id="root"]/div[1]/div/div[2]/div[1]/div[1]/div[8]/input

elemento.send_keys('oi')

print(elemento)


  elemento = navegador.find_element_by_xpath('//*[@id="root"]/div[1]/div/div[2]/div[1]/div[1]/div[8]/input') # //*[@id="root"]/div[1]/div/div[2]/div[1]/div[1]/div[8]/input


<selenium.webdriver.remote.webelement.WebElement (session="b6f220d6fcbf70877bbcd0c2ad03a699", element="71337ea7-56bb-4942-a1bf-d7fa9626be4e")>


### 6.4 Alterando o tamanho da tela com Selenium
Em um tamanho de tela menor a interface do site pode mudar bastante, o que implica na inutilização do nosso código. Para evitar isso usamos:

A classe "By" é uma classe que contem diversas informações com relação ao tipo de elemento que estamos buscando. Abaixo temos uma lista dos tipos de elementos que podemos buscar usando o "By":

- ID = "id"
- XPATH = "xpath"
- LINK_TEXT = "link text"
- PARTIAL_LINK_TEXT = "partial link text"
- NAME = "name"
- TAG_NAME = "tag name"
- CLASS_NAME = "class name"
- CSS_SELECTOR = "css selector"

In [37]:
import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By

options = Options()
options.add_argument('window-size=200,800')

navegador = webdriver.Chrome(options=options)
navegador.get("https://gudecks.com/meta/card-rankings")

sleep(10)

elemento = navegador.find_element(by=By.XPATH, value='//*[@id="root"]/div[1]/div/div[2]/div[1]/div[1]/div[8]/input') # //*[@id="root"]/div[1]/div/div[2]/div[1]/div[1]/div[8]/input
elemento.send_keys('oi')
#elemento.submit()

print(elemento)

<selenium.webdriver.remote.webelement.WebElement (session="224f36f84dbf45eaefb1bd8b814174eb", element="b4d415f1-9c64-463d-b505-b2061774c8a3")>


### 6.5 Executando Selenium sem o navegador aparecer

In [142]:
import requests
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By

options = Options()
options.add_argument('--headless')

navegador = webdriver.Chrome(options=options)
navegador.get("https://gudecks.com/meta/card-rankings")

sleep(10)

elemento = navegador.find_element(by=By.XPATH, value='//*[@id="root"]/div[1]/div/div[2]/div[1]/div[1]/div[8]/input') # //*[@id="root"]/div[1]/div/div[2]/div[1]/div[1]/div[8]/input
elemento.send_keys('oi')

print(elemento)

<selenium.webdriver.remote.webelement.WebElement (session="20fafdcf8cb4d99e2b31f070389f27da", element="690b8b71-936e-450c-81de-15645e3ae3ae")>


### 6.6 Pegando o codigo HTML da pagina: metodo page_source

In [38]:
import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By

options = Options()
options.add_argument('window-size=400,800')

navegador = webdriver.Chrome(options=options)
navegador.get("https://gudecks.com/meta/card-rankings")

sleep(10)

site = BeautifulSoup(navegador.page_source, 'html.parser') # Pegando o HTML da pagina

card = site.find('div', attrs={'class':'rt-tr-group'}) # Pegando o HTML de uma carta

#print(site.prettify())
print(card.prettify())

<div class="rt-tr-group" role="rowgroup">
 <div class="rt-tr -odd" role="row">
  <div class="rt-td no-padding-cell" role="gridcell" style="flex: 280 0 auto; width: 280px; max-width: 280px;">
   <div class="card-ranking-cell">
    <div class="card-image-item card-image-item-hoverable">
     <div class="card-image-item-border">
      <div class="card-image-item-background" style='background-image: url("https://images.godsunchained.com/art2/250/124.jpg");'>
      </div>
     </div>
    </div>
    <div class="card-ranking-name">
     Fusing Fleshspawn
    </div>
   </div>
  </div>
  <div class="rt-td react-table-cell" role="gridcell" style="flex: 100 0 auto; width: 100px; max-width: 100px;">
   Death
  </div>
  <div class="rt-td react-table-cell" role="gridcell" style="flex: 100 0 auto; width: 100px; max-width: 100px;">
   Genesis
  </div>
  <div class="rt-td react-table-cell" role="gridcell" style="flex: 80 0 auto; width: 80px; max-width: 80px;">
   <div>
    101
   </div>
  </div>
  <div

### 6.7 Clicando em um botão com Selenium

In [40]:
import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By

options = Options()
options.add_argument('window-size=400,800')

navegador = webdriver.Chrome(options=options)
navegador.get("https://gudecks.com/meta/card-rankings")

sleep(10)

cookie_button = navegador.find_element(By.XPATH, '//*[@id="root"]/div[3]/button')
cookie_button.click()

sleep(0.5)

botton = navegador.find_element(By.XPATH, '//*[@id="root"]/div[1]/div/div[2]/div[1]/div[2]/div[2]/div/div[3]/button')
botton.click()


# Referencias
- https://www.youtube.com/watch?v=42sTntMEn6o&list=PLg3ZPsW_sghSkRacynznQeEs-vminyTQk