# Web Scrapping
- Web scrapping consiste em retirar informações da internet de forma automatica.

## 1. Introdução do HTML
- HTML significa Hyper Markup Language, o HTML nada mais é que uma linguagem de marcação a qual é utilizada na criação de sites.
- O HTML funciona como uma linguagem de marcação (tags)
- Algumas tags possuem atributos, que ficam referenciados dentro da tag de abertura.

### 1.1 Tags HTML

As tags são limitadas por "<" e ">". As tags geralmente contem 3 elementos:
- tag de abertura
- conteudo
- tag de fechamento

In [1]:
# <p> isso é um paragrafo </p>

### 1.2 Tags: head
Dentro da tag "head" colocamos a tag "title" e outras tags que estão relacionadas as fontes que importamos ao nosso site.

In [None]:
# <head> 
#     <title> Nome que vai aparecer na aba do google chrome </title>
# </head>

### 1.3 Tags: body
Dentro da tag "body" colocamos tudo o que nosso site vai ter, por exemplo paragrafos com a tag "p".

In [2]:
# <body>
#     <p> texto </p>
# </body>

### 1.4 Tags: principais tags

In [3]:
# <html></html> : Conteúdo HTML
# <head></head> : Cabeçalho do documento
# <title></title> : Titulo da pagina HTML
# <body></body> : Corpo do documento (pagina)
# <h1></h1> Cabeçalho de nivel 1 (pode variar de 1 a 6)
# <p></p> : Parágrafo
# <div></div> : Conteudo genérico

In [4]:
# <a target="_blank" href="link"></a>
# <span></span> : Conteudo genérico em linha
# <table></table> : Tabela
# <ul></ul> : Lista não numerada
# <ol></ol> : Lista numerada
# <li></li> : Elemento da lista (<ul> ou <ol>)
# <img width="200px"src="diretorio_do_pc.png" alt="descrição da imagem"> : Imagem

## 2. Protocolo HTTP
- Protocolo: Padronização do envio e recebimento de informações.
- HTTP: HyperText Transfer Protocol

O protocolo HTTP é uma forma padronizada de fazer requisições e receber respostas na internet. Quando fazemos uma requisição na internet, o computador ira procurar qual computador possui aquele endereço que queremos acessar e quando ele acha esse computador, servidor, o servidor nos enviará uma resposta.

- O protocolo HTTP consiste em:
    - Define o modo como sites são acessados na internet.
    - Requisição -> resposta
    
    
- As respostas das requisições são strings padronizadas, que consistem em:
    - Código de status.
    - Cabeçalho.
    - Conteúdo.

### 2.1 Metodos HTTP
Há varios metodos HTTP que permitem que façamos varias coisas, abaixo temos alguns:

- GET: Solicita um recurso para o servidor (acessar uma página da web, por exemplo)
- POST: Enviamos uma informação para o servidor. (cadastro de uma conta em um site)

### 2.2 Códigos de status
Os codigos de status são divididos em familias, abaixo temos alguns exemplos:
- Familia: Descrição
    - Informativo (1xx): Repostas sem conteúdo, contendo apenas informações sobre a comunicação.
    - Sucesso (2xx): A mensagem chegou ao servidor e era válida.
    - Redirecionamento: (3xx): O recurso buscado está em outro servidor.
    - Erro do cliente (4xx): A requisição possui algum erro.
    - Erro do servidor (5xx): O servidor não pode atender a requisição.

## 3. Biblioteca: requests
Para poder fazer GETs e POSTs, usaremos a biblioteca requests.

### 3.1 Requests: GET

In [8]:
import requests

try:
    req = requests.get("https://gudecks.com/meta/match-results")
except Exception as erro:
    print("DEU ERRO: ", erro)

print(req.status_code, "\n\n") # Status do servidor
print(req.headers, '\n\n') # Cabeçalho, informações com relação a propria requisição (exemplo: data)
print(req.content, '\n\n') # Todo o codigo html da pagina
print(req.text) # Todo o codigo html da pagina na forma de txt

200 


{'Content-Type': 'text/html', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Date': 'Tue, 15 Feb 2022 21:22:56 GMT', 'Last-Modified': 'Tue, 15 Feb 2022 21:21:46 GMT', 'ETag': 'W/"5ee2307a6752569f7fa2a6d8fa35e06d"', 'Server': 'AmazonS3', 'Content-Encoding': 'gzip', 'Vary': 'Accept-Encoding', 'X-Cache': 'Error from cloudfront', 'Via': '1.1 938c261722fd293e9d30811560cf3cd6.cloudfront.net (CloudFront)', 'X-Amz-Cf-Pop': 'GRU3-C1', 'X-Amz-Cf-Id': 'z7h4L039m5rF7NjOO08AE1LsRXWAmmMpGbfVK_g5ZL6B7ZkbihMrXQ==', 'Age': '58216'} 


b'<!doctype html><html lang="en"><head><meta charset="UTF-8"><meta http-equiv="X-UA-Compatible" content="ie=edge"><link rel="manifest" href="/manifest.json"><link rel="apple-touch-icon" sizes="180x180" href="/favicon/apple-touch-icon.png"><link rel="shortcut icon" type="image/png" href="/favicon/apple-touch-icon.png"><link rel="shortcut icon" type="image/png" sizes="32x32" href="/favicon/favicon-32x32.png"><link rel="shortcut icon" type="image/png" si

## 4. Biblioteca: BeutifulSoup
O BeutifulSoup é uma biblioteca que nos ajuda a visualizar as informações que recebemos nos requests.

In [15]:
import requests
from bs4 import BeautifulSoup

try:
    req = requests.get("https://g1.globo.com/")
except Exception as erro:
    print("DEU ERRO: ", erro)
    
content = req.content # conteudo do site

site = BeautifulSoup(content, 'html.parser')

# print(site) : site inteiro
# print(site.prettify()) : site inteiro, entretanto mais bonito
print(type(site))

<class 'bs4.BeautifulSoup'>


### 4.1 BeutifulSoup: find
Para encontrar alguma "div" dentro do site, usamos o metodo "find" de objetos "bs4.BeautifulSoup". (Abaixo estamos encontrando uma noticia especifica dentro do site)

In [23]:
import requests
from bs4 import BeautifulSoup

try:
    req = requests.get("https://g1.globo.com/")
except Exception as erro:
    print("DEU ERRO: ", erro)
    
content = req.content # conteudo do site

site = BeautifulSoup(content, 'html.parser')

noticia = site.find('div', attrs={'class': 'feed-post-body'}) # O metodo find encontra o primeiro termo correspondente.

# print(noticia) : Todo o HTML da noticia
print(noticia.prettify()) #: Todo o HTML da noticia, entretanto mais bonita
#print(type(noticia))

<div class="feed-post-body">
 <div class="feed-post-header">
 </div>
 <div class="feed-post-body-title gui-color-primary gui-color-hover">
  <div class="_evt">
   <a class="feed-post-link gui-color-primary gui-color-hover" elementtiming="text-ssr" href="https://g1.globo.com/rj/regiao-serrana/noticia/2022/02/16/instituicoes-recolhem-doacoes-para-vitimas-da-tragedia-em-petropolis-saiba-como-ajudar.ghtml">
    Saiba como ajudar as vítimas da chuva na Região Serrana do RJ
   </a>
  </div>
 </div>
 <div class="feed-media-wrapper">
  <a class="feed-post-figure-link gui-image-hover" href="https://g1.globo.com/rj/regiao-serrana/noticia/2022/02/16/instituicoes-recolhem-doacoes-para-vitimas-da-tragedia-em-petropolis-saiba-como-ajudar.ghtml">
   <div class="bstn-fd-item-cover">
    <picture class="bstn-fd-cover-picture">
     <img alt="Foto: (REUTERS/Ricardo Moraes)" class="bstn-fd-picture-image" elementtiming="image-ssr" loading="lazy" sizes="(min-width: 540px) 50vw, (min-width: 900px) 30vw, 100

### 4.1.1 BeutifulSoup: Encontrando uma noticia e o titulo da noticia

In [24]:
import requests
from bs4 import BeautifulSoup

try:
    req = requests.get("https://g1.globo.com/")
except Exception as erro:
    print("DEU ERRO: ", erro)
    
content = req.content # conteudo do site

site = BeautifulSoup(content, 'html.parser')

noticia = site.find('div', attrs={'class': 'feed-post-body'}) # O metodo find encontra o primeiro termo correspondente.

titulo = noticia.find('a', attrs={'class': 'feed-post-link gui-color-primary gui-color-hover'})
print(titulo)

<a class="feed-post-link gui-color-primary gui-color-hover" elementtiming="text-ssr" href="https://g1.globo.com/rj/regiao-serrana/noticia/2022/02/16/instituicoes-recolhem-doacoes-para-vitimas-da-tragedia-em-petropolis-saiba-como-ajudar.ghtml">Saiba como ajudar as vítimas da chuva na Região Serrana do RJ</a>


# Referencias
- https://www.youtube.com/watch?v=42sTntMEn6o&list=PLg3ZPsW_sghSkRacynznQeEs-vminyTQk