# Web Scrapping
- Web scrapping consiste em retirar informações da internet de forma automatica.

## 1. Introdução do HTML
- HTML significa Hyper Markup Language, o HTML nada mais é que uma linguagem de marcação a qual é utilizada na criação de sites.
- O HTML funciona como uma linguagem de marcação (tags)
- Algumas tags possuem atributos, que ficam referenciados dentro da tag de abertura.

### 1.1 Tags HTML

As tags são limitadas por "<" e ">". As tags geralmente contem 3 elementos:
- tag de abertura
- conteudo
- tag de fechamento

In [1]:
# <p> isso é um paragrafo </p>

### 1.2 Tags: head
Dentro da tag "head" colocamos a tag "title" e outras tags que estão relacionadas as fontes que importamos ao nosso site.

In [None]:
# <head> 
#     <title> Nome que vai aparecer na aba do google chrome </title>
# </head>

### 1.3 Tags: body
Dentro da tag "body" colocamos tudo o que nosso site vai ter, por exemplo paragrafos com a tag "p".

In [2]:
# <body>
#     <p> texto </p>
# </body>

### 1.4 Tags: principais tags

In [3]:
# <html></html> : Conteúdo HTML
# <head></head> : Cabeçalho do documento
# <title></title> : Titulo da pagina HTML
# <body></body> : Corpo do documento (pagina)
# <h1></h1> Cabeçalho de nivel 1 (pode variar de 1 a 6)
# <p></p> : Parágrafo
# <div></div> : Conteudo genérico

In [4]:
# <a target="_blank" href="link"></a>
# <span></span> : Conteudo genérico em linha
# <table></table> : Tabela
# <ul></ul> : Lista não numerada
# <ol></ol> : Lista numerada
# <li></li> : Elemento da lista (<ul> ou <ol>)
# <img width="200px"src="diretorio_do_pc.png" alt="descrição da imagem"> : Imagem

## 2. Protocolo HTTP
- Protocolo: Padronização do envio e recebimento de informações.
- HTTP: HyperText Transfer Protocol

O protocolo HTTP é uma forma padronizada de fazer requisições e receber respostas na internet. Quando fazemos uma requisição na internet, o computador ira procurar qual computador possui aquele endereço que queremos acessar e quando ele acha esse computador, servidor, o servidor nos enviará uma resposta.

- O protocolo HTTP consiste em:
    - Define o modo como sites são acessados na internet.
    - Requisição -> resposta
    
    
- As respostas das requisições são strings padronizadas, que consistem em:
    - Código de status.
    - Cabeçalho.
    - Conteúdo.

### 2.1 Metodos HTTP
Há varios metodos HTTP que permitem que façamos varias coisas, abaixo temos alguns:

- GET: Solicita um recurso para o servidor (acessar uma página da web, por exemplo)
- POST: Enviamos uma informação para o servidor. (cadastro de uma conta em um site)

### 2.2 Códigos de status
Os codigos de status são divididos em familias, abaixo temos alguns exemplos:
- Familia: Descrição
    - Informativo (1xx): Repostas sem conteúdo, contendo apenas informações sobre a comunicação.
    - Sucesso (2xx): A mensagem chegou ao servidor e era válida.
    - Redirecionamento: (3xx): O recurso buscado está em outro servidor.
    - Erro do cliente (4xx): A requisição possui algum erro.
    - Erro do servidor (5xx): O servidor não pode atender a requisição.

## 3. Biblioteca: requests
Para poder fazer GETs e POSTs, usaremos a biblioteca requests.

### 3.1 Requests: GET

In [27]:
import requests

try:
    req = requests.get("https://gudecks.com/meta/match-results")
except Exception as erro:
    print("DEU ERRO: ", erro)

print(req.status_code, "\n\n") # Status do servidor
# print(req.headers, '\n\n') # Cabeçalho, informações com relação a propria requisição (exemplo: data)
# print(req.content, '\n\n') # Todo o codigo html da pagina
# print(req.text) # Todo o codigo html da pagina na forma de txt

200 




## 4. Biblioteca: BeautifulSoup
O BeautifulSoup é uma biblioteca que nos ajuda a visualizar as informações que recebemos nos requests.

In [15]:
import requests
from bs4 import BeautifulSoup

try:
    req = requests.get("https://g1.globo.com/")
except Exception as erro:
    print("DEU ERRO: ", erro)
    
content = req.content # conteudo do site

site = BeautifulSoup(content, 'html.parser')

# print(site) : site inteiro
# print(site.prettify()) : site inteiro, entretanto mais bonito
print(type(site))

<class 'bs4.BeautifulSoup'>


### 4.1 BeautifulSoup: find
Para encontrar alguma "div" dentro do site, usamos o metodo "find" de objetos "bs4.BeautifulSoup". (Abaixo estamos encontrando uma noticia especifica dentro do site)

In [74]:
import requests
from bs4 import BeautifulSoup

try:
    req = requests.get("https://g1.globo.com/")
except Exception as erro:
    print("DEU ERRO: ", erro)
    
content = req.content # conteudo do site

site = BeautifulSoup(content, 'html.parser')

noticia = site.find('div', attrs={'class': 'feed-post-body'}) # O metodo find encontra o primeiro termo correspondente.

# print(noticia) : Todo o HTML da noticia
# print(noticia.prettify()) #: Todo o HTML da noticia, entretanto mais bonita
print(type(noticia)) #: <class 'bs4.element.Tag'>

<class 'bs4.element.Tag'>


#### 4.1.1 BeautifulSoup: bs4.element.Tag
O objeto "bs4.element.Tag" funciona como um dicionario e podemos acessar os atributos da "tag" com chaves

In [79]:
import requests
from bs4 import BeautifulSoup

try:
    req = requests.get("https://g1.globo.com/")
except Exception as erro:
    print("DEU ERRO: ", erro)
    
content = req.content # conteudo do site

site = BeautifulSoup(content, 'html.parser')

noticia = site.find('div', attrs={'class': 'feed-post-body'}) # O metodo find encontra o primeiro termo correspondente.

titulo = noticia.find('a', attrs={'class':'feed-post-link'})

print(titulo, '\n\n')
print('classe: ', titulo['class'])
print('link: ', titulo['href'])
print('texto: ', titulo.text)


<a class="feed-post-link gui-color-primary gui-color-hover" elementtiming="text-ssr" href="https://g1.globo.com/rj/regiao-serrana/ao-vivo/chuva-em-petropolis-assista-a-cobertura.ghtml">ASSISTA: governador do RJ e prefeito falam sobre tragédia</a> 


classe:  ['feed-post-link', 'gui-color-primary', 'gui-color-hover']
link:  https://g1.globo.com/rj/regiao-serrana/ao-vivo/chuva-em-petropolis-assista-a-cobertura.ghtml
texto:  ASSISTA: governador do RJ e prefeito falam sobre tragédia


### 4.2 Encontrando uma noticia e o titulo da noticia

In [35]:
import requests
from bs4 import BeautifulSoup

try:
    req = requests.get("https://g1.globo.com/")
except Exception as erro:
    print("DEU ERRO: ", erro)
    
content = req.content # conteudo do site

site = BeautifulSoup(content, 'html.parser')

noticia = site.find('div', attrs={'class': 'feed-post-body'}) # O metodo find encontra o primeiro termo correspondente.

titulo = noticia.find('a', attrs={'class': 'feed-post-link gui-color-primary gui-color-hover'})

print(titulo.text)

Saiba como ajudar as vítimas da chuva na Região Serrana do RJ


### 4.3 BeautifulSoup: findAll
Para encontrar todas as "div" dentro do site, usamos o metodo "findAll" de objetos "bs4.BeautifulSoup". (Abaixo estamos encontrando todas as noticia especificas dentro do site)

In [48]:
import requests
from bs4 import BeautifulSoup

try:
    req = requests.get("https://g1.globo.com/")
except Exception as erro:
    print("DEU ERRO: ", erro)
    
content = req.content # conteudo do site

site = BeautifulSoup(content, 'html.parser')

noticia = site.findAll('div', attrs={'class': 'feed-post-body'}) # O metodo find encontra o primeiro termo correspondente.

# print(noticia) : Todo o HTML da noticia
print(type(noticia))


<class 'bs4.element.ResultSet'>


O objeto "bs4.element.ResultSet" é um objeto iteravel.

### 4.4 Programa que pega informações sobre noticias
- Esse programa pega o titulo, subtitulo e link.

In [85]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np


try:
    req = requests.get('https://g1.globo.com/')
except Exception as erro:
    print("DEU ERRO: ", erro)

content = req.content

site = BeautifulSoup(content, 'html.parser')

noticias = site.findAll('div', attrs={'class':'feed-post-body'})

titulo = []
subtitulo = []
links = []
for noticia in noticias:
    title = noticia.find('a', attrs={'class':'feed-post-link'})
    subtitle = noticia.find('div', attrs={'class':'feed-post-body-resumo'})
    subtitle = noticia.find('div', attrs={'class':'feed-post-body-resumo'}).text if subtitle != None else None
    link = title['href']
#    if subtitle != None: # A linha acima foi comprimida para ocultar a condição (não é didatico, mas funciona bem)
#        subtitle = subtitle.text
        
    titulo.append(title.text)
    subtitulo.append(subtitle)
    links.append(link)
    
df = pd.DataFrame({'Titulo': titulo, 'Subtitulo': subtitulo, 'Link': links} )
df

Unnamed: 0,Titulo,Subtitulo,Link
0,Saiba como ajudar as vítimas da chuva na Regiã...,,https://g1.globo.com/rj/regiao-serrana/noticia...
1,Corpo da filha de mulher que usou enxada nas b...,,https://g1.globo.com/rj/regiao-serrana/noticia...
2,Mãe de bebê levou 9 anos para engravidar: ‘Só ...,,https://g1.globo.com/rj/regiao-serrana/noticia...
3,Vítimas são identificadas por familiares; veja...,,https://g1.globo.com/rj/regiao-serrana/noticia...
4,'Imagina o desespero dele': o relato de sobrev...,,https://g1.globo.com/rj/rio-de-janeiro/noticia...
5,INFOGRÁFICOS: região onde mais choveu foi a ma...,,https://g1.globo.com/rj/regiao-serrana/noticia...
6,ANTES e DEPOIS: áreas de morro caíram e centro...,Dezenas de casas foram varridas pela lama. Víd...,https://g1.globo.com/rj/regiao-dos-lagos/video...
7,Força da água arrastou 2 ônibus para dentro de...,Não há informações sobre os passageiros; homem...,https://g1.globo.com/rj/regiao-serrana/noticia...
8,"Cães, gatos e capivaras são resgatados e levad...",,https://g1.globo.com/rj/regiao-serrana/noticia...


#### 4.4.1  Iterando tags: Observação importante
Quando iteramos uma tag, passamos por todas as tags dentro dela. (muito importante)

## 5. Programa que busca de forma automatizada produtos no mercado livre
Iremos fazer uma pesquisa no mercado livre e fazer uma lista com informações. Iremos pegar o titulo, link e preço dos produtos da pesquisa. (LEIA A ANOTAÇÃO ABAIXO)
- Nesse exemplo nos iteramos uma "tag", passando por cada "tag" dela dentro do "for", está assinalado no código essa parte.

In [103]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np

url_base = "https://lista.mercadolivre.com.br/"
produto_nome = input("Qual produto você deseja? ")
url = url_base + produto_nome

try:
    req = requests.get(url)
except Exception as erro:
    print('DEU ERROOOO: ', erro)

site = BeautifulSoup(req.content, 'html.parser')
produtos = site.findAll('div', attrs={'class': 'andes-card andes-card--flat andes-card--default ui-search-result ui-search-result--core andes-card--padding-default'})

titulos = []
links = []
valores = []
for produto in produtos:
    titulo = produto.find('h2', attrs={'class':'ui-search-item__title'}).text
    link = produto.find('a', attrs={'class':'ui-search-link'})['href']
    valor = "".join([i.text for i in produto.find('span', attrs={'class':'price-tag-amount'})]) # iteração da tag, com for
    
    titulos.append(titulo)
    links.append(link)
    valores.append(valor)

df = pd.DataFrame({'Nomes':titulos,'Links':links, 'Valores':valores})
df


Qual produto você deseja? coca


Unnamed: 0,Nomes,Links,Valores
0,Refrigerante Coca-Cola Lata 220ml,https://www.mercadolivre.com.br/refrigerante-c...,"R$2,10"
1,Refrigerante Coca-cola Zero Lata - 350ml,https://produto.mercadolivre.com.br/MLB-192763...,"R$3,39"
2,Água de Coco Sococo 1 litro,https://www.mercadolivre.com.br/agua-de-coco-s...,"R$8,20"
3,Monin Xarope 700ml (drinks-chás-cafés-sodas) V...,https://produto.mercadolivre.com.br/MLB-143796...,"R$57,99"
4,Água de Coco Kero Coco 200ml,https://www.mercadolivre.com.br/agua-de-coco-k...,"R$2,19"
5,Gin Dry Tônica Toque de Morango Flowers Lata 2...,https://www.mercadolivre.com.br/gin-dry-tnica-...,"R$5,01"
6,Agua De Coco Sococo 200ml,https://produto.mercadolivre.com.br/MLB-186284...,"R$1,79"
7,Energético Coco e Açaí Red Bull Lata 250ml The...,https://www.mercadolivre.com.br/energetico-coc...,"R$10,19"
8,Detergente Líquido Coco Ypê 500ml,https://www.mercadolivre.com.br/detergente-liq...,"R$2,09"
9,Água De Coco Esterilizada Kero Coco Caixa 200ml,https://produto.mercadolivre.com.br/MLB-179541...,"R$2,19"


# Referencias
- https://www.youtube.com/watch?v=42sTntMEn6o&list=PLg3ZPsW_sghSkRacynznQeEs-vminyTQk