<a href="https://colab.research.google.com/github/r-hugoalves/Coleta_de_Dados/blob/master/Coleta_de_Dados_Parte_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Coleta de Dados - Parte 2

## 1.Web Crawling

### **1.1 HTTP**

O HTTP (hypertext transfer protocol) é um protocolo de transferência de hipertexto (texto,imagens, vídeos, etc.). É o protocolo padrão de transferência de informação pela internet:

`http://www.google.com/`

**Cliente / Servidor** é a arquitetura da internet. Nela um cliente (navegador web, código Python,etc.) utiliza um método HTTP para interagir com um servidor(requisitar dados, enviar dados,etc.). O servidor, por sua vez, envia uma  resposta para o cliente com um código de retorno indicando se a interação ocorreu com sucesso.

**Métodos** são as operações que podemos realizar com o protocolo para interagir com um servidor, você pode encontrar uma lista completa neste link. Os mais importantes são:

* **GET**: Requisitar dados, (acessar uma página web, carregar o feed do instagram, etc.);
* **POST**: Enviar dados (login, cadastro, mensagem whatsapp, tweet do Twitter).

Códigos de retorno são as números de 0 a 1000 que recebemos como resposta do servidor ao realizar uma operação qualquer. Os mais importantes são:

* Entre 200 e 299: Sucesso;
* Entre 400 e 499: Erro do cliente;
* Entre 500 e 599: Erro do servidor.

Código 200 (sucesso) é o mais comum e o 404 (não encontrado) o mais famoso!

### **1.2 Pacotes requests**

Pacote Pyhton para interagir com a web através do protocolo HTTP.

In [None]:
import requests 

print(requests.__version__)

In [None]:
from requests.exceptions import HTTPError

conteudo = None
URL = 'https://drive.google.com/'

try:
  resposta = requests.get(URL)
  resposta.raise_for_status()
except HTTPError as exc:
  print(exc)
else:
  conteudo = resposta.text

print(conteudo)

### **1.3 Web Crawl**

Aplicação que interage com a web de forma automatizada, também conhecido como web spider ou bot. O pacote requests funciona bem para interaçõces simples (apenas métodos HTTP) já os pacotes selenium e scrapy permitem que você navegue pela internet.

Web crawling é um tema que requer muito cuidado, em geral você precisa de
autorização do website para acessá-lo automaticamente. Empresas que usam a
tecnologia possuem departamento jurídicos dedicados ao assunto.

A maioria dos sites fornece um arquivo chamado robots.txt informando
como um web crawler pode interagir com a página.

In [None]:
import requests
from requests.exceptions import HTTPError

def crawl_website(url: str) -> str:
  try:
    resposta = requests.get(url)
    resposta.raise_for_status()
  except HTTPError as exc:
    print(exc)
  else:
    return resposta.text

URL = 'https://pt.wikipedia.org/robots.txt'

conteudo = crawl_website(url=URL)
print(conteudo)

## 2.Web Scraping

Extrair informações de um arquivo HTML

### **2.1 Formato HTML**

Um arquivo texto semi-estruturado, organizado por tags.

In [None]:
%%html
<html>
  <head>
    <!-- metadata -->
  </head>
  <body>
    <h3>Senhor dos Anéis</h3>
    <p>Filmes:</p>
    <ul>
      <li><b>2001:</b> O Senhor dos Anéis: A Sociedade do Anel</li>
      <li><b>2002:</b> O Senhor dos Anéis: As Duas Torres</li>
      <li><b>2003:</b> O Senhor dos Anéis: O Retorno do Rei</li>
    </ul>
  </body>
</html>

In [None]:
%%writefile lotr.html
<html>
  <head>
    <!-- metadata -->
  </head>
  <body>
    <h3>Senhor dos Anéis</h3>
    <p>Filmes:</p>
    <ol>
      <li><b>2001:</b> O Senhor dos Anéis: A Sociedade do Anel</li>
      <li><b>2002:</b> O Senhor dos Anéis: As Duas Torres</li>
      <li><b>2003:</b> O Senhor dos Anéis: O Retorno do Rei</li>
    </ol>
  </body>
</html>

### **2.2 Pacote beautifulsoup4**

Pacote python para extrair as informações de arquivos HTML.

In [None]:
# Extração dos filmes e o ano de lançamento do arquivo lotr.html em um arquivo JSON

from bs4 import BeautifulSoup

pagina = BeautifulSoup(open('lotr.html', mode='r'), 'html.parser')

#Extraindo as tags com as informações que precisamos
filmes_li = pagina.find_all('li')

#Tratando as tags que extraímos para ter a informação completa e limpa
filmes = []

for filmes_li in filmes_li:
  filme = filmes_li.get_text()
  ano = int(filme.split(sep=':')[0].strip())
  titulo = ':'.join(filme.split(sep=':')[1:]).strip()
  filmes.append({'ano': ano, 'titulo': titulo})

for filme in filmes:
  print(filme)

### **2.3 Web Scrape**

In [14]:
URL = 'https://en.wikipedia.org/wiki/Web_crawler'

conteudo = crawl_website(url=URL)
with open(file='wiki.html', mode='w', encoding='utf8') as arquivo:
  arquivo.write(conteudo)

In [None]:
from bs4 import BeautifulSoup

pagina = BeautifulSoup(open('wiki.html', mode='r'), 'html.parser')

texto = pagina.get_text()
print(texto)

In [None]:
import re

ocorrencias = len(re.findall('crawler', texto, re.IGNORECASE))
print(ocorrencias)

## 3.Web API

### **3.1 Formato JSON**

In [None]:
%%writefile lotr.json
[
    {
        "ano": 2001,
        "titulo": "O Senhor dos Anéis: A Sociedade do Anel"
    },
    {
        "ano": 2002,
        "titulo": "O Senhor dos Anéis: As Duas Torres"
    },
    {
        "ano": 2003,
        "titulo": "O Senhor dos Anéis: O Retorno do Rei"
    }
]

### **3.2 Pacote JSON**

Pacote nativo do Python para interagir com dados no formato JSON

In [None]:
#Arquivo JSON para dicionário no Python

import json 

data = json.load(open(file='lotr.json', mode='r'))
print(data)

In [None]:
#Dicionário Python para JSON

import json

data_json = json.dumps(data, indent=2, ensure_ascii=False)
print(data_json)

### **3.3 Web API**

Uma API (application programming interface) é uma interface de comunicação com uma aplicação no formato cliente/servidor. Uma REST API é uma API que segue o padrão HTTP e transfere dados (em geral) no formato JSON. APIs fechadas são pagas e exigem autenticação (via método HTTP POST). APIs abertas são gratuitas e podem exigir autenticação.

In [None]:
import json
import requests
from requests.exceptions import HTTPError

#Carregando o conteúdo
conteudo = None
URL = 'https://www2.cetip.com.br/ConsultarTaxaDi/ConsultarTaxaDICetip.aspx'

try:
  resposta = requests.get(URL)
  resposta.raise_for_status()
except HTTPError as exc:
  print(exc)
else:
  conteudo = resposta.text

#print(conteudo)
#print(type(conteudo))

#Transformando em um dicionário
data = json.loads(conteudo)
#print(data)

#Tratando os dados para a extração da taxa
cdi = float(data['taxa'].replace(',', '.'))
print(cdi)

## 4.Exercícios

Para os exercícios, foi criado um notebook específico que pode ser acessado clicando [aqui](https://colab.research.google.com/drive/1Ogh3uwm_q0cuTwkyJQsY90lFNE-87k8S?usp=sharing)