# Análise de texto de fontes desestruturadas e Web

## Aula 04

Neste aula iremos aprender como obter e analisar dados da Web (*World Wide Web*) utilizando bibliotecas Python.

<img src="https://atd-insper.s3.us-east-2.amazonaws.com/aula04/img/requests-sidebar.png">

A biblioteca utilizada será a **requests**, cujo lema é *HTTP for humans!* Nosso objetivo será entender como podemos requisitar estes recursos disponíveis na Web.

Para conhecer mais sobre ela, acesse https://requests.readthedocs.io/

## Instalando a biblioteca *requests*

Primeiro, vamos instalar a principal biblioteca da aula!

In [None]:
!pip install requests

Caso a bibliteca instalada seja de uma versão anterior, podemos atualizar com:

In [None]:
!pip install -U pip
!pip install -U requests

## Importando as bibliotecas necessárias

Agora, vamos importar as bibliotecas necessárias:

In [None]:
# para trabalhar com diretórios / sistema operacional
import os

# para nos comunicarmos com a Web
import requests

# para pegar o executável do Python
import sys

Caso obtenha algum erro, utilize o **!pip install** para instalar a biblioteca ausente!

Vamos conferir com qual versão da biblioteca **requests** estamos trabalhando?

In [None]:
print(requests.__version__)

Você também pode conferir de onde está executando o Python e qual a versão

In [None]:
print('Executável:')
print(sys.executable)

print('\nVersão do Python:')
print(sys.version)

Vamos conferir em qual diretório iremos trabalhar (é o diretório do notebook)?

In [None]:
print('O seu notebook está na pasta:')
print(os.getcwd())

## Validação de CEP!

É comum que exista a necessidade de comunicação entre aplicações. Isto é feito pela disponibilização de uma API (*Application Programming Interface - Interface de Programação de Aplicativos*).

Uma API atua como uma camada que provê **comunicação**, ou seja, espeficifa uma interface que outras aplicações devem utilizar caso queiram se comunicar, permitindo que diferentes sistemas conversem entre si sem precisar entender exatamente o que cada um faz.

Apesar do termos ser comumente utilizado em um contexto Web, nos computador as aplicações precisam conhecer a API do sistema operacional para solicitar recursos, e nós programadores precisamos conhecer a API do pandas, sklearn, matplotlib, etc. caso queiramos utilizar recursos destes pacotes no Python!

Como um primeiro exemplo, iremos utilizar a API do viacep para validar **CEP**s!  Abra o site https://viacep.com.br e veja como este webservice (https://pt.wikipedia.org/wiki/Web_service) é disponibilizado.

In [None]:
cep = '04546-042'

# Complete a URL
url_cep = 'https://viacep.com.br/ws/{}/piped/'

req = # Preencha aqui
req

Perceba, pela **rota** descrita na **URL**, que escolhemos o formato `piped`. Então, esperamos que as informações do CEP consultado volte como uma string separada por pipes `|`.


Com a requisição feita, vamos conferir o código de resposta:

In [None]:
# Preencha aqui

O tipo de conteúdo retornado:

In [None]:
req.headers['content-type']

Perceba que obtivemos `text/plain`, o que significa que a resposta veio como uma string, em codificação `utf-8` (exploraremos depois a codificação).

In [None]:
print('Texto de resposta:\n')
print(req.text)

E se fizermos a requisição de um CEP inválido?!

In [None]:
cep = '12345'

# Preencha aqui!

Conferindo o código de resposta:

In [None]:
print('Código de status da resposta: {}'.format(req.status_code))

Iremos estudar nos próximos tópicos o significado do status de resposta. Por enquanto, você tem algum palpite sobre em quais situações ele pode ser útil?!

## Códigos de status de respostas HTTP


Quando solicitamos um recurso, quais são as respostas possíveis? É importante perceber que nem sempre o recurso solicitado estará disponível.

Vamos fazer uma requisição GET ao Google.

In [None]:
resposta = requests.get('http://www.google.com/')
resposta

Vamos conferir o código de resposta:

In [None]:
print('Código de status da resposta: {}'.format(resposta.status_code))

In [None]:
resposta.ok

Agora, vamos realizar uma consulta utilizando uma URL inexistente:

In [None]:
resposta = requests.get('http://www.google.com/abacadabra')
resposta

In [None]:
print('Código de status da resposta: {}'.format(resposta.status_code))

Perceba que temos um novo código `404` e que a requisição não está ok!

In [None]:
# Preencha aqui!

E por último esta consulta retorna:

In [None]:
url = 'https://atd-insper.s3.us-east-2.amazonaws.com/aula04/fatura.pdf'

resposta = requests.get(url)
resposta

Acesse https://developer.mozilla.org/pt-BR/docs/Web/HTTP/Status ou https://pt.wikipedia.org/wiki/Lista_de_códigos_de_estado_HTTP para ver mais informações sobre os códigos de status da resposta. Eles podem indicar desde um sucesso, recurso inexistente até uma ausência de permissão para acesso.

**Exercício 1** Crie um bloco de código (preferencialmente uma função) que consulte um CEP. Caso o CEP seja válido, imprima o endereço. Caso o CEP seja inválido, imprima a mensagem "*CEP inválido!*"

In [None]:
def consulta_cep(cep):
    # Seu codigo aqui!
    pass # Remova esta linha quando responder

In [None]:
consulta_cep('123')

In [None]:
consulta_cep('01310100')

**Exercício 2** O que acontece caso pesquise algum CEP no formato válido, mas que seja um CEP inexistente? Altere sua função para considerar este caso

In [None]:
def consulta_cep(cep):
    # Seu código aqui!
    pass # Remova esta linha quando responder

In [None]:
consulta_cep('77777777')

In [None]:
consulta_cep('1234')

In [None]:
consulta_cep('05436100')

**Exercício 3**

- **a)**) Separe a string do endereço do exercício anterior em substrings, divindindo pelo *pipe* (barra vertical $\rightarrow$ |). Armazene o resultado em uma lista.
    
- **b)** Tente também separar o que é título (ex: `logradouro`) do que é conteúdo (ex:`Rua Gonçalo Afonso`). Armazene o resultado em um dicionário.

In [None]:
# Seu código aqui

No exercício 3 o texto de retorno foi dividido utilizando o *pipe* (barra vertical $\rightarrow$ |) como referência. Entretanto, uma forma melhor seria utilizar a interface **JSON** do viacep!

Note que será alterada o final da URL:

In [None]:
cep = '05436100'
url = 'https://viacep.com.br/ws/{}/json/'.format(cep)

req = requests.get(url=url)

endereco = req.text

endereco

In [None]:
print(endereco)

Vamos utilizar a biblioteca `json` para representar o endereço de forma estruturada:

In [None]:
import json

dicionario_endereco = # Preencha aqui!
dicionario_endereco

Podemos então utilizar o `dicionario_endereco` para acessar informações dos dados, utilizando **chave** para obter o **valor** armazenado. Veja com a chave **cep**:

In [None]:
dicionario_endereco['cep']

**Exercício 4** Qual o código de resposta que identifica que houve **sucesso** na requisição GET?

R:

**Exercício 5** Qual a diferença entre os códigos de erro 401 e 403?

R:

**Exercício 6** Crie um bloco de código que acessa uma URL, informa se houve sucesso ou trata os erros 404, 403 e 401, fornecendo mensagens adequadas.

## Internet Protocol address (IP)

Os seres humanos acessam informações on-line utilizando endereços como http://www.google.com. Para que os recursos sejam localizados, os navegadores da Web utilizam endereços de protocolo de internet (**IP**). A conversão de nomes de domínio em endereços de **IP** pode ser realizada utilizando um serviço **DNS** (*Domain Name System*).

Iremos conferir o endereço **IP** dos servidores que estamos consultando

In [None]:
gg = requests.get('https://google.com', stream=True)
gg.raw._connection.sock.getpeername()

In [None]:
gg = requests.get('http://www.ime.usp.br/', stream=True)
gg.raw._connection.sock.getpeername()

No próximo comando, iremos realizar um `ping`. O comando `ping` é uma ferramenta simples usada para testar a conectividade entre dois dispositivos em uma rede. Quando o comando `ping` é executado, ele envia um pacote ICMP (pense como se fosse uma mensagem) para o dispositivo de destino e aguarda uma resposta. Se uma resposta for recebida, o comando ping exibe informações como tempo de resposta, perda de pacotes e número de pacotes transmitidos.

Obs: se estiver no Windows, remova o -c 4

In [None]:
!ping -c 4 www.insper.edu.br

## Baixando imagens

Nos tópicos anteriores fizemos requisições que retornaram conteúdo do tipo `text/plain` (strings). Entretanto, as mesmas chamadas GET podem ser utilizadas para recuperar imagens, PDFs, páginas Web, etc.

Vamos solicitar uma imagem PNG:

In [None]:
url_imagem = 'https://s2.studylib.net/store/data/013539884_1-c723ea60365e3706a333362a126d4c5a.png'

req = requests.get(url = url_imagem)

print(req.status_code)

Perceba que o código `200` nos indica que obtivemos sucesso!

No `content-type`, perceba que o conteúdo retornado é do tipo `img/png`

In [None]:
req.headers['content-type']

Agora, vamos salvar a imagem. Abriremos um arquivo em modo de escrita e escrevemos o conteúdo (`req.content`) retornado pela requisição.

In [None]:
# Complete com seu código aqui!

**Exercício 7** Exiba a imagem na tela.

**Dica:** não se esqueça de importar o **cv2** e o **matplotlib**. Confira como fizemos na aula passada.

**Exercício 8** Conforme aula anterior, utilize um **Reader** do **EasyOCR** para realizar a transcrição dos dados contidos na imagem.

## Baixando arquivos de texto

Vamos baixar um arquivo TXT do livro *Alice's Adventures in Wonderland*. Aproveitando, iremos configurar um **timeout**, que irá definir o tempo máximo de espera por uma resposta.

Para conseguir o link do livro, acesse https://atd-insper.s3.us-east-2.amazonaws.com/aula04/alice_wonderland.txt

In [None]:
alice_url_txt = 'https://atd-insper.s3.us-east-2.amazonaws.com/aula04/alice_wonderland.txt'

resposta = requests.get(url=alice_url_txt, timeout=0.01)

resposta

Perceba que o argumento de `timeout` está quase zero! Provavelmente a requisição irá falhar. Aumente este valor até obter sucesso. Isto será útil quando você tiver uma tolerância máxima de espera por algum recurso.

Vamos conferir o `content-type`:

In [None]:
resposta.headers['content-type']

Vejamos o texto retornado:

In [None]:
print(resposta.text)

Então podemos fazer o que quisermos com este texto:
- Remover stopwords
- Quebrar em palavras
- Analisar sentimento das frases
- etc.

In [None]:
resposta.text.split()

## Baixando páginas da Web

A parte realmente legal de trabalharmos com dados da Internet é extrair informações das páginas da Web. Será que podemos utilizar a biblioteca **requests** para baixar conteúdos de páginas Web?

Vamos ver um primeiro exemplo:

**Dica**: copie a URL e cole em seu navegador para ver o conteúdo da página renderizado!

In [None]:
url = 'https://atd-insper.s3.us-east-2.amazonaws.com/aula04/amostra.html'

resposta = requests.get(url = url)

resposta

Conferindo o código de resposta:

In [None]:
print('Código de status da resposta: {}'.format(req.status_code))

E o texto de resposta:

In [None]:
print('Texto de resposta:')
# Preencha aqui!

Perceberam que alguns caracteres ficaram "estranhos"?!

Vamos conferir o **encoding** utilizado

In [None]:
# Preencha aqui!

Vamos alterar o **encoding**

In [None]:
# Preencha aqui!

e rever o texto de resposta

In [None]:
print('Texto de resposta:')
# Preencha aqui!

Este conteúdo é um **HTML** (do inglês *HyperText Markup Language*). Na próxima aula, iremos aprender como extrair informações úteis de páginas HTML.

Vamos conferir outra página mais completa?! Faremos a requisição da página de notícias de Ciência da Exame https://exame.com/ciencia/

In [None]:
resposta = requests.get(url = 'https://exame.com/ciencia/')

print(resposta.text)

## Outras opções
Algumas opções interessantes de **API** para uso em aplicações.
- Twitter API https://developer.twitter.com/en/docs/twitter-api
- Here Geocoding https://developer.here.com/sign-up e https://developer.here.com/c/geocoding
- OpenAI https://openai.com/blog/introducing-chatgpt-and-whisper-apis