# Web Scraping e o módulo Requests

Bem vindo ao Notebook sobre web scraping com Python. 

Neste notebook falarei brevemente sobre alguns conceitos de web scraping e sobre um dos módulos utilizados para realizar protocolos HTTP, o módulo **requests**. 

Primeiramente vamos falar sobe o seguinte: **o que é web scraping**?

- Web scraping pode ser traduzido para o português como: "raspagem web". Ou seja, é uma forma de obtenção de dados por meio do acesso à internet. Basicamente, entraremos em sites e extrairemos informações de forma automatizada!

Para realizar web scraping, é recomendável que você saiba bem basicamente sobre HTML e o que são os métodos HTTP, mas eu digo bem basicamente mesmo, recomendo que procure por alguns vídeos no YouTube sobre o assunto, de forma introdutória, que será mais do que o suficiente. Não explicarei sobre o assunto justamente porque eu não tenho nenhuma proficiência em desenvolvimento web.

O web scraping é realizado em Python pela utilização de 3 módulos principais:

- **Requests**
- **Beautiful Soup**
- **Selenium**

Superficialmente, a função de cada um desses é fazer o seguinte: <br><br>

O *Requests*, que é o que veremos neste notebook é utilizado para realizar requisições HTTP à sites/servidores, ou seja, utilizaremos ele para mandar requisições `GET` para servidores e obter a resposta, que no caso, seriam HTML de sites, mas pode também ser usado diretamente em APIs para retornar um objeto *.json*, por exemplo (irei mostrar um exemplo disso em breve).

O módulo *Beautiful Soup* será utilizado para manipular os HTMLs dos sites que visitaremos.

O módulo *Selenium* é utilizado para interagir com os websites, ele existe para automatizar tarefas pelo seu navegador, de fato entrando e interagindo com diferentes sites!

Bom, tendo feito essa breve introdução ao conceito de web scraping e aos módulos, vamos falar do módulo *Requests*!

# O Módulo Requests

Primeiro, claro que você deve ter o módulo requests instalado em sua máquina. No caso do Windows, basta abrir o cmd e dar o seguinte comando: <br><br> 

&emsp;&emsp;&emsp; `pip install requests`

Após ter instalado, podemos começar a trabalhar com ele!

In [1]:
import requests as r

In [2]:
help(r) #Vamos dar uma olhada se tentamos o comando help

Help on package requests:

NAME
    requests

DESCRIPTION
    Requests HTTP Library
    ~~~~~~~~~~~~~~~~~~~~~
    
    Requests is an HTTP library, written in Python, for human beings.
    Basic GET usage:
    
       >>> import requests
       >>> r = requests.get('https://www.python.org')
       >>> r.status_code
       200
       >>> b'Python is a programming language' in r.content
       True
    
    ... or POST:
    
       >>> payload = dict(key1='value1', key2='value2')
       >>> r = requests.post('https://httpbin.org/post', data=payload)
       >>> print(r.text)
       {
         ...
         "form": {
           "key1": "value1",
           "key2": "value2"
         },
         ...
       }
    
    The other HTTP methods are supported - see `requests.api`. Full documentation
    is at <https://requests.readthedocs.io>.
    
    :copyright: (c) 2017 by Kenneth Reitz.
    :license: Apache 2.0, see LICENSE for more details.

PACKAGE CONTENTS
    __version__
    _internal_utils

O *docstring* acima é bem amigável e já nos traz algumas informações interessantes sobre os principais métodos HTTP que podemos realizar, o `GET` e o `POST`. Para finalidades do webscraping, focaremos apenas no `GET`. Mas veja que o próprio docstring já nos fala que outros tipos de requisições são suportadas!

Vamos fazer uma requisição `GET` pra ver o que acontece:

In [3]:
# Primeiro vamos dar uma olhada no help
help(r.get)

Help on function get in module requests.api:

get(url, params=None, **kwargs)
    Sends a GET request.
    
    :param url: URL for the new :class:`Request` object.
    :param params: (optional) Dictionary, list of tuples or bytes to send
        in the query string for the :class:`Request`.
    :param \*\*kwargs: Optional arguments that ``request`` takes.
    :return: :class:`Response <Response>` object
    :rtype: requests.Response



In [5]:
# Veja que o retorno é uma objeto do tipo Response, vamos dar uma olhada no que é isso:
help(r.Response)

Help on class Response in module requests.models:

class Response(builtins.object)
 |  The :class:`Response <Response>` object, which contains a
 |  server's response to an HTTP request.
 |  
 |  Methods defined here:
 |  
 |  __bool__(self)
 |      Returns True if :attr:`status_code` is less than 400.
 |      
 |      This attribute checks if the status code of the response is between
 |      400 and 600 to see if there was a client error or a server error. If
 |      the status code, is between 200 and 400, this will return True. This
 |      is **not** a check to see if the response code is ``200 OK``.
 |  
 |  __enter__(self)
 |  
 |  __exit__(self, *args)
 |  
 |  __getstate__(self)
 |  
 |  __init__(self)
 |      Initialize self.  See help(type(self)) for accurate signature.
 |  
 |  __iter__(self)
 |      Allows you to use a response as an iterator.
 |  
 |  __nonzero__(self)
 |      Returns True if :attr:`status_code` is less than 400.
 |      
 |      This attribute checks if 

Veja o seguinte, o *docstring* acima nos fala que o objeto Response é a resposta de um servidor à uma requisição HTTP. Ou seja, é o que o servidor nos retornará após fazermos um `GET`. Bom, acho que esta parte ficou claro, então vamos à prática. Vou usar o `GET` no site do mercado livre pra ver o que acontece!

In [6]:
mercado_livre = r.get(url='https://www.mercadolivre.com.br/')

Veja que nada aconteceu, isso porque apenas definimos a variável `mercado_livre` como sendo a resposta do servidor à nossa requisição `GET`. Mas podemos usar algums métodos pra ver exatamente o que está contido nessa variável!

In [7]:
# vamos usar o método status_code, para saber se a nossa requisição deu certo!
# Em HTTP, um código que nos demonstra que tivemos sucesso é algum código do tipo 200, então esperamos ver o número 200!

print('O status da nossa requisição é: {}'.format(mercado_livre.status_code))

O status da nossa requisição é: 200


Sucesso!

In [16]:
print(mercado_livre.content)
# Com esse método podemos ver o HTML do site do mercado livre!!

b'\n<!DOCTYPE html>\n<html lang="pt-BR">\n<head><link rel="preconnect" href="https://www.google-analytics.com"/><link rel="preconnect" href="https://www.google.com"/><link rel="preconnect" href="https://data.mercadolibre.com"/><link rel="preconnect" href="https://http2.mlstatic.com"/><link rel="preconnect" href="https://stats.g.doubleclick.net"/><link rel="preconnect" href="https://analytics.mercadolivre.com.br"/><link rel="preconnect" href="https://analytics.mercadolivre.com"/><link rel="preconnect" href="https://www.google.com.br"/><script type=\'text/javascript\' >window.NREUM||(NREUM={});NREUM.info = {"agent":"","beacon":"bam-cell.nr-data.net","errorBeacon":"bam-cell.nr-data.net","licenseKey":"3009922991","applicationID":"79872174","applicationTime":133.73991,"transactionName":"bgRaYENYWBdWABdfXVdOe0FCTVkJGAsMW1dKTlxRQlJCC0dMDVNFWwhd","queueTime":0,"ttGuid":"4a033a280236039c","agentToken":null}; (window.NREUM||(NREUM={})).loader_config={xpid:"XQ4OVF5VGwQJXFZQBgYD",licenseKey:"30099

No próximo notebook, sobre Beautiful Soup, irei mostrar como que podemos manipular esse HTML para extrair as informações desejadas!

Como eu disse anteriormente, já que estamos utilizado o requests para fazer uma requisição a um site, a resposta da requisição é o HTML do site. Mas podemos utilizar a biblioteca do requests para fazer requisições a APIs também!

Para isso, vou utilizar uma API gratuita que nos retornará um objeto *.json*. E depois vou transformar esse objeto em um `DataFrame`!

In [17]:
req_api = r.get(url='https://jsonplaceholder.typicode.com/posts/1/comments')

In [18]:
print(req_api.status_code)

200


In [19]:
print(req_api.content)

b'[\n  {\n    "postId": 1,\n    "id": 1,\n    "name": "id labore ex et quam laborum",\n    "email": "Eliseo@gardner.biz",\n    "body": "laudantium enim quasi est quidem magnam voluptate ipsam eos\\ntempora quo necessitatibus\\ndolor quam autem quasi\\nreiciendis et nam sapiente accusantium"\n  },\n  {\n    "postId": 1,\n    "id": 2,\n    "name": "quo vero reiciendis velit similique earum",\n    "email": "Jayne_Kuhic@sydney.com",\n    "body": "est natus enim nihil est dolore omnis voluptatem numquam\\net omnis occaecati quod ullam at\\nvoluptatem error expedita pariatur\\nnihil sint nostrum voluptatem reiciendis et"\n  },\n  {\n    "postId": 1,\n    "id": 3,\n    "name": "odio adipisci rerum aut animi",\n    "email": "Nikita@garfield.biz",\n    "body": "quia molestiae reprehenderit quasi aspernatur\\naut expedita occaecati aliquam eveniet laudantium\\nomnis quibusdam delectus saepe quia accusamus maiores nam est\\ncum et ducimus et vero voluptates excepturi deleniti ratione"\n  },\n  {\

In [20]:
# ^^ o que temos acima é um objeto json, podemos transformá-lo facilmente em um dataframe!

import pandas as pd

df = pd.read_json(req_api.content)

In [21]:
df

Unnamed: 0,postId,id,name,email,body
0,1,1,id labore ex et quam laborum,Eliseo@gardner.biz,laudantium enim quasi est quidem magnam volupt...
1,1,2,quo vero reiciendis velit similique earum,Jayne_Kuhic@sydney.com,est natus enim nihil est dolore omnis voluptat...
2,1,3,odio adipisci rerum aut animi,Nikita@garfield.biz,quia molestiae reprehenderit quasi aspernatur\...
3,1,4,alias odio sit,Lew@alysha.tv,non et atque\noccaecati deserunt quas accusant...
4,1,5,vero eaque aliquid doloribus et culpa,Hayden@althea.biz,harum non quasi et ratione\ntempore iure ex vo...


Sucesso! Veja como o módulo *requests* é simples e versátil. <br><br>

No próximo notebook sobre webscraping, iremos explorar o módulo BeatifulSoup, que nos permitirá exrtrair informações dos HTMLs dos sites!

Criado por: <br><br>

Reddit: **u/_jvsm**