<h1 align=center><b>Capítulo 6</b></h1>
<h1 align=center>Trabalhando com Segurança na Web<h1>

## Introdução à Web Segura
A implementação de recursos de segurança baseados na Web (ou recursos que são usados para manter um estado seguro de acesso) para acessar informações está crescendo rapidamente, dia a dia. Com tecnologias baseadas na web em constante crescimento, sites e aplicativos da web implementam mecanismos seguros que são básicos ou altamente sofisticados.

O conteúdo seguro habilitado para a Web geralmente é um desafio do ponto de vista de rastreamento e raspagem. Nesta seção, você será apresentado a alguns conceitos básicos baseados em segurança. Exploraremos esses conceitos, juntamente com sua implementação, nas próximas seções.

As seções a seguir falarão sobre alguns conceitos ou conceitos habilitados para segurança que são vulneráveis à segurança. Esses conceitos podem ser implementados de forma independente e colaborativa em sites usando várias ferramentas ou medidas subjacentes.

## Processamento de formulários
Isso também é conhecido como processamento de `<form>` HTML, manipulação de formulários ou envio de formulários. Este método processa e trata dados dentro de um `<form>` HTML.

Do ponto de vista da segurança, o HTML `<form>` pode conter valores dinâmicos e ocultos ou gerados pelo sistema que gerenciam a validação, fornecem valor aos campos ou executam a implementação baseada em segurança durante o envio do formulário. Formulários com campos como `<input type="hidden"...>` podem não ser visíveis para os usuários nas páginas.

## Cookies e sessões
### Cookies
Cookies são dados gerados e armazenados por sites em seu sistema ou computador. Os dados nos cookies ajudam a identificar solicitações da web do usuário para o site. Os dados nos cookies são armazenados em pares `chave:valor`. Os dados armazenados em cookies ajudam os sites a acessar esses dados e transferir determinados valores salvos na forma de uma interação rápida.

Os cookies também permitem que os sites rastreiem perfis de usuários, seus hábitos na web e assim por diante, e usem essas informações para indexação, anúncios de página e atividades de marketing.

Os dados baseados em cookies podem durar uma sessão (ou seja, desde o momento em que uma página da Web é carregada até o fechamento do navegador) formando o que é conhecido como cookies de sessão, ou por dias, semanas ou meses, conhecidos como cookies permanentes ou armazenados. Os cookies também podem conter valores de expiração em segundos e são expirados ou excluídos do sistema uma vez decorrido o período de tempo expresso neste valor.

### Sessões
As sessões são propriedades que impõem a comunicação baseada em estado entre dois sistemas. Uma sessão é usada para armazenar informações do usuário temporariamente e também é excluída assim que o usuário sai do navegador ou sai do site.

Uma sessão é usada para manter a atividade de segurança. Um número de identificação exclusivo, também conhecido como ID de sessão ou chave de sessão, é gerado pelo site e é usado para rastrear seus usuários ou recursos baseados em segurança de forma independente. Na maioria dos casos de disponibilidade de sessão, ela também pode ser rastreada usando cookies.

### Autenticação de usuário
A autenticação do usuário lida com o manuseio e gerenciamento de processos de identificação baseados no usuário. Os sites oferecem o registro do usuário por meio de sua página de registro e, assim, coletam entradas do usuário para campos obrigatórios ou disponíveis. Os detalhes de um usuário são salvos em locais seguros, como bancos de dados baseados em nuvem ou servidor, ou qualquer outro sistema seguro.

Os usuários registrados são verificados e têm permissão para fazer login e logout de seu sistema e são identificados por seu nome de usuário, senha e endereço de e-mail.

Processamento de formulários, cookies, gerenciamento de sessões e outras medidas baseadas em segurança podem ser implementadas individualmente ou de forma colaborativa para este processo.

As seções deste módulo tratam de várias medidas e situações que podem ser implementadas ou que podem ser enfrentadas durante o web scraping.

## Processando formulários HTML

In [11]:
from pyquery import PyQuery as pq
import requests
mainurl = "https://toscrape.com/"
searchurl = "https://quotes.toscrape.com/search.aspx"
filterurl = "https://quotes.toscrape.com/filter.aspx"
quoteurl = "https://quotes.toscrape.com/"
authorTags = [('Albert Einstein', 'success'), ('Thomas A. Edison', 'inspirational')]

def processRequests(url, params={}, customheaders={}):
    if len(params) > 0:
	    response = requests.post(url, data=params, headers=customheaders)
    else:
        response = requests.get(url)
    return pq(response.text)

if __name__ == '__main__':
	for authorTag in authorTags:
		authorName,tagName= authorTag

		#Step 1: load searchURL
		searchResponse = processRequests(searchurl)
		author = searchResponse.find('select#author option:contains("' + authorName +'")').attr('value')
		viewstate = searchResponse.find('input#__VIEWSTATE').attr('value')
		tag = searchResponse.find('select#tag option').text()
		print("Author: ", author)
		print("ViewState: ", viewstate)
		print("Tag: ", tag)

Author:  Albert Einstein
ViewState:  NDM5ODJkM2M3ZTI2NGZlZGJmZDEyNDBiOGY2MmE5N2IsQWxiZXJ0IEVpbnN0ZWluLEouSy4gUm93bGluZyxKYW5lIEF1c3RlbixNYXJpbHluIE1vbnJvZSxBbmRyw6kgR2lkZSxUaG9tYXMgQS4gRWRpc29uLEVsZWFub3IgUm9vc2V2ZWx0LFN0ZXZlIE1hcnRpbixCb2IgTWFybGV5LERyLiBTZXVzcyxEb3VnbGFzIEFkYW1zLEVsaWUgV2llc2VsLEZyaWVkcmljaCBOaWV0enNjaGUsTWFyayBUd2FpbixBbGxlbiBTYXVuZGVycyxQYWJsbyBOZXJ1ZGEsUmFscGggV2FsZG8gRW1lcnNvbixNb3RoZXIgVGVyZXNhLEdhcnJpc29uIEtlaWxsb3IsSmltIEhlbnNvbixDaGFybGVzIE0uIFNjaHVseixXaWxsaWFtIE5pY2hvbHNvbixKb3JnZSBMdWlzIEJvcmdlcyxHZW9yZ2UgRWxpb3QsR2VvcmdlIFIuUi4gTWFydGluLEMuUy4gTGV3aXMsTWFydGluIEx1dGhlciBLaW5nIEpyLixKYW1lcyBCYWxkd2luLEhhcnVraSBNdXJha2FtaSxBbGV4YW5kcmUgRHVtYXMgZmlscyxTdGVwaGVuaWUgTWV5ZXIsRXJuZXN0IEhlbWluZ3dheSxIZWxlbiBLZWxsZXIsR2VvcmdlIEJlcm5hcmQgU2hhdyxDaGFybGVzIEJ1a293c2tpLFN1emFubmUgQ29sbGlucyxKLlIuUi4gVG9sa2llbixBbGZyZWQgVGVubnlzb24sVGVycnkgUHJhdGNoZXR0LEouRC4gU2FsaW5nZXIsR2VvcmdlIENhcmxpbixKb2huIExlbm5vbixXLkMuIEZpZWxkcyxKaW1pIEhlbmRyaXgsSi5NLiBCYXJyaWUsRS5FLiBDdW1taW5

In [16]:
if __name__ == '__main__':
    for authorTag in authorTags:
        authorName,tagName= authorTag

	#Step 2: load filterurl with author and default tag
        params = {'author': author, 'tag': tag, '__VIEWSTATE': viewstate}
        customheaders = {
			'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
			'Content-Type': 'application/x-www-form-urlencoded',
			'Referer': searchurl
		}
        filterResponse = processRequests(filterurl, params, customheaders)
        viewstate = filterResponse.find('input#__VIEWSTATE').attr('value')
        tagSuccess = filterResponse.find('select#tag option:contains("' + tagName + '")').attr('value')
        submitButton = filterResponse.find('input[name="submit_button"]').attr('value')
        print("Author: ", author)
        print("ViewState: ", viewstate)
        print("Tag: ", tagSuccess)
        print("Submit: ", submitButton)

Author:  Thomas A. Edison
ViewState:  NmIzMmExNzIwMjcxNGY4Y2IwYmJkNThkODFmNmU1ZjgsQWxiZXJ0IEVpbnN0ZWluLEouSy4gUm93bGluZyxKYW5lIEF1c3RlbixNYXJpbHluIE1vbnJvZSxBbmRyw6kgR2lkZSxUaG9tYXMgQS4gRWRpc29uLEVsZWFub3IgUm9vc2V2ZWx0LFN0ZXZlIE1hcnRpbixCb2IgTWFybGV5LERyLiBTZXVzcyxEb3VnbGFzIEFkYW1zLEVsaWUgV2llc2VsLEZyaWVkcmljaCBOaWV0enNjaGUsTWFyayBUd2FpbixBbGxlbiBTYXVuZGVycyxQYWJsbyBOZXJ1ZGEsUmFscGggV2FsZG8gRW1lcnNvbixNb3RoZXIgVGVyZXNhLEdhcnJpc29uIEtlaWxsb3IsSmltIEhlbnNvbixDaGFybGVzIE0uIFNjaHVseixXaWxsaWFtIE5pY2hvbHNvbixKb3JnZSBMdWlzIEJvcmdlcyxHZW9yZ2UgRWxpb3QsR2VvcmdlIFIuUi4gTWFydGluLEMuUy4gTGV3aXMsTWFydGluIEx1dGhlciBLaW5nIEpyLixKYW1lcyBCYWxkd2luLEhhcnVraSBNdXJha2FtaSxBbGV4YW5kcmUgRHVtYXMgZmlscyxTdGVwaGVuaWUgTWV5ZXIsRXJuZXN0IEhlbWluZ3dheSxIZWxlbiBLZWxsZXIsR2VvcmdlIEJlcm5hcmQgU2hhdyxDaGFybGVzIEJ1a293c2tpLFN1emFubmUgQ29sbGlucyxKLlIuUi4gVG9sa2llbixBbGZyZWQgVGVubnlzb24sVGVycnkgUHJhdGNoZXR0LEouRC4gU2FsaW5nZXIsR2VvcmdlIENhcmxpbixKb2huIExlbm5vbixXLkMuIEZpZWxkcyxKaW1pIEhlbmRyaXgsSi5NLiBCYXJyaWUsRS5FLiBDdW1taW

In [17]:
if __name__ == '__main__':
    for authorTag in authorTags:
        authorName,tagName= authorTag
        #Step 3: load filterurl with author and defined tag
        params = {'author': author, 'tag': tagSuccess, 'submit_button': submitButton,
                  '__VIEWSTATE': viewstate}
        customheaders = {
	        'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
	        'Content-Type': 'application/x-www-form-urlencoded',
	        'Referer': filterurl
        }
        finalResponse = processRequests(filterurl,params, customheaders)
        #Step 4: Extract results
        quote = finalResponse.find('div.quote span.content').text()
        quoteAuthor = finalResponse.find('div.quote span.author').text()
        message = finalResponse.find('div.quote span.tag').text()
        print("Author: ", quoteAuthor, "\nMessage: ", message)

Author:  Thomas A. Edison 
Message:  inspirational
Author:  Thomas A. Edison 
Message:  inspirational


O envio de formulários não depende apenas dos parâmetros necessários selecionados a partir de elementos \<form> visíveis na página — também pode haver valores ocultos e representação de estado gerada dinamicamente que devem ser processados e manipulados de forma eficaz para uma saída bem-sucedida.

## Lidando com autenticação de usuário

A autenticação do usuário geralmente é processada com uma combinação exclusiva de informações, como nome de usuário, senha, e-mail e assim por diante, para identificar o usuário no site.
O código desta seção trata do login e da alteração das credenciais de login, bem como da obtenção das respectivas mensagens da página.

Como podemos ver na captura de tela a seguir, o HTML \<form> existe com duas caixas \<input> que aceitam o nome de usuário e a senha (ou seja, as credenciais de login) necessárias para o login. As credenciais de login são informações privadas e seguras, mas para este site de teste específico, os valores são visíveis, predefinidos e fornecidos, ou seja, Nome de **usuário = "admin"** e **Senha = "12345"**:

In [1]:
from pyquery import PyQuery as pq
import requests
mainUrl = "https://testing-ground.scraping.pro"
loginUrl = "https://testing-ground.scraping.pro/login"
logoutUrl = "https://testing-ground.scraping.pro/login?mode=logout"
postUrl= "https://testing-ground.scraping.pro/login?mode=login"

def responseCookies(response):
    headers = response.headers
    cookies = response.cookies
    print("Headers: ", headers)
    print("Cookies: ", cookies)

def processParams(params):
    response = requests.post(postUrl, data=params)
    responseB = pq(response.text)
    message = responseB.find('div#case_login h3').text()
    print("Confirm Login : ",message)

if __name__ == '__main__':
    requests.get(logoutUrl)
    response = requests.get(mainUrl)
    responseCookies(response)
    response = requests.get(loginUrl)
    responseCookies(response)

ConnectTimeout: HTTPSConnectionPool(host='testing-ground.scraping.pro', port=443): Max retries exceeded with url: /login?mode=logout (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x000001E36C95F5E0>, 'Connection to testing-ground.scraping.pro timed out. (connect timeout=None)'))

## Trabalhando com Cookies e Sessions

In [7]:
from pyquery import PyQuery as pq
import requests
mainUrl = "https://toscrape.com/"
loginUrl = "https://quotes.toscrape.com/login"
quoteUrl = "https://quotes.toscrape.com/"

def getCustomHeaders(cookieHeader):
    return {
        'Host': 'quotes.toscrape.com',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:65.0) Gecko/20100101 Firefox/65.0',
	    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
	    'Referer': 'http://quotes.toscrape.com/login',
	    'Content-Type': 'application/x-www-form-urlencoded',
	    'Cookie': cookieHeader
    }
def responseCookies(response):
    headers = response.headers
    cookies = response.cookies
    print("Headers: ", headers)
    print("\nCookies: ", cookies)
    return headers['Set-Cookie']

if __name__ == '__main__':
    requests.get(mainUrl)
    response = requests.get(loginUrl)
    setCookie = responseCookies(response)
    print("Set-Cookie: ",setCookie)
    responseA = pq(response.text)
    csrf_token = responseA.find('input[name="csrf_token"]').attr('value')
    username = responseA.find('input[id="username"]').attr('name')
    password = responseA.find('input[id="password"]').attr('name')
    params = {username: 'test', password: 'test', 'csrf_token': csrf_token}
    print('\nparams: ',params)
    customHeaders = getCustomHeaders(setCookie)
    response = requests.post(loginUrl, data=params, headers=customHeaders)
    setCookie = responseCookies(response)
    #print("Set-Cookie: ",setCookie)
    responseB = pq(response.text)
    logoutText = responseB.find('a[href*="logout"]').text()
    logoutLink = responseB.find('a[href*="logout"]').attr('href')
    print("Current Page : ",response.url)
    print("Confirm Login : ", responseB.find('.row h2').text())
    print("Logout Info : ", logoutText," & ",logoutLink)

Headers:  {'Date': 'Fri, 14 Oct 2022 00:52:33 GMT', 'Content-Type': 'text/html; charset=utf-8', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Vary': 'Cookie', 'Set-Cookie': 'session=eyJjc3JmX3Rva2VuIjoid0VsUENJUmNlTXNXaFNOemlGS0dVYXBBYlZkdURycUpMeUJZak90a2ZYblpvSHZ4Z21UUSJ9.Y0iy0Q.gmY-HuJQsLJry-GB8CaACOLhfJI; HttpOnly; Path=/', 'Strict-Transport-Security': 'max-age=0; includeSubDomains; preload', 'Content-Encoding': 'br'}

Cookies:  <RequestsCookieJar[<Cookie session=eyJjc3JmX3Rva2VuIjoid0VsUENJUmNlTXNXaFNOemlGS0dVYXBBYlZkdURycUpMeUJZak90a2ZYblpvSHZ4Z21UUSJ9.Y0iy0Q.gmY-HuJQsLJry-GB8CaACOLhfJI for quotes.toscrape.com/>]>
Set-Cookie:  session=eyJjc3JmX3Rva2VuIjoid0VsUENJUmNlTXNXaFNOemlGS0dVYXBBYlZkdURycUpMeUJZak90a2ZYblpvSHZ4Z21UUSJ9.Y0iy0Q.gmY-HuJQsLJry-GB8CaACOLhfJI; HttpOnly; Path=/

params:  {'username': 'test', 'password': 'test', 'csrf_token': 'wElPCIRceMsWhSNziFKGUapAbVduDrqJLyBYjOtkfXnZoHvxgmTQ'}
Headers:  {'Date': 'Fri, 14 Oct 2022 00:52:34 GMT', 'Content-Type': '

KeyError: 'set-cookie'