# Web Scraping com Python
Rafael Alves Ribeiro

# Conceito

**Web Scraping, ou raspagem de dados**, consiste em um processo que se utiliza de técnicas de programação para a coleta automatizada de dados provenientes da Web.

# Objetivo

O principal objetivo do Web Scraping é extrair dados de serviços ou aplicativos que não oferecem uma interface de programação (API) e **transformar dados não estruturados em dados estruturados**

<center><img style="width: 40%" src="https://www.data-storage.uk/wp-content/uploads/unstructured-data.jpg"></center>

# Scraper

Scraper é um software que simula a interação realizada entre um browser operado por um humano e um Web Site. Possui 3 funções básicas:

1. Acesso ao Web Site
2. Parsing e Extração de conteúdo
3. Estruturação dos resultados

# Procolo HTTP

<div style="width: 100%; overflow: hidden;">
    <div style="width: 50%; float: left;">
        <center><h3>Requests</h3></center>
        <img style="width: 100%;" src="https://i0.wp.com/blogs.innovationm.com/wp-content/uploads/2016/10/HTTP-Protocol.png?fit=624%2C248">
    </div>
    <div>
        <center><h3>Headers</h3></center>
        <img style="width: 50%;" src="https://mdn.mozillademos.org/files/13687/HTTP_Request.png">
    </div>
    </div>

# Desenvolvendo um Scraper - 6 Etapas
  <p></p>
<div style="width: 100%; overflow: hidden; vertical-align:middle;">
    <div style="width: 50%; float: left;">            
    <ol>
        <li>Identificar</li>
        <li>Navegar</li>
        <li>Replicar</li>
        <li>Parsear</li>
        <li>Validar</li>
        <li>Iterar</li>
        </ol>
    </div>
    <div>
        <img style="width: 50%; vertical-align:middle;" src="https://scrapingpros.com/wp-content/uploads/2017/01/scraper1-1.png">
    </div>
</div>
  



# 1. Identificar

No primeiro passo do processo de desenvolvimento de um scraper precisamos entender qual é a estrutura das páginas que queremos raspar e traçar um plano para extrair tudo que precisamos.

# 2. Navegar

Precisamos entender como localizar o dado que queremos
extrair dentro do HTML da página. Esse passo pode ser
extremamente simples, mas de vez em quando ele se tornará algo bastante complexo.

# Dev Tools

O Dev Tools é conjunto de ferramentas integradas ao browser construı́das para facilitar o desenvolvimento de Web Sites. Permite analisar o código, o tráfego de rede e a performance de uma página. É a principal ferramenta de apoio ao desenvolvimento de Scrapers.
<center>
<img style="width: 40%; float: left;" src ="https://cdn.pcsteps.com/wp-content/uploads/2015/09/Reset-Chrome-Reset-Firefox-to-Fix-Most-Problems.png">
<img style="width: 25%;" src ="https://cdn.instructables.com/FE1/3CR2/GV0KXNWV/FE13CR2GV0KXNWV.LARGE.jpg">
</center>


# 3. Replicar

Neste passo é importante compreender as várias requisições HTTP
que a página está realizando para trazer o conteúdo até você,
assim poderemos replicar as requisições com nosso Scraper.
Utilizaremos a aba Network do Dev Tools para este trabalho.

# 4. Parsear

O anglicismo parsear vem do verbo to parse, que quer dizer algo como analisar ou estudar, mas que, no contexto do Web Scraping, significa extrair os dados desejados de um arquivo HTML. Vejamos um exemplo:

# Enviamos uma requisicao HTTP utilizando o método GET

In [12]:
from bs4 import BeautifulSoup
import requests

HTML = requests.get('http://www.inferir.com.br').text
print(HTML[:300])

<!DOCTYPE html>
<html lang="pt-BR" class="no-js"  itemscope itemtype="https://schema.org/WebPage">

<!-- head -->
<head>

<!-- meta -->
<meta charset="UTF-8" />
<meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=1" />
<meta name="description" content="Consultoria e Cur


# Realizamos o parse do HTML utilizando BeautifulSoup

In [22]:
soup = BeautifulSoup(HTML, 'html.parser')
print(type(soup))
print('Methods:', [i for i in dir(soup) if not i.startswith('_')])

<class 'bs4.BeautifulSoup'>


# Buscamos a imagem utilizando a tag e a classe encontradas no Dev Tools

In [24]:
classe_logo = 'logo-mobile scale-with-grid'
logo_inferir = soup.find('img', {'class': classe_logo})

print(type(logo_inferir))
print(logo_inferir)

<class 'bs4.element.Tag'>
<img alt="logo-inferir" class="logo-mobile scale-with-grid" data-height="124" data-retina="" src="https://inferir.com.br/wp-content/uploads/2018/08/logo-inferir.png"/>


# 5. Validar

Se tivermos feito tudo certo até agora, validar os resultados será uma tarefa simples. Precisamos apenas reproduzir o procedimento descrito até agora para algumas outras páginas de modo verificar se estamos de fato extraindo corretamente tudo o que queremos.
<center>
<img style="width: 400px;" src="https://cdn-images-1.medium.com/max/475/1*IbHgZrKYCUSeIbL_PywObQ.png">
</center>

# 6. Iterar

O último passo consiste em colocar o nosso scraper em produção. Aqui, ele já deve estar funcionando corretamente para todos os casos desejados. Na maior parte dos casos isso consiste em encapsular o scraper em uma função que recebe uma série de links e aplica o mesmo procedimento em cada um. Se quisermos aumentar a eficiência desse processo, podemos paralelizar ou distribuir o nosso raspador.

<center>
    <img style="width: 400px;" src="https://www.freelancinggig.com/blog/wp-content/uploads/2017/02/google-aws-microsoft-azure.jpg">
</center>

# Pacote Requests

Requests é um pacote Python que permite o acesso à serviços web, sem a necessidade de conhecimento avançados sobre o protocolo de comunicação HTTP. Empresas como Amazon, Google, Mozilla, PayPal, The Washington Post e Twitter utilizam Requests, que é um dos pacotes Python mais baixados de todos os tempos, com mais de 11 milhões de downloads mensais.

In [3]:
from io import StringIO
import requests
#import pandas as pd

url = "https://raw.githubusercontent.com/fivethirtyeight/data/master/star-wars-survey/StarWars.csv"
# envia uma requisiçao HTTP utilizando o método GET
response = requests.get(url)
# acessa o texto da resposta enviada pelo servidor, seleciona a primeira linha e imprime na tela
print(response.text.splitlines()[0])
pd.read_csv(StringIO(response.text))

RespondentID,Have you seen any of the 6 films in the Star Wars franchise?,Do you consider yourself to be a fan of the Star Wars film franchise?,Which of the following Star Wars films have you seen? Please select all that apply.,,,,,,Please rank the Star Wars films in order of preference with 1 being your favorite film in the franchise and 6 being your least favorite film.,,,,,,"Please state whether you view the following characters favorably, unfavorably, or are unfamiliar with him/her.",,,,,,,,,,,,,,Which character shot first?,Are you familiar with the Expanded Universe?,Do you consider yourself to be a fan of the Expanded Universe?��,Do you consider yourself to be a fan of the Star Trek franchise?,Gender,Age,Household Income,Education,Location (Census Region)


NameError: name 'pd' is not defined

<center>
<img src="https://media.makeameme.org/created/its-your-turn-wj2dce.jpg">
</center>

# Objeto Response

Após receber e iterpretar a requisição enviada, o servidor web retorna uma resposta HTTP contendo diversas informações úteis. O Requests realiza o tratamento destes dados e os armazena em um objeto chamado Response.
Em nosso exemplo, utilizamos apenas o texto da resposta. Realizaremos uma nova requisição, desta vez solicitando uma imagem, para explorar as informações contidas no objeto Response.

In [6]:
IMAGE_URL = 'https://media.makeameme.org/created/its-your-turn-wj2dce.jpg'
response = requests.get(IMAGE_URL)
print(dir(response))

['__attrs__', '__bool__', '__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__enter__', '__eq__', '__exit__', '__format__', '__ge__', '__getattribute__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__nonzero__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_content', '_content_consumed', '_next', 'apparent_encoding', 'close', 'connection', 'content', 'cookies', 'elapsed', 'encoding', 'headers', 'history', 'is_permanent_redirect', 'is_redirect', 'iter_content', 'iter_lines', 'json', 'links', 'next', 'ok', 'raise_for_status', 'raw', 'reason', 'request', 'status_code', 'text', 'url']


# Enviando Dados - POST

* Faça login no site http://testing-ground.scraping.pro/login e inspecione as requisiçoes HTTP no Dev Tools

## Replicando o login com o requests

In [None]:
requests.post