[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/vicnetto/py-learn/blob/master/data-science/web_scraping/ds_web_scraping.ipyn) 
> # Web-Scraping
(ABRA PELO GOOGLE COLAB PARA MELHOR VISUALIZAÇÃO, ABRA COM UMA NOVA JANELA)

**Web Scraping** é o "garimpo" de informações da web, procurando dados em sites que sejam importantes para seu banco de dados. É geralmente utilizado para aprimorar tomadas de decisão utilizando **machine learning**. Apesar de ser possível fazer o processo manualmente, o objetivo do **Web Scraping** é automatizar o processo.

## Fazendo um pequeno **scraping**

Nesta parte temos uma pequena introdução do funcionamento do WebScraping. Para isso, foi utilizado uma página encontrada na internet do curso **Alura**, de acesso público, para realizar **Web Scraping**. 

In [1]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

url = "http://alura-site-scraping.herokuapp.com/hello-world.php"  # Salvando o URL.

response = urlopen(url)
html = response.read()

soup = BeautifulSoup(html, "html.parser")
soup

print(soup.find("h1", id = "hello-world").get_text())
print(soup.find("p").get_text())

Hello World!!!
Web Scraping é o termo utilizado para definir a prática de coletar automaticamente informações na Internet. Isto é feito, geralmente, por meio de programas que simulam a navegação humana na Web.


## Tipos de páginas web

Dentre a **web**, existem **diversos** modelos de páginas. Aquelas que recebem o código HTML direito como resposta do servidor e as páginas que são geradas automáticamente pelo computador do usuário. Durante esse **.ipnyb**, o único tipo de página abordado será com **código HTML pronto**, e futuramente com a geração automática.

## Obtendo o **HTML** de um site

Para acessar um site **sem proteção**, que não é muito comum, podemos utilizar somente uma requisição para o servidor, recebendo uma resposta, do seguinte modo:

In [2]:
url = "http://alura-site-scraping.herokuapp.com/index.php"  # Deixando em formato de string o site acessado.

response = urlopen(url)  # Pedindo uma resposta para o servidor, para obter o código HTML.
html = response.read()  # Lendo essa resposta HTML.
html

b'<!DOCTYPE html>\r\n<html lang="pt-br">\r\n<head>\r\n    <meta charset="utf-8">\r\n    <meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no">\r\n\r\n    <title>Alura Motors</title>\r\n\r\n\t<style>\r\n\t\t/*Regra para a animacao*/\r\n\t\t@keyframes spin {\r\n\t\t\t0% { transform: rotate(0deg); }\r\n\t\t\t100% { transform: rotate(360deg); }\r\n\t\t}\r\n\t\t/*Mudando o tamanho do icone de resposta*/\r\n\t\tdiv.glyphicon {\r\n\t\t\tcolor:#6B8E23;\r\n\t\t\tfont-size: 38px;\r\n\t\t}\r\n\t\t/*Classe que mostra a animacao \'spin\'*/\r\n\t\t.loader {\r\n\t\t\tborder: 16px solid #f3f3f3;\r\n\t\t\tborder-radius: 50%;\r\n\t\t\tborder-top: 16px solid #3498db;\r\n\t\t\twidth: 80px;\r\n\t\t\theight: 80px;\r\n\t\t\t-webkit-animation: spin 2s linear infinite;\r\n\t\t\tanimation: spin 2s linear infinite;\r\n\t\t}\r\n\t</style>\r\n\t<link rel="stylesheet" href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.7/css/bootstrap.min.css" integrity="sha384-BVYiiSIFeK1dGmJRAkycuH

Agora as coisas podem ficar um pouco mais complicadas. Para acessar páginas **um pouco mais protegidas**, existem diversos mecânismos utilizados por páginas para verificar se o usuário (cliente), é realmente algum usuário e não apenas um código. Por exemplo, utilizando o mesmo método para tentar entrar no site da **Alura**, temos o seguinte resultado:

In [3]:
from urllib.request import Request
from urllib.error import URLError, HTTPError

urlalura = "https://www.alura.com.br"

try:
  response = urlopen(urlalura) 
  htmlalura = response.read()
  htmlalura

# Sempre colocar nessa ordem!
except HTTPError as e:  # Erro caso tenha algum problema de permissão.
  print("Error number: ", e.status, "| Reason: ", e.reason)

except URLError as u:  # Erro caso o site tenha sido digitado errado.
  print("Reason: ", u.reason)

Error number:  403 | Reason:  Forbidden


> Recebemos um erro de bloqueio! "**HTTP Error 403: Forbidden**" é um erro de permissão.

Portanto, para arrumar isso temos que usar o método **Request**. Dentro de todas as páginas, existe uma lista de requisições feitas pelo servidor para gerar o HTML e por isso temos que defini-las em alguns casos.  Na seguinte forma:

In [4]:
urlalura = "https://www.alura.com.br"
headers = {"User-Agent" : "Mozilla/5.0 (X11; Linux x86_64; rv:78.0) Gecko/20100101 Firefox/78.0"}  # É inserido um header com os dados do usuário, como se estivesse sendo acessado de um navegador.

try:
  req = Request(urlalura, headers=headers)  # Criando o modelo do Request, com o header.
  response = urlopen(req)  # Pedindo para o servidor o código HTML do site.
  htmlalura = response.read() 

except HTTPError as e:
  print("Error number: ", e.status, "| Reason: ", e.reason)

except URLError as u:
  print("Reason: ", u.reason)

htmlalura

b'<!DOCTYPE html><html\nlang="pt-BR"><head><meta\ncharset="UTF-8"><meta\nname="viewport" content="width=device-width,initial-scale=1,minimum-scale=1.0"><title>Alura | Cursos online de tecnologia</title><meta\nname="description" content="Aprenda Programa\xc3\xa7\xc3\xa3o, Mobile, Front-end, Design, UX, Infraestrutura, Marketing Digital, Data Science, Inova\xc3\xa7\xc3\xa3o e Gest\xc3\xa3o com did\xc3\xa1tica inovadora focada no mercado real de trabalho"><link\nrel="canonical" href="https://www.alura.com.br"><link\nhref="https://fonts.googleapis.com/css?display=swap&family=Open+Sans:300,400,400i,600,700,800" rel="stylesheet" crossorigin><link\nrel="preconnect" href="https://fonts.gstatic.com/" crossorigin><link\nrel="stylesheet" href="/bundle,base/_reset,base/base,base/buttons,base/colors,base/titulos.1572363839.css"><link\nrel="stylesheet" href="/bundle,home/homeNova/career-colors,home/homeNova/careers,home/homeNova/companies,home/homeNova/features,home/homeNova/home,home/homeNova/mobil

## Realizando um tratamento nos dados **HTML**

Junto com o código fonte da página, diversos caracteres especiais podem ter sido lidos junto, o que causa certas confusões na leitura do código. Por isso, podemos fazer um "tratamento" nesse código, transformando todo ele em **UTF-8** (codificação padrão).

In [5]:
print("Tipo inicial: ", type(html))
htmlstr = html.decode("utf-8")  # Atualizando a codificação.
htmlstr = " ".join(htmlstr.split()).replace("> <", "><")  # Retira todas as tabulações e quebras de linhas, deixando pronto para o BeautifulSoup.
print("Tipo final: ", type(htmlstr))
htmlstr

Tipo inicial:  <class 'bytes'>
Tipo final:  <class 'str'>


'<!DOCTYPE html><html lang="pt-br"><head><meta charset="utf-8"><meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no"><title>Alura Motors</title><style> /*Regra para a animacao*/ @keyframes spin { 0% { transform: rotate(0deg); } 100% { transform: rotate(360deg); } } /*Mudando o tamanho do icone de resposta*/ div.glyphicon { color:#6B8E23; font-size: 38px; } /*Classe que mostra a animacao \'spin\'*/ .loader { border: 16px solid #f3f3f3; border-radius: 50%; border-top: 16px solid #3498db; width: 80px; height: 80px; -webkit-animation: spin 2s linear infinite; animation: spin 2s linear infinite; } </style><link rel="stylesheet" href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.7/css/bootstrap.min.css" integrity="sha384-BVYiiSIFeK1dGmJRAkycuHAHRg32OmUcww7on3RYdg4Va+PmSTsz/K68vbdEjh4u" crossorigin="anonymous"><link rel="stylesheet" href="css/styles.css" media="all"><script src="https://code.jquery.com/jquery-1.12.4.js"></script><script src="https://maxcdn.boo