## Web Scraping
***

Um web scraping é uma API para extrair dados de um web site. Por exemplo, você quer pegar os moveis de uma determinada localidade que estão a venda no site da OLX. E armazena-los no seu banco de dados.

### API

API é um conjunto de rotinas e padrões de programação para acesso a um aplicativo de software ou plataforma baseado na Web. Em pagamentos online, as APIs permitem executar pagamentos e transferências sem sair do site da loja ou fornecedor de serviços, por exemplo, o comprador não precisa colocar os dados do cartão de crédito no site da loja para realizar a compra, mas apenas o usuário e senha do pagseguro autorizando a compra.

### Estruturas de páginas web

A WWW (World Wide Web) é um aplicativo desenvolvido para permitir que pessoas compartilhem informações sobre a internet.

O Browser são os navegadores que é utilizado para visualizar os arquivos HTML, CSS e JS, por exemplo, Firefox e Google Chrome.

As páginas web são um meio de tornar documentos disponíveis a qualquer um na internet. Por meio de linguagens de marcação como HTML e CSS e linguagem de programação Javascript.

### Beautiful Soup

É uma biblioteca python projetada para facilitar a extração de dados nos documentos html e xml.

* Fornece alguns métodos simples e expressões pythonicas para navegar, pesquisar e modificar uma árvore de análise.

* Converte automaticamente documentos de entrada para Unicode e documentos de saída para UTF-8

* Utiliza-se bibliotecas html parse lxml, html5lib, permitindo-lhe experimentar estratégias de análise diferentes ou velocidade comercial para a flexibilidade.

* Bastante robusta para trabalhar com html/xml mal formatado.

#### Parser

Parser é um analisador sintático e sua função é ler uma entrada de dados que possui certas regras especificas e montar uma estrutura de como é sua composição.

|Parser|Modo de uso|Vantagem|Desvantagem|Tecnologia|
|------|-----------|--------|-----------|----------|
|html.parser|BeautifulSoup(markup, "html.parser")|Biblioteca inclusa e velocidade moderada|N/A|Padrão|
|lxml|BeautifulSoup(markup, "lxml")<br />BeautifulSoup(markup, "lxml-xml")<br />BeautifulSoup(markup, "xml")|Rápida, Suporta XML|Dependência externa|C|
|html5lib|BeautifulSoup(markup, "html5lib")|Análisa páginas da mesma forma que um browser e cria HTML5 válido|Lenta e tem dependência externa|Python|

O mais recomendado é usar o **lxml**, já que foi feito em C o tornando extremamente rápido.

#### Instalação:

```
pip install beautifulsoup4
```

***

In [1]:
from bs4 import BeautifulSoup

In [2]:
with open('arquivo.html', 'r') as file:
    soup_string = BeautifulSoup(file.read(), 'html.parser')

In [3]:
print(soup_string)

<!DOCTYPE html>

<html lang="pt_BR">
<head>
<title>Exemplo Bootstrap</title>
<meta charset="utf-8">
<meta content="width=device-width, initial-scale=1" name="viewport">
<link href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.7/css/bootstrap.min.css" rel="stylesheet">
<script src="https://ajax.googleapis.com/ajax/libs/jquery/3.3.1/jquery.min.js"></script>
<script src="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.7/js/bootstrap.min.js"></script>
</link></meta></meta></head>
<body>
<div class="container">
<h1>
          Meu projeto em Bootstrap
      </h1>
<p>
        Lorem ipsum dolor sit amet, consectetur adipiscing elit. Etiam id ornare odio, eu tincidunt massa.
        In eget lorem augue. Sed auctor lacinia enim eu volutpat. Etiam sed massa dapibus, egestas ligula vel,
        vulputate ex. Sed efficitur enim ac enim pharetra consequat. Pellentesque ante lorem, tempor eu ex in,
        tincidunt pharetra diam. Sed ut mi iaculis, condimentum neque nec, cursus massa. Mauris ligula r

***

In [4]:
import requests

In [5]:
request = requests.get("http://www.google.com")

In [6]:
soup = BeautifulSoup(request.text, 'lxml')

In [7]:
print(soup)

<!DOCTYPE html>
<html itemscope="" itemtype="http://schema.org/WebPage" lang="pt-BR"><head><meta content="text/html; charset=utf-8" http-equiv="Content-Type"/><meta content="/logos/doodles/2018/summer-solstice-2018-southern-hemisphere-5452030255562752-law.gif" itemprop="image"/><meta content="Solstício de verão 2018" property="twitter:title"/><meta content="Solstício de verão 2018 #GoogleDoodle" property="twitter:description"/><meta content="Solstício de verão 2018 #GoogleDoodle" property="og:description"/><meta content="summary_large_image" property="twitter:card"/><meta content="@GoogleDoodles" property="twitter:site"/><meta content="https://www.google.com/logos/doodles/2018/summer-solstice-2018-southern-hemisphere-5452030255562752-2xa.gif" property="twitter:image"/><meta content="https://www.google.com/logos/doodles/2018/summer-solstice-2018-southern-hemisphere-5452030255562752-2xa.gif" property="og:image"/><meta content="1132" property="og:image:width"/><meta content="400" property

***

In [8]:
with open('arquivo.html', 'r') as file:
    soup_string = BeautifulSoup(file.read(), 'html5lib')

In [9]:
print(soup_string)

<!DOCTYPE html>
<html lang="pt_BR"><head>
    <title>Exemplo Bootstrap</title>
    <meta charset="utf-8"/>
    <meta content="width=device-width, initial-scale=1" name="viewport"/>
    <link href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.7/css/bootstrap.min.css" rel="stylesheet"/>
    <script src="https://ajax.googleapis.com/ajax/libs/jquery/3.3.1/jquery.min.js"></script>
    <script src="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.7/js/bootstrap.min.js"></script>
  </head>
  <body>
    <div class="container">
      <h1>
          Meu projeto em Bootstrap
      </h1>
      <p>
        Lorem ipsum dolor sit amet, consectetur adipiscing elit. Etiam id ornare odio, eu tincidunt massa.
        In eget lorem augue. Sed auctor lacinia enim eu volutpat. Etiam sed massa dapibus, egestas ligula vel,
        vulputate ex. Sed efficitur enim ac enim pharetra consequat. Pellentesque ante lorem, tempor eu ex in,
        tincidunt pharetra diam. Sed ut mi iaculis, condimentum neque nec, cursu