# Web Scraping

[Web Scraping](https://en.wikipedia.org/wiki/Web_scraping) é o processo de usar programação para extrair conteúdo e dados de um site.

Essas informações são coletadas e exportadas para um formato mais útil para o usuário. Seja uma planilha ou uma API.

Para aprender Web Scraping, a primeira coisa que você precisa entender são as páginas web. O que suporta todos os tipos de páginas web não é nada além de algum código. Chamamos esse tipo de código de **[HTML](https://www.w3schools.com/html/html_intro.asp)**. Um navegador (Chrome, Safari, IE, Firefox, etc.) é um software que entende a linguagem HTML, o navegador é capaz de converter essa linguagem na página web bonita que vemos.

Em HTML, basicamente toda entidade do conteúdo terá uma **tag** para enquadrá-la. O conteúdo marcado pode ser exibido em diferentes formas ou ter diferentes funções. A tag `html` principal é dividida em duas partes, `head` e `body`. No `head`, as meta-informações das páginas são armazenadas, por exemplo, o `title` que representa o título do website, essas informações não serão exibidas na página web que você vê. Na maioria das vezes, essas informações são para o navegador ou para os [search engines](https://en.wikipedia.org/wiki/Search_engine).

![img](https://raw.githubusercontent.com/the-akira/PythonExperimentos/master/Imagens/Tutoriais/DOM.png)

A segunda grande parte do HTML é o `body`; essa parte são as informações da página da web que você vê. No `body` da página web, vídeos, imagens e texto podem ser armazenados. A tag `<h1></h1>` representa o cabeçalho principal (um título grande). A tag `<p></p>` representa um parágrafo. A tag `<a></a>` serve para representar links que ligam as páginas do site entre si ou nos levam a outros sites externos. 

Sabendo o básico sobre como uma página web é constituída, podemos usar a biblioteca [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) da linguagem Python para extrair informações de websites.

Então, para começar, vamos precisar de HTML. Extraíremos o HTML da página [Ciência da Computação](https://cc33z.netlify.app/) usando a biblioteca Python [Requests](https://docs.python-requests.org/en/master/).

In [1]:
import requests

resposta = requests.get("https://cc33z.netlify.app")

if resposta.status_code != 200:
	print("Erro ao obter a página!")
else:
	html = resposta.text
print(html)

<!DOCTYPE html>
<html>
<head>
    <meta charset="utf-8">
    <title>Ciência da Computação</title>
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <meta name="description" content="Website de Ciência da Computação">
    <meta name="author" content="Gabriel Felippe">
    <link rel="stylesheet" type="text/css" href="styles/style.css">
    <script src="https://kit.fontawesome.com/abb211c046.js"></script>
</head>
<body>
    <div>
        <h1 id="titulo">Ciência da Computação</h1>
        <img class="imagem" src="imagens/CompSci.jpg">
        <p><b>Ciência da computação</b> é o estudo de computadores e computação, incluindo seus fundamentos teóricos e algorítmicos, hardware e software e seus usos para processamento de informações. A disciplina de ciência da computação inclui o estudo de algoritmos e estruturas de dados, design de computadores e redes, modelagem de dados e processos de informação, e inteligência artificial.</p>
        <p>A <a href="https://cc33

Antes de usarmos a biblioteca **BeautifulSoup**, podemos experimentar algumas [expressões regulares](https://en.wikipedia.org/wiki/Regular_expression) que também são muito úteis para extração de conteúdo.

Se quisermos encontrar o **título** desta página, podemos usar o seguinte código:

In [2]:
import re

título = re.findall(r"<title>(.+?)</title>", html)
print(f"O título da página é: {título[0]}")

O título da página é: Ciência da Computação


Se você quiser encontrar o conteúdo dos parágrafos `<p>` da página, podemos usamos o método a seguir:

In [3]:
parágrafos = re.findall(r"<p>(.*?)</p>", html)    

for parágrafo in parágrafos:
    print(parágrafo)

<b>Ciência da computação</b> é o estudo de computadores e computação, incluindo seus fundamentos teóricos e algorítmicos, hardware e software e seus usos para processamento de informações. A disciplina de ciência da computação inclui o estudo de algoritmos e estruturas de dados, design de computadores e redes, modelagem de dados e processos de informação, e inteligência artificial.
A <a href="https://cc33z.herokuapp.com/">ciência da computação</a> extrai alguns de seus fundamentos da matemática e da engenharia e, portanto, incorpora técnicas de áreas como teoria das filas, probabilidade e estatística e design de circuitos eletrônicos. A ciência da computação também faz uso intenso de testes de hipóteses e experimentação durante a conceituação, design, medição e refinamento de novos algoritmos, estruturas de informação e arquiteturas de computador.
A <b>programação de computador</b> é o processo de projetar e construir um programa de computador executável para realizar um resultado de c

Também podemos encontrar todos os links. Isso é mais útil. Às vezes, você deseja encontrar os links na página web e, em seguida, baixar algum conteúdo para o seu computador.

Para extrair todos os links, podemos usar o seguinte código:

In [4]:
links = re.findall(r'href="(.*?)"', html)

for link in links:
    print(link)

styles/style.css
https://cc33z.herokuapp.com/
https://www.tiobe.com/tiobe-index/
https://www.youtube.com/watch?v=SzJ46YA_RaA
https://www.youtube.com/playlist?list=PLWKjhJtqVAbn5emQ3RRG8gEBqkhf_5vxD
https://www.youtube.com/playlist?list=PLH2l6uzC4UEW0s7-KewFLBC1D0l6XRfye
https://www.youtube.com/playlist?list=PLhQjrBD2T382_R182iC2gNZI9HzWFMC_8
https://www.youtube.com/playlist?list=PLWKjhJtqVAbmfoj2Th9fvxhHIeqFO7wOy
https://www.youtube.com/playlist?list=PLUl4u3cNGP63WbdFxL8giv4yhgdMGaZNA
https://github.com/the-akira/CC33Z
https://twitter.com/akirascientist


Como último exercício antes de trabalharmos com **BeautifulSoup**, vamos extrair todos os emails da página web.

Para isso, podemos usar o código a seguir:

In [5]:
emails = re.findall(r'([\d\w\.]+@[\d\w\.\-]+\.\w+)', html)

for email in emails:
    print(email)

turing@science.com
tim@science.com
grace@science.com
donald@science.com
john@science.com
dennis@science.com
barbara@science.com
ada@science.com
charles@science.com
ken@science.com
shannon@science.com
dijkstra@science.com
guido@science.com
hinton@science.com
wirth@science.com
brian@science.com
bjarne@science.com
edgar@science.com
shamir@science.com
roberto@science.com


Vamos agora trabalhar com **BeautifulSoup**. Já temos o HTML acessível, usaremos o **BeautifulSoup** para analisá-lo. 

Se ainda não o fez, você pode instalar este pacote executando:`pip install beautifullsoup4`. 

No restante deste notebook, iremos nos referir a **BeautifulSoup4** como **BS4**.

Agora precisamos analisar o HTML e carregá-lo em uma estrutura **BS4**.

In [6]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')

Este objeto **soup** é muito útil e nos permite acessar facilmente muitas informações úteis, como:

O título HTML da página:

In [7]:
print(soup.title)

<title>Ciência da Computação</title>


Apenas o texto do título da página:

In [8]:
print(soup.title.string)

Ciência da Computação


Todos os links da página:

In [9]:
links = soup.find_all('a')
print(f"Existem {len(links)} links nessa página")

Existem 10 links nessa página


In [10]:
for link in links:
    print(link['href'])

https://cc33z.herokuapp.com/
https://www.tiobe.com/tiobe-index/
https://www.youtube.com/watch?v=SzJ46YA_RaA
https://www.youtube.com/playlist?list=PLWKjhJtqVAbn5emQ3RRG8gEBqkhf_5vxD
https://www.youtube.com/playlist?list=PLH2l6uzC4UEW0s7-KewFLBC1D0l6XRfye
https://www.youtube.com/playlist?list=PLhQjrBD2T382_R182iC2gNZI9HzWFMC_8
https://www.youtube.com/playlist?list=PLWKjhJtqVAbmfoj2Th9fvxhHIeqFO7wOy
https://www.youtube.com/playlist?list=PLUl4u3cNGP63WbdFxL8giv4yhgdMGaZNA
https://github.com/the-akira/CC33Z
https://twitter.com/akirascientist


Apenas os conteúdo textual da página:

In [31]:
print(soup.get_text().strip()[30:430])

Ciência da Computação

Ciência da computação é o estudo de computadores e computação, incluindo seus fundamentos teóricos e algorítmicos, hardware e software e seus usos para processamento de informações. A disciplina de ciência da computação inclui o estudo de algoritmos e estruturas de dados, design de computadores e redes, modelagem de dados e processos de informação, e inteligência artificial.


Podemos selecionar exclusivamente as linhas da tabela do website:

In [12]:
linhas_tabela = soup.find_all('tr')

for linha in linhas_tabela:
    print(linha)

<tr>
<th>Nome</th>
<th>País</th>
<th>Email</th>
</tr>
<tr>
<td>Alan Turing</td>
<td>Reino Unido</td>
<td>turing@science.com</td>
</tr>
<tr>
<td>Tim Berners-Lee</td>
<td>Reino Unido</td>
<td>tim@science.com</td>
</tr>
<tr>
<td>Grace Hopper</td>
<td>Estados Unidos</td>
<td>grace@science.com</td>
</tr>
<tr>
<td>Donald Knuth</td>
<td>Estados Unidos</td>
<td>donald@science.com</td>
</tr>
<tr>
<td>John Von Neumann</td>
<td>Hungria</td>
<td>john@science.com</td>
</tr>
<tr>
<td>Dennis Ritchie</td>
<td>Estados Unidos</td>
<td>dennis@science.com</td>
</tr>
<tr>
<td>Barbara Liskov</td>
<td>Estados Unidos</td>
<td>barbara@science.com</td>
</tr>
<tr>
<td>Ada Lovelace</td>
<td>Reino Unido</td>
<td>ada@science.com</td>
</tr>
<tr>
<td>Charles Babbage</td>
<td>Reino Unido</td>
<td>charles@science.com</td>
</tr>
<tr>
<td>Ken Thompson</td>
<td>Estados Unidos</td>
<td>ken@science.com</td>
</tr>
<tr>
<td>Claude Shannon</td>
<td>Estados Unidos</td>
<td>shannon@science.com</td>
</tr>
<tr>
<td>Edsger W. Dijks

E apenas os itens das listas:

In [13]:
itens = soup.find_all('li')

for item in itens:
    print(item)

<li>⇾ Teoria da Computação</li>
<li>⇾ Estruturas de Dados e Algoritmos</li>
<li>⇾ Teoria da linguagem de programação e métodos formais</li>
<li>⇾ Inteligência Artificial</li>
<li>⇾ Arquitetura e Organização de Computadores</li>
<li>⇾ Computação simultânea, paralela e distribuída</li>
<li>⇾ Redes de Computadores</li>
<li>⇾ Segurança de Computadores e Criptografia</li>
<li>⇾ Bancos de Dados e Mineração de Dados</li>
<li>⇾ Computação Gráfica e Visualização</li>
<li>⇾ Processamento de Imagens e Som</li>
<li>⇾ Computação social e interação humano-computador</li>
<li>⇾ Engenharia de Software</li>
<li><strong>Programação funcional</strong>: um estilo de construção da estrutura e dos elementos de programas de computador que trata a computação como a avaliação de funções matemáticas e evita o estado e os dados mutáveis. É um paradigma de programação declarativo, o que significa que a programação é feita com expressões ou declarações em vez de instruções.</li>
<li><strong>Programação imperativa<

Também podemos selecionar um elemento baseado no seu **id**, por exemplo:

In [35]:
elemento = soup.find(id="programming")
print(elemento)
print(elemento.text)

<h2 id="programming">Programação de Computadores</h2>
Programação de Computadores


Da mesma forma, podemos selecionar um elemento baseado em sua **class**, por exemplo:

In [32]:
imagem = soup.find(class_="imagem")
print(imagem)

<img class="imagem" src="imagens/CompSci.jpg"/>


E então podemos facilmente reconstruir a **URL** da imagem:

In [24]:
print(resposta.url + imagem['src'])

https://cc33z.netlify.app/imagens/CompSci.jpg


Temos a opção de obter o descendente direto de uma tag através do uso de seletores CSS:

In [25]:
h4 = soup.select("footer > h4")
print(h4[0])

<h4>Desenvolvido por Gabriel Felippe para o Curso de Web Scraping</h4>


Seguindo uma lógica similar, é possível selecionar o **nth-child** de um elemento:

In [26]:
h2 = soup.select("div h2:nth-of-type(3)")
print(h2[0])

<h2 id="pioneiros">Pioneiros da Computação</h2>


Esta foi uma apresentação dos fundamentos de Web Scraping com a biblioteca **BeautifulSoup**.

Para mais detalhes leia a **[documentação](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)**.