<a href="https://colab.research.google.com/github/RenatoCosta10031979/WebScraping/blob/main/web__Crawling_e_Web_Scraping.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **1.0  Web Crawling e Web Scraping**








### **1.1. Pacote requests**

O pacote requests permiti interagir com a web por intermédio do protocolo mais  HTTP. A documentação protocolo HTTP pode ser acessada neste ([Link](https://docs.python-requests.org/en/latest/))

In [1]:
#Importar pacotes
import requests


In [2]:
#Verificar a versão do pacote requests
print(requests.__version__)

2.31.0


Método:

In [3]:
# realiza uma requisição via client
resposta = requests.get('https://www.gov.br')

In [4]:
# verificar o código de status code
print(resposta.status_code)

200


In [5]:
# importando a classe HTTPError
import requests
from requests.exceptions import HTTPError

#inicializando a variável conteúdo com o valor None
conteudo = None
URL = 'https://www.gov.br/renato'

#o bloco try tenta fazer uma requisição ao HTTP.
#Se a requisição for bem-sucedida, o bloco except
#não será executado. Se requisição falhar, o bloco except será executado.
try:
  resposta = requests.get(URL)
  resposta.raise_for_status()

#Lança uma exceção se  o código de status não for 200
except HTTPError as exc:
  print(exc)
else:
  conteudo = resposta.text
print(conteudo)


404 Client Error: Not Found for url: https://www.gov.br/renato
None


### **1.2 Web Crawl**

Web crawling é um processo de coleta automática de informações de páginas da web. É uma ferramenta poderosa que pode ser usada para uma variedade de propósitos, como:
* Indexação de sites para mecanismos de pesquisa
* Análise de dados de marketing
* Recuperação de informações

No entanto, é importante tomar alguns cuidados ao realizar web crawling:

* Obtenha permissão do proprietário do site antes de fazer crawling
* Respeite os limites de largura de banda do site
* Não abuse dos recursos do site
* Não se envolva em atividades que possam prejudicar o site

Geralmente os sites fornece um arquivo chamado `robots.txt` informando como um web crawler pode interagir com a página.

**Exemplo de web crawler**

In [6]:
import requests
from requests.exceptions import HTTPError

# é recomendável manter essa função craw_website para que toda vez
# realizar requisições http a função possa retornar o status code
# A função crawl_website recebe uma url como parâmetro e retorna uma string
def crawl_website(url: str) -> str:

# Tenta fazer uma solicitação GET para a URL
  try:
    resposta = requests.get(url)

# o metodo raise_for_status() lança uma exceção se o código de status não for 200
# isto é, verifica se a solicitação HTTP foi bem-sucedida, senão lança a exceção HTTPError.
    resposta.raise_for_status()

#Lança uma exceção se o código de status da resposta não for 200
  except HTTPError as exc:
    print(exc)

# Se a solicitação for bem-sucedida, retorna o conteúdo da resposta
  else:
    return resposta.text

**Robots.txt**\
Um arquivo robots.txt é um arquivo de texto simples que é armazenado na raiz de um site. Ele é usado para fornecer instruções aos rastreadores de mecanismos de pesquisa sobre quais partes do site  podem ser rastreadas e indexadas.

In [7]:
#Consultar o arquivo robots.txt para verificar as permissões de rastreamentos permitido no site
URL ='https://en.wikipedia.org/robots.txt'
conteudo = crawl_website(url=URL)
print(conteudo)

﻿# robots.txt for http://www.wikipedia.org/ and friends
#
# Please note: There are a lot of pages on this site, and there are
# some misbehaved spiders out there that go _way_ too fast. If you're
# irresponsible, your access to the site may be blocked.
#

# Observed spamming large amounts of https://en.wikipedia.org/?curid=NNNNNN
# and ignoring 429 ratelimit responses, claims to respect robots:
# http://mj12bot.com/
User-agent: MJ12bot
Disallow: /

# advertising-related bots:
User-agent: Mediapartners-Google*
Disallow: /

# Wikipedia work bots:
User-agent: IsraBot
Disallow:

User-agent: Orthogaffe
Disallow:

# Crawlers that are kind enough to obey, but which we'd rather not have
# unless they're feeding search engines.
User-agent: UbiCrawler
Disallow: /

User-agent: DOC
Disallow: /

User-agent: Zao
Disallow: /

# Some bots are known to be trouble, particularly those designed to copy
# entire sites. Please obey robots.txt.
User-agent: sitecheck.internetseer.com
Disallow: /

User-agent: 

In [8]:
#extrair a página html da wikipédia sobre web crawlers
URL = 'https://en.wikipedia.org/wiki/web_crawler'
conteudo = crawl_website(url=URL)
print(conteudo)

<!DOCTYPE html>
<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-zebra-design-disabled vector-feature-custom-font-size-clientpref-0 vector-feature-client-preferences-disabled vector-feature-typography-survey-disabled vector-toc-available" lang="en" dir="ltr">
<head>
<meta charset="UTF-8">
<title>Web crawler - Wikipedia</title>
<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpre

## 2.0 **Web Scraping**

O web scraping é usado para coletar informações  específicas do conteúdo de uma página da web.

### **2.1. Pacote beautifulsoup4**


O pacote BeautifulSoup4 é uma biblioteca Python que fornece uma API fácil de usar para analisar o código HTL de uma página web. O BeautifulSoup4 é uma ferramenta poderosa que pode ser usada para coletar informações da web de forma eficiente e precisa. Este pacote é normalmente usado em conjunto com outras bibliotecas Python, como requests, para acessar e baixa o conteúdo de uma página web. ([link](https://www.crummy.com/software/BeautifulSoup/bs4/doc/))

Applicação que extrai conteúdo de páginas wev de forma automatizada, em geral é aplicado o processo de web crawling

**Exemplo**: Extrair todo o texto da página Wikipédia sobre web crawlers e conta a ocorrência de vezes que a palavra crawler aparece.

In [9]:
# capturar a URL do site wikipédia utilizando o processo de crawling
URL = 'https://en.wikipedia.org/wiki/web_crawler'

# a variável conteudo armazena a url do site apos passar pela validação da função crawl_website
conteudo = crawl_website(url=URL)

#cria  e grava um arquivo do tipo html contendo o conteúdo da página wikipédia
with open(file='wiki.html', mode='w', encoding='utf8') as arquivo:
  arquivo.write(conteudo)

Aplicando o processo de scraping utilizando a biblioteca Python BeatifulSoap4

In [10]:
#importa a biblioteca BeatifulSoup
from bs4 import BeautifulSoup
#abre a o arquivo no modo de leitura
pagina = BeautifulSoup(open('wiki.html', mode='r'), 'html.parser')

#imprimir somente informações específicas que neste caso, foi
#solicitado para imprimir informações onde contém a tag 'li'
pagina_li = pagina.find_all('li')
print(pagina_li)


[<li class="mw-list-item" id="n-mainpage-description"><a accesskey="z" href="/wiki/Main_Page" title="Visit the main page [z]"><span>Main page</span></a></li>, <li class="mw-list-item" id="n-contents"><a href="/wiki/Wikipedia:Contents" title="Guides to browsing Wikipedia"><span>Contents</span></a></li>, <li class="mw-list-item" id="n-currentevents"><a href="/wiki/Portal:Current_events" title="Articles related to current events"><span>Current events</span></a></li>, <li class="mw-list-item" id="n-randompage"><a accesskey="x" href="/wiki/Special:Random" title="Visit a randomly selected article [x]"><span>Random article</span></a></li>, <li class="mw-list-item" id="n-aboutsite"><a href="/wiki/Wikipedia:About" title="Learn about Wikipedia and how it works"><span>About Wikipedia</span></a></li>, <li class="mw-list-item" id="n-contactpage"><a href="//en.wikipedia.org/wiki/Wikipedia:Contact_us" title="How to contact Wikipedia"><span>Contact us</span></a></li>, <li class="mw-list-item" id="n-si

In [11]:
#leitura do texto com as tags
ler_texto = BeautifulSoup(open('wiki.html', mode='r'), 'html.parser')
print(ler_texto)

<!DOCTYPE html>

<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-zebra-design-disabled vector-feature-custom-font-size-clientpref-0 vector-feature-client-preferences-disabled vector-feature-typography-survey-disabled vector-toc-available" dir="ltr" lang="en">
<head>
<meta charset="utf-8"/>
<title>Web crawler - Wikipedia</title>
<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientp

In [12]:
# leitura do texto  sem as tags
ler_texto = BeautifulSoup(open('wiki.html', mode='r'), 'html.parser')

#extrai somente o texto pelo método get_text()
texto = ler_texto.get_text()
print(texto)





Web crawler - Wikipedia




































Jump to content







Main menu





Main menu
move to sidebar
hide



		Navigation
	


Main pageContentsCurrent eventsRandom articleAbout WikipediaContact usDonate





		Contribute
	


HelpLearn to editCommunity portalRecent changesUpload file





Languages

Language links are at the top of the page across from the title.



















Search











Search








Create accountLog in






Personal tools





 Create account Log in





		Pages for logged out editors learn more



ContributionsTalk


























Contents
move to sidebar
hide




(Top)





1Nomenclature







2Overview







3Crawling policy



Toggle Crawling policy subsection





3.1Selection policy





3.1.1Restricting followed links







3.1.2URL normalization







3.1.3Path-ascending crawling







3.1.4Focused crawling





3.1.4.1Academic focused crawler







3.1.4.2Semantic focused crawler











3.2Re-visit

In [13]:
#importar a biblioteca regex ( expressão regulares)
import re

# a variável ocorrencias armazena a quantidade de vezes que a palavra crawler aparece no texto
#extraído da página html anterioremente. re.findall encontra a palavra e o len() conta a quantidade de
#vezes que a palavra aparece no texto.
ocorrencias = len(re.findall('crawler', texto, re.IGNORECASE))
print(ocorrencias)

177


## **3.0 Web API**

Uma API(application programming interface) é uma interface de comunicação com uma aplicação no formato cliente/servidor. Uma REST API é uma API que segue o padrão HTTP e transfere dados no formato JSON.

**Exemplo**: consumindo uma API da taxa CDI do site da bolsa de valores B3.

In [14]:
#cria uma variável vazia  que irá receber o json com as informaçoes da API
conteudo = None

# url que contém a API
URL = 'https://www2.cetip.com.br/ConsultarTaxaDi/ConsultarTaxaDICetip.aspx'

#Verifica se a requisição get é bem sucedida. Se sim, retorna status code 200
try:
  resposta = requests.get(URL)
  resposta.raise_for_status()

# retorna uma exceção caso o status code for diferente 200
except HTTPError as exc:
    print(exc)

# o servidor retorna para o cliente a requisção feita
else:
  conteudo = resposta.text
print(conteudo)
print(type(conteudo))

{"taxa":"12,15","dataTaxa":"16/11/2023","indice":"42.251,94","dataIndice":"17/11/2023"}
<class 'str'>


In [15]:
import json

#carrega as informações da API para um arquivo json
data = json.loads(conteudo)
print(data)

{'taxa': '12,15', 'dataTaxa': '16/11/2023', 'indice': '42.251,94', 'dataIndice': '17/11/2023'}


In [16]:
# Substituir a virgula (,) por ponto(.) e faz um cast para float e armazena comente o valor da taxa
cdi = float(data['taxa'].replace(',', '.'))

#imprime somente o valor da taxa cdi
print(cdi)

12.15
