# Introdução ao Web Scraping com Python

## Michel Souza Santana

* Data de início: 09 de maio de 2023

* Duração: 60 horas

> Descrição: 

Este curso irá ensinar a você os fundamentos do Web Scraping utilizando a linguagem de programação Python. Com o aumento da quantidade de dados disponíveis na internet, a habilidade de coletar e analisar informações da web é cada vez mais valorizada no mercado de trabalho. Neste curso, você irá aprender desde os conceitos básicos de HTML e CSS até a utilização de bibliotecas como requests, Beautiful Soup e Selenium para coletar e analisar dados de páginas web. Além disso, também iremos abordar boas práticas de Web Scraping ético e o armazenamento de dados. Ao final do curso, você estará pronto para desenvolver seu próprio Web Scraper e aplicar seus conhecimentos em projetos reais.

> Autor: 

Michel Souza Santana é formado em Análise e Desenvolvimento de Sistemas e atua na área de Engenharia de Dados há mais de 5 anos, com experiência em coleta e análise de dados de diferentes fontes. Além disso, é entusiasta da tecnologia e das possibilidades que a análise de dados pode trazer para as empresas e para a sociedade em geral.

Este curso é ideal para estudantes, analistas de dados, desenvolvedores e qualquer pessoa que queira aprender a coletar e analisar informações da web de forma automatizada. Não é necessário conhecimento prévio em Web Scraping ou Python, mas é recomendado que você tenha um conhecimento básico em programação.

*****

## Índice:

* 1 - Introdução ao Web Scraping
    * 1.1 O que é Web Scraping?
    * 1.2 Por que é importante?
    * 1.3 Ferramentas para Web Scraping
>...   

* 2 - HTML básico e CSS
    * 2.1 Estrutura de uma página HTML
    * 2.2 Tags HTML básicas
    * 2.3 CSS para estilização de páginas
>...

* 3 - Requisições HTTP e Biblioteca requests
    * 3.1 O que é uma requisição HTTP?
    * 3.2 Biblioteca requests em Python
    * 3.3 Fazendo uma requisição HTTP em Python
    * 3.4 Tratando erros com try/except
>...

* 4 - Analisando HTML com Beautiful Soup
    * 4.1 O que é Beautiful Soup?
    * 4.2 Analisando HTML com Beautiful Soup
    * 4.3 Buscando elementos HTML específicos
    * 4.4 Tratando erros com try/except
>...

* 5 - Armazenamento de dados
    * 6.1 Formatos de dados comuns
    * 6.2 Armazenando dados em um arquivo CSV
    * 6.3 Armazenando dados em um banco de dados
>...

* 6 - Introdução ao Web Scraping Ético
    * 7.1 O que é Web Scraping ético?
    * 7.2 Legislação sobre Web Scraping
    * 7.3 Boas práticas de Web Scraping ético
>...

* 7 - Projeto Final
    * 8.1 Desenvolvendo um Web Scraper completo
    * 8.2 Implementando o armazenamento de dados
    * 8.3 Tratando erros com try/except
    * 8.4 Boas práticas de Web Scraping ético
>...

## 1 - Introdução ao Web Scraping

### 1.1 O que é Web Scraping?

Web Scraping é uma técnica utilizada para extrair informações de páginas da web de forma automatizada. Ela permite que os dados sejam coletados de maneira mais rápida e eficiente do que se fosse feito manualmente.

Imagine que você precisa coletar informações de diversos sites para realizar uma pesquisa de mercado. Fazer isso manualmente seria uma tarefa demorada e tediosa, pois você teria que entrar em cada página, encontrar as informações desejadas e copiá-las para um documento.

Com o Web Scraping, é possível automatizar todo esse processo. Você pode escrever um programa que acesse as páginas da web, procure as informações desejadas e as salve em um formato estruturado, como um arquivo CSV ou um banco de dados.

Existem diversas ferramentas e bibliotecas que podem ser utilizadas para aplicar a técnica de Web Scraping, como a biblioteca requests e a biblioteca Beautiful Soup em Python, além do Selenium para Web Scraping dinâmico.

Há inúmeros exemplos em que o Web Scraping pode ser aplicado. Uma das aplicações mais comuns é a coleta de informações de sites de e-commerce para análise de preços e concorrência. Imagine que você é proprietário de uma loja virtual e precisa manter seus preços competitivos em relação aos concorrentes. Com o Web Scraping, é possível coletar automaticamente os preços dos produtos de seus concorrentes e analisá-los em um formato estruturado, permitindo que você tome decisões estratégicas com base nessas informações.

Outro exemplo de aplicação do Web Scraping é na área de análise de dados e pesquisa de mercado. Muitas empresas precisam coletar informações de diferentes fontes para realizar análises de mercado e identificar tendências. Com o Web Scraping, é possível automatizar esse processo e coletar as informações desejadas de maneira mais rápida e eficiente.

É importante ressaltar que o Web Scraping deve ser feito com responsabilidade e ética, respeitando as políticas de privacidade dos sites e a legislação vigente. Por isso, é fundamental entender as boas práticas de Web Scraping ético e aplicá-las em seus projetos.

### 1.2 Por que é importante?

Web Scraping é uma técnica poderosa que pode ajudar a coletar e analisar informações de uma ampla variedade de fontes na web. Ele permite que você automatize tarefas que seriam demoradas ou impossíveis de realizar manualmente, tornando o processo de coleta de dados mais rápido, eficiente e preciso.

A capacidade de extrair informações da web pode ser extremamente valiosa em diversos setores, incluindo negócios, pesquisa científica, análise de mercado, jornalismo, entre outros. Por exemplo, em uma empresa de análise de dados, o Web Scraping pode ser usado para coletar informações de diferentes fontes, como sites de notícias, blogs e redes sociais, e integrá-las em um formato estruturado para análise. Isso pode ajudar a empresa a identificar tendências, padrões e insights importantes que podem ser usados para tomar decisões mais informadas e baseadas em dados.

Além disso, o Web Scraping pode ser usado para automatizar processos em diferentes setores. Por exemplo, em uma loja online, o Web Scraping pode ser usado para coletar informações sobre preços e estoques de produtos de concorrentes e atualizar automaticamente os preços e estoques da loja em conformidade. Isso pode ajudar a loja a manter seus preços competitivos e aumentar suas vendas.

No entanto, é importante lembrar que o Web Scraping também apresenta desafios. Por exemplo, é preciso lidar com grandes volumes de dados, bem como questões legais e éticas, como violação de direitos autorais e privacidade. É importante estar ciente desses desafios e estar em conformidade com as leis e regulamentos aplicáveis ao usar o Web Scraping.

### 1.3 Ferramentas para Web Scraping

As ferramentas para Web Scraping são importantes porque facilitam o processo de extração de dados de uma página da web. Existem diversas opções disponíveis no mercado, desde ferramentas simples que podem ser usadas por iniciantes até ferramentas mais avançadas que oferecem uma ampla gama de recursos.

Algumas das ferramentas mais populares para Web Scraping incluem BeautifulSoup, Scrapy, Selenium e Requests. Cada uma dessas ferramentas tem suas próprias vantagens e desvantagens, e é importante escolher a que melhor se adapta às suas necessidades específicas.

O BeautifulSoup, por exemplo, é uma biblioteca Python que é amplamente utilizada para analisar e extrair dados de páginas HTML e XML. É conhecida por sua facilidade de uso e flexibilidade, tornando-a uma escolha popular entre os desenvolvedores.

O Scrapy, por outro lado, é um framework mais avançado que oferece muitos recursos para automatizar a extração de dados da web. É particularmente útil para a extração de grandes quantidades de dados de sites complexos.

O Selenium é uma ferramenta útil para Web Scraping dinâmico, ou seja, para extrair dados de páginas que mudam dinamicamente. Ele simula a interação humana com o navegador, permitindo que você extraia dados de páginas que não podem ser facilmente acessadas usando ferramentas convencionais.

Já o Requests é uma biblioteca Python simples que permite enviar solicitações HTTP e obter informações de uma página da web. É uma escolha popular para tarefas simples de Web Scraping e é fácil de usar.

Independentemente da ferramenta escolhida, é importante lembrar que o Web Scraping deve ser realizado de forma ética e respeitando as leis e direitos autorais.

## 2 - HTML básico e CSS


### 2.1 Estrutura de uma página HTML

A estrutura de uma página HTML (Hypertext Markup Language) é fundamental para entender como realizar o Web Scraping em uma página. O HTML é a linguagem de marcação usada para criar páginas web e é composto por elementos que fornecem informações sobre a estrutura e o conteúdo da página.

A estrutura básica de uma página HTML inclui a tag < html>, que define o início e o fim do documento HTML, e a tag < body>, que contém o conteúdo visível da página, como texto, imagens, links e outros elementos.

Dentro do < body> é possível incluir outras tags HTML que irão definir a estrutura do conteúdo da página. Por exemplo, a tag < header> é usada para definir o cabeçalho da página, enquanto a tag < footer> é usada para definir o rodapé.

Além disso, é possível usar as tags < div> e < span> para agrupar elementos em blocos ou em linhas. Esses elementos podem ser estilizados com CSS (Cascading Style Sheets) para melhorar a aparência da página.

Por exemplo, imagine que você deseje extrair informações de um site de notícias. Ao analisar a estrutura da página HTML, você pode identificar as tags usadas para exibir os títulos das notícias, a data de publicação e o corpo da matéria. Com essas informações, é possível criar um script de Web Scraping que coleta as notícias e as armazena em um arquivo CSV ou em um banco de dados.
   

* Exemplo de código de uma págia html

In [222]:
"""

<!DOCTYPE html>
<html>
<head>
	<title>Título da Página</title>
	<meta charset="UTF-8">
	<meta name="viewport" content="width=device-width, initial-scale=1.0">
	<link rel="stylesheet" type="text/css" href="estilos.css">
</head>
<body>
	<header>
		<h1>Meu Site</h1>
		<nav>
			<ul>
				<li><a href="#">Home</a></li>
				<li><a href="#">Sobre</a></li>
				<li><a href="#">Contato</a></li>
			</ul>
		</nav>
	</header>
	<main>
		<section>
			<h2>Seção 1</h2>
			<p>Conteúdo da seção 1.</p>
		</section>
		<section>
			<h2>Seção 2</h2>
			<p>Conteúdo da seção 2.</p>
		</section>
	</main>
	<footer>
		<p>Direitos reservados &copy; 2023</p>
	</footer>
</body>
</html>

"""


'\n\n<!DOCTYPE html>\n<html>\n<head>\n\t<title>Título da Página</title>\n\t<meta charset="UTF-8">\n\t<meta name="viewport" content="width=device-width, initial-scale=1.0">\n\t<link rel="stylesheet" type="text/css" href="estilos.css">\n</head>\n<body>\n\t<header>\n\t\t<h1>Meu Site</h1>\n\t\t<nav>\n\t\t\t<ul>\n\t\t\t\t<li><a href="#">Home</a></li>\n\t\t\t\t<li><a href="#">Sobre</a></li>\n\t\t\t\t<li><a href="#">Contato</a></li>\n\t\t\t</ul>\n\t\t</nav>\n\t</header>\n\t<main>\n\t\t<section>\n\t\t\t<h2>Seção 1</h2>\n\t\t\t<p>Conteúdo da seção 1.</p>\n\t\t</section>\n\t\t<section>\n\t\t\t<h2>Seção 2</h2>\n\t\t\t<p>Conteúdo da seção 2.</p>\n\t\t</section>\n\t</main>\n\t<footer>\n\t\t<p>Direitos reservados &copy; 2023</p>\n\t</footer>\n</body>\n</html>\n\n'

### 2.2 Tags HTML 

As tags HTML são elementos fundamentais para a construção de páginas web. Elas definem a estrutura e o conteúdo da página, permitindo que os navegadores interpretem e exibam o conteúdo de forma correta. Algumas das tags HTML básicas incluem:

< html>: Define o início e o fim do documento HTML.

< head>: Contém informações sobre o documento, como o título e o CSS.

< body>: Define o conteúdo principal da página.

< h1> a < h6>: São utilizadas para criar títulos e subtítulos na página.

< p>: É utilizada para criar parágrafos na página.

< a>: É utilizada para criar links na página.

< img>: É utilizada para inserir imagens na página.

< ul> e < ol>: São utilizadas para criar listas não-ordenadas e ordenadas, respectivamente.

< li>: É utilizada para criar itens de lista.

Essas são apenas algumas das tags HTML básicas, existem muitas outras que podem ser utilizadas para criar páginas web mais complexas e ricas em conteúdo.
    

### 2.3 CSS para estilização de 

O CSS (Cascading Style Sheets) é uma linguagem utilizada para estilizar páginas web. Ela permite definir como os elementos HTML devem ser exibidos na página, controlando aspectos como cores, fontes, tamanhos, posicionamento e outros estilos visuais.

O CSS funciona em conjunto com o HTML, onde cada elemento HTML pode ser associado a uma ou mais regras CSS. Essas regras são definidas em um arquivo separado do HTML, chamado de arquivo CSS, ou diretamente no HTML através do atributo "style".

As regras CSS são compostas por um seletor e um conjunto de declarações. O seletor define qual elemento HTML será estilizado e as declarações definem as propriedades que serão aplicadas ao elemento. Por exemplo, para estilizar todos os parágrafos de um documento HTML, pode-se utilizar o seguinte código CSS:

css

Copy code

p {

    font-size: 16px;

    color: #333;

    line-height: 1.5;
    
}

Nesse exemplo, o seletor é a tag < p>, e as declarações definem que o tamanho da fonte será de 16 pixels, a cor do texto será um tom de cinza (#333) e o espaçamento entre linhas será de 1.5 vezes o tamanho da fonte.

Existem diversas propriedades CSS disponíveis, permitindo estilizar os elementos HTML de diversas formas e criar páginas web visualmente atraentes e personalizadas. Alguns exemplos de propriedades CSS incluem:

background-color: define a cor de fundo do elemento;
font-family: define a fonte utilizada pelo elemento;
text-align: define o alinhamento do texto dentro do elemento;
margin e padding: definem espaçamentos internos e externos do elemento.
Com o uso do CSS, é possível criar layouts complexos, aplicar animações e efeitos visuais, e adaptar a página para diferentes tamanhos de tela e dispositivos. É uma ferramenta essencial para qualquer desenvolvedor web.

## 3 - Requisições HTTP e Biblioteca requests

A comunicação entre um navegador e um servidor acontece através do protocolo HTTP (Hypertext Transfer Protocol), que é a base da World Wide Web. Para acessar uma página na web, o navegador envia uma solicitação (requisição) HTTP para o servidor, que responde com uma mensagem de resposta.

O Python oferece uma biblioteca chamada "Requests", que simplifica o processo de envio de requisições HTTP e o tratamento de respostas. Com a biblioteca Requests, podemos automatizar esse processo de envio de requisições e tratamento de respostas, facilitando a obtenção de informações da web.

A biblioteca Requests é um pacote que podemos instalar facilmente usando pip (gerenciador de pacotes do Python) e importar para nossos scripts Python. Uma vez importada, podemos usar suas funções e métodos para enviar requisições HTTP, lidar com cookies, autenticação, entre outros.

Vamos ver um exemplo simples de como fazer uma requisição HTTP usando a biblioteca Requests:

In [223]:
import requests

response = requests.get("https://www.google.com")

print(response.content)


b'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="pt-BR"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="xDJm5AAGXQeT-rxJLK1Qjg">(function(){window.google={kEI:\'C3daZP3iL5uH4dUP0aWr4AY\',kEXPI:\'0,1359409,6059,206,4804,2316,383,246,5,1129120,1197702,380789,16114,19397,9287,22431,1361,12318,2817,14764,4998,13228,3847,6885,32448,1983,2891,4140,7614,606,29880,1,46565,3,346,230,20583,4,1528,2304,29062,13065,18095,16786,5812,2545,4094,7596,1,42154,2,14022,2373,23366,5679,1020,31123,4567,6253,23424,1252,5835,14968,4332,5017,2467,445,2,2,1,24626,2006,8155,7381,1479,14490,874,7828,11805,7,1922,9779,36154,6305,2007,18191,5797,11,14329,14,82,19404,802,3370,5007,18960,578,1728,3097,3030,6110,3226,1815,4665,1804,6250,4222,493,2391,162,2333,17246,10958,3014,13,1250,382,7951,2279,2192,1439,1128,7344,1290,1098,6,483,14

Nesse exemplo, estamos fazendo uma requisição HTTP usando o método GET para acessar a página inicial do Google. O método requests.get() retorna um objeto do tipo Response, que contém várias informações sobre a resposta recebida do servidor, como o código de status, o conteúdo da resposta e os headers.

Estamos imprimindo o conteúdo da resposta com o método content, que retorna o conteúdo da resposta em bytes. Podemos manipular esse conteúdo de várias formas, como converter para texto, analisar com a biblioteca BeautifulSoup, ou salvar em um arquivo.

A biblioteca Requests também permite enviar dados através de formulários, autenticar em servidores, e outros recursos que nos permitem explorar a web de forma automatizada.

Lembrando que ao fazer requisições HTTP, é importante estar ciente das políticas de uso de cada website, pois algumas podem proibir o acesso automatizado ou impor limites de acesso. É importante respeitar essas políticas para evitar problemas legais ou bloqueios de acesso.

### 3.1 O que é uma requisição HTTP?

O protocolo HTTP (Hypertext Transfer Protocol) é um protocolo utilizado na comunicação entre clientes e servidores na web. As requisições HTTP são utilizadas para solicitar dados e informações de um servidor web para serem exibidos em um navegador.

Basicamente, uma requisição HTTP consiste em um cabeçalho e um corpo. O cabeçalho contém informações sobre a requisição, como o tipo de método utilizado (GET, POST, PUT, DELETE, etc.), a URL do servidor, e informações sobre o cliente que está fazendo a requisição. O corpo da requisição é opcional e é utilizado para enviar dados do cliente para o servidor, como informações de formulário.

Por exemplo, se você digitar uma URL em seu navegador, o navegador envia uma requisição HTTP para o servidor do site correspondente, solicitando a página da web. O servidor responde a essa requisição, enviando o HTML da página de volta para o navegador, que o exibe para você.

É importante entender as requisições HTTP para trabalhar com Web Scraping, pois muitas vezes precisamos enviar requisições para obter os dados que queremos raspar de um site. A biblioteca requests em Python é uma ferramenta muito útil para enviar e receber requisições HTTP em projetos de Web Scraping.

### 3.2 Biblioteca requests em Python

A biblioteca requests é uma das mais populares para trabalhar com requisições HTTP em Python. Com ela, podemos facilmente fazer requisições GET, POST, PUT, DELETE, entre outras, e manipular os dados que recebemos de volta.

Para utilizá-la, primeiro precisamos instalá-la. Podemos fazer isso pelo gerenciador de pacotes pip, digitando no terminal ou prompt de comando: 

In [224]:
pip install requests


Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


Depois de instalada, podemos importá-la em nosso código:

In [225]:
import requests


Para fazer uma requisição HTTP com o método GET, basta utilizar a função requests.get(url), onde url é a URL do recurso que queremos acessar. Por exemplo:

In [226]:
response = requests.get("https://api.github.com/users/octocat")


Neste exemplo, estamos acessando a API do GitHub para obter informações do usuário "octocat". O objeto response contém os dados que foram retornados pela requisição.

Podemos então manipular os dados recebidos. Por exemplo, para obter o conteúdo da resposta como uma string, podemos utilizar o atributo text:

In [227]:
print(response.text)


{"login":"octocat","id":583231,"node_id":"MDQ6VXNlcjU4MzIzMQ==","avatar_url":"https://avatars.githubusercontent.com/u/583231?v=4","gravatar_id":"","url":"https://api.github.com/users/octocat","html_url":"https://github.com/octocat","followers_url":"https://api.github.com/users/octocat/followers","following_url":"https://api.github.com/users/octocat/following{/other_user}","gists_url":"https://api.github.com/users/octocat/gists{/gist_id}","starred_url":"https://api.github.com/users/octocat/starred{/owner}{/repo}","subscriptions_url":"https://api.github.com/users/octocat/subscriptions","organizations_url":"https://api.github.com/users/octocat/orgs","repos_url":"https://api.github.com/users/octocat/repos","events_url":"https://api.github.com/users/octocat/events{/privacy}","received_events_url":"https://api.github.com/users/octocat/received_events","type":"User","site_admin":false,"name":"The Octocat","company":"@github","blog":"https://github.blog","location":"San Francisco","email":null

Para obter o conteúdo como um objeto JSON, podemos utilizar o atributo json:

In [228]:
data = response.json()
print(data["name"])


The Octocat


Além do método GET, a biblioteca requests também nos permite fazer outras requisições HTTP, como POST, PUT e DELETE. Para isso, basta utilizar as funções requests.post(url), requests.put(url) e requests.delete(url), respectivamente, passando a URL e os dados a serem enviados, se necessário.

O uso da biblioteca requests torna a manipulação de requisições HTTP em Python mais fácil e eficiente, e é uma ferramenta importante para o web scraping.

 ### 3.3 Fazendo uma requisição HTTP em Python

Para fazer uma requisição HTTP em Python utilizando a biblioteca requests, é necessário seguir alguns passos simples:

1 - Importar a biblioteca requests

In [229]:
import requests


2 - Utilizar o método get() para fazer a requisição HTTP

In [230]:
response = requests.get('https://www.example.com')


Nesse exemplo, estamos fazendo uma requisição HTTP para o website https://www.example.com.

3 - Verificar o código de status da resposta

In [231]:
if response.status_code == 200:
    print('Requisição bem sucedida!')


Requisição bem sucedida!


O código de status 200 indica que a requisição foi bem sucedida.

4 - Acessar o conteúdo da resposta

In [232]:
print(response.content)


b'<!doctype html>\n<html>\n<head>\n    <title>Example Domain</title>\n\n    <meta charset="utf-8" />\n    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />\n    <meta name="viewport" content="width=device-width, initial-scale=1" />\n    <style type="text/css">\n    body {\n        background-color: #f0f0f2;\n        margin: 0;\n        padding: 0;\n        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;\n        \n    }\n    div {\n        width: 600px;\n        margin: 5em auto;\n        padding: 2em;\n        background-color: #fdfdff;\n        border-radius: 0.5em;\n        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);\n    }\n    a:link, a:visited {\n        color: #38488f;\n        text-decoration: none;\n    }\n    @media (max-width: 700px) {\n        div {\n            margin: 0 auto;\n            width: auto;\n        }\n    }\n    </style>    \n</head>\n\n<body>\n<div>\n    

O conteúdo da resposta pode ser acessado através do atributo content.

Além do método get(), a biblioteca requests também possui outros métodos para fazer requisições HTTP, como o post() e o put(), por exemplo. É importante também tratar possíveis erros ao fazer requisições HTTP, utilizando blocos try/except para lidar com exceções que possam ocorrer.

### 3.4 Tratando erros com try/except

Quando fazemos requisições HTTP em Python, é importante considerar que podem ocorrer erros inesperados durante o processo. Por exemplo, a página que estamos tentando acessar pode estar temporariamente indisponível, ou a conexão com a internet pode estar interrompida.

Para lidar com essas situações de erro, podemos utilizar o bloco try/except. O try é o bloco em que colocamos o código que queremos tentar executar, e o except é o bloco em que colocamos o código que queremos executar caso ocorra um erro durante a execução do try.

Vejamos um exemplo de como usar o try/except ao fazer uma requisição HTTP com a biblioteca requests:

In [233]:
import requests

url = 'https://api.github.com/users/octocat'

try:
    response = requests.get(url)
    response.raise_for_status()
except requests.exceptions.HTTPError as http_err:
    print(f'HTTP error occurred: {http_err}')
except Exception as err:
    print(f'Other error occurred: {err}')
else:
    print('Requisição bem-sucedida!')
    print(response.text)

Requisição bem-sucedida!
{"login":"octocat","id":583231,"node_id":"MDQ6VXNlcjU4MzIzMQ==","avatar_url":"https://avatars.githubusercontent.com/u/583231?v=4","gravatar_id":"","url":"https://api.github.com/users/octocat","html_url":"https://github.com/octocat","followers_url":"https://api.github.com/users/octocat/followers","following_url":"https://api.github.com/users/octocat/following{/other_user}","gists_url":"https://api.github.com/users/octocat/gists{/gist_id}","starred_url":"https://api.github.com/users/octocat/starred{/owner}{/repo}","subscriptions_url":"https://api.github.com/users/octocat/subscriptions","organizations_url":"https://api.github.com/users/octocat/orgs","repos_url":"https://api.github.com/users/octocat/repos","events_url":"https://api.github.com/users/octocat/events{/privacy}","received_events_url":"https://api.github.com/users/octocat/received_events","type":"User","site_admin":false,"name":"The Octocat","company":"@github","blog":"https://github.blog","location":"Sa

In [234]:
import requests

url = 'https://api.github.com/users/octocat/ide.csv'

try:
    response = requests.get(url)
    response.raise_for_status()
except requests.exceptions.HTTPError as http_err:
    print(f'HTTP error occurred: {http_err}')
except Exception as err:
    print(f'Other error occurred: {err}')
else:
    print('Requisição bem-sucedida!')
    print(response.text)


HTTP error occurred: 404 Client Error: Not Found for url: https://api.github.com/users/octocat/ide.csv


Nesse exemplo, fazemos uma requisição HTTP com a biblioteca requests para o site https://api.github.com/users/octocat. Em seguida, colocamos o código dentro do bloco try. Se a requisição for bem-sucedida, o código dentro do bloco else será executado, e o conteúdo da página será impresso na tela.

No entanto, se ocorrer um erro durante a requisição, o bloco except será executado. Se o erro for uma exceção HTTPError, que é uma exceção específica para erros HTTP, o código dentro do primeiro bloco except será executado e uma mensagem de erro HTTP será impressa na tela. Se ocorrer qualquer outro tipo de exceção, o código dentro do segundo bloco except será executado, e uma mensagem genérica de erro será impressa na tela.

## 4 - Analisando HTML com Beautiful Soup
    

### 4.1 O que é Beautiful Soup?

Beautiful Soup é uma biblioteca Python utilizada para extrair informações de arquivos HTML e XML. Ela permite que você analise o conteúdo de uma página da web e encontre elementos específicos com facilidade, tornando mais fácil a criação de um web scraper.

A biblioteca recebe uma string contendo o código HTML e a transforma em um objeto que pode ser percorrido e manipulado através de métodos Python. É uma ferramenta bastante flexível, permitindo diferentes estratégias de busca e extração de dados.

Além disso, a Beautiful Soup tem uma documentação bem completa e é fácil de aprender, o que a torna uma escolha popular entre desenvolvedores e cientistas de dados que desejam extrair dados de sites da web.

### 4.2 Analisando HTML com Beautiful Soup
Beautiful Soup é uma biblioteca Python que nos permite analisar e extrair dados de documentos HTML e XML de maneira fácil e eficiente. Com Beautiful Soup, podemos facilmente buscar e extrair informações específicas de uma página da web.

Para analisar um documento HTML com Beautiful Soup, precisamos seguir alguns passos básicos:

1 - Fazer uma requisição HTTP para obter o conteúdo HTML da página

2 - Criar um objeto BeautifulSoup a partir do conteúdo HTML

3 - Utilizar os métodos e atributos do objeto BeautifulSoup para extrair as informações desejadas

Vamos ver um exemplo simples de como analisar um documento HTML usando Beautiful Soup:

In [235]:
import requests
from bs4 import BeautifulSoup

# Fazer uma requisição HTTP para obter o conteúdo HTML da página
url = 'https://www.example.com'
response = requests.get(url)
content = response.content

# Criar um objeto BeautifulSoup a partir do conteúdo HTML
soup = BeautifulSoup(content, 'html.parser')

# Utilizar os métodos e atributos do objeto BeautifulSoup para extrair as informações desejadas
title = soup.title.text
print(title)


Example Domain


Neste exemplo, estamos fazendo uma requisição HTTP para obter o conteúdo HTML da página https://www.example.com. Em seguida, criamos um objeto BeautifulSoup a partir do conteúdo HTML usando o parser html.parser. Finalmente, utilizamos o atributo title do objeto BeautifulSoup para extrair o título da página e imprimimos na tela.

### 4.3 Buscando elementos HTML específicos

Para buscar elementos HTML específicos com o Beautiful Soup, podemos utilizar diferentes métodos e atributos disponíveis na biblioteca.

Um dos métodos mais comuns é o find, que busca a primeira ocorrência do elemento especificado. Por exemplo, se quisermos buscar a primeira ocorrência de uma tag h1 em uma página, podemos utilizar o seguinte código:


In [236]:
from bs4 import BeautifulSoup
import requests

url = 'https://youtube.com.br'
resposta = requests.get(url)
soup = BeautifulSoup(resposta.content, 'html.parser')

titulo = soup.find('div')
print(titulo)


<div class="ytd-searchbox-spt" id="search-container" slot="search-container"></div>


O código acima faz uma requisição HTTP para a URL especificada e utiliza o Beautiful Soup para analisar o conteúdo HTML retornado. Em seguida, utilizamos o método find para buscar a primeira ocorrência da tag h1. O resultado é armazenado na variável titulo, que pode ser impressa na tela ou utilizada de outras maneiras.

Além do método find, existem outros métodos e atributos disponíveis no Beautiful Soup para buscar elementos HTML específicos, como o find_all (para buscar todas as ocorrências de um elemento), o select (para buscar elementos com base em um seletor CSS) e diversos outros.

### 4.4 Tratando erros com try/except

Tratar erros é uma parte importante de qualquer programa, e isso inclui o código de web scraping. Às vezes, quando você tenta buscar um elemento específico em uma página, pode ocorrer algum erro, como a página não estar carregando corretamente ou o elemento não existir.

Para lidar com esses erros, podemos usar o bloco try/except do Python. Esse bloco permite que o programa tente executar uma determinada ação e, caso ocorra um erro, o programa não pare completamente. Em vez disso, podemos lidar com o erro de maneira apropriada e continuar a execução do programa.

Por exemplo, suponha que você esteja buscando um elemento específico em uma página da web usando Beautiful Soup, mas esse elemento pode ou não estar presente na página. Podemos usar o bloco try/except para lidar com essa situação:

In [237]:
from bs4 import BeautifulSoup
import requests

url = 'https://youtube.com.br'
response = requests.get(url)

soup = BeautifulSoup(response.content, 'html.parser')

try:
    element = soup.find('div', {'class': 'classe_do_elemento'})
    print(element.text)
except AttributeError:
    print('O elemento não foi encontrado')


O elemento não foi encontrado


Nesse exemplo, estamos tentando buscar um elemento div com a classe classe_do_elemento na página https://www.exemplo.com. Se o elemento for encontrado, o texto dentro dele será impresso. Caso contrário, será impressa a mensagem 'O elemento não foi encontrado'.

Ao usar o bloco try/except, estamos tornando nosso código mais robusto e resistente a falhas.

## 5 - Armazenamento de dados
    

### 5.1 Formatos de dados comuns

Existem diversos formatos de dados comuns utilizados na comunicação de sistemas, alguns dos principais são:

1 - JSON (JavaScript Object Notation): é um formato de dados leve e independente de linguagem de programação, amplamente utilizado para comunicação de dados na web. Possui uma estrutura simples de chave-valor e suporta vários tipos de dados como string, número, booleano, objeto e array.

Exemplo de JSON:

In [245]:
{
    "nome": "João",
    "idade": 30,
    "email": "joao@email.com",
    "telefones": ["(11) 1234-5678", "(11) 9876-5432"]
}


{'nome': 'João',
 'idade': 30,
 'email': 'joao@email.com',
 'telefones': ['(11) 1234-5678', '(11) 9876-5432']}

2 - XML (Extensible Markup Language): é uma linguagem de marcação para documentos que contém dados estruturados, permitindo que sejam facilmente processados por máquinas. Também é independente de linguagem de programação e tem como vantagem a possibilidade de validação do documento com um schema.

Exemplo de XML:

In [246]:
"""

<pessoa>
    <nome>João</nome>
    <idade>30</idade>
    <email>joao@email.com</email>
    <telefones>
        <telefone>(11) 1234-5678</telefone>
        <telefone>(11) 9876-5432</telefone>
    </telefones>
</pessoa>

"""


'\n\n<pessoa>\n    <nome>João</nome>\n    <idade>30</idade>\n    <email>joao@email.com</email>\n    <telefones>\n        <telefone>(11) 1234-5678</telefone>\n        <telefone>(11) 9876-5432</telefone>\n    </telefones>\n</pessoa>\n\n'

3 - CSV (Comma-Separated Values): é um formato de texto que representa dados em forma de tabela, em que cada linha corresponde a um registro e as colunas são separadas por vírgulas. É um formato simples e de fácil entendimento, podendo ser facilmente manipulado em planilhas.

Exemplo de CSV:

In [247]:
"""

nome,idade,email,telefones
João,30,joao@email.com,"(11) 1234-5678, (11) 9876-5432"

"""


'\n\nnome,idade,email,telefones\nJoão,30,joao@email.com,"(11) 1234-5678, (11) 9876-5432"\n\n'

4 - YAML (YAML Ain't Markup Language): é um formato de dados simples e legível por humanos, com uma estrutura hierárquica que utiliza espaços em branco para indicar a hierarquia. É utilizado principalmente em configurações de sistemas e linguagens de programação.

Exemplo de YAML:

In [248]:
"""

nome: João
idade: 30
email: joao@email.com
telefones:
  - (11) 1234-5678
  - (11) 9876-5432
  
"""


'\n\nnome: João\nidade: 30\nemail: joao@email.com\ntelefones:\n  - (11) 1234-5678\n  - (11) 9876-5432\n  \n'

### 5.2 Armazenando dados em um arquivo CSV

CSV (Comma Separated Values) é um formato de arquivo amplamente utilizado para armazenar e transmitir dados tabulares. É especialmente útil para armazenar grandes quantidades de dados que precisam ser facilmente compartilhados entre diferentes sistemas e aplicativos.

O Python tem uma biblioteca padrão chamada csv que facilita a leitura e gravação de dados em arquivos CSV. Para armazenar dados em um arquivo CSV, podemos seguir os seguintes passos:

Importar a biblioteca csv
Abrir o arquivo CSV para escrita
Escrever as linhas de dados no arquivo CSV
Fechar o arquivo CSV
Aqui está um exemplo simples que escreve uma lista de dicionários em um arquivo CSV:

In [242]:
import csv

data = [
    {'Nome': 'João', 'Idade': 25, 'Profissão': 'Engenheiro'},
    {'Nome': 'Maria', 'Idade': 30, 'Profissão': 'Professor'},
    {'Nome': 'Pedro', 'Idade': 35, 'Profissão': 'Programador'}
]

# Abre o arquivo CSV para escrita
with open('dados.csv', mode='w', newline='') as arquivo_csv:
    # Cria o escritor CSV
    escritor = csv.DictWriter(arquivo_csv, fieldnames=['Nome', 'Idade', 'Profissão'])

    # Escreve o cabeçalho
    escritor.writeheader()

    # Escreve os dados
    for linha in data:
        escritor.writerow(linha)


Neste exemplo, primeiro importamos a biblioteca csv. Em seguida, criamos uma lista de dicionários chamada data, que contém os dados que queremos armazenar em um arquivo CSV. Então, abrimos o arquivo CSV para escrita usando a função open, especificando o modo "w" para escrita e o argumento newline='' para evitar que linhas em branco sejam adicionadas ao arquivo.

Em seguida, criamos um objeto escritor CSV usando a classe DictWriter da biblioteca csv. Especificamos os nomes dos campos usando a lista fieldnames. Em seguida, escrevemos o cabeçalho do arquivo CSV usando o método writeheader.

Finalmente, usamos um loop for para escrever cada linha de dados no arquivo CSV usando o método writerow do objeto escritor CSV.

Depois de escrever todas as linhas de dados, fechamos o arquivo CSV usando o método close ou o bloco with. Agora, temos um arquivo CSV chamado dados.csv que contém nossos dados tabulares.

### 5.3 Armazenando dados em um banco de dados

Armazenar dados em um banco de dados é uma opção mais robusta e escalável do que armazená-los em um arquivo CSV. Existem vários tipos de bancos de dados que podem ser usados para armazenar dados, como bancos de dados relacionais (SQL) e bancos de dados NoSQL. Nesta resposta, vamos nos concentrar em um exemplo simples de armazenamento de dados em um banco de dados relacional usando o SQLite e a biblioteca sqlite3 do Python.

Antes de começar, é necessário ter o SQLite instalado em seu sistema. Para verificar se o SQLite já está instalado, abra o terminal e digite "sqlite3". Se o SQLite estiver instalado, você verá a linha de comando do SQLite. Caso contrário, você pode instalar o SQLite seguindo as instruções do site oficial (https://www.sqlite.org/download.html).

Depois de ter o SQLite instalado, você pode usar a biblioteca sqlite3 do Python para se conectar a um banco de dados SQLite e executar consultas SQL. Aqui está um exemplo simples de como criar uma tabela e inserir dados nela usando o sqlite3:
    

In [243]:
import sqlite3

# Conectar-se ao banco de dados
conn = sqlite3.connect('exemplo.db')

# Criar uma tabela
conn.execute('''CREATE TABLE clientes
             (ID INT PRIMARY KEY NOT NULL,
             NOME TEXT NOT NULL,
             EMAIL TEXT NOT NULL);''')

# Inserir dados na tabela
conn.execute("INSERT INTO clientes (ID,NOME,EMAIL) \
              VALUES (1, 'João', 'joao@email.com')")

# Salvar as alterações
conn.commit()

# Fechar a conexão
conn.close()


Neste exemplo, criamos uma tabela chamada "clientes" com três colunas: "ID", "NOME" e "EMAIL". Em seguida, inserimos um registro na tabela com os valores 1, "João" e "joao@email.com".

Você pode verificar se os dados foram inseridos corretamente executando a seguinte consulta SQL no SQLite:

In [244]:
import sqlite3

# Estabelece uma conexão com o banco de dados
conn = sqlite3.connect('exemplo.db')

# Cria um cursor para executar consultas
cur = conn.cursor()

# Executa a consulta
cur.execute('SELECT * FROM clientes')

# Lê os resultados da consulta
for row in cur:
    print(row)

# Fecha o cursor e a conexão
cur.close()
conn.close()



(1, 'João', 'joao@email.com')


Esta consulta deve retornar o registro que acabamos de inserir na tabela.

É importante observar que a biblioteca sqlite3 do Python também pode ser usada para executar outras consultas SQL, como SELECT, UPDATE, DELETE, etc., permitindo que você interaja com o banco de dados de várias maneiras. Além disso, você pode usar outras bibliotecas Python para se conectar a outros tipos de bancos de dados, como o MySQL e o PostgreSQL.