# Introdução ao Web Scraping com Python

## Michel Souza Santana

* Data de início: 09 de maio de 2023

* Duração: 60 horas

> Descrição: 

Este curso irá ensinar a você os fundamentos do Web Scraping utilizando a linguagem de programação Python. Com o aumento da quantidade de dados disponíveis na internet, a habilidade de coletar e analisar informações da web é cada vez mais valorizada no mercado de trabalho. Neste curso, você irá aprender desde os conceitos básicos de HTML e CSS até a utilização de bibliotecas como requests, Beautiful Soup e Selenium para coletar e analisar dados de páginas web. Além disso, também iremos abordar boas práticas de Web Scraping ético e o armazenamento de dados. Ao final do curso, você estará pronto para desenvolver seu próprio Web Scraper e aplicar seus conhecimentos em projetos reais.

> Autor: 

Michel Souza Santana é formado em Análise e Desenvolvimento de Sistemas e atua na área de Engenharia de Dados há mais de 5 anos, com experiência em coleta e análise de dados de diferentes fontes. Além disso, é entusiasta da tecnologia e das possibilidades que a análise de dados pode trazer para as empresas e para a sociedade em geral.

Este curso é ideal para estudantes, analistas de dados, desenvolvedores e qualquer pessoa que queira aprender a coletar e analisar informações da web de forma automatizada. Não é necessário conhecimento prévio em Web Scraping ou Python, mas é recomendado que você tenha um conhecimento básico em programação.

*****

## Índice:

* 1 - Introdução ao Web Scraping
    * 1.1 O que é Web Scraping?
    * 1.2 Por que é importante?
    * 1.3 Ferramentas para Web Scraping
>...   

* 2 - HTML básico e CSS
    * 2.1 Estrutura de uma página HTML
    * 2.2 Tags HTML básicas
    * 2.3 CSS para estilização de páginas
>...

* 3 - Requisições HTTP e Biblioteca requests
    * 3.1 O que é uma requisição HTTP?
    * 3.2 Biblioteca requests em Python
    * 3.3 Fazendo uma requisição HTTP em Python
    * 3.4 Tratando erros com try/except
>...

* 4 - Analisando HTML com Beautiful Soup
    * 4.1 O que é Beautiful Soup?
    * 4.2 Analisando HTML com Beautiful Soup
    * 4.3 Buscando elementos HTML específicos
    * 4.4 Tratando erros com try/except
>...

* 5 - Selenium para Web Scraping Dinâmico
    * 5.1 O que é Web Scraping dinâmico?
    * 5.2 Como o Selenium pode ajudar?
    * 5.3 Automatizando tarefas com o Selenium
    * 5.4 Tratando erros com try/except
>...

* 6 - Armazenamento de dados
    * 6.1 Formatos de dados comuns
    * 6.2 Armazenando dados em um arquivo CSV
    * 6.3 Armazenando dados em um banco de dados
    * 6.4 Tratando erros com try/except
>...

* 7 - Introdução ao Web Scraping Ético
    * 7.1 O que é Web Scraping ético?
    * 7.2 Legislação sobre Web Scraping
    * 7.3 Boas práticas de Web Scraping ético
>...

* 8 - Projeto Final
    * 8.1 Desenvolvendo um Web Scraper completo
    * 8.2 Implementando o armazenamento de dados
    * 8.3 Tratando erros com try/except
    * 8.4 Boas práticas de Web Scraping ético
>...

## 1 - Introdução ao Web Scraping

### 1.1 O que é Web Scraping?

Web Scraping é uma técnica utilizada para extrair informações de páginas da web de forma automatizada. Ela permite que os dados sejam coletados de maneira mais rápida e eficiente do que se fosse feito manualmente.

Imagine que você precisa coletar informações de diversos sites para realizar uma pesquisa de mercado. Fazer isso manualmente seria uma tarefa demorada e tediosa, pois você teria que entrar em cada página, encontrar as informações desejadas e copiá-las para um documento.

Com o Web Scraping, é possível automatizar todo esse processo. Você pode escrever um programa que acesse as páginas da web, procure as informações desejadas e as salve em um formato estruturado, como um arquivo CSV ou um banco de dados.

Existem diversas ferramentas e bibliotecas que podem ser utilizadas para aplicar a técnica de Web Scraping, como a biblioteca requests e a biblioteca Beautiful Soup em Python, além do Selenium para Web Scraping dinâmico.

Há inúmeros exemplos em que o Web Scraping pode ser aplicado. Uma das aplicações mais comuns é a coleta de informações de sites de e-commerce para análise de preços e concorrência. Imagine que você é proprietário de uma loja virtual e precisa manter seus preços competitivos em relação aos concorrentes. Com o Web Scraping, é possível coletar automaticamente os preços dos produtos de seus concorrentes e analisá-los em um formato estruturado, permitindo que você tome decisões estratégicas com base nessas informações.

Outro exemplo de aplicação do Web Scraping é na área de análise de dados e pesquisa de mercado. Muitas empresas precisam coletar informações de diferentes fontes para realizar análises de mercado e identificar tendências. Com o Web Scraping, é possível automatizar esse processo e coletar as informações desejadas de maneira mais rápida e eficiente.

É importante ressaltar que o Web Scraping deve ser feito com responsabilidade e ética, respeitando as políticas de privacidade dos sites e a legislação vigente. Por isso, é fundamental entender as boas práticas de Web Scraping ético e aplicá-las em seus projetos.

### 1.2 Por que é importante?

Web Scraping é uma técnica poderosa que pode ajudar a coletar e analisar informações de uma ampla variedade de fontes na web. Ele permite que você automatize tarefas que seriam demoradas ou impossíveis de realizar manualmente, tornando o processo de coleta de dados mais rápido, eficiente e preciso.

A capacidade de extrair informações da web pode ser extremamente valiosa em diversos setores, incluindo negócios, pesquisa científica, análise de mercado, jornalismo, entre outros. Por exemplo, em uma empresa de análise de dados, o Web Scraping pode ser usado para coletar informações de diferentes fontes, como sites de notícias, blogs e redes sociais, e integrá-las em um formato estruturado para análise. Isso pode ajudar a empresa a identificar tendências, padrões e insights importantes que podem ser usados para tomar decisões mais informadas e baseadas em dados.

Além disso, o Web Scraping pode ser usado para automatizar processos em diferentes setores. Por exemplo, em uma loja online, o Web Scraping pode ser usado para coletar informações sobre preços e estoques de produtos de concorrentes e atualizar automaticamente os preços e estoques da loja em conformidade. Isso pode ajudar a loja a manter seus preços competitivos e aumentar suas vendas.

No entanto, é importante lembrar que o Web Scraping também apresenta desafios. Por exemplo, é preciso lidar com grandes volumes de dados, bem como questões legais e éticas, como violação de direitos autorais e privacidade. É importante estar ciente desses desafios e estar em conformidade com as leis e regulamentos aplicáveis ao usar o Web Scraping.

### 1.3 Ferramentas para Web Scraping

As ferramentas para Web Scraping são importantes porque facilitam o processo de extração de dados de uma página da web. Existem diversas opções disponíveis no mercado, desde ferramentas simples que podem ser usadas por iniciantes até ferramentas mais avançadas que oferecem uma ampla gama de recursos.

Algumas das ferramentas mais populares para Web Scraping incluem BeautifulSoup, Scrapy, Selenium e Requests. Cada uma dessas ferramentas tem suas próprias vantagens e desvantagens, e é importante escolher a que melhor se adapta às suas necessidades específicas.

O BeautifulSoup, por exemplo, é uma biblioteca Python que é amplamente utilizada para analisar e extrair dados de páginas HTML e XML. É conhecida por sua facilidade de uso e flexibilidade, tornando-a uma escolha popular entre os desenvolvedores.

O Scrapy, por outro lado, é um framework mais avançado que oferece muitos recursos para automatizar a extração de dados da web. É particularmente útil para a extração de grandes quantidades de dados de sites complexos.

O Selenium é uma ferramenta útil para Web Scraping dinâmico, ou seja, para extrair dados de páginas que mudam dinamicamente. Ele simula a interação humana com o navegador, permitindo que você extraia dados de páginas que não podem ser facilmente acessadas usando ferramentas convencionais.

Já o Requests é uma biblioteca Python simples que permite enviar solicitações HTTP e obter informações de uma página da web. É uma escolha popular para tarefas simples de Web Scraping e é fácil de usar.

Independentemente da ferramenta escolhida, é importante lembrar que o Web Scraping deve ser realizado de forma ética e respeitando as leis e direitos autorais.

## 2 - HTML básico e CSS


### 2.1 Estrutura de uma página HTML

A estrutura de uma página HTML (Hypertext Markup Language) é fundamental para entender como realizar o Web Scraping em uma página. O HTML é a linguagem de marcação usada para criar páginas web e é composto por elementos que fornecem informações sobre a estrutura e o conteúdo da página.

A estrutura básica de uma página HTML inclui a tag < html>, que define o início e o fim do documento HTML, e a tag < body>, que contém o conteúdo visível da página, como texto, imagens, links e outros elementos.

Dentro do < body> é possível incluir outras tags HTML que irão definir a estrutura do conteúdo da página. Por exemplo, a tag < header> é usada para definir o cabeçalho da página, enquanto a tag < footer> é usada para definir o rodapé.

Além disso, é possível usar as tags < div> e < span> para agrupar elementos em blocos ou em linhas. Esses elementos podem ser estilizados com CSS (Cascading Style Sheets) para melhorar a aparência da página.

Por exemplo, imagine que você deseje extrair informações de um site de notícias. Ao analisar a estrutura da página HTML, você pode identificar as tags usadas para exibir os títulos das notícias, a data de publicação e o corpo da matéria. Com essas informações, é possível criar um script de Web Scraping que coleta as notícias e as armazena em um arquivo CSV ou em um banco de dados.
   

* Exemplo de código de uma págia html

In [5]:
"""

<!DOCTYPE html>
<html>
<head>
	<title>Título da Página</title>
	<meta charset="UTF-8">
	<meta name="viewport" content="width=device-width, initial-scale=1.0">
	<link rel="stylesheet" type="text/css" href="estilos.css">
</head>
<body>
	<header>
		<h1>Meu Site</h1>
		<nav>
			<ul>
				<li><a href="#">Home</a></li>
				<li><a href="#">Sobre</a></li>
				<li><a href="#">Contato</a></li>
			</ul>
		</nav>
	</header>
	<main>
		<section>
			<h2>Seção 1</h2>
			<p>Conteúdo da seção 1.</p>
		</section>
		<section>
			<h2>Seção 2</h2>
			<p>Conteúdo da seção 2.</p>
		</section>
	</main>
	<footer>
		<p>Direitos reservados &copy; 2023</p>
	</footer>
</body>
</html>

"""


'\n\n<!DOCTYPE html>\n<html>\n<head>\n\t<title>Título da Página</title>\n\t<meta charset="UTF-8">\n\t<meta name="viewport" content="width=device-width, initial-scale=1.0">\n\t<link rel="stylesheet" type="text/css" href="estilos.css">\n</head>\n<body>\n\t<header>\n\t\t<h1>Meu Site</h1>\n\t\t<nav>\n\t\t\t<ul>\n\t\t\t\t<li><a href="#">Home</a></li>\n\t\t\t\t<li><a href="#">Sobre</a></li>\n\t\t\t\t<li><a href="#">Contato</a></li>\n\t\t\t</ul>\n\t\t</nav>\n\t</header>\n\t<main>\n\t\t<section>\n\t\t\t<h2>Seção 1</h2>\n\t\t\t<p>Conteúdo da seção 1.</p>\n\t\t</section>\n\t\t<section>\n\t\t\t<h2>Seção 2</h2>\n\t\t\t<p>Conteúdo da seção 2.</p>\n\t\t</section>\n\t</main>\n\t<footer>\n\t\t<p>Direitos reservados &copy; 2023</p>\n\t</footer>\n</body>\n</html>\n\n'

### 2.2 Tags HTML 

As tags HTML são elementos fundamentais para a construção de páginas web. Elas definem a estrutura e o conteúdo da página, permitindo que os navegadores interpretem e exibam o conteúdo de forma correta. Algumas das tags HTML básicas incluem:

< html>: Define o início e o fim do documento HTML.

< head>: Contém informações sobre o documento, como o título e o CSS.

< body>: Define o conteúdo principal da página.

< h1> a < h6>: São utilizadas para criar títulos e subtítulos na página.

< p>: É utilizada para criar parágrafos na página.

< a>: É utilizada para criar links na página.

< img>: É utilizada para inserir imagens na página.

< ul> e < ol>: São utilizadas para criar listas não-ordenadas e ordenadas, respectivamente.

< li>: É utilizada para criar itens de lista.

Essas são apenas algumas das tags HTML básicas, existem muitas outras que podem ser utilizadas para criar páginas web mais complexas e ricas em conteúdo.
    

### 2.3 CSS para estilização de 

O CSS (Cascading Style Sheets) é uma linguagem utilizada para estilizar páginas web. Ela permite definir como os elementos HTML devem ser exibidos na página, controlando aspectos como cores, fontes, tamanhos, posicionamento e outros estilos visuais.

O CSS funciona em conjunto com o HTML, onde cada elemento HTML pode ser associado a uma ou mais regras CSS. Essas regras são definidas em um arquivo separado do HTML, chamado de arquivo CSS, ou diretamente no HTML através do atributo "style".

As regras CSS são compostas por um seletor e um conjunto de declarações. O seletor define qual elemento HTML será estilizado e as declarações definem as propriedades que serão aplicadas ao elemento. Por exemplo, para estilizar todos os parágrafos de um documento HTML, pode-se utilizar o seguinte código CSS:

css

Copy code

p {

    font-size: 16px;

    color: #333;

    line-height: 1.5;
    
}

Nesse exemplo, o seletor é a tag < p>, e as declarações definem que o tamanho da fonte será de 16 pixels, a cor do texto será um tom de cinza (#333) e o espaçamento entre linhas será de 1.5 vezes o tamanho da fonte.

Existem diversas propriedades CSS disponíveis, permitindo estilizar os elementos HTML de diversas formas e criar páginas web visualmente atraentes e personalizadas. Alguns exemplos de propriedades CSS incluem:

background-color: define a cor de fundo do elemento;
font-family: define a fonte utilizada pelo elemento;
text-align: define o alinhamento do texto dentro do elemento;
margin e padding: definem espaçamentos internos e externos do elemento.
Com o uso do CSS, é possível criar layouts complexos, aplicar animações e efeitos visuais, e adaptar a página para diferentes tamanhos de tela e dispositivos. É uma ferramenta essencial para qualquer desenvolvedor web.