Este é um roteiro elementar de um pipeline ETL utilizando python. Foi desenvolvido para fins didáticos, com o propósito de demostrar o processo básico de análise de dados, nas suas três grandes etapas.

# Preparando o ambiente
Faremos alguns imports, que serão utilizados no processo.

In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd


# EXTRACT
A primeira parte é a extração.


Vamos executar o código abaixo.


A primeira linha define a variável 'url' com a URL do site que queremos analisar. No caso, está sendo usado o site do UOL.


Na segunda linha, estamos usando a biblioteca requests para fazer uma requisição HTTP GET à URL especificada. Isso recupera o conteúdo da página web.


Terceira linha de código: Usando a biblioteca BeautifulSoup, estamos criando um objeto soup a partir do conteúdo da resposta da requisição. O objeto soup é uma representação hierárquica do HTML da página e facilita a navegação e análise dos elementos.


Por fim, estamos buscando todos os elementos 'article' que possuem a classe CSS 'headlineMain' na página HTML representada pelo objeto soup. Estamos usando uma list comprehension para iterar sobre esses elementos encontrados e extrair o texto contido dentro deles usando item.text. Isso cria uma lista chamada data_list que contém os textos das manchetes principais do site UOL.

In [2]:
url = 'https://www.uol.com.br/'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
data_list = [item.text for item in soup.find_all('article', class_='headlineMain')]

A segunda parte é a transformação.

Nesta linha de código, estamos usando a biblioteca pandas para criar um DataFrame a partir da lista data_list. Vamos por partes:

1. A função pd.DataFrame() cria um DataFrame, que é uma estrutura de dados tabular semelhante a uma planilha ou tabela de banco de dados, a partir dos dados fornecidos.

2. 'data_list': O primeiro argumento passado para a função pd.DataFrame() é a lista data_list que contém os textos das manchetes, extraídos na etapa anterior.

3. 'columns=['dados']': O argumento columns é usado para especificar os nomes das colunas do DataFrame. No caso, estamos definindo o nome da coluna como 'dados'.

In [3]:
data_df = pd.DataFrame(data_list, columns=['dados'])

A terceira e última etapa é o carregamento.


A linha de código abaixo exporta os dados contidos no DataFrame 'data_df' para um arquivo CSV chamado 'manchetes.csv', omitindo a inclusão da coluna de índices. Isso é útil para salvar os dados de suas manchetes ou de qualquer outro conjunto de dados em um formato que possa ser facilmente compartilhado, analisado ou importado em outras ferramentas ou plataformas.


Aqui estamos tão somente exportando os dados extraídos para um arquivo no formato CSV, mas as possibilidades são imensas.

In [6]:
data_df.to_csv('manchetes.csv', index=False)