# **CIÊNCIA DE DADOS** - DCA3501

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE, NATAL/RN

DEPARTAMENTO DE ENGENHARIA DE COMPUTAÇÃO E AUTOMAÇÃO

(C) 2025-2026 CARLOS M D VIEGAS

https://github.com/cmdviegas

# V. Ingestão de Dados

Este notebook demonstra técnicas de **ingestão/aquisição de dados** de diversas fontes de dados, usando apenas **bibliotecas padrão** do Python.

Cobrimos:
- Arquivos (CSV, JSON, ZIP, XLS)
- SQL com sqlite3 e PostgreSQL
- APIs REST
- Web scraping
- Streaming em tempo real


## Sumário
1. [Preparação "do ambiente"](#sec1)
2. [Aquisição de dados a partir de arquivos: CSV, JSON, ZIP e Planilhas XLS](#sec2)
3. [Aquisição de dados a partir de Banco de dados SQL](#sec3)
4. [Aquisição com consulta a APIs REST](#sec4)
5. [Aquisição por meio de Web scraping](#sec5)
6. [Aquisição via streaming em tempo real](#sec6)
7. [Exercícios para fixação](#sec7)


## 1. Preparação "do ambiente"<a id="sec1"></a>

Esta preparação do ambiente é opcional. Entretanto, ela é útil para definir a localização padrão (pasta) de salvamento/leitura de arquivos.

In [8]:
# Define/cria uma pasta para salvar arquivos gerados

# Importação da biblioteca
from pathlib import Path

# Definição do caminho
BASE = Path("C:/Users/renan/OneDrive/Documentos/UFRN/Ciência de Dados/DCA3501_Data_Science/notebooks/files") # caso esteja usando o colab, pode apenas usar /content/

# Criação da pasta (incluindo pastas pai, se necessário)
BASE.mkdir(parents=True, exist_ok=True)

## 2. Aquisição de dados a partir de arquivos: CSV, JSON, ZIP e Planilhas XLS<a id="sec2"></a>

### 2.1. CSV (Comma-Separated Values)

CSV são arquivos de texto com valores separados por vírgula que armazenam dados tabulares.

In [9]:
# Cria o arquivo CSV (opcional)
# Normalmente consideramos que o arquivo já existe, mas aqui criamos um exemplo simples como prova de conceito

# Importação de bibliotecas
import csv

# Nome do arquivo a ser criado
csv_path = BASE / "lista_clientes.csv"

# Dados gerados em uma lista
rows = [
    {"id": 1, "nome": "Ana",   "cidade": "Natal",     "data_cadastro": "2024-05-01"},
    {"id": 2, "nome": "Bruno", "cidade": "Recife",    "data_cadastro": "2024-05-03"},
    {"id": 3, "nome": "Carla", "cidade": "Fortaleza", "data_cadastro": "2024-06-10"},
    {"id": 4, "nome": "Diego", "cidade": "João Pessoa","data_cadastro": "2024-07-02"}
]

# Salvamento da lista em arquivo
with open(csv_path, "w", newline="", encoding="utf-8") as f:
    writer = csv.DictWriter(f, fieldnames=list(rows[0].keys()))
    writer.writeheader(); writer.writerows(rows)

In [10]:
# Aquisição de dados a partir de um arquivo CSV

# Lendo linha a linha e "parseando" datas
lidos = []
with open(csv_path, newline="", encoding="utf-8") as f:
    reader = csv.DictReader(f)
    for row in reader:
        lidos.append(row)

# Imprime a saída
for row in lidos:
    print(row)

{'id': '1', 'nome': 'Ana', 'cidade': 'Natal', 'data_cadastro': '2024-05-01'}
{'id': '2', 'nome': 'Bruno', 'cidade': 'Recife', 'data_cadastro': '2024-05-03'}
{'id': '3', 'nome': 'Carla', 'cidade': 'Fortaleza', 'data_cadastro': '2024-06-10'}
{'id': '4', 'nome': 'Diego', 'cidade': 'João Pessoa', 'data_cadastro': '2024-07-02'}


In [11]:
# Aquisição de dados a partir de um arquivo CSV (com parse de datas)

# Importação da biblioteca
import datetime

# Lendo linha a linha e "parseando" datas
lidos = []
with open(csv_path, newline="", encoding="utf-8") as f:
    reader = csv.DictReader(f)
    for row in reader:
        try:
            row["data_cadastro"] = datetime.fromisoformat(row["data_cadastro"]) # Converte o formato da data de string pata datetime
        except Exception:
            pass
        lidos.append(row)

# Imprime a saída formatada
for row in lidos:
    print(f"ID: {row['id']}, Nome: {row['nome']}, Cidade: {row['cidade']}, Data: {row['data_cadastro']}")

ID: 1, Nome: Ana, Cidade: Natal, Data: 2024-05-01
ID: 2, Nome: Bruno, Cidade: Recife, Data: 2024-05-03
ID: 3, Nome: Carla, Cidade: Fortaleza, Data: 2024-06-10
ID: 4, Nome: Diego, Cidade: João Pessoa, Data: 2024-07-02


### 2.2. JSON
JSON é um formato de texto onde objetos são coleções de pares **{chave: valor}**

As chaves são strings e os valores podem ser números, strings, null, outros objetos ou arrays.

In [12]:
# Cria o arquivo JSON
# Normalmente consideramos que o arquivo já existe, mas aqui criamos um exemplo simples como prova de conceito

# Importação da biblioteca
import json

# Nome do arquivo a ser criado
json_path = BASE / "pedidos.json"

# Dados gerados em uma lista
pedidos = [
    {"pedido_id": 101, "cliente_id": 1, "valor": 123.50, "itens": ["caderno","caneta"]},
    {"pedido_id": 102, "cliente_id": 2, "valor": 55.90,  "itens": ["mouse"]},
    {"pedido_id": 103, "cliente_id": 1, "valor": 310.00, "itens": ["teclado","mouse","hub usb"]}
]

# Salvamento da lista em arquivo
with open(json_path, "w", encoding="utf-8") as f:
    json.dump(pedidos, f, ensure_ascii=False, indent=2)


In [13]:
# Aquisição de dados a partir de um arquivo JSON
with open(json_path, encoding="utf-8") as f:
    pedidos_lidos = json.load(f)

# Imprime a saída
for row in pedidos_lidos:
    print(row)

{'pedido_id': 101, 'cliente_id': 1, 'valor': 123.5, 'itens': ['caderno', 'caneta']}
{'pedido_id': 102, 'cliente_id': 2, 'valor': 55.9, 'itens': ['mouse']}
{'pedido_id': 103, 'cliente_id': 1, 'valor': 310.0, 'itens': ['teclado', 'mouse', 'hub usb']}


### 2.3. ZIP

É um formato de compactação/empacotamento que reduz tamanho e agrupa vários arquivos.

In [14]:
# Criação de um arquivo ZIP contendo o CSV
# Normalmente consideramos que o arquivo já existe, mas aqui criamos um exemplo simples como prova de conceito

# Importação da biblioteca
import zipfile

# Se necessário, para instalar a biblioteca:
# !pip install zipfile

# Definição do nome do arquivo ZIP
zip_path = BASE / "clientes_compactado.zip"

# Criação do arquivo ZIP
with zipfile.ZipFile(zip_path, "w", zipfile.ZIP_DEFLATED) as zf:
    zf.write(csv_path, arcname="clientes.csv") # Dentro do .zip haverá um arquivo chamado "clientes.csv"

In [15]:
# Aquisição de dados a partir de um arquivo ZIP contendo um CSV

# Importação da biblioteca
from io import TextIOWrapper

# Leitura do CSV dentro do ZIP
z_rows = [] # Cria uma lista vazia
with zipfile.ZipFile(zip_path) as zf, zf.open("clientes.csv") as fp:
    reader = csv.DictReader(TextIOWrapper(fp, encoding="utf-8")) 
    # TextIOWrapper converte o stream binário do ZIP em texto (str), já que o csv.DictReader espera strings
    for row in reader:
        z_rows.append(row)

for row in z_rows:
    print(row)

{'id': '1', 'nome': 'Ana', 'cidade': 'Natal', 'data_cadastro': '2024-05-01'}
{'id': '2', 'nome': 'Bruno', 'cidade': 'Recife', 'data_cadastro': '2024-05-03'}
{'id': '3', 'nome': 'Carla', 'cidade': 'Fortaleza', 'data_cadastro': '2024-06-10'}
{'id': '4', 'nome': 'Diego', 'cidade': 'João Pessoa', 'data_cadastro': '2024-07-02'}


### 2.4. Planilha XLSX (EXCEL)

Formato de planilha usado pelo Microsoft Excel para armazenar dados em forma de tabelas, podendo conter células, fórmulas, gráficos, tabelas dinâmicas e macros.

In [18]:
# Criação de um arquivo Excel (XLSX)
# Normalmente consideramos que o arquivo já existe, mas aqui criamos um exemplo simples como prova de conceito

# Importação da biblioteca openpyxl para lidar com arquivos .xlsx
!pip install openpyxl
from openpyxl import Workbook, load_workbook

# Se necessário, para instalar a biblioteca:
# !pip install openpyxl

# Definição do nome do arquivo XLSX
xlsx_path = BASE / "planilha_clientes.xlsx"

wb = Workbook() # Cria um novo arquivo Excel em memória
ws = wb.active # Seleciona a planilha ativa (default)
ws.title = "clientes" # Renomeia a planilha como 'clientes'

# Adiciona os dados (os mesmos da variável 'rows' criada anteriormente)
ws.append(["id","nome","cidade","data_cadastro"])
for r in rows:
    ws.append([r["id"], r["nome"], r["cidade"], r["data_cadastro"]])

# Salva o arquivo
wb.save(xlsx_path)

Collecting openpyxl
  Downloading openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Downloading et_xmlfile-2.0.0-py3-none-any.whl.metadata (2.7 kB)
Downloading openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
Downloading et_xmlfile-2.0.0-py3-none-any.whl (18 kB)
Installing collected packages: et-xmlfile, openpyxl

   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openp

In [19]:
# Leitura de um arquivo Excel (XLSX)

wb2 = load_workbook(xlsx_path, read_only=True) # Abre o arquivo em modo somente leitura
ws2 = wb2["clientes"] # Seleciona a planilha "clientes"
lidos_excel = [] # Cria uma lista vazia

# Lê os dados linha por linha
first = True; headers = []
for row in ws2.iter_rows(values_only=True):
    if first:
        headers = list(row); first = False; continue
    lidos_excel.append({headers[i]: row[i] for i in range(len(headers))})

# Imprime a saída
for row in lidos_excel:
    print(row)

{'id': 1, 'nome': 'Ana', 'cidade': 'Natal', 'data_cadastro': '2024-05-01'}
{'id': 2, 'nome': 'Bruno', 'cidade': 'Recife', 'data_cadastro': '2024-05-03'}
{'id': 3, 'nome': 'Carla', 'cidade': 'Fortaleza', 'data_cadastro': '2024-06-10'}
{'id': 4, 'nome': 'Diego', 'cidade': 'João Pessoa', 'data_cadastro': '2024-07-02'}


## 3. Aquisição de Dados a partir de Banco de Dados SQL<a id="sec3"></a>

### 3.1. SQLite/sqlite3

SQLite é um banco de dados SQL embarcado que guarda tudo em um único arquivo. O **sqlite3** é o módulo da biblioteca padrão do Python para conectar e operar um arquivo SQLite.

In [None]:
# Criação e carga inicial de um banco de dados SQLite
# Normalmente consideramos que o arquivo já existe, mas aqui criamos um exemplo simples como prova de conceito

# Importação da biblioteca
import sqlite3

# Se necessário, para instalar a biblioteca:
# !pip install sqlite3

# Definição do nome do arquivo de banco de dados
db_path = BASE / "exemplo_vendas.db"

# Criação da conexão e do cursor
con = sqlite3.connect(db_path)
cur = con.cursor() # Cria o cursor para executar comandos SQL

# Criação das tabelas 'clientes' e 'pedidos'
cur.execute("""CREATE TABLE IF NOT EXISTS clientes (
 id INTEGER PRIMARY KEY, nome TEXT, cidade TEXT, data_cadastro TEXT)""")

cur.execute("""CREATE TABLE IF NOT EXISTS pedidos (
 pedido_id INTEGER PRIMARY KEY, cliente_id INTEGER, valor REAL, itens TEXT,
 criado_em TEXT DEFAULT CURRENT_TIMESTAMP,
 FOREIGN KEY(cliente_id) REFERENCES clientes(id))""")

# Carga de dados inicial (inserção nas tabelas)
cur.executemany("INSERT OR REPLACE INTO clientes(id,nome,cidade,data_cadastro) VALUES (?,?,?,?)",
                [(r["id"], r["nome"], r["cidade"], r["data_cadastro"]) for r in rows])

cur.executemany("INSERT OR REPLACE INTO pedidos(pedido_id,cliente_id,valor,itens) VALUES (?,?,?,?)",
                [(p["pedido_id"], p["cliente_id"], p["valor"], json.dumps(p["itens"], ensure_ascii=False)) for p in pedidos])

# Confirma as alterações e fecha a conexão
con.commit()


In [None]:
# Consulta de dados ao banco SQLite

# Consulta paginada (fetchmany) para não estourar memória
query = ("""SELECT p.pedido_id, c.nome, c.cidade, p.valor, p.itens, p.criado_em
       FROM pedidos p JOIN clientes c ON c.id = p.cliente_id
       ORDER BY p.pedido_id""")

# Define o cursor e executa a consulta
cur2 = con.cursor()
cur2.execute(query)

# Loop para ler e imprimir os resultados em lotes
while True:
    lote = cur2.fetchmany(2) # Lê 2 registros por vez
    if not lote:
       break # Sai do loop se não houver mais registros
    for row in lote:
       print(f"Pedido {row[0]} | Cliente: {row[1]} ({row[2]}) | "
          f"Valor: {row[3]:.2f} | Itens: {row[4]} | Data: {row[5]}")

### 3.2. PostgreSQL

É um sistema de gerenciamento de banco de dados relacional, que segue o padrão SQL e oferece recursos avançados como suporte a transações ACID, procedimentos armazenados, extensões, tipos de dados personalizados, além de funcionalidades de banco de dados objeto-relacional.

In [None]:
# Conexão com PostgreSQL

# Importação da biblioteca
import psycopg

# Se necessário, para instalar a biblioteca:
# !pip install psycopg[binary]

# Conexão com o PostgreSQL 
# Obs: Ajuste as variáveis de ambiente PG_* conforme necessário
PG_HOST = "postgres-db"
PG_PORT = 5432
PG_DB   = "ecommerce"
PG_USER = "postgres"
PG_PASS = "mypassword"

# Conexão com o PostgreSQL
conn = psycopg.connect(
    host=PG_HOST,
    port=PG_PORT,
    dbname=PG_DB,
    user=PG_USER,
    password=PG_PASS,
)

# Consulta ao banco (aqui assumimos que os dados já existem no banco)
# Tabela: customers (exemplo simples)
with conn.cursor() as cur:
    cur.execute("SELECT * FROM customers LIMIT 5;")
    rows = cur.fetchall()        # lista de tuplas
    cols = [d.name for d in cur.description]
print(cols)
for r in rows:
    print(r)

## 4. Aquisição com consulta a APIs REST<a id="sec4"></a>

Esta seção mostra como obter dados de APIs REST, abordando requisições HTTP. APIs REST são interfaces que permitem a comunicação entre sistemas por meio de requisições HTTP, seguindo princípios simples e padronizados para acessar e manipular dados.

### 4.1. FastAPI

Neste exemplo vamos utilizar FastAPI, um framework web moderno para Python que facilita criar APIs rápidas e tipadas.

In [None]:
# Servidor FastAPI que gera dados aleatórios de clientes

!pip install fastapi uvicorn

# Importação das bibliotecas
import random
import threading
from fastapi import FastAPI
import uvicorn

# Se necessário, para instalar a biblioteca:


# Criação da aplicação FastAPI
app = FastAPI()

# Endpoint que retorna dados de clientes aleatórios
@app.get("/clientes")
def get_clientes():
    return {
        "id": random.randint(1, 1000),
        "nome": random.choice(["Ana", "Bruno", "Carla", "Diego"]),
        "cidade": random.choice(["Natal", "Recife", "Fortaleza", "João Pessoa"]),
        "data_cadastro": datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    }

# Função para rodar o servidor em uma thread
def run_server():
    uvicorn.run(app, host="127.0.0.1", port=8000, log_level="info")

# Inicia o servidor em background
server_thread = threading.Thread(target=run_server, daemon=True)
server_thread.start()

Collecting fastapi
  Downloading fastapi-0.116.1-py3-none-any.whl.metadata (28 kB)
Collecting uvicorn
  Downloading uvicorn-0.35.0-py3-none-any.whl.metadata (6.5 kB)
Collecting starlette<0.48.0,>=0.40.0 (from fastapi)
  Downloading starlette-0.47.3-py3-none-any.whl.metadata (6.2 kB)
Collecting pydantic!=1.8,!=1.8.1,!=2.0.0,!=2.0.1,!=2.1.0,<3.0.0,>=1.7.4 (from fastapi)
  Downloading pydantic-2.11.7-py3-none-any.whl.metadata (67 kB)
Collecting typing-extensions>=4.8.0 (from fastapi)
  Downloading typing_extensions-4.15.0-py3-none-any.whl.metadata (3.3 kB)
Collecting annotated-types>=0.6.0 (from pydantic!=1.8,!=1.8.1,!=2.0.0,!=2.0.1,!=2.1.0,<3.0.0,>=1.7.4->fastapi)
  Downloading annotated_types-0.7.0-py3-none-any.whl.metadata (15 kB)
Collecting pydantic-core==2.33.2 (from pydantic!=1.8,!=1.8.1,!=2.0.0,!=2.0.1,!=2.1.0,<3.0.0,>=1.7.4->fastapi)
  Downloading pydantic_core-2.33.2-cp313-cp313-win_amd64.whl.metadata (6.9 kB)
Collecting typing-inspection>=0.4.0 (from pydantic!=1.8,!=1.8.1,!=2.0.

INFO:     Started server process [16772]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)


INFO:     127.0.0.1:56497 - "GET /clientes HTTP/1.1" 500 Internal Server Error


ERROR:    Exception in ASGI application
Traceback (most recent call last):
  File "c:\Users\renan\AppData\Local\Programs\Python\Python313\Lib\site-packages\uvicorn\protocols\http\h11_impl.py", line 403, in run_asgi
    result = await app(  # type: ignore[func-returns-value]
             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
        self.scope, self.receive, self.send
        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
    )
    ^
  File "c:\Users\renan\AppData\Local\Programs\Python\Python313\Lib\site-packages\uvicorn\middleware\proxy_headers.py", line 60, in __call__
    return await self.app(scope, receive, send)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\renan\AppData\Local\Programs\Python\Python313\Lib\site-packages\fastapi\applications.py", line 1054, in __call__
    await super().__call__(scope, receive, send)
  File "c:\Users\renan\AppData\Local\Programs\Python\Python313\Lib\site-packages\starlette\applications.py", line 113, in __call__
    await self.midd

INFO:     127.0.0.1:56512 - "GET /clientes HTTP/1.1" 500 Internal Server Error


ERROR:    Exception in ASGI application
Traceback (most recent call last):
  File "c:\Users\renan\AppData\Local\Programs\Python\Python313\Lib\site-packages\uvicorn\protocols\http\h11_impl.py", line 403, in run_asgi
    result = await app(  # type: ignore[func-returns-value]
             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
        self.scope, self.receive, self.send
        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
    )
    ^
  File "c:\Users\renan\AppData\Local\Programs\Python\Python313\Lib\site-packages\uvicorn\middleware\proxy_headers.py", line 60, in __call__
    return await self.app(scope, receive, send)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\renan\AppData\Local\Programs\Python\Python313\Lib\site-packages\fastapi\applications.py", line 1054, in __call__
    await super().__call__(scope, receive, send)
  File "c:\Users\renan\AppData\Local\Programs\Python\Python313\Lib\site-packages\starlette\applications.py", line 113, in __call__
    await self.midd

In [None]:
# Para forçar o encerramento do servidor (se necessário)
# ! lsof -ti:8000 | xargs kill -9

In [24]:
# Cliente que consome a API FastAPI
#!pip install requests

# Importação das bibliotecas
import requests, time

# Configuração do URL da API
url = "http://127.0.0.1:8000/clientes"

# Loop infinito para consumir a API a cada 2 segundos
while True:
    r = requests.get(url) # Faz a requisição GET
    data = r.json() # Converte a resposta JSON em dicionário Python
    print("Dados: ", data) # Imprime os dados recebidos
    time.sleep(2)

JSONDecodeError: Expecting value: line 1 column 1 (char 0)

### 4.2. Outras APIs (abertas)

In [25]:
# Consumo de uma API pública (ViaCEP)
r = requests.get("https://viacep.com.br/ws/59064900/json/")
print(r.json())

{'cep': '59064-900', 'logradouro': 'Avenida Senador Salgado Filho', 'complemento': '2234', 'unidade': 'Natal Shopping Center', 'bairro': 'Candelária', 'localidade': 'Natal', 'uf': 'RN', 'estado': 'Rio Grande do Norte', 'regiao': 'Nordeste', 'ibge': '2408102', 'gia': '', 'ddd': '84', 'siafi': '1761'}


In [26]:
# Consumo de uma API pública com query/paginação (ReqRes)
r = requests.get("https://reqres.in/api/users", params={"page": 2})
print(r.json())

{'page': 2, 'per_page': 6, 'total': 12, 'total_pages': 2, 'data': [{'id': 7, 'email': 'michael.lawson@reqres.in', 'first_name': 'Michael', 'last_name': 'Lawson', 'avatar': 'https://reqres.in/img/faces/7-image.jpg'}, {'id': 8, 'email': 'lindsay.ferguson@reqres.in', 'first_name': 'Lindsay', 'last_name': 'Ferguson', 'avatar': 'https://reqres.in/img/faces/8-image.jpg'}, {'id': 9, 'email': 'tobias.funke@reqres.in', 'first_name': 'Tobias', 'last_name': 'Funke', 'avatar': 'https://reqres.in/img/faces/9-image.jpg'}, {'id': 10, 'email': 'byron.fields@reqres.in', 'first_name': 'Byron', 'last_name': 'Fields', 'avatar': 'https://reqres.in/img/faces/10-image.jpg'}, {'id': 11, 'email': 'george.edwards@reqres.in', 'first_name': 'George', 'last_name': 'Edwards', 'avatar': 'https://reqres.in/img/faces/11-image.jpg'}, {'id': 12, 'email': 'rachel.howell@reqres.in', 'first_name': 'Rachel', 'last_name': 'Howell', 'avatar': 'https://reqres.in/img/faces/12-image.jpg'}], 'support': {'url': 'https://contentcad

In [27]:
# Consumo de uma API pública com token/autenticação (GitHub)
headers = {"Authorization": "Bearer INSERIR_TOKEN_DO_GITHUB_AQUI"} # ANTEÇÃO: você precisa inserir o token do github
r = requests.get("https://api.github.com/user", headers=headers)
print(r.status_code, r.json())

401 {'message': 'Bad credentials', 'documentation_url': 'https://docs.github.com/rest', 'status': '401'}


## 5. Web scraping (HTML estático)<a id="sec5"></a>

Web scraping é o processo automatizado de extrair dados estruturados de páginas da web, lendo o HTML (ou APIs internas) para reutilizar essas informações.

In [28]:
# Simulamos uma página HTML local
html_path = BASE / "pagina_web.html"
html_content = """
<!doctype html>
<html><head><meta charset="utf-8"><title>Loja Demo</title></head>
<body>
  <h1>Produtos</h1>
  <table id="tabela">
    <thead><tr><th>Produto</th><th>Preço</th></tr></thead>
    <tbody>
      <tr><td>Caderno</td><td>R$ 15,90</td></tr>
      <tr><td>Caneta</td><td>R$ 3,50</td></tr>
      <tr><td>Mouse</td><td>R$ 79,00</td></tr>
    </tbody>
  </table>
</body></html>
"""
html_path.write_text(html_content, encoding="utf-8")
str(html_path)

'C:\\Users\\renan\\OneDrive\\Documentos\\UFRN\\Ciência de Dados\\DCA3501_Data_Science\\notebooks\\files\\pagina_web.html'

In [None]:
# Parser mínimo de tabela HTML para extrair células (<th>/<td>) de uma tabela <table id="tabela">

# Importação da biblioteca
from html.parser import HTMLParser

# Definição do parser
class SimpleTableParser(HTMLParser):
    def __init__(self, table_id):
        super().__init__()
        self.table_id = table_id      # id da tabela alvo no HTML
        self.capture = False          # estamos dentro da <table id="..."> correta?
        self.in_cell = False          # estamos dentro de uma célula <td> ou <th>?
        self.rows = []                # todas as linhas extraídas
        self.row = []                 # linha corrente (lista de células)
        self.buf = []                 # buffer de texto da célula corrente

    def handle_starttag(self, tag, attrs):
        # Se abriu uma <table>, verifica se é a que queremos (id == table_id)
        if tag == "table" and dict(attrs).get("id") == self.table_id:
            self.capture = True
        # Dentro da tabela alvo, ao abrir <td> ou <th>, começa a capturar o texto da célula
        elif self.capture and tag in ("td", "th"):
            self.in_cell = True
            self.buf = []  # zera o buffer para a nova célula

    def handle_endtag(self, tag):
        # Ao fechar <td> ou <th>, finaliza a célula: junta o texto e adiciona na linha corrente
        if self.capture and tag in ("td", "th"):
            self.row.append("".join(self.buf).strip())
            self.in_cell = False
        # Ao fechar <tr>, se a linha tiver conteúdo, salva em rows e reseta a linha
        elif self.capture and tag == "tr":
            if self.row:
                self.rows.append(self.row)
            self.row = []
        # Ao fechar </table>, para de capturar
        elif tag == "table" and self.capture:
            self.capture = False

    def handle_data(self, data):
        # Texto encontrado: se estamos dentro de uma célula, acumula no buffer
        if self.in_cell:
            self.buf.append(data)

# Extraindo...
p = SimpleTableParser("tabela")                          # Id da tabela no HTML
p.feed(html_path.read_text(encoding="utf-8"))            # Faz o parse do arquivo
rows = p.rows                                            # Todas as linhas (inclui header)
headers, body = rows[0], rows[1:]                        # Separa cabeçalho e corpo

print(body)

## 6. Aquisição via streaming em tempo real<a id="sec6"></a>

Existem diversas tecnologias que permitem trabalhar com dados em tempo real, como Kafka, Spark Streaming, WebSockets, entre outros. Nesta seção, vamos utilizar **WebSockets** para ilustrar o conceito.

Um WebSocket é um protocolo que permite a comunicação bidirecional e contínua entre cliente e servidor. Com ele, um servidor pode gerar dados em tempo real, enquanto o cliente se conecta e recebe essas informações de forma imediata, sem precisar ficar requisitando a cada instante.

In [None]:
# Importação das bibliotcas
import asyncio
import random
import websockets
import datetime

# Se necessário, para instalar a biblioteca:
# !pip install websockets

# Função que será executada para cada cliente conectado
async def handler(websocket):
    while True:
        # Gera uma mensagem com dados aleatórios
        msg = {
            "id": random.randint(1, 1000),
            "nome": random.choice(["Ana", "Bruno", "Carla", "Diego"]),
            "cidade": random.choice(["Recife", "Natal", "Fortaleza", "João Pessoa"]),
            "data_cadastro": datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
        }
        # Envia a mensagem como JSON
        await websocket.send(json.dumps(msg))
        print("Enviado:", msg)
        await asyncio.sleep(2)

# Inicia servidor (executar só uma vez)
server = await websockets.serve(handler, "localhost", 8765)
print("Servidor rodando em ws://localhost:8765")

In [None]:
# Para parar o servidor (opcional)
# server.close(); await server.wait_closed()

In [None]:
# Cliente WebSocket para receber dados em tempo real

# Função do cliente para receber mensagens
async def listen():
    uri = "ws://localhost:8765"
    # Conecta ao servidor
    async with websockets.connect(uri) as websocket:
        print("Conectado ao servidor!")
        while True:
            # Recebe a mensagem
            msg = await websocket.recv()
            # "Parseia" o JSON
            data = json.loads(msg)
            print(f"{data}")

# Executa o cliente
await listen()

## 7. Exercícios para fixação<a id="sec7"></a>

A seguir estão exercícios baseados nos exemplos do notebook. Cada exercício inclui um enunciado e um *starter code*. 
> Dica: execute os exemplos anteriores como referência antes de tentar os exercícios.

### Exercício 1 - CSV → JSON (ida e volta)
**Tarefa:** Converta um arquivo `.csv` para `.json`. Depois, leia o JSON e mostre apenas os registros de acordo com alguma condição (`if`) definida. Os dados podem ser gerados por vocês.


In [None]:
# Espaço para respostas dos Exercícios propostos:



### Exercício 2 - SQL → exportar para CSV
**Tarefa:** A partir do exemplo SQLite anteriormente apresentado, crie uma nova consulta e exporte o resultado da mesma para `clientes_filtrados.csv`. Em seguida, verifique se os dados foram corretamente carregados no arquivo `.csv`, exibindo o conteúdo do mesmo com o método `print()`.

In [None]:
# Espaço para respostas dos Exercícios propostos:



### Exercício 3 - API REST: usuários e emails
**Tarefa:** Consulte `https://jsonplaceholder.typicode.com/users` e exiba `name` e `email`. Em seguida, salve o resultado em `usuarios.json`. Utilize as técnicas anteriormente estudadas, obrigatoriamente.


In [None]:
# Espaço para respostas dos Exercícios propostos:



### Exercício 4 - Web Scraping: títulos e links
**Tarefa:** Baixe uma página (ex.: Wikipédia de uma cidade) e extraia:  
1) Títulos das seções principais (tag `<h2></h2>`).  
2) Todos os links (tag `<a></a>` ou `href`) e salve em `links.txt`.

Utilize as técnicas anteriormente estudadas, obrigatoriamente.

In [None]:
# Espaço para respostas dos Exercícios propostos:
