# **CIÊNCIA DE DADOS** - DCA3501

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE, NATAL/RN

DEPARTAMENTO DE ENGENHARIA DE COMPUTAÇÃO E AUTOMAÇÃO

(C) 2025-2026 CARLOS M D VIEGAS

https://github.com/cmdviegas

# V. Ingestão de Dados

Este notebook demonstra técnicas de **ingestão/aquisição de dados** de diversas fontes de dados, usando apenas **bibliotecas padrão** do Python.

Cobrimos:
- Arquivos (CSV, JSON, ZIP, XLS)
- SQL com sqlite3 e PostgreSQL
- APIs REST
- Web scraping
- Streaming em tempo real


## Sumário
1. [Preparação "do ambiente"](#sec1)
2. [Aquisição de dados a partir de arquivos: CSV, JSON, ZIP e Planilhas XLS](#sec2)
3. [Aquisição de dados a partir de Banco de dados SQL](#sec3)
4. [Aquisição com consulta a APIs REST](#sec4)
5. [Aquisição por meio de Web scraping](#sec5)
6. [Aquisição via streaming em tempo real](#sec6)
7. [Exercícios para fixação](#sec7)


## 1. Preparação "do ambiente"<a id="sec1"></a>

Esta preparação do ambiente é opcional. Entretanto, ela é útil para definir a localização padrão (pasta) de salvamento/leitura de arquivos.

In [9]:
# Define/cria uma pasta para salvar arquivos gerados

# Importação da biblioteca
from pathlib import Path

# Definição do caminho
BASE = Path("C:/Users/renan/OneDrive/Documentos/UFRN/2025_2/Ciência de Dados/DCA3501_Data_Science/notebooks/files") # caso esteja usando o colab, pode apenas usar /content/

# Criação da pasta (incluindo pastas pai, se necessário)
BASE.mkdir(parents=True, exist_ok=True)

In [27]:
# Importação de todas as bibliotecas necessárias para executar o notebook (opcional)
import csv
import json
# !pip install websockets
import requests
import asyncio
import random
import websockets
import zipfile
import uvicorn
import psycopg
import sqlite3
import time
import threading
from datetime import datetime
from io import TextIOWrapper
from openpyxl import Workbook, load_workbook
from html.parser import HTMLParser
from fastapi import FastAPI

## 2. Aquisição de dados a partir de arquivos: CSV, JSON, ZIP e Planilhas XLS<a id="sec2"></a>

### 2.1. CSV (Comma-Separated Values)

CSV são arquivos de texto com valores separados por vírgula que armazenam dados tabulares.

In [28]:
# Cria o arquivo CSV (opcional)
# Normalmente consideramos que o arquivo já existe, mas aqui criamos um exemplo simples como prova de conceito

# Importação de bibliotecas
import csv

# Nome do arquivo a ser criado
csv_path = BASE / "lista_clientes.csv"

# Dados gerados em uma lista
rows = [
    {"id": 1, "nome": "Ana",   "cidade": "Natal",     "data_cadastro": "2024-05-01"},
    {"id": 2, "nome": "Bruno", "cidade": "Recife",    "data_cadastro": "2024-05-03"},
    {"id": 3, "nome": "Carla", "cidade": "Fortaleza", "data_cadastro": "2024-06-10"},
    {"id": 4, "nome": "Diego", "cidade": "João Pessoa","data_cadastro": "2024-07-02"}
]

# Salvamento da lista em arquivo
with open(csv_path, "w", newline="", encoding="utf-8") as f:
    writer = csv.DictWriter(f, fieldnames=list(rows[0].keys()))
    writer.writeheader(); writer.writerows(rows)

In [57]:
# Aquisição de dados a partir de um arquivo CSV

# Importação de bibliotecas
import csv

# Lendo linha a linha e "parseando" datas
lidos = []
with open(csv_path, newline="", encoding="utf-8") as f:
    reader = csv.DictReader(f)
    for row in reader:
        lidos.append(row)

# Imprime a saída
for row in lidos:
    print(row)

{'id': '1', 'nome': 'Ana', 'cidade': 'Natal', 'data_cadastro': '2024-05-01'}
{'id': '2', 'nome': 'Bruno', 'cidade': 'Recife', 'data_cadastro': '2024-05-03'}
{'id': '3', 'nome': 'Carla', 'cidade': 'Fortaleza', 'data_cadastro': '2024-06-10'}
{'id': '4', 'nome': 'Diego', 'cidade': 'João Pessoa', 'data_cadastro': '2024-07-02'}


In [30]:
# Aquisição de dados a partir de um arquivo CSV (com parse de datas)

# Importação da biblioteca
import csv
from datetime import datetime

# Lendo linha a linha e "parseando" datas
lidos = []
with open(csv_path, newline="", encoding="utf-8") as f:
    reader = csv.DictReader(f)
    for row in reader:
        try:
            row["data_cadastro"] = datetime.fromisoformat(row["data_cadastro"]) # Converte o formato da data de string pata datetime
        except Exception:
            pass
        lidos.append(row)

# Imprime a saída formatada
for row in lidos:
    print(f"ID: {row['id']}, Nome: {row['nome']}, Cidade: {row['cidade']}, Data: {row['data_cadastro']}")

ID: 1, Nome: Ana, Cidade: Natal, Data: 2024-05-01 00:00:00
ID: 2, Nome: Bruno, Cidade: Recife, Data: 2024-05-03 00:00:00
ID: 3, Nome: Carla, Cidade: Fortaleza, Data: 2024-06-10 00:00:00
ID: 4, Nome: Diego, Cidade: João Pessoa, Data: 2024-07-02 00:00:00


### 2.2. JSON
JSON é um formato de texto onde objetos são coleções de pares **{chave: valor}**

As chaves são strings e os valores podem ser números, strings, null, outros objetos ou arrays.

In [31]:
# Cria o arquivo JSON
# Normalmente consideramos que o arquivo já existe, mas aqui criamos um exemplo simples como prova de conceito

# Importação da biblioteca
import json

# Nome do arquivo a ser criado
json_path = BASE / "pedidos.json"

# Dados gerados em uma lista
pedidos = [
    {"pedido_id": 101, "cliente_id": 1, "valor": 123.50, "itens": ["caderno","caneta"]},
    {"pedido_id": 102, "cliente_id": 2, "valor": 55.90,  "itens": ["mouse"]},
    {"pedido_id": 103, "cliente_id": 1, "valor": 310.00, "itens": ["teclado","mouse","hub usb"]}
]

# Salvamento da lista em arquivo
with open(json_path, "w", encoding="utf-8") as f:
    json.dump(pedidos, f, ensure_ascii=False, indent=2)


In [32]:
# Aquisição de dados a partir de um arquivo JSON

# Importação da biblioteca
import json

with open(json_path, encoding="utf-8") as f:
    pedidos_lidos = json.load(f)

# Imprime a saída
for row in pedidos_lidos:
    print(row)

{'pedido_id': 101, 'cliente_id': 1, 'valor': 123.5, 'itens': ['caderno', 'caneta']}
{'pedido_id': 102, 'cliente_id': 2, 'valor': 55.9, 'itens': ['mouse']}
{'pedido_id': 103, 'cliente_id': 1, 'valor': 310.0, 'itens': ['teclado', 'mouse', 'hub usb']}


### 2.3. ZIP

É um formato de compactação/empacotamento que reduz tamanho e agrupa vários arquivos.

In [33]:
# Criação de um arquivo ZIP contendo o CSV
# Normalmente consideramos que o arquivo já existe, mas aqui criamos um exemplo simples como prova de conceito

# Importação da biblioteca
import zipfile

# Se necessário, para instalar a biblioteca:
# !pip install zipfile

# Definição do nome do arquivo ZIP
zip_path = BASE / "clientes_compactado.zip"

# Criação do arquivo ZIP
with zipfile.ZipFile(zip_path, "w", zipfile.ZIP_DEFLATED) as zf:
    zf.write(csv_path, arcname="clientes.csv") # Dentro do .zip haverá um arquivo chamado "clientes.csv"

In [34]:
# Aquisição de dados a partir de um arquivo ZIP contendo um CSV

# Importação da biblioteca
from io import TextIOWrapper
import zipfile

# Leitura do CSV dentro do ZIP
z_rows = [] # Cria uma lista vazia
with zipfile.ZipFile(zip_path) as zf, zf.open("clientes.csv") as fp:
    reader = csv.DictReader(TextIOWrapper(fp, encoding="utf-8")) 
    # TextIOWrapper converte o stream binário do ZIP em texto (str), já que o csv.DictReader espera strings
    for row in reader:
        z_rows.append(row)

for row in z_rows:
    print(row)

{'id': '1', 'nome': 'Ana', 'cidade': 'Natal', 'data_cadastro': '2024-05-01'}
{'id': '2', 'nome': 'Bruno', 'cidade': 'Recife', 'data_cadastro': '2024-05-03'}
{'id': '3', 'nome': 'Carla', 'cidade': 'Fortaleza', 'data_cadastro': '2024-06-10'}
{'id': '4', 'nome': 'Diego', 'cidade': 'João Pessoa', 'data_cadastro': '2024-07-02'}


### 2.4. Planilha XLSX (EXCEL)

Formato de planilha usado pelo Microsoft Excel para armazenar dados em forma de tabelas, podendo conter células, fórmulas, gráficos, tabelas dinâmicas e macros.

In [35]:
# Criação de um arquivo Excel (XLSX)
# Normalmente consideramos que o arquivo já existe, mas aqui criamos um exemplo simples como prova de conceito

# IMPORTANTE: Precisa executar a célula que cria o CSV antes, pois depende do dicionário 'rows'

# Importação da biblioteca openpyxl para lidar com arquivos .xlsx
from openpyxl import Workbook, load_workbook

# Se necessário, para instalar a biblioteca:
# !pip install openpyxl

# Definição do nome do arquivo XLSX
xlsx_path = BASE / "planilha_clientes.xlsx"

wb = Workbook() # Cria um novo arquivo Excel em memória
ws = wb.active # Seleciona a planilha ativa (default)
ws.title = "clientes" # Renomeia a planilha como 'clientes'

# Adiciona os dados (os mesmos da variável 'rows' criada anteriormente)
ws.append(["id","nome","cidade","data_cadastro"])
for r in rows:
    ws.append([r["id"], r["nome"], r["cidade"], r["data_cadastro"]])

# Salva o arquivo
wb.save(xlsx_path)

In [36]:
# Leitura de um arquivo Excel (XLSX)

# Importação da biblioteca openpyxl para lidar com arquivos .xlsx
from openpyxl import Workbook, load_workbook

wb2 = load_workbook(xlsx_path, read_only=True) # Abre o arquivo em modo somente leitura
ws2 = wb2["clientes"] # Seleciona a planilha "clientes"
lidos_excel = [] # Cria uma lista vazia

# Lê os dados linha por linha
first = True; headers = []
for row in ws2.iter_rows(values_only=True):
    if first:
        headers = list(row); first = False; continue
    lidos_excel.append({headers[i]: row[i] for i in range(len(headers))})

# Imprime a saída
for row in lidos_excel:
    print(row)

{'id': 1, 'nome': 'Ana', 'cidade': 'Natal', 'data_cadastro': '2024-05-01'}
{'id': 2, 'nome': 'Bruno', 'cidade': 'Recife', 'data_cadastro': '2024-05-03'}
{'id': 3, 'nome': 'Carla', 'cidade': 'Fortaleza', 'data_cadastro': '2024-06-10'}
{'id': 4, 'nome': 'Diego', 'cidade': 'João Pessoa', 'data_cadastro': '2024-07-02'}


## 3. Aquisição de Dados a partir de Banco de Dados SQL<a id="sec3"></a>

### 3.1. SQLite/sqlite3

SQLite é um banco de dados SQL embarcado que guarda tudo em um único arquivo. O **sqlite3** é o módulo da biblioteca padrão do Python para conectar e operar um arquivo SQLite.

In [38]:
# Criação e carga inicial de um banco de dados SQLite
# Normalmente consideramos que o arquivo já existe, mas aqui criamos um exemplo simples como prova de conceito

# IMPORTANTE: Precisa executar a célula que cria o CSV antes, pois depende do dicionário 'rows'

# Importação da biblioteca
import sqlite3

# Se necessário, para instalar a biblioteca:
# !pip install sqlite3

# Definição do nome do arquivo de banco de dados
db_path = BASE / "exemplo_vendas.db"

# Criação da conexão e do cursor
con = sqlite3.connect(db_path)
cur = con.cursor() # Cria o cursor para executar comandos SQL

# Criação das tabelas 'clientes' e 'pedidos'
cur.execute("""CREATE TABLE IF NOT EXISTS clientes (
 id INTEGER PRIMARY KEY, nome TEXT, cidade TEXT, data_cadastro TEXT)""")

cur.execute("""CREATE TABLE IF NOT EXISTS pedidos (
 pedido_id INTEGER PRIMARY KEY, cliente_id INTEGER, valor REAL, itens TEXT,
 criado_em TEXT DEFAULT CURRENT_TIMESTAMP,
 FOREIGN KEY(cliente_id) REFERENCES clientes(id))""")

# Carga de dados inicial (inserção nas tabelas)
cur.executemany("INSERT OR REPLACE INTO clientes(id,nome,cidade,data_cadastro) VALUES (?,?,?,?)",
                [(r["id"], r["nome"], r["cidade"], r["data_cadastro"]) for r in rows])

cur.executemany("INSERT OR REPLACE INTO pedidos(pedido_id,cliente_id,valor,itens) VALUES (?,?,?,?)",
                [(p["pedido_id"], p["cliente_id"], p["valor"], json.dumps(p["itens"], ensure_ascii=False)) for p in pedidos])

# Confirma as alterações e fecha a conexão
con.commit()


In [39]:
# Consulta de dados ao banco SQLite

# Importação da biblioteca
import sqlite3

# Consulta paginada (fetchmany) para não estourar memória
query = ("""SELECT p.pedido_id, c.nome, c.cidade, p.valor, p.itens, p.criado_em
       FROM pedidos p JOIN clientes c ON c.id = p.cliente_id
       ORDER BY p.pedido_id""")

# Define o cursor e executa a consulta
cur2 = con.cursor()
cur2.execute(query)

# Loop para ler e imprimir os resultados em lotes
while True:
    lote = cur2.fetchmany(2) # Lê 2 registros por vez
    if not lote:
       break # Sai do loop se não houver mais registros
    for row in lote:
       print(f"Pedido {row[0]} | Cliente: {row[1]} ({row[2]}) | "
          f"Valor: {row[3]:.2f} | Itens: {row[4]} | Data: {row[5]}")

Pedido 101 | Cliente: Ana (Natal) | Valor: 123.50 | Itens: ["caderno", "caneta"] | Data: 2025-09-09 02:40:23
Pedido 102 | Cliente: Bruno (Recife) | Valor: 55.90 | Itens: ["mouse"] | Data: 2025-09-09 02:40:23
Pedido 103 | Cliente: Ana (Natal) | Valor: 310.00 | Itens: ["teclado", "mouse", "hub usb"] | Data: 2025-09-09 02:40:23


### 3.2. PostgreSQL

É um sistema de gerenciamento de banco de dados relacional, que segue o padrão SQL e oferece recursos avançados como suporte a transações ACID, procedimentos armazenados, extensões, tipos de dados personalizados, além de funcionalidades de banco de dados objeto-relacional.

In [40]:
# Conexão com PostgreSQL

# IMPORTANTE: Neste exemplo, é necessário ter um banco de dados PostgreSQL rodando com as credenciais corretas. 

# Importação da biblioteca
import psycopg

# Se necessário, para instalar a biblioteca:
# !pip install psycopg[binary]

# Conexão com o PostgreSQL 
# Obs: Ajuste as variáveis de ambiente PG_* conforme necessário
PG_HOST = "postgres-db"
PG_PORT = 5432
PG_DB   = "ecommerce"
PG_USER = "postgres"
PG_PASS = "mypassword"

# Conexão com o PostgreSQL
conn = psycopg.connect(
    host=PG_HOST,
    port=PG_PORT,
    dbname=PG_DB,
    user=PG_USER,
    password=PG_PASS,
)

# Consulta ao banco (aqui assumimos que os dados já existem no banco)
# Tabela: customers (exemplo simples)
with conn.cursor() as cur:
    cur.execute("SELECT * FROM customers LIMIT 5;")
    rows = cur.fetchall()        # lista de tuplas
    cols = [d.name for d in cur.description]
print(cols)
for r in rows:
    print(r)

OperationalError: [Errno 11001] getaddrinfo failed

## 4. Aquisição com consulta a APIs REST<a id="sec4"></a>

Esta seção mostra como obter dados de APIs REST, abordando requisições HTTP. APIs REST são interfaces que permitem a comunicação entre sistemas por meio de requisições HTTP, seguindo princípios simples e padronizados para acessar e manipular dados.

### 4.1. FastAPI

Neste exemplo vamos utilizar FastAPI, um framework web moderno para Python que facilita criar APIs rápidas e tipadas.

In [None]:
# Servidor FastAPI que gera dados aleatórios de clientes

# Importação das bibliotecas
import random
import threading
from datetime import datetime
from fastapi import FastAPI # framework web para APIs
import uvicorn # uvicorn é um servidor ASGI = "asynchronous server gateway interface"

# Se necessário, para instalar a biblioteca:
# !pip install fastapi uvicorn

# Criação da aplicação FastAPI
app = FastAPI()

# Endpoint que retorna dados de clientes aleatórios
@app.get("/clientes")
def get_clientes():
    return {
        "id": random.randint(1, 1000),
        "nome": random.choice(["Ana", "Bruno", "Carla", "Diego"]),
        "cidade": random.choice(["Natal", "Recife", "Fortaleza", "João Pessoa"]),
        "data_cadastro": datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    }

# Função para rodar o servidor em uma thread
def run_server():
    uvicorn.run(app, host="localhost", port=8000, log_level="info")

# Inicia o servidor em background
server_thread = threading.Thread(target=run_server, daemon=True)
server_thread.start()

INFO:     Started server process [1236]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://localhost:8000 (Press CTRL+C to quit)


INFO:     ::1:62995 - "GET /clientes HTTP/1.1" 200 OK
INFO:     ::1:62997 - "GET /clientes HTTP/1.1" 200 OK
INFO:     ::1:62999 - "GET /clientes HTTP/1.1" 200 OK
INFO:     ::1:63000 - "GET /clientes HTTP/1.1" 200 OK
INFO:     ::1:63002 - "GET /clientes HTTP/1.1" 200 OK
INFO:     ::1:63004 - "GET /clientes HTTP/1.1" 200 OK
INFO:     ::1:63005 - "GET /clientes HTTP/1.1" 200 OK
INFO:     ::1:63007 - "GET /clientes HTTP/1.1" 200 OK
INFO:     ::1:63009 - "GET /clientes HTTP/1.1" 200 OK
INFO:     ::1:63010 - "GET /clientes HTTP/1.1" 200 OK
INFO:     ::1:63012 - "GET /clientes HTTP/1.1" 200 OK


In [None]:
# Para forçar o encerramento do servidor (se necessário)
# ! lsof -ti:8000 | xargs kill -9

In [42]:
# Cliente que consome a API FastAPI

# Importação das bibliotecas
import requests, time

# Configuração do URL da API
url = "http://localhost:8000/clientes"

# Loop infinito para consumir a API a cada 2 segundos
while True:
    r = requests.get(url) # Faz a requisição GET
    data = r.json() # Converte a resposta JSON em dicionário Python
    print("Dados: ", data) # Imprime os dados recebidos
    time.sleep(2)

Dados:  {'id': 263, 'nome': 'Bruno', 'cidade': 'João Pessoa', 'data_cadastro': '2025-09-08 23:41:08'}
Dados:  {'id': 92, 'nome': 'Ana', 'cidade': 'Natal', 'data_cadastro': '2025-09-08 23:41:10'}
Dados:  {'id': 930, 'nome': 'Bruno', 'cidade': 'Recife', 'data_cadastro': '2025-09-08 23:41:12'}
Dados:  {'id': 441, 'nome': 'Ana', 'cidade': 'João Pessoa', 'data_cadastro': '2025-09-08 23:41:14'}
Dados:  {'id': 833, 'nome': 'Bruno', 'cidade': 'Fortaleza', 'data_cadastro': '2025-09-08 23:41:16'}
Dados:  {'id': 836, 'nome': 'Bruno', 'cidade': 'Fortaleza', 'data_cadastro': '2025-09-08 23:41:18'}
Dados:  {'id': 387, 'nome': 'Carla', 'cidade': 'Recife', 'data_cadastro': '2025-09-08 23:41:20'}
Dados:  {'id': 948, 'nome': 'Bruno', 'cidade': 'João Pessoa', 'data_cadastro': '2025-09-08 23:41:22'}
Dados:  {'id': 783, 'nome': 'Carla', 'cidade': 'João Pessoa', 'data_cadastro': '2025-09-08 23:41:24'}
Dados:  {'id': 659, 'nome': 'Bruno', 'cidade': 'João Pessoa', 'data_cadastro': '2025-09-08 23:41:26'}
Dados

KeyboardInterrupt: 

### 4.2. Outras APIs (abertas)

In [43]:
# Consumo de uma API pública (ViaCEP)
import requests
r = requests.get("https://viacep.com.br/ws/59064900/json/")
print(r.json())

{'cep': '59064-900', 'logradouro': 'Avenida Senador Salgado Filho', 'complemento': '2234', 'unidade': 'Natal Shopping Center', 'bairro': 'Candelária', 'localidade': 'Natal', 'uf': 'RN', 'estado': 'Rio Grande do Norte', 'regiao': 'Nordeste', 'ibge': '2408102', 'gia': '', 'ddd': '84', 'siafi': '1761'}


In [44]:
# Consumo de uma API pública com query/paginação (ReqRes)
# Para obter sucesso, acesse https://reqres.in/signup e copie a chave da API
import requests
key = {"x-api-key": "reqres-free-v1"} # Chave da API
r = requests.get("https://reqres.in/api/users", headers=key, params={"page": 2})
print(r.json())

{'page': 2, 'per_page': 6, 'total': 12, 'total_pages': 2, 'data': [{'id': 7, 'email': 'michael.lawson@reqres.in', 'first_name': 'Michael', 'last_name': 'Lawson', 'avatar': 'https://reqres.in/img/faces/7-image.jpg'}, {'id': 8, 'email': 'lindsay.ferguson@reqres.in', 'first_name': 'Lindsay', 'last_name': 'Ferguson', 'avatar': 'https://reqres.in/img/faces/8-image.jpg'}, {'id': 9, 'email': 'tobias.funke@reqres.in', 'first_name': 'Tobias', 'last_name': 'Funke', 'avatar': 'https://reqres.in/img/faces/9-image.jpg'}, {'id': 10, 'email': 'byron.fields@reqres.in', 'first_name': 'Byron', 'last_name': 'Fields', 'avatar': 'https://reqres.in/img/faces/10-image.jpg'}, {'id': 11, 'email': 'george.edwards@reqres.in', 'first_name': 'George', 'last_name': 'Edwards', 'avatar': 'https://reqres.in/img/faces/11-image.jpg'}, {'id': 12, 'email': 'rachel.howell@reqres.in', 'first_name': 'Rachel', 'last_name': 'Howell', 'avatar': 'https://reqres.in/img/faces/12-image.jpg'}], 'support': {'url': 'https://contentcad

In [45]:
# Consumo de uma API pública com token/autenticação (GitHub)
import requests
hdr = {"Authorization": "Bearer INSERIR_TOKEN_DO_GITHUB_AQUI"} # ANTEÇÃO: você precisa inserir o token do github
r = requests.get("https://api.github.com/user", headers=hdr)
print(r.status_code, r.json())

401 {'message': 'Bad credentials', 'documentation_url': 'https://docs.github.com/rest', 'status': '401'}


## 5. Web scraping (HTML estático)<a id="sec5"></a>

Web scraping é o processo automatizado de extrair dados estruturados de páginas da web, lendo o HTML (ou APIs internas) para reutilizar essas informações.

In [46]:
# Simulamos uma página HTML local
html_path = BASE / "pagina_web.html"
html_content = """
<!doctype html>
<html><head><meta charset="utf-8"><title>Loja Demo</title></head>
<body>
  <h1>Produtos</h1>
  <table id="tabela">
    <thead><tr><th>Produto</th><th>Preço</th></tr></thead>
    <tbody>
      <tr><td>Caderno</td><td>R$ 15,90</td></tr>
      <tr><td>Caneta</td><td>R$ 3,50</td></tr>
      <tr><td>Mouse</td><td>R$ 79,00</td></tr>
    </tbody>
  </table>
</body></html>
"""
html_path.write_text(html_content, encoding="utf-8")
str(html_path)

'C:\\Users\\renan\\OneDrive\\Documentos\\UFRN\\2025_2\\Ciência de Dados\\DCA3501_Data_Science\\notebooks\\files\\pagina_web.html'

In [47]:
# Parser mínimo de tabela HTML para extrair células (<th>/<td>) de uma tabela <table id="tabela">

# Importação da biblioteca
from html.parser import HTMLParser

# Definição do parser
class SimpleTableParser(HTMLParser):
    def __init__(self, table_id):
        super().__init__()
        self.table_id = table_id      # id da tabela alvo no HTML
        self.capture = False          # estamos dentro da <table id="..."> correta?
        self.in_cell = False          # estamos dentro de uma célula <td> ou <th>?
        self.rows = []                # todas as linhas extraídas
        self.row = []                 # linha corrente (lista de células)
        self.buf = []                 # buffer de texto da célula corrente

    def handle_starttag(self, tag, attrs):
        # Se abriu uma <table>, verifica se é a que queremos (id == table_id)
        if tag == "table" and dict(attrs).get("id") == self.table_id:
            self.capture = True
        # Dentro da tabela alvo, ao abrir <td> ou <th>, começa a capturar o texto da célula
        elif self.capture and tag in ("td", "th"):
            self.in_cell = True
            self.buf = []  # zera o buffer para a nova célula

    def handle_endtag(self, tag):
        # Ao fechar <td> ou <th>, finaliza a célula: junta o texto e adiciona na linha corrente
        if self.capture and tag in ("td", "th"):
            self.row.append("".join(self.buf).strip())
            self.in_cell = False
        # Ao fechar <tr>, se a linha tiver conteúdo, salva em rows e reseta a linha
        elif self.capture and tag == "tr":
            if self.row:
                self.rows.append(self.row)
            self.row = []
        # Ao fechar </table>, para de capturar
        elif tag == "table" and self.capture:
            self.capture = False

    def handle_data(self, data):
        # Texto encontrado: se estamos dentro de uma célula, acumula no buffer
        if self.in_cell:
            self.buf.append(data)

# Extraindo...
p = SimpleTableParser("tabela")                          # Id da tabela no HTML
p.feed(html_path.read_text(encoding="utf-8"))            # Faz o parse do arquivo
rows = p.rows                                            # Todas as linhas (inclui header)
headers, body = rows[0], rows[1:]                        # Separa cabeçalho e corpo

print(body)

[['Caderno', 'R$ 15,90'], ['Caneta', 'R$ 3,50'], ['Mouse', 'R$ 79,00']]


## 6. Aquisição via streaming em tempo real<a id="sec6"></a>

Existem diversas tecnologias que permitem trabalhar com dados em tempo real, como Kafka, Spark Streaming, WebSockets, entre outros. Nesta seção, vamos utilizar **WebSockets** para ilustrar o conceito.

Um WebSocket é um protocolo que permite a comunicação bidirecional e contínua entre cliente e servidor. Com ele, um servidor pode gerar dados em tempo real, enquanto o cliente se conecta e recebe essas informações de forma imediata, sem precisar ficar requisitando a cada instante.

In [51]:
# Importação das bibliotcas
import asyncio
import random
import websockets
from datetime import datetime

# Se necessário, para instalar a biblioteca:
# !pip install websockets

# Função que será executada para cada cliente conectado
async def handler(websocket):
    while True:
        # Gera uma mensagem com dados aleatórios
        msg = {
            "id": random.randint(1, 1000),
            "nome": random.choice(["Ana", "Bruno", "Carla", "Diego"]),
            "cidade": random.choice(["Recife", "Natal", "Fortaleza", "João Pessoa"]),
            "data_cadastro": datetime.now().strftime("%Y-%m-%d %H:%M:%S")
        }
        # Envia a mensagem como JSON
        await websocket.send(json.dumps(msg))
        print("Enviado:", msg)
        await asyncio.sleep(2)

# Inicia servidor (executar só uma vez)
server = await websockets.serve(handler, "localhost", 8765)
print("Servidor rodando em ws://localhost:8765")

Servidor rodando em ws://localhost:8765


Enviado: {'id': 924, 'nome': 'Carla', 'cidade': 'Natal', 'data_cadastro': '2025-09-08 23:44:00'}
Enviado: {'id': 869, 'nome': 'Diego', 'cidade': 'Natal', 'data_cadastro': '2025-09-08 23:44:02'}
Enviado: {'id': 635, 'nome': 'Bruno', 'cidade': 'Natal', 'data_cadastro': '2025-09-08 23:44:04'}
Enviado: {'id': 581, 'nome': 'Bruno', 'cidade': 'Natal', 'data_cadastro': '2025-09-08 23:44:06'}


connection handler failed
Traceback (most recent call last):
  File "c:\Users\renan\AppData\Local\Programs\Python\Python313\Lib\site-packages\websockets\asyncio\server.py", line 376, in conn_handler
    await self.handler(connection)
  File "C:\Users\renan\AppData\Local\Temp\ipykernel_1236\839818629.py", line 21, in handler
    await websocket.send(json.dumps(msg))
  File "c:\Users\renan\AppData\Local\Programs\Python\Python313\Lib\site-packages\websockets\asyncio\connection.py", line 476, in send
    async with self.send_context():
               ~~~~~~~~~~~~~~~~~^^
  File "c:\Users\renan\AppData\Local\Programs\Python\Python313\Lib\contextlib.py", line 214, in __aenter__
    return await anext(self.gen)
           ^^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\renan\AppData\Local\Programs\Python\Python313\Lib\site-packages\websockets\asyncio\connection.py", line 957, in send_context
    raise self.protocol.close_exc from original_exc
websockets.exceptions.ConnectionClosedOK: received 1000 (OK)

In [49]:
# Para parar o servidor (opcional)
server.close(); await server.wait_closed()

In [52]:
# Cliente WebSocket para receber dados em tempo real

# Importação das bibliotecas
import websockets
import json

# Função do cliente para receber mensagens
async def listen():
    uri = "ws://localhost:8765"
    # Conecta ao servidor
    async with websockets.connect(uri) as websocket:
        print("Conectado ao servidor!")
        while True:
            # Recebe a mensagem
            msg = await websocket.recv()
            # "Parseia" o JSON
            data = json.loads(msg)
            print(f"{data}")

# Executa o cliente
await listen()

Conectado ao servidor!
{'id': 924, 'nome': 'Carla', 'cidade': 'Natal', 'data_cadastro': '2025-09-08 23:44:00'}
{'id': 869, 'nome': 'Diego', 'cidade': 'Natal', 'data_cadastro': '2025-09-08 23:44:02'}
{'id': 635, 'nome': 'Bruno', 'cidade': 'Natal', 'data_cadastro': '2025-09-08 23:44:04'}


CancelledError: 

## 7. Exercícios para fixação<a id="sec7"></a>

A seguir estão exercícios baseados nos exemplos do notebook. Cada exercício inclui um enunciado e um *starter code*. 
> Dica: execute os exemplos anteriores como referência antes de tentar os exercícios.

### Exercício 1 - CSV → JSON (ida e volta)
**Tarefa:** Converta um arquivo `.csv` para `.json`. Depois, leia o JSON e mostre apenas os registros de acordo com alguma condição (`if`) definida. Os dados podem ser gerados por vocês.


In [64]:
# Espaço para respostas dos Exercícios propostos:
csv_file_path = BASE / "lista_clientes.csv"
json_file_path = BASE / "lista_clientes_em_json.json"

dados = []
# Lendo dados do CSV e colocando num dicionário
with open(csv_file_path, mode='r', encoding="utf-8") as f:
    reader = csv.DictReader(f)
    for row in reader:
        dados.append(row)

# Imprime a saída
print("EM CSV:")
for row in dados:
    print(row)

# Pegando os dados do dicionário e salvando em JSON
with open(json_file_path, "w", encoding="utf-8") as f:

    json.dump(dados, f, ensure_ascii=False, indent=2)

with open(json_file_path, encoding="utf-8") as f:
    dados_json = json.load(f)

# Imprime a saída
print("EM JSON:")
for row in dados_json:
    if row['cidade'] != 'Recife':
        print(row)


EM CSV:
{'id': '1', 'nome': 'Ana', 'cidade': 'Natal', 'data_cadastro': '2024-05-01'}
{'id': '2', 'nome': 'Bruno', 'cidade': 'Recife', 'data_cadastro': '2024-05-03'}
{'id': '3', 'nome': 'Carla', 'cidade': 'Fortaleza', 'data_cadastro': '2024-06-10'}
{'id': '4', 'nome': 'Diego', 'cidade': 'João Pessoa', 'data_cadastro': '2024-07-02'}
EM JSON:
{'id': '1', 'nome': 'Ana', 'cidade': 'Natal', 'data_cadastro': '2024-05-01'}
{'id': '3', 'nome': 'Carla', 'cidade': 'Fortaleza', 'data_cadastro': '2024-06-10'}
{'id': '4', 'nome': 'Diego', 'cidade': 'João Pessoa', 'data_cadastro': '2024-07-02'}



### Exercício 2 - SQL → exportar para CSV
**Tarefa:** A partir do exemplo SQLite anteriormente apresentado, crie uma nova consulta e exporte o resultado da mesma para `clientes_filtrados.csv`. Em seguida, verifique se os dados foram corretamente carregados no arquivo `.csv`, exibindo o conteúdo do mesmo com o método `print()`.

In [87]:
# Espaço para respostas dos Exercícios propostos:
db_path = BASE / "exemplo_vendas.db"
csv_filtrado_path = BASE / "clientes_filtrados.csv"

con = sqlite3.connect(db_path)
cur = con.cursor()

# Consulta os clientes que não são de Recife
cur.execute("SELECT id, nome, cidade, data_cadastro FROM clientes WHERE cidade != 'Recife'")
rows = cur.fetchall()
cols = [desc[0] for desc in cur.description]

# Exporta para CSV
with open(csv_filtrado_path, "w", newline="", encoding="utf-8") as f:
    writer = csv.writer(f)
    writer.writerow(cols)
    writer.writerows(rows)

# Imprime o conteúdo do CSV gerado
with open(csv_filtrado_path, newline="", encoding="utf-8") as f:
    reader = csv.reader(f)
    for row in reader:
        print(row)

print("\nNada contra Recife :)")


['id', 'nome', 'cidade', 'data_cadastro']
['1', 'Ana', 'Natal', '2024-05-01']
['3', 'Carla', 'Fortaleza', '2024-06-10']
['4', 'Diego', 'João Pessoa', '2024-07-02']

Nada contra Recife :)



### Exercício 3 - API REST: usuários e emails
**Tarefa:** Consulte `https://jsonplaceholder.typicode.com/users` e exiba `name` e `email`. Em seguida, salve o resultado em `usuarios.json`. Utilize as técnicas anteriormente estudadas, obrigatoriamente.


In [75]:
# Espaço para respostas dos Exercícios propostos:

# Consulta da API
url = "https://jsonplaceholder.typicode.com/users"
resp = requests.get(url)
usuarios = resp.json()

# Exibe os dados coletados
for u in usuarios:
    print(f"Nome: {u['name']}, Email: {u['email']}")

# Salva apenas nome e email em usuarios.json
usuarios_filtrados = [{"nome": u["name"], "email": u["email"]} for u in usuarios]
usuarios_json_path = BASE / "usuarios.json"
with open(usuarios_json_path, "w", encoding="utf-8") as f:
    json.dump(usuarios_filtrados, f, ensure_ascii=False, indent=2)

Nome: Leanne Graham, Email: Sincere@april.biz
Nome: Ervin Howell, Email: Shanna@melissa.tv
Nome: Clementine Bauch, Email: Nathan@yesenia.net
Nome: Patricia Lebsack, Email: Julianne.OConner@kory.org
Nome: Chelsey Dietrich, Email: Lucio_Hettinger@annie.ca
Nome: Mrs. Dennis Schulist, Email: Karley_Dach@jasper.info
Nome: Kurtis Weissnat, Email: Telly.Hoeger@billy.biz
Nome: Nicholas Runolfsdottir V, Email: Sherwood@rosamond.me
Nome: Glenna Reichert, Email: Chaim_McDermott@dana.io
Nome: Clementina DuBuque, Email: Rey.Padberg@karina.biz



### Exercício 4 - Web Scraping: títulos e links
**Tarefa:** Baixe uma página (ex.: Wikipédia de uma cidade) e extraia:  
1) Títulos das seções principais (tag `<h2></h2>`).  
2) Todos os links do href de uma âncora (tag `<a href=""></a>`) e salve em `links.txt`.

Utilize as técnicas anteriormente estudadas, obrigatoriamente.

In [None]:
# Espaço para respostas dos Exercícios propostos:

# Grupo de K-pop Dreamcatcher na Wikipedia
html_path = BASE / "wiki_dreamcatcher.html"

# Parser para extrair títulos <h2> e links <a href="">
class WikiParser(HTMLParser):
    def __init__(self):
        super().__init__()
        self.in_h2 = False      # Flag para saber se está dentro de um <h2>
        self.h2_titles = []     # Lista para armazenar títulos das seções principais
        self.links = []         # Lista para armazenar todos os links encontrados
        self.buf = []           # Buffer para acumular texto do <h2>

    def handle_starttag(self, tag, attrs):
        # Se encontrar um <h2>, ativa a flag e zera o buffer
        if tag == "h2":
            self.in_h2 = True
            self.buf = []
        # Se encontrar um <a>, procura pelo atributo href e salva o link
        if tag == "a":
            for attr in attrs:
                if attr[0] == "href":
                    self.links.append(attr[1])

    def handle_endtag(self, tag):
        # Ao fechar </h2>, salva o título acumulado no buffer
        if tag == "h2" and self.in_h2:
            title = "".join(self.buf).strip()
            if title:
                self.h2_titles.append(title)
            self.in_h2 = False
            self.buf = []

    def handle_data(self, data):
        # Acumula o texto dentro do <h2>
        if self.in_h2:
            self.buf.append(data)

# Leitura do conteúdo HTML do arquivo
html_content = html_path.read_text(encoding="utf-8")
parser = WikiParser()
parser.feed(html_content)  # Faz o parsing do HTML

# Exibe os títulos das seções principais encontrados
print("Títulos <h2> encontrados:")
for t in parser.h2_titles:
    print("-", t)

print("\nFica aí a curiosidade de que alguém deixou um link errado kkk")

# Salva todos os links encontrados
links_path = BASE / "links.txt"
with open(links_path, "w", encoding="utf-8") as f:
    for link in parser.links:
        f.write(link + "\n")

print(f"\nOs links foram salvos em links.txt, porém está englobando tanto os links internos quanto externos.")
print("Então passaremos um filtro para salvar apenas os links simples.")

# Salva apenas links simples em links.txt
links_simples = [link for link in parser.links if "#" not in link]
links_path = BASE / "links.txt"
with open(links_path, "w", encoding="utf-8") as f:
    for link in links_simples:
        f.write(link + "\n")

print(f"\nTotal de links simples salvos em links.txt: {len(links_simples)}")

Títulos <h2> encontrados:
- Conteúdo
- História
- Integrantes
- Discografia
- Concertos
- Videografia
- Prêmios e nomeações
- Exclusive designer wallpapers and FR & antimicrobial fabrics for contract and residential settings: https://www.skoposhomes.com/quick-easy-wallpaper-installation-hacks-you-need-now/
- Ligações externas

Fica aí a curiosidade de que alguém deixou um link errado kkk

Os links foram salvos em links.txt, porém está englobando tanto os links internos quanto externos.
Então passaremos um filtro para salvar apenas os links simples.

Total de links simples salvos em links.txt: 498
