# **CIÊNCIA DE DADOS** - DCA3501

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE, NATAL/RN

DEPARTAMENTO DE ENGENHARIA DE COMPUTAÇÃO E AUTOMAÇÃO

(C) 2025-2026 CARLOS M D VIEGAS

https://github.com/cmdviegas


# IV. Python Intermediário para Ciência de Dados

Este notebook apresenta algumas operações aplicadas à Ciência de Dados, tais como slicing de sequências, tuplas, conjuntos e operações, funções de ordem, erros e exceções, manipulação de arquivos e datas.
> **Como usar:** Execute célula por célula (Shift+Enter). Se algo falhar, releia a explicação e ajuste o código.


## Pré-requisitos
- Você deve saber executar células em Jupyter;  
- Conhecer tipos básicos (`int`, `float`, `str`) e estruturas (`list`, `dict`);  
- Estar confortável com `for` e condicionais.



## Sumário
1. [Slicing avançado em sequências](#sec1)
2. [Tuplas e desempacotamento](#sec2)
3. [Conjuntos](#sec3)
4. [Comprehensions e condições](#sec4)
5. [Funções de ordem superior e utilitários úteis](#sec5)
6. [Erros e exceções](#sec6)
7. [Arquivos e CSV (sem pandas)](#sec7)
8. [Datas e horas com `datetime`](#sec8)
9. [Expressões regulares com `re`](#sec9)
10. [Mini-projeto: análise de vendas em CSV (Python puro)](#sec10)

## 1. Slicing avançado em sequências <a id="sec1"></a>

O slicing permite pegar **fatias** de sequências (`list`, `str`, etc.). Sintaxe geral: `seq[inicio:fim:passo]`.


In [None]:
s = list(range(10))  # 0..9
print(s[:])        # cópia superficial
print(s[2:7])      # índices 2..6
print(s[::2])      # de 2 em 2
print(s[1:8:3])    # do 1 ao 7 pulando 3
print(s[::-1])     # invertido


**Exercícios — Slicing**  
1. Dada `t = "ciência-de-dados"`, obtenha: (a) os 7 primeiros caracteres; (b) os 5 últimos; (c) a string invertida.  
2. Em `nums = list(range(1, 21))`, selecione apenas os múltiplos de 3 com slicing e *comprehension*.


In [15]:
# Espaço para respostas dos Exercícios propostos:
# Parte 1
t = "ciência-de-dados"
print(t[:7]) 
print(t[-5:])
print(t[::-1])

#Parte 2
nums = list(range(1, 21))

# com slicing
multiplos_com_slicing = nums[2::3]
print(f"Múltiplos de 3 (com slicing): {multiplos_com_slicing}")

# com comprehension
multiplos_com_comprehension = [num for num in nums if num % 3 == 0]
print(f"Múltiplos de 3 (com comprehension): {multiplos_com_comprehension}")

ciência
dados
sodad-ed-aicnêic
Múltiplos de 3 (com slicing): [3, 6, 9, 12, 15, 18]
Múltiplos de 3 (com comprehension): [3, 6, 9, 12, 15, 18]



<details>
<summary><strong>Gabarito sugerido</strong></summary>

```python
t = "ciência-de-dados"
t[:7], t[-5:], t[::-1]

nums = list(range(1, 21))
[n for n in nums if n % 3 == 0]
```
</details>



## 2. Tuplas e desempacotamento <a id="sec2"></a>

Tuplas são **imutáveis** e úteis para agrupar valores. O desempacotamento facilita atribuir múltiplas variáveis de uma vez.


In [16]:
ponto = (3, 4)
x, y = ponto
print(x, y)

# troca de valores
a, b = 10, 20
a, b = b, a
a, b

3 4


(20, 10)

In [17]:
# Desempacotamento com 'starred'
a, *meio, z = [1, 2, 3, 4, 5]
a, meio, z

(1, [2, 3, 4], 5)


**Exercício — Tuplas**  
Receba uma lista de pares `(nome, nota)` e crie duas listas: `nomes` e `notas` usando desempacotamento e *comprehension*.


In [20]:
# Espaço para respostas dos Exercícios propostos:
dados = [("Ana", 8.5), ("Bruno", 7.0), ("Carlos", 9.0), ("Diana", 6.5)]

nomes = [nome for nome, _ in dados]
notas = [nota for _, nota in dados]
print("Nomes:", nomes)
print("Notas:", notas)

Nomes: ['Ana', 'Bruno', 'Carlos', 'Diana']
Notas: [8.5, 7.0, 9.0, 6.5]



<details>
<summary><strong>Gabarito sugerido</strong></summary>

```python
dados = [("Ana", 8.5), ("Lia", 7.2), ("Bruno", 9.1)]
nomes = [n for (n, _) in dados]
notas = [x for (_, x) in dados]
nomes, notas
```
</details>



## 3. Conjuntos (*sets*) <a id="sec3"></a>

`set` armazena elementos **únicos** e suporta operações de conjunto.


In [None]:
a = {1, 2, 3, 3, 2}
b = {3, 4, 5}
print(a)                 # {1,2,3}
print(a | b)             # união
print(a & b)             # interseção
print(a - b)             # diferença
print(a ^ b)             # diferença simétrica


**Exercício — Sets**  
Dada a lista `valores = [1,2,2,3,4,4,5]`, remova duplicatas e conte quantos únicos existem.


In [21]:
# Espaço para respostas dos Exercícios propostos:
valores = [1,2,2,3,4,4,5]

valores_unicos = set(valores)
print("Valores únicos:", valores_unicos)

Valores únicos: {1, 2, 3, 4, 5}



<details>
<summary><strong>Gabarito sugerido</strong></summary>

```python
valores = [1,2,2,3,4,4,5]
unicos = set(valores)
len(unicos), unicos
```
</details>



## 4. Comprehensions (lista, dicionário, conjunto) e condições <a id="sec4"></a>

Comprehensions tornam o código conciso e expressivo.


In [22]:
# Lista: quadrados pares de 0..10
quadrados_pares = [n*n for n in range(11) if n % 2 == 0]
quadrados_pares

[0, 4, 16, 36, 64, 100]

In [23]:
# Dicionário: palavra -> tamanho
palavras = ["dados", "python", "ciência"]
tam = {p: len(p) for p in palavras}
tam

{'dados': 5, 'python': 6, 'ciência': 7}

In [24]:
# Conjunto: letras únicas (ignorando espaços)
frase = "dado e dado não é dado"  # contém 'não é'
letras = {ch for ch in frase if ch != " "}
letras

{'a', 'd', 'e', 'n', 'o', 'ã', 'é'}


**Exercício — Comprehensions**  
Crie uma lista com os **cubes** de 1..20 apenas para números múltiplos de 4 e um dicionário `{n: n%3}` para `n` em 0..9.


In [30]:
# Espaço para respostas dos Exercícios propostos:
# Parte 1
cubos = [n**3 for n in range(20) if n%4==0]
print("Cubos de números múltiplos de 4:", cubos)

# Parte 2
dicionario = {n: n%3 for n in range(9)}
print("Dicionário:", dicionario)

Cubos de números múltiplos de 4: [0, 64, 512, 1728, 4096]
Dicionário: {0: 0, 1: 1, 2: 2, 3: 0, 4: 1, 5: 2, 6: 0, 7: 1, 8: 2}



<details>
<summary><strong>Gabarito sugerido</strong></summary>

```python
cubes = [n**3 for n in range(1, 21) if n % 4 == 0]
restos = {n: n % 3 for n in range(10)}
cubes, restos
```
</details>



## 5. Funções de ordem superior e utilitários úteis <a id="sec5"></a>

- `map(func, iter)`: aplica `func` a cada item;
- `filter(func, iter)`: seleciona itens onde `func(item)` é verdadeiro;
- `sorted(iter, key=...)`: ordena com função-chave;
- `zip`, `enumerate`: iteração conveniente;
- `any`, `all`: reduções booleanas;
- **Geradores**: memória eficiente.


In [31]:
# map, filter, sorted
nums = [5, 2, 7, 1, 0, -3]
dobrados = list(map(lambda x: x*2, nums))
positivos = list(filter(lambda x: x > 0, nums))
ordenados_por_abs = sorted(nums, key=abs)
dobrados, positivos, ordenados_por_abs

([10, 4, 14, 2, 0, -6], [5, 2, 7, 1], [0, 1, 2, -3, 5, 7])

In [32]:
# zip e enumerate
alunos = ["Ana", "Bruno", "Lia"]
notas = [8.7, 6.5, 9.0]
for i, (nome, nota) in enumerate(zip(alunos, notas), start=1):
    print(i, nome, nota)

1 Ana 8.7
2 Bruno 6.5
3 Lia 9.0


In [33]:
# any / all, geradores
tem_negativo = any(x < 0 for x in nums)
todos_inteiros = all(isinstance(x, int) for x in nums)
tem_negativo, todos_inteiros

(True, True)


**Exercícios — Ordem superior**  
1. Ordene `palavras = ["maçã", "banana", "abacaxi", "uva"]` por **tamanho** (crescente).  
2. Use `filter` para pegar apenas itens com 4 letras ou mais.  
3. Verifique com `all` se todos os preços em `[9.9, 0, 3.5]` são **não negativos**.


In [42]:
# Espaço para respostas dos Exercícios propostos:
palavras = ["maçã", "banana", "abacaxi", "uva"]
# Parte 1
palavras_ordenadas = sorted(palavras, reverse=True)
print("Palavras Ordenadas: ", palavras_ordenadas)

# Parte 2
palavras_filtradas = list(filter(lambda p:len(p)>3, palavras))
print("Palavras Filtradas: ", palavras_filtradas)

# Parte 3
nums = [9.9, 0, 3.5]
todos_pos = all(n > 0 for n in nums)
print("Todos são positivos? ", todos_pos)

Palavras Ordenadas:  ['uva', 'maçã', 'banana', 'abacaxi']
Palavras Filtradas:  ['maçã', 'banana', 'abacaxi']
Todos são positivos?  False



<details>
<summary><strong>Gabarito sugerido</strong></summary>

```python
palavras = ["maçã", "banana", "abacaxi", "uva"]
ordenadas = sorted(palavras, key=len)
filtradas = list(filter(lambda p: len(p) >= 4, palavras))
precos = [9.9, 0, 3.5]
todos_ok = all(p >= 0 for p in precos)
ordenadas, filtradas, todos_ok
```
</details>



## 6. Erros e exceções <a id="sec6"></a>

Use `try`/`except` para tratar erros previstos. `else` roda se **não** ocorreu exceção; `finally` roda sempre.


In [43]:
def divide(a, b):
    try:
        r = a / b
    except ZeroDivisionError:
        return float("inf")
    else:
        return r
    finally:
        pass  # útil para fechar recursos
divide(8, 2), divide(5, 0)

(4.0, inf)

In [45]:
# Lançando exceções e criando uma personalizada
class PrecoInvalidoError(Exception):
    pass

def aplicar_desconto(preco, taxa):
    if preco < 0 or not (0 <= taxa <= 1):
        raise PrecoInvalidoError("Parâmetros inválidos.")
    return preco * (1 - taxa)

try:
    aplicar_desconto(-10, 0.1)
except PrecoInvalidoError as e:
    print("Erro:", e)

Erro: Parâmetros inválidos.



**Exercício — Exceções**  
Implemente `to_float(s)` que retorna `float(s)` e, se falhar, retorna `None` **sem** interromper o programa.


In [46]:
# Espaço para respostas dos Exercícios propostos:
def to_float(s):
    try:
        return float(s)
    except ValueError:
        return None
to_float("3.14"), to_float("abc"), to_float("10e-2")

(3.14, None, 0.1)


<details>
<summary><strong>Gabarito sugerido</strong></summary>

```python
def to_float(s):
    try:
        return float(s)
    except (TypeError, ValueError):
        return None
```
</details>



## 7. Arquivos e CSV (sem pandas) <a id="sec7"></a>

Use o gerenciador de contexto `with` para abrir/fechar arquivos automaticamente. Para CSV, use o módulo padrão `csv`.


In [None]:
# Gravando um CSV de exemplo
import csv, os
caminho = "/mnt/data/vendas_exemplo.csv"
linhas = [
    ["produto", "categoria", "preco"],
    ["Caderno", "papelaria", "19.90"],
    ["Caneta", "papelaria", "3.20"],
    ["Café", "alimentos", "7.00"],
    ["Refri", "alimentos", "5.50"],
]
with open(caminho, "w", newline="", encoding="utf-8") as f:
    writer = csv.writer(f)
    writer.writerows(linhas)
os.path.exists(caminho)

In [None]:
# Lendo e sumarizando
import csv
totais = {}
with open(caminho, newline="", encoding="utf-8") as f:
    reader = csv.DictReader(f)
    for row in reader:
        cat = row["categoria"].lower()
        preco = float(row["preco"])
        totais[cat] = totais.get(cat, 0.0) + preco
totais


**Exercícios — Arquivos**  
1. Crie um CSV com colunas `data, valor` e leia somando `valor` apenas quando `data` começar por `"2025-"`.  
2. Gere um novo arquivo com os totais por categoria (uma linha por categoria).


In [None]:
# Espaço para respostas dos Exercícios propostos:



<details>
<summary><strong>Dica</strong></summary>

Use `str.startswith("2025-")` no filtro de data e `csv.DictWriter` para gravar o resultado agregado.
</details>



## 8. Datas e horas com `datetime` <a id="sec8"></a>

Conversões comuns: `strptime` (string → data) e `strftime` (data → string). Trabalhe com deltas de tempo usando `timedelta`.


In [50]:
from datetime import datetime, timedelta

agora = datetime.now()
ontem = agora - timedelta(days=1)
fmt = "%Y-%m-%d %H:%M:%S"
agora.strftime(fmt), ontem.strftime(fmt)

('2025-09-01 18:04:54', '2025-08-31 18:04:54')

In [51]:
# Parse e formatação
s = "2025-08-19 09:30:00"
dt = datetime.strptime(s, "%Y-%m-%d %H:%M:%S")
dt, dt.strftime("%d/%m/%Y %H:%M")

(datetime.datetime(2025, 8, 19, 9, 30), '19/08/2025 09:30')


**Exercício — Datetime**  
Dada uma lista de strings `["2025-08-19", "2025-08-01", "2025-07-31"]`, converta para `datetime` e ordene da mais antiga para a mais recente.


In [None]:
datas = ["2025-08-19", "2025-08-01", "2025-07-31"]

datas_dt = [datetime.strptime(data, "%Y-%m-%d") for data in datas]
datas_ordenadas = sorted(datas_dt)

# Formatando a lista ordenada de volta para strings para uma exibição mais bonita
datas_ordenadas_str = [data.strftime("%Y-%m-%d") for data in datas_ordenadas]

print("Lista ordenada: ", datas_ordenadas_str)

Lista ordenada:  ['2025-07-31', '2025-08-01', '2025-08-19']



<details>
<summary><strong>Gabarito sugerido</strong></summary>

```python
datas = ["2025-08-19", "2025-08-01", "2025-07-31"]
dts = [datetime.strptime(d, "%Y-%m-%d") for d in datas]
sorted(dts)
```
</details>



## 9. Expressões regulares com `re` <a id="sec9"></a>

Úteis para validar/parsear strings. Ex.: extrair números, validar e-mails.

Sintaxe essencial (mini-guia):
- Classes: \d (dígito), \w (caractere de palavra, inclui acentos), \s (espaço).
- Quantificadores: * (0+), + (1+), ? (0 ou 1), {m,n} (faixa).
- Âncoras: ^ (início), $ (fim), \b (fronteira de palavra).
- Grupos: (...) captura; (?:...) não captura; (?P<nome>...) nomeia.
- Alternância: A|B (ou).
- Ganância: .* pega "o máximo"; .*? é preguiçoso (o mínimo).

In [67]:
import re

texto = "Pedido #123 entregue em 19/08/2025. Código: AB-42."
nums = re.findall(r"\d+", texto) # retorna todas as sequências numéricas que encontrar como lista de strings
datas = re.findall(r"\d{2}/\d{2}/\d{4}", texto) # retorna uma lista com cada data encontrada "(dois dígitos, barra, dois dígitos, barra, quatro dígitos)"
codigo = re.search(r"[A-Z]{2}-\d{2}", texto) # procura a primeira ocorrência do padrão "duas letras maiúsculas, hífen, dois dígitos"
print(nums)
print(datas)
print(codigo.group(0))

['123', '19', '08', '2025', '42']
['19/08/2025']
AB-42



**Exercício — Regex**  
Dada a string `"contato: fulano@example.com, suporte: help@empresa.com.br"`, capture todos os e-mails.


In [72]:
# Espaço para respostas dos Exercícios propostos:
texto = "contato: fulano@example.com, suporte: help@empresa.com.br"

emails = re.findall(r"[a-zA-Z0-9._]+@[a-zA-Z0-9._]+\.[a-zA-Z]{2,}", texto)
emails

['fulano@example.com', 'help@empresa.com.br']


<details>
<summary><strong>Gabarito sugerido</strong></summary>

```python
s = "contato: fulano@example.com, suporte: help@empresa.com.br"
re.findall(r"[\w\.-]+@[\w\.-]+", s)
```
</details>



## 10. Mini-projeto: análise de vendas em CSV (Python puro) <a id="sec10"></a>

**Objetivo:** Ler um CSV de vendas, **validar** registros, agregar métricas e **classificar** itens por regras simples, sem usar pandas.

**Tarefas:**
1. Ler CSV com colunas: `data`, `produto`, `categoria`, `preco`.
2. **Validar**: descartar preços negativos e datas inválidas.
3. Agregar **total por categoria** e **ticket médio** por categoria.
4. Listar **top 3** produtos por **preço**.

**Desafio extra:** Grave um novo CSV `resumo.csv` com colunas `categoria,total,ticket_medio` e depois leia e imprima ordenado do maior para o menor `total`.

In [18]:
import csv
from datetime import datetime

# Cria um CSV de exemplo
caminho2 = "vendas_full.csv"
rows = [
    ["data","produto","categoria","preco"],
    ["2025-08-01","Caderno","papelaria","19.90"],
    ["2025-08-02","Caneta","papelaria","3.20"],
    ["2025-08-03","Café Expresso","alimentos","7.00"],
    ["2025-08-03","Refri Lata","alimentos","5.50"],
    ["2025-08-05","Mouse","eletronicos","79.90"],
    ["2025-08-06","Cabo USB","eletronicos","-1.00"],   # inválido
    ["2025-13-40","Algo","bug","10.00"],               # data inválida
    ["2025-08-07","Teclado","eletronicos","119.90"],
]

with open(caminho2, "w", newline="", encoding="utf-8") as f:
    csv.writer(f).writerows(rows)

# Complete as funções abaixo conforme os exercícios propostos
def ler_validar_vendas(caminho_arquivo):
    vendas_validas = []
    with open (caminho_arquivo, mode='r', encoding='utf-8') as f:
        leitor = csv.reader(f)
        next(leitor) # pular o cabeçalho
        for linha in leitor:
            try:
                data_str, produto, categoria, preco_str = linha
                preco = float(preco_str)
                if preco <=0:
                    continue
                datetime.strptime(data_str, '%Y-%m-%d')

                vendas_validas.append({
                    'data': data_str,
                    'produto': produto,
                    'categoria': categoria,
                    'preco': preco
                })
            except (ValueError, IndexError):
                # ignora as linhas que tem o formato incorreto, como data e preço
                continue
    return vendas_validas

def agregar_por_categoria(vendas):
    agregado = {}
    for venda in vendas:
        cat = venda['categoria']
        preco = venda['preco']
        if cat not in agregado:
            agregado[cat] = {'total': 0, 'contador': 0}
        agregado[cat]['total'] += preco
        agregado[cat]['contador'] += 1

    for cat, dados in agregado.items():
        agregado[cat]['ticket_medio'] = dados['total'] / dados['contador']
    
    return agregado


def produtos_por_preco(vendas, n=3): 
    vendas_ordenadas = sorted(vendas, key=lambda venda: venda['preco'], reverse=True)
    return vendas_ordenadas[:n]


# Leitura e validação dos dados do CSV
vendas_validas = ler_validar_vendas(caminho2)
print("--- Vendas Válidas ---")
for venda in vendas_validas:
    print(venda)
print("====================\n")

# Agregado total e ticket médio
resumo_categoria = agregar_por_categoria(vendas_validas)
print("--- Resumo por Categoria ---")
for categoria, dados in resumo_categoria.items():
    print(f"Categoria: {categoria}")
    print(f"Total Vendido: R$ {dados['total']:.2f}")
    print(f"Ticket Médio: R$ {dados['ticket_medio']:.2f}\n")
print("====================\n")


# Top 3 produtos por preço
top_3_produtos = produtos_por_preco(vendas_validas)
print("--- Top 3 Produtos Mais Caros ---")
for i, produto in enumerate(top_3_produtos, 1):
    print(f"{i}. {produto['produto']} - R$ {produto['preco']:.2f}")
print("====================\n")

# Parte adicional: gravar o resumo em um novo CSV
caminho_resumo = "resumo.csv"
with open(caminho_resumo, "w", newline="", encoding="utf-8") as f:
    escritor = csv.writer(f)
    escritor.writerow(["categoria", "total", "ticket_medio"])
    for categoria, dados in resumo_categoria.items():
        escritor.writerow([categoria, f"{dados['total']:.2f}", f"{dados['ticket_medio']:.2f}"])

# Mostrando o resumo ordenado no novo arquivo
resumo_lido = []
with open(caminho_resumo, "r", encoding="utf-8") as f:
    leitor = csv.reader(f)
    next(leitor) # pular cabeçalho
    for linha in leitor:
        resumo_lido.append(linha)

resumo_ordenado = sorted(resumo_lido, key=lambda item: float(item[1]), reverse=True)

print("--- resumo.csv ordenado por total ---")
print("Categoria, Total, Ticket Médio")
for item in resumo_ordenado:
    print(", ".join(item))



--- Vendas Válidas ---
{'data': '2025-08-01', 'produto': 'Caderno', 'categoria': 'papelaria', 'preco': 19.9}
{'data': '2025-08-02', 'produto': 'Caneta', 'categoria': 'papelaria', 'preco': 3.2}
{'data': '2025-08-03', 'produto': 'Café Expresso', 'categoria': 'alimentos', 'preco': 7.0}
{'data': '2025-08-03', 'produto': 'Refri Lata', 'categoria': 'alimentos', 'preco': 5.5}
{'data': '2025-08-05', 'produto': 'Mouse', 'categoria': 'eletronicos', 'preco': 79.9}
{'data': '2025-08-07', 'produto': 'Teclado', 'categoria': 'eletronicos', 'preco': 119.9}

--- Resumo por Categoria ---
Categoria: papelaria
Total Vendido: R$ 23.10
Ticket Médio: R$ 11.55

Categoria: alimentos
Total Vendido: R$ 12.50
Ticket Médio: R$ 6.25

Categoria: eletronicos
Total Vendido: R$ 199.80
Ticket Médio: R$ 99.90


--- Top 3 Produtos Mais Caros ---
1. Teclado - R$ 119.90
2. Mouse - R$ 79.90
3. Caderno - R$ 19.90

--- resumo.csv ordenado por total ---
Categoria, Total, Ticket Médio
eletronicos, 199.80, 99.90
papelaria, 23.10,