# **CIÊNCIA DE DADOS** - DCA3501

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE, NATAL/RN

DEPARTAMENTO DE ENGENHARIA DE COMPUTAÇÃO E AUTOMAÇÃO

(C) 2025-2026 CARLOS M D VIEGAS

https://github.com/cmdviegas


# IV. Python Intermediário para Ciência de Dados

Este notebook apresenta algumas operações aplicadas à Ciência de Dados, tais como slicing de sequências, tuplas, conjuntos e operações, funções de ordem, erros e exceções, manipulação de arquivos e datas.
> **Como usar:** Execute célula por célula (Shift+Enter). Se algo falhar, releia a explicação e ajuste o código.


## Pré-requisitos
- Você deve saber executar células em Jupyter;  
- Conhecer tipos básicos (`int`, `float`, `str`) e estruturas (`list`, `dict`);  
- Estar confortável com `for` e condicionais.



## Sumário
1. [Slicing avançado em sequências](#sec1)
2. [Tuplas e desempacotamento](#sec2)
3. [Conjuntos](#sec3)
4. [Comprehensions e condições](#sec4)
5. [Funções de ordem superior e utilitários úteis](#sec5)
6. [Erros e exceções](#sec6)
7. [Arquivos e CSV (sem pandas)](#sec7)
8. [Datas e horas com `datetime`](#sec8)
9. [Expressões regulares com `re`](#sec9)
10. [Mini-projeto: análise de vendas em CSV (Python puro)](#sec10)

## 1. Slicing avançado em sequências <a id="sec1"></a>

O slicing permite pegar **fatias** de sequências (`list`, `str`, etc.). Sintaxe geral: `seq[inicio:fim:passo]`.


In [None]:
s = list(range(10))  # 0..9
print(s[:])        # cópia superficial
print(s[2:7])      # índices 2..6
print(s[::2])      # de 2 em 2
print(s[1:8:3])    # do 1 ao 7 pulando 3
print(s[::-1])     # invertido


**Exercícios — Slicing**  
1. Dada `t = "ciência-de-dados"`, obtenha: (a) os 7 primeiros caracteres; (b) os 5 últimos; (c) a string invertida.  
2. Em `nums = list(range(1, 21))`, selecione apenas os múltiplos de 3 com slicing e *comprehension*.


In [None]:
# Espaço para respostas dos Exercícios propostos:



<details>
<summary><strong>Gabarito sugerido</strong></summary>

```python
t = "ciência-de-dados"
t[:7], t[-5:], t[::-1]

nums = list(range(1, 21))
[n for n in nums if n % 3 == 0]
```
</details>



## 2. Tuplas e desempacotamento <a id="sec2"></a>

Tuplas são **imutáveis** e úteis para agrupar valores. O desempacotamento facilita atribuir múltiplas variáveis de uma vez.


In [None]:
ponto = (3, 4)
x, y = ponto
print(x, y)

# troca de valores
a, b = 10, 20
a, b = b, a
a, b

In [None]:
# Desempacotamento com 'starred'
a, *meio, z = [1, 2, 3, 4, 5]
a, meio, z


**Exercício — Tuplas**  
Receba uma lista de pares `(nome, nota)` e crie duas listas: `nomes` e `notas` usando desempacotamento e *comprehension*.


In [None]:
# Espaço para respostas dos Exercícios propostos:



<details>
<summary><strong>Gabarito sugerido</strong></summary>

```python
dados = [("Ana", 8.5), ("Lia", 7.2), ("Bruno", 9.1)]
nomes = [n for (n, _) in dados]
notas = [x for (_, x) in dados]
nomes, notas
```
</details>



## 3. Conjuntos (*sets*) <a id="sec3"></a>

`set` armazena elementos **únicos** e suporta operações de conjunto.


In [None]:
a = {1, 2, 3, 3, 2}
b = {3, 4, 5}
print(a)                 # {1,2,3}
print(a | b)             # união
print(a & b)             # interseção
print(a - b)             # diferença
print(a ^ b)             # diferença simétrica


**Exercício — Sets**  
Dada a lista `valores = [1,2,2,3,4,4,5]`, remova duplicatas e conte quantos únicos existem.


In [None]:
# Espaço para respostas dos Exercícios propostos:



<details>
<summary><strong>Gabarito sugerido</strong></summary>

```python
valores = [1,2,2,3,4,4,5]
unicos = set(valores)
len(unicos), unicos
```
</details>



## 4. Comprehensions (lista, dicionário, conjunto) e condições <a id="sec4"></a>

Comprehensions tornam o código conciso e expressivo.


In [None]:
# Lista: quadrados pares de 0..10
quadrados_pares = [n*n for n in range(11) if n % 2 == 0]
quadrados_pares

In [None]:
# Dicionário: palavra -> tamanho
palavras = ["dados", "python", "ciência"]
tam = {p: len(p) for p in palavras}
tam

In [None]:
# Conjunto: letras únicas (ignorando espaços)
frase = "dado e dado não é dado"  # contém 'não é'
letras = {ch for ch in frase if ch != " "}
letras


**Exercício — Comprehensions**  
Crie uma lista com os **cubes** de 1..20 apenas para números múltiplos de 4 e um dicionário `{n: n%3}` para `n` em 0..9.


In [None]:
# Espaço para respostas dos Exercícios propostos:



<details>
<summary><strong>Gabarito sugerido</strong></summary>

```python
cubes = [n**3 for n in range(1, 21) if n % 4 == 0]
restos = {n: n % 3 for n in range(10)}
cubes, restos
```
</details>



## 5. Funções de ordem superior e utilitários úteis <a id="sec5"></a>

- `map(func, iter)`: aplica `func` a cada item;
- `filter(func, iter)`: seleciona itens onde `func(item)` é verdadeiro;
- `sorted(iter, key=...)`: ordena com função-chave;
- `zip`, `enumerate`: iteração conveniente;
- `any`, `all`: reduções booleanas;
- **Geradores**: memória eficiente.


In [None]:
# map, filter, sorted
nums = [5, 2, 7, 1, 0, -3]
dobrados = list(map(lambda x: x*2, nums))
positivos = list(filter(lambda x: x > 0, nums))
ordenados_por_abs = sorted(nums, key=abs)
dobrados, positivos, ordenados_por_abs

In [None]:
# zip e enumerate
alunos = ["Ana", "Bruno", "Lia"]
notas = [8.7, 6.5, 9.0]
for i, (nome, nota) in enumerate(zip(alunos, notas), start=1):
    print(i, nome, nota)

In [None]:
# any / all, geradores
tem_negativo = any(x < 0 for x in nums)
todos_inteiros = all(isinstance(x, int) for x in nums)
tem_negativo, todos_inteiros


**Exercícios — Ordem superior**  
1. Ordene `palavras = ["maçã", "banana", "abacaxi", "uva"]` por **tamanho** (crescente).  
2. Use `filter` para pegar apenas itens com 4 letras ou mais.  
3. Verifique com `all` se todos os preços em `[9.9, 0, 3.5]` são **não negativos**.


In [None]:
# Espaço para respostas dos Exercícios propostos:



<details>
<summary><strong>Gabarito sugerido</strong></summary>

```python
palavras = ["maçã", "banana", "abacaxi", "uva"]
ordenadas = sorted(palavras, key=len)
filtradas = list(filter(lambda p: len(p) >= 4, palavras))
precos = [9.9, 0, 3.5]
todos_ok = all(p >= 0 for p in precos)
ordenadas, filtradas, todos_ok
```
</details>



## 6. Erros e exceções <a id="sec6"></a>

Use `try`/`except` para tratar erros previstos. `else` roda se **não** ocorreu exceção; `finally` roda sempre.


In [None]:
def divide(a, b):
    try:
        r = a / b
    except ZeroDivisionError:
        return float("inf")
    else:
        return r
    finally:
        pass  # útil para fechar recursos
divide(8, 2), divide(5, 0)

In [None]:
# Lançando exceções e criando uma personalizada
class PrecoInvalidoError(Exception):
    pass

def aplicar_desconto(preco, taxa):
    if preco < 0 or not (0 <= taxa <= 1):
        raise PrecoInvalidoError("Parâmetros inválidos.")
    return preco * (1 - taxa)

try:
    aplicar_desconto(-10, 0.1)
except PrecoInvalidoError as e:
    print("Erro:", e)


**Exercício — Exceções**  
Implemente `to_float(s)` que retorna `float(s)` e, se falhar, retorna `None` **sem** interromper o programa.


In [None]:
# Espaço para respostas dos Exercícios propostos:



<details>
<summary><strong>Gabarito sugerido</strong></summary>

```python
def to_float(s):
    try:
        return float(s)
    except (TypeError, ValueError):
        return None
```
</details>



## 7. Arquivos e CSV (sem pandas) <a id="sec7"></a>

Use o gerenciador de contexto `with` para abrir/fechar arquivos automaticamente. Para CSV, use o módulo padrão `csv`.


In [None]:
# Gravando um CSV de exemplo
import csv, os
caminho = "/mnt/data/vendas_exemplo.csv"
linhas = [
    ["produto", "categoria", "preco"],
    ["Caderno", "papelaria", "19.90"],
    ["Caneta", "papelaria", "3.20"],
    ["Café", "alimentos", "7.00"],
    ["Refri", "alimentos", "5.50"],
]
with open(caminho, "w", newline="", encoding="utf-8") as f:
    writer = csv.writer(f)
    writer.writerows(linhas)
os.path.exists(caminho)

In [None]:
# Lendo e sumarizando
import csv
totais = {}
with open(caminho, newline="", encoding="utf-8") as f:
    reader = csv.DictReader(f)
    for row in reader:
        cat = row["categoria"].lower()
        preco = float(row["preco"])
        totais[cat] = totais.get(cat, 0.0) + preco
totais


**Exercícios — Arquivos**  
1. Crie um CSV com colunas `data, valor` e leia somando `valor` apenas quando `data` começar por `"2025-"`.  
2. Gere um novo arquivo com os totais por categoria (uma linha por categoria).


In [None]:
# Espaço para respostas dos Exercícios propostos:



<details>
<summary><strong>Dica</strong></summary>

Use `str.startswith("2025-")` no filtro de data e `csv.DictWriter` para gravar o resultado agregado.
</details>



## 8. Datas e horas com `datetime` <a id="sec8"></a>

Conversões comuns: `strptime` (string → data) e `strftime` (data → string). Trabalhe com deltas de tempo usando `timedelta`.


In [None]:
from datetime import datetime, timedelta

agora = datetime.now()
ontem = agora - timedelta(days=1)
fmt = "%Y-%m-%d %H:%M:%S"
agora.strftime(fmt), ontem.strftime(fmt)

In [None]:
# Parse e formatação
s = "2025-08-19 09:30:00"
dt = datetime.strptime(s, "%Y-%m-%d %H:%M:%S")
dt, dt.strftime("%d/%m/%Y %H:%M")


**Exercício — Datetime**  
Dada uma lista de strings `["2025-08-19", "2025-08-01", "2025-07-31"]`, converta para `datetime` e ordene da mais antiga para a mais recente.


In [None]:
# Espaço para respostas dos Exercícios propostos:



<details>
<summary><strong>Gabarito sugerido</strong></summary>

```python
datas = ["2025-08-19", "2025-08-01", "2025-07-31"]
dts = [datetime.strptime(d, "%Y-%m-%d") for d in datas]
sorted(dts)
```
</details>



## 9. Expressões regulares com `re` <a id="sec9"></a>

Úteis para validar/parsear strings. Ex.: extrair números, validar e-mails.

Sintaxe essencial (mini-guia):
- Classes: \d (dígito), \w (caractere de palavra, inclui acentos), \s (espaço).
- Quantificadores: * (0+), + (1+), ? (0 ou 1), {m,n} (faixa).
- Âncoras: ^ (início), $ (fim), \b (fronteira de palavra).
- Grupos: (...) captura; (?:...) não captura; (?P<nome>...) nomeia.
- Alternância: A|B (ou).
- Ganância: .* pega "o máximo"; .*? é preguiçoso (o mínimo).

In [None]:
import re

texto = "Pedido #123 entregue em 19/08/2025. Código: AB-42."
nums = re.findall(r"\d+", texto) # retorna todas as sequências numéricas que encontrar como lista de strings
datas = re.findall(r"\d{2}/\d{2}/\d{4}", texto) # retorna uma lista com cada data encontrada "(dois dígitos, barra, dois dígitos, barra, quatro dígitos)"
codigo = re.search(r"[A-Z]{2}-\d{2}", texto) # procura a primeira ocorrência do padrão "duas letras maiúsculas, hífen, dois dígitos"
print(nums)
print(datas)
print(codigo.group(0))


**Exercício — Regex**  
Dada a string `"contato: fulano@example.com, suporte: help@empresa.com.br"`, capture todos os e-mails.


In [None]:
# Espaço para respostas dos Exercícios propostos:



<details>
<summary><strong>Gabarito sugerido</strong></summary>

```python
s = "contato: fulano@example.com, suporte: help@empresa.com.br"
re.findall(r"[\w\.-]+@[\w\.-]+", s)
```
</details>



## 10. Mini-projeto: análise de vendas em CSV (Python puro) <a id="sec10"></a>

**Objetivo:** Ler um CSV de vendas, **validar** registros, agregar métricas e **classificar** itens por regras simples, sem usar pandas.

**Tarefas:**
1. Ler CSV com colunas: `data`, `produto`, `categoria`, `preco`.
2. **Validar**: descartar preços negativos e datas inválidas.
3. Agregar **total por categoria** e **ticket médio** por categoria.
4. Listar **top 3** produtos por **preço**.

**Desafio extra:** Grave um novo CSV `resumo.csv` com colunas `categoria,total,ticket_medio` e depois leia e imprima ordenado do maior para o menor `total`.

In [None]:
import csv
from datetime import datetime

# Cria um CSV de exemplo
caminho2 = "vendas_full.csv"
rows = [
    ["data","produto","categoria","preco"],
    ["2025-08-01","Caderno","papelaria","19.90"],
    ["2025-08-02","Caneta","papelaria","3.20"],
    ["2025-08-03","Café Expresso","alimentos","7.00"],
    ["2025-08-03","Refri Lata","alimentos","5.50"],
    ["2025-08-05","Mouse","eletronicos","79.90"],
    ["2025-08-06","Cabo USB","eletronicos","-1.00"],   # inválido
    ["2025-13-40","Algo","bug","10.00"],               # data inválida
    ["2025-08-07","Teclado","eletronicos","119.90"],
]

with open(caminho2, "w", newline="", encoding="utf-8") as f:
    csv.writer(f).writerows(rows)

# Complete as funções abaixo conforme os exercícios propostos


