# Aula 2 – Funções e Manipulação de Arquivos com Python 


## 📌 Tópicos da Aula

- Definição e uso de funções
- Escopo de variáveis
- Funções anônimas (lambda)
- Manipulação de arquivos (`.txt`, `.csv`, `.json`)
- Navegação de diretórios com `os` e `pathlib`
- Boas práticas em estrutura de scripts
- Logging básico

---

## 0. ETL

E = Extract
T = Transform
L = Load

DW = DataWarehouse

DM = DataMarts

## 🐍 1. Funções em Python

### 📚 Definição

Uma função é um bloco de código reutilizável que executa uma tarefa específica.

```python
def calcular_total(valor, desconto=0):
    return valor - (valor * desconto)
```

Exemplo real:
> Em um pipeline de precificação, o engenheiro de dados aplica descontos automaticamente nos valores de entrada.
```python
preco_final = calcular_total(1200, desconto=0.1)
```

In [None]:
#pydantic

In [3]:
def encriptar(msg: str):
    lista = list(msg)

    for i in range(len(lista)):
        lista[i] = chr(ord(lista[i])+1)

    return ''.join(lista)

encriptar('curso de engenharia de dados')

'dvstp!ef!fohfoibsjb!ef!ebept'

In [21]:
# parametro nomeável
# parametro de valor padrão
# /
# args
# kwargs
def funcao(a, b=10):
    return a+b

In [20]:
lista = [1, 2, 3]
funcao(lista)

1 2 3


In [24]:
funcao(10)

20

In [22]:
#      a    b  [       c            ][    d      ] 
funcao(10, 30, 60, 120, 130, 140 150, x=10, y=20)

SyntaxError: invalid syntax. Perhaps you forgot a comma? (1761543523.py, line 2)

In [9]:
d = {'x':10, 'y':20}
d

{'x': 10, 'y': 20}

In [2]:
import pandas as pd

pd.read_json('https://integrasus.saude.ce.gov.br/api/consultas-ceos/card-mapa-tabela?dataInicio=2024-01-01&dataFim=2025-05-31&codigoCEO=&especialidade=')

Unnamed: 0,numeroAgendamento,numeroAtendimento,percentualAtendimento,codigoMunicipio,municipio
0,1184,788,66.55,230010,ABAIARA
1,700,585,83.57,230015,ACARAPE
2,19902,14417,72.44,230020,ACARAÚ
3,626,505,80.67,230030,ACOPIARA
4,897,663,73.91,230040,AIUABA
...,...,...,...,...,...
177,1231,793,64.42,231375,UMIRIM
178,1378,897,65.09,231380,URUBURETAMA
179,407,285,70.02,231390,URUOCA
180,1181,818,69.26,231395,VARJOTA


### 🗺️ 2. Escopo de Variáveis
> **Global**: variável definida fora da função

> **Local**: variável definida dentro da função

In [1]:
taxa = 0.1

def aplicar_taxa(valor):
    taxa = 0.2
    return valor * (1 + taxa)


print(taxa)
print(aplicar_taxa(1))
print(taxa)

0.1
1.2
0.1


### 📂3. Navegação de Diretórios
Usando o módulo os:

In [26]:
import os

# Ver caminho atual
print(os.getcwd())

C:\Users\ProDigital\Machine\UNIFOR\ENG.DADOS\T2\Programação\Aula 02


In [27]:
# Listar arquivos no diretório atual
print(os.listdir())

['.ipynb_checkpoints', 'Atividade.ipynb', 'Aula 01 - Material Auxiliar - Compreensions e Geradores.ipynb', 'Aula 02 - Professor.ipynb', 'Aula 2 - Arquivos.ipynb', 'Aula 2 - Conceitos de Programacao Funcional.ipynb', 'Aula 2 - Tratamento de Excecao.ipynb', 'clientes.csv', 'dados', 'emails.txt', 'log_execucao.txt', 'LPI - Aula 05 - Funções - Pós-aula.ipynb', 'nomes_arquivos.txt', 'transacoes.log']


In [28]:
# Criar diretório (se não existir)
os.makedirs("dados/raw", exist_ok=True)

In [49]:
if os.path.exists("dados/raw"):
    os.rmdir("dados/raw")
    os.remove('caminho')
else:
    print("The file does not exist")

### 4. Variáveis de ambiente

In [40]:
os.environ["usuario"] = "aluno"
os.environ["senha"] = "swordfish"

In [42]:
os.environ["usuario"]

'swordfish'

In [43]:
os.getenv('usuario')

'aluno'

In [44]:
os.environ["admin"]

KeyError: 'admin'

In [29]:
os.getenv('admin')

### 📁 5. Manipulação de Arquivos
🔹 Leitura de .txt

In [37]:
with open("log_execucao.txt", "w") as f:
    f.write("Execução concluída com sucesso.")
    
print('Arquivo criado com sucesso!')

Arquivo criado com sucesso!


In [31]:
with open("log_execucao.txt", "r") as f:
    conteudo = f.read()
    print(conteudo)

Execução concluída com sucesso.


### 📦  Exemplo real: Logging de Execução
Um engenheiro de dados deseja registrar se a carga de um arquivo foi bem-sucedida ou não.

In [None]:
def registrar_log(mensagem, arquivo="log.txt"):
    with open(arquivo, "a") as f:
        f.write(mensagem + "\n")

try:
    df = pd.read_csv("dados/clientes.csv")
    registrar_log("Arquivo lido com sucesso.")
except Exception as e:
    registrar_log(f"Erro ao ler arquivo: {str(e)}")


## 🧾 6. Logging com a biblioteca `logging`

A biblioteca `logging` é recomendada para **registrar eventos**, **erros** e **comportamentos esperados** ao longo da execução de scripts.

É mais robusta e flexível do que gravar diretamente com `open()`.

---

### 🛠️ Configuração básica

```python
import logging

logging.basicConfig(
    filename='logs/execucao_pipeline.log',
    level=logging.INFO,
    format='%(asctime)s | %(levelname)s | %(message)s'
)


### Mensagens de diferentes níveis

```python
logging.info("Início do carregamento de dados")
logging.warning("Faltam colunas esperadas no arquivo")
logging.error("Erro de leitura do arquivo de entrada")
logging.debug("Valor da variável x: %s", 42)
```

In [2]:
import os
import logging

os.makedirs("logs", exist_ok=True)

with open('logs/execucao_pipeline.log', 'w') as fp:
    pass

logging.basicConfig(
    filename='logs/execucao_pipeline.log',
    level=logging.INFO,
    format='%(asctime)s | %(levelname)s | %(message)s'
)

In [7]:
def extract():
    try:
        arquivo = open('arquivo.txt','r')
        print('arquivo criado')
        logging.info("Arquivo carregado com sucesso")
        status = 'SUCCESS'
    except:
        print('Erro na leitura do arquivo.')    
        logging.error("Erro na leitura do arquivo.")
        status = 'ERROR'
    finnaly:
        if status == 'SUCCESS'
            return 1
        else:
            return 0
        
        
def transform():
    logging.info("Início da transformação")
    logging.info("Limpeza da base")
    logging.info("Imputação de dados")   
    
def load():
    logging.info("Início do carregamento de dados")
    logging.info("Carregamento de dados concluído")

    
extract()
transform()
load()

logging.info("ETL CONCLUÍDO")    

Erro na leitura do arquivo.


In [5]:
try:
    arquivo = open('arquivo.txt','r')
    print('arquivo criado')
except:
    print('Erro na leitura do arquivo.')

Erro na leitura do arquivo.


### 🔍 7. Expressões Regulares com re
📘 O que são regex? 

Expressões regulares são padrões usados para buscar, validar ou extrair textos. Muito usadas em limpeza de dados, validação de formatos (e-mails, CPF, etc.) e extração de logs.

| Padrão `re.findall()` | O que retorna                                              | Exemplo de uso                          |
| --------------------- | ---------------------------------------------------------- | --------------------------------------- |
| `\d`                  | Um único dígito (0–9)                                      | `'A3B' → ['3']`                         |
| `\d+`                 | Um ou mais dígitos seguidos                                | `'ID123VAL456' → ['123', '456']`        |
| `\D+`                 | Um ou mais caracteres que **não** são dígitos              | `'A3B5C' → ['A', 'B', 'C']`             |
| `\w`                  | Um caractere "palavra" (letras, números, underscore)       | `'A_B' → ['A', '_', 'B']`               |
| `\w+`                 | Uma palavra (letras, números, underscore)                  | `'User_01 ok' → ['User_01', 'ok']`      |
| `\W+`                 | Um ou mais caracteres que não são "palavra"                | `'ID#@!' → ['#@!']`                     |
| `\s+`                 | Um ou mais espaços, tabs ou quebras de linha               | `'a   b' → ['   ']`                     |
| `\S+`                 | Sequência sem espaços                                      | `'abc def' → ['abc', 'def']`            |
| `[a-z]`               | Um caractere entre 'a' e 'z'                               | `'Python' → ['y', 't', 'h', 'o', 'n']`  |
| `[A-Z]`               | Um caractere entre 'A' e 'Z'                               | `'PyTHON' → ['P', 'T', 'H', 'O', 'N']`  |
| `[0-9]{4}`            | Exatamente 4 dígitos seguidos                              | `'Ano: 2023' → ['2023']`                |
| `\bpalavra\b`         | A palavra exata, com separação por espaço, pontuação, etc. | `'palavra-chave palavra' → ['palavra']` |
| `[^abc]`              | Qualquer caractere **exceto** `a`, `b`, ou `c`             | `'defg' → ['d', 'e', 'f', 'g']`         |
| `.`                   | Qualquer caractere (exceto quebra de linha)                | `'AB' → ['A', 'B']`                     |


In [33]:
import re

texto = "Cliente 104 pagou R$ 300 em 15/02/2024"
numeros = re.findall(r"\d+", texto)
print(numeros)  # ['104', '300', '15', '02', '2024']


['104', '300', '15', '02', '2024']


In [34]:
nome = "Nome: Alex Lima Email: alexlimacavalera@gmail.com Curso: Engenharia de Dados"

mail = re.search("(Email)", nome)
curso = re.search("(Curso)", nome)
mail_ = nome[mail.start():curso.start()]
mail_

'Email: alexlimacavalera@gmail.com '

In [2]:
import re
cpf = "Meu CPF é 123.456.789-00"
#                    123   . 456  . 789 - 00
mascarado = re.sub(r"\d{3}.\d{3}.\d{3}-\d{2}", "[Priscilla]", cpf)

print(mascarado)

Meu CPF é [Priscilla]


In [36]:
import re

email = "usuario@email.com"
padrao = r"^\S+@\S+\.\S+$"

if re.match(padrao, email):
    print("Email válido")
else:
    print("Email inválido")


Email válido


| Pedaço do padrão | Significado                                                                  |
| ---------------- | ---------------------------------------------------------------------------- |
| `r"..."`         | Prefixo que indica uma *raw string* — ignora o tratamento de `\` no Python.  |
| `^`              | Início da string.                                                            |
| `\S+`            | Um ou mais caracteres que **não são espaço em branco** (`\S` = *non-space*). |
| `@`              | O caractere arroba literal.                                                  |
| `\S+`            | Um ou mais caracteres que **não são espaço em branco** após o `@`.           |
| `\.`             | Um ponto literal (precisa de `\` para escapar).                              |
| `\S+`            | Um ou mais caracteres que **não são espaço em branco** após o ponto.         |
| `$`              | Fim da string.                                                               |


## Atividade

Considere a lista de registros a seguir onde estão armazenados:
 - Nome
 - Rua 
 - CEP
 - Bairro
 - Cidade
 - Estado

Analise os registros a seguir e separe cada campo em uma lista.
 - CEP
 - Nome da rua
 - Nome pessoal
 - Rua, cidade e estado

In [1]:
import re

regs = [
        "Maria da Silva Rua das Flores cep 12345678 Centro Fortaleza Ceara",
        "João Oliveira Rua Bela Vista cep 54321876 Rio do Mato Fortaleza Ceara",
        "Ana Souza Rua do Comércio cep 98765432 Bom Jardim Fortaleza Ceara",
        "Pedro Santos Rua das Palmeiras cep 45678901 Jardins Fortaleza Ceara",
        "Carla Costa Rua Principal cep 87654321 Bairro Novo Fortaleza Ceara",
        "Fernando Lima Rua da Paz cep 23456789 Centro Fortaleza Ceara",
        "Juliana Pereira Rua do Sol cep 78901234 Cocó Fortaleza Ceara",
        "Luiz Rodrigues Rua das Esperanças cep 56789012 Dionisio Torres Fortaleza Ceara",
        "Patrícia Almeida Rua das Árvores cep 34567890 Rua Grande Fortaleza Ceara",
        "Marcos Oliveira Rua Beira Mar cep 67890123 Praia de Iracema Fortaleza Ceará"
]

### lower()

In [19]:
# DICA: DEIXAR OS TERMOS DA LISTA MINUSCULOS
n_regs = []
for r in range(len(regs)):
    n_regs.append(regs[r].lower())
    
n_regs    

['maria da silva rua das flores cep 12345678 centro fortaleza ceara',
 'joão oliveira rua bela vista cep 54321876 rio do mato fortaleza ceara',
 'ana souza rua do comércio cep 98765432 bom jardim fortaleza ceara',
 'pedro santos rua das palmeiras cep 45678901 jardins fortaleza ceara',
 'carla costa rua principal cep 87654321 bairro novo fortaleza ceara',
 'fernando lima rua da paz cep 23456789 centro fortaleza ceara',
 'juliana pereira rua do sol cep 78901234 cocó fortaleza ceara',
 'luiz rodrigues rua das esperanças cep 56789012 dionisio torres fortaleza ceara',
 'patrícia almeida rua das árvores cep 34567890 rua grande fortaleza ceara',
 'marcos oliveira rua beira mar cep 67890123 praia de iracema fortaleza ceará']

### CEP

In [2]:
# CEP
cep = re.search("(cep)", regs[1])
cep_ = regs[1][cep.start() + 4:cep.end() + 9]
cep_

'54321876'

### Nome da rua

In [30]:
# rua
rua = re.search(r"\b(?:rua|r|avenida|av)", regs[1].lower())
rua_ = regs[1][rua.start() : cep.start() - 1]
rua_

'Rua Bela Vista'

### Nome da pessoa

In [32]:
# nome da pessoa
nome = regs[1][:rua.start() - 1]
nome

'João Oliveira'

### Rua, cidade e estado

In [23]:
#rua cidade e estado
regs[1][cep.end() + 10: ]

'Rio do Mato Fortaleza Ceara'