<a href="https://colab.research.google.com/github/matheusvazdata/dados-lab/blob/main/Nested_functions.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#üéØ Fun√ß√µes Aninhadas e Engenharia de Dados

### üìå Cen√°rio 1: Valida√ß√£o e transforma√ß√£o de dados de clientes
H√° um DataFrame com dados de usu√°rios e ser√° preciso limpar os nomes e validar os e-mails.

In [1]:
import pandas as pd

# Dicion√°rio com os dados de exemplo
dados = {
    'nome': [' Alice ', 'bob', ' CAROL ', 'daniel', 'MATHEUS'],
    'email': ['alice@email.com', 'bob#email.com', 'carol@email.com', '', 'matheusvaz@email.com.br']
}

# Transforma√ß√£o para um Dataframe
df = pd.DataFrame(dados)

‚úÖ Fun√ß√£o com fun√ß√£o aninhada

In [2]:
def limpar_validar(df):
    def limpar_nome(nome):
        return nome.strip().capitalize()

    def validar_email(email):
        return '@' in email and '.' in email

    df['nome_limpo'] = df['nome'].apply(limpar_nome)
    df['email_valido'] = df['email'].apply(validar_email)
    return df

In [3]:
# Visualiza√ß√£o ap√≥s aplica√ß√£o da fun√ß√£o aninhada
df_limpo = limpar_validar(df)
display(df_limpo)

Unnamed: 0,nome,email,nome_limpo,email_valido
0,Alice,alice@email.com,Alice,True
1,bob,bob#email.com,Bob,False
2,CAROL,carol@email.com,Carol,True
3,daniel,,Daniel,False
4,MATHEUS,matheusvaz@email.com.br,Matheus,True


In [4]:
# Filtrando os usu√°rios com e-mails v√°lidos e com seus nomes tratados
df_limpo = limpar_validar(df)
display(
    (df_limpo[df_limpo['email_valido'] == True]) \
    .loc[:, ['nome_limpo', 'email']] \
    .reset_index(drop=True)
)

Unnamed: 0,nome_limpo,email
0,Alice,alice@email.com
1,Carol,carol@email.com
2,Matheus,matheusvaz@email.com.br


As **fun√ß√µes aninhadas** `limpar_nome` e `validar_email` est√£o definidas **dentro da fun√ß√£o principal** `limpar_validar`. Isso significa que elas s√≥ existem no contexto de execu√ß√£o dessa fun√ß√£o. Essa abordagem traz tr√™s vantagens importantes para quem est√° migrando para Engenharia de Dados:

1. **Organiza√ß√£o do c√≥digo**: ao agrupar as fun√ß√µes auxiliares onde elas realmente s√£o utilizadas, o c√≥digo fica mais **modular e leg√≠vel**.
2. **Escopo controlado**: as fun√ß√µes internas **n√£o ficam dispon√≠veis no escopo global**, evitando conflitos com outras partes do sistema.
3. **Seguran√ßa e reutiliza√ß√£o pontual**: essas fun√ß√µes s√£o usadas **apenas dentro da `limpar_validar`**, o que garante que **n√£o sejam chamadas por engano** fora do seu prop√≥sito.

> Esse padr√£o √© especialmente √∫til em pipelines de dados, onde √© comum encapsular l√≥gicas espec√≠ficas de transforma√ß√£o ou valida√ß√£o em etapas bem definidas.

### üìå Cen√°rio 2: C√°lculo de m√©tricas com base em dados tempor√°rios (dentro de uma fun√ß√£o)

In [5]:
# Escopo e a Regra LEGB
def gerar_relatorio():
    total_registros = 0  # Vari√°vel no escopo da fun√ß√£o externa (Enclosing)

    def registrar(qtd):
        nonlocal total_registros  # Refere-se √† vari√°vel da fun√ß√£o externa
        total_registros += qtd    # Atualiza o valor acumulado
        return total_registros    # Retorna o total at√© o momento

    print(registrar(5))   # 5: adiciona 5 ao total_registros (inicialmente 0)
    print(registrar(10))  # 15: adiciona 10 ao valor atual (5 + 10)
    return total_registros

In [6]:
resultado = gerar_relatorio()
print("Total final:", resultado)  # Total final: 15

5
15
Total final: 15


Neste exemplo, temos uma **fun√ß√£o aninhada** `registrar()` dentro da fun√ß√£o `gerar_relatorio()`. A vari√°vel `total_registros` est√° no escopo **envolvente (enclosing)** da fun√ß√£o `registrar`.

Ao usar a palavra-chave `nonlocal`, permitimos que a fun√ß√£o interna **acesse e modifique** essa vari√°vel da fun√ß√£o externa ‚Äî algo que n√£o seria poss√≠vel com vari√°veis locais comuns.

### üß† LEGB: Como o Python resolve nomes de vari√°veis

- **L**ocal ‚Üí dentro da fun√ß√£o atual (`registrar`)
- **E**nclosing ‚Üí dentro da fun√ß√£o `gerar_relatorio`
- **G**lobal ‚Üí no m√≥dulo (arquivo) atual
- **B**uilt-in ‚Üí fun√ß√µes e nomes padr√£o do Python

### üõ†Ô∏è Aplica√ß√£o real em Engenharia de Dados

Essa l√≥gica pode ser √∫til, por exemplo, quando voc√™ est√° dentro de uma fun√ß√£o que processa um conjunto de dados (como uma lista ou DataFrame) e quer manter **um contador interno de registros v√°lidos**, sem usar vari√°veis globais.

Imagine um pipeline de valida√ß√£o que percorre registros e conta quantos passaram nos crit√©rios. Voc√™ poderia encapsular esse contador com `nonlocal` dentro de uma fun√ß√£o externa que orquestra as valida√ß√µes.

### üéØ Aplicando tudo em uma mini-pipeline

In [7]:
def pipeline_dados(dados, fator_ajuste=1.0, **metadados):
    def limpar_nome(nome):
        return nome.strip().title()

    def aplicar_ajuste(valor):
        return valor * fator_ajuste

    dados['nome'] = dados['nome'].apply(limpar_nome)
    dados['receita_ajustada'] = dados['receita'].apply(aplicar_ajuste)

    print("\n[LOG] Metadados de execu√ß√£o:")
    for k, v in metadados.items():
        print(f"{k}: {v}")

    return f'\n{dados}'

In [8]:
df_exemplo = pd.DataFrame({
    'nome': [' joana ', 'MARCOS', ' Ana '],
    'receita': [1000, 1500, 1300]
})

resultado = pipeline_dados(df_exemplo, fator_ajuste=1.1, usuario='jr_data_eng', etapa='ajuste_financeiro')
print(resultado)


[LOG] Metadados de execu√ß√£o:
usuario: jr_data_eng
etapa: ajuste_financeiro

     nome  receita  receita_ajustada
0   Joana     1000            1100.0
1  Marcos     1500            1650.0
2     Ana     1300            1430.0


### üß† Conclus√£o
Esses conceitos s√£o poderos√≠ssimos para quem est√° em transi√ß√£o de carreira, especialmente quando:

- Voc√™ precisa organizar etapas de um pipeline ETL.

- Est√° construindo fun√ß√µes que ser√£o reutilizadas em an√°lises e dashboards.

- Precisa lidar com valida√ß√£o, transforma√ß√£o e logging de forma limpa e funcional.