# üìå Transform: Depois Enriquecer

[Clique para acessar os dados](https://docs.google.com/spreadsheets/d/1YQhDNSt1sOrzq6AKxyYG6wzRAvM-M7l7jJRIHunNB88/copy?gid=1190375422#gid=1190375422)

In [None]:
import pandas as pd
import numpy as np

In [None]:
df_receitas = pd.read_csv('/content/C√≥pia de Dados - TCC - Planilhas - Receitas.csv')

## 1Ô∏è‚É£ Ao n√≠vel de colunas

### üí° Coluna Condicional ou Personalizada

In [None]:
df_receitas.columns

Index(['atendimento_id', 'data_lancamento', 'receita_codigo',
       'venda_quantidade', 'venda_valor', 'cliente_id', 'cliente_sexo',
       'cliente_nascimento_data', 'cliente_origem',
       'profissional_especialidade', 'pagamento_data', 'pagamento_forma'],
      dtype='object')

üîπ Se tivermos uma coluna de data de nascimento, podemos calcular a idade subtraindo do ano atual. Diferente das planilhas n√£o √© uma quest√£o de subtra√ß√£o simples, porque data n√£o √© tratada como n√∫mero

In [None]:
from datetime import datetime

# Criando a coluna de idade baseada na data de nascimento. Pegamos o ano atual e subtra√≠mos o ano de nascimento, obtendo a idade.
df_receitas["cliente_idade"] = datetime.today().year - pd.to_datetime(df_receitas["cliente_nascimento_data"]).dt.year

In [None]:
df_receitas["cliente_idade"].value_counts()

Unnamed: 0_level_0,count
cliente_idade,Unnamed: 1_level_1
43.0,59
35.0,48
36.0,48
32.0,46
34.0,43
...,...
84.0,1
78.0,1
14.0,1
11.0,1


üîπ Podemos dividir a idade em faixas num√©ricas predefinidas com pd.cut(). O pd.cut() considera o limite inferior fechado e o superior aberto, exceto o √∫ltimo intervalo, que √© fechado.

In [None]:
# Criando categorias de idade com pd.cut()

df_receitas["cliente_faixa_etaria"] = pd.cut(
    df_receitas["cliente_idade"],
    bins=[0, 17, 35, 60, 100],  # Limites das faixas et√°rias
    labels=["0-17", "18-35", "36-60", "61-100"]
)

In [None]:
df_receitas["cliente_faixa_etaria"].value_counts(dropna=False)

Unnamed: 0_level_0,count
cliente_faixa_etaria,Unnamed: 1_level_1
36-60,580
18-35,422
61-100,130
,103
0-17,7


üîπ Existem muitos caminhos. Poder√≠amos ter usado o np.select novamente para isso

In [None]:
# Criando condi√ß√µes para as faixas et√°rias
condicoes = [
    df_receitas["cliente_idade"] < 18,
    (df_receitas["cliente_idade"] >= 18) & (df_receitas["cliente_idade"] <= 35),
    (df_receitas["cliente_idade"] > 35) & (df_receitas["cliente_idade"] <= 60),
    df_receitas["cliente_idade"] > 60
]

# üìå Definindo os r√≥tulos correspondentes
categorias = ["0-17", "18-35", "36-60", "61-100"]

# üìå Criando a nova coluna com np.select()
df_receitas["cliente_faixa_etaria"] = np.select(condicoes, categorias, default="Desconhecido")


In [None]:
df_receitas["cliente_faixa_etaria"].value_counts(dropna=False)

Unnamed: 0_level_0,count
cliente_faixa_etaria,Unnamed: 1_level_1
36-60,580
18-35,422
61-100,130
Desconhecido,103
0-17,7


Isso √© o que chamamos de **feature engeniier ou engenharia de features**, uma habilidade especialmente importante

### üí° Aplicando fun√ß√µes

No entanto, pode ser que a cria√ß√£o de features necessite de algum c√°lculo mais complexo. Um m√©todo muito usado na manipula√ß√£o de dados √© aplicar uma fun√ß√£o nos dados ou em parte deles, para isso o m√©todo <font color = "orange">**`.apply()`</font>** √© muito utilizado.

Importante dizer que esse m√©todo **aplica uma determinada fun√ß√£o em apenas uma coluna ou linha do DF.**

In [None]:
# Fun√ß√£o para categorizar a idade
def classificar_faixa_etaria(idade):
    if idade < 18:
        return "0-17"
    elif idade <= 35:
        return "18-35"
    elif idade <= 60:
        return "36-60"
    elif idade > 60:
        return "61-100"
    else:
        return "Desconhecido"

In [None]:
# Aplicando a fun√ß√£o com apply()
df_receitas["cliente_faixa_etaria"] = df_receitas["cliente_idade"].apply(classificar_faixa_etaria)

**Compara√ß√µes**

| Crit√©rio                       | `np.select()`                                           | `apply()` com fun√ß√£o                                    |
| ------------------------------ | ------------------------------------------------------- | ------------------------------------------------------- |
| üîÑ **Velocidade**              | ‚úÖ Mais r√°pido para grandes volumes de dados             | ‚ùå Mais lento (loop interno por linha)                   |
| üß† **Clareza e l√≥gica**        | ‚ùå Pode ser menos leg√≠vel com muitas condi√ß√µes complexas | ‚úÖ Mais leg√≠vel, f√°cil de entender                       |
| üß© **Flexibilidade**           | ‚ùå Limitado a express√µes booleanas simples               | ‚úÖ Pode usar qualquer l√≥gica Python                      |
| üõ†Ô∏è **Engenharia de features** | ‚úÖ Ideal para regras simples de classifica√ß√£o            | ‚úÖ Ideal para regras complexas e condicionais encadeadas |
| üîç **Depura√ß√£o e testes**      | ‚ùå Mais dif√≠cil de testar e isolar erros                 | ‚úÖ Fun√ß√£o independente facilita testes                   |
