In [2]:
# =============================================================================
# MÓDULO 1: IMPORTAÇÃO DAS BIBLIOTECAS
# =============================================================================
# Importamos as bibliotecas que serão nossas "caixas de ferramentas"
import pandas as pd
import numpy as np
from datetime import datetime

# =============================================================================
# FASE 1: EXTRAÇÃO (EXTRACT)
# =============================================================================
# Em um caso real, os dados viriam de um banco de dados, uma API ou um arquivo.
# Aqui, vamos simular dados brutos "sujos" como se tivessem vindo de um sistema.
dados_brutos = {
    'id_candidato': [1, 2, 3, 4, 5, 6],
    'nome': ['Ana', 'Bruno', 'Carla', 'Daniel', 'ELIANA', 'Fernando'],
    'data_nascimento': ['1992-03-15', '1988-08-20', '1995-01-30', '1992-07-11', '1990-12-25', '1985-05-01'],
    'salario_mensal': [5000, 6500, None, 7200, 6800, 9500],
    'departamento': ['tecnologia', 'marketing', 'Tecnologia', 'Vendas', 'vendas', 'marketing']
}

# Criando o DataFrame bruto com o Pandas
df_bruto = pd.DataFrame(dados_brutos)


# =============================================================================
# FASE 2: TRANSFORMAÇÃO (TRANSFORM)
# =============================================================================
# Esta é a fase de limpeza e enriquecimento dos dados.
# Vamos criar uma cópia para manter os dados originais intactos.
df = df_bruto.copy()

# 1. Tratar valores ausentes (NaN/None) na coluna de salário
#    Vamos preencher o salário ausente com a mediana dos salários existentes.
mediana_salario = df['salario_mensal'].median()
# Garante a modificação no DataFrame original
df['salario_mensal'] = df['salario_mensal'].fillna(mediana_salario)

# 2. Converter a coluna 'data_nascimento' de texto para um formato de data real
df['data_nascimento'] = pd.to_datetime(df['data_nascimento'])

# 3. Engenharia de Features: Criar uma nova coluna 'idade' a partir da data de nascimento
ano_atual = datetime.now().year
df['idade'] = ano_atual - df['data_nascimento'].dt.year

# 4. Padronizar os dados textuais
#    Converter nomes para o formato de título (Primeira Letra Maiúscula)
df['nome'] = df['nome'].str.title()
#    Converter departamentos para letras maiúsculas para remover inconsistências
df['departamento'] = df['departamento'].str.upper()

# 5. Criar uma nova coluna 'salario_anual'
df['salario_anual'] = df['salario_mensal'] * 12


# =============================================================================
# FASE 3: CARGA (LOAD) / ANÁLISE
# =============================================================================
# Em um pipeline real, carregaríamos esses dados em um Data Warehouse.
# Aqui, vamos exibi-los e analisar o resultado.

# A função display() é específica do Jupyter e renderiza tabelas de forma elegante
print("--- DataFrame Bruto Original ---")
display(df_bruto)

print("\n--- DataFrame Limpo e Transformado ---")
display(df)

print("\n--- Informações Técnicas do DataFrame Final ---")
df.info()

print("\n--- Estatísticas Descritivas do DataFrame Final ---")
display(df.describe())

--- DataFrame Bruto Original ---


Unnamed: 0,id_candidato,nome,data_nascimento,salario_mensal,departamento
0,1,Ana,1992-03-15,5000.0,tecnologia
1,2,Bruno,1988-08-20,6500.0,marketing
2,3,Carla,1995-01-30,,Tecnologia
3,4,Daniel,1992-07-11,7200.0,Vendas
4,5,ELIANA,1990-12-25,6800.0,vendas
5,6,Fernando,1985-05-01,9500.0,marketing



--- DataFrame Limpo e Transformado ---


Unnamed: 0,id_candidato,nome,data_nascimento,salario_mensal,departamento,idade,salario_anual
0,1,Ana,1992-03-15,5000.0,TECNOLOGIA,33,60000.0
1,2,Bruno,1988-08-20,6500.0,MARKETING,37,78000.0
2,3,Carla,1995-01-30,6800.0,TECNOLOGIA,30,81600.0
3,4,Daniel,1992-07-11,7200.0,VENDAS,33,86400.0
4,5,Eliana,1990-12-25,6800.0,VENDAS,35,81600.0
5,6,Fernando,1985-05-01,9500.0,MARKETING,40,114000.0



--- Informações Técnicas do DataFrame Final ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   id_candidato     6 non-null      int64         
 1   nome             6 non-null      object        
 2   data_nascimento  6 non-null      datetime64[ns]
 3   salario_mensal   6 non-null      float64       
 4   departamento     6 non-null      object        
 5   idade            6 non-null      int32         
 6   salario_anual    6 non-null      float64       
dtypes: datetime64[ns](1), float64(2), int32(1), int64(1), object(2)
memory usage: 444.0+ bytes

--- Estatísticas Descritivas do DataFrame Final ---


Unnamed: 0,id_candidato,data_nascimento,salario_mensal,idade,salario_anual
count,6.0,6,6.0,6.0,6.0
mean,3.5,1990-10-17 00:00:00,6966.666667,34.666667,83600.0
min,1.0,1985-05-01 00:00:00,5000.0,30.0,60000.0
25%,2.25,1989-03-22 06:00:00,6575.0,33.0,78900.0
50%,3.5,1991-08-05 00:00:00,6800.0,34.0,81600.0
75%,4.75,1992-06-11 12:00:00,7100.0,36.5,85200.0
max,6.0,1995-01-30 00:00:00,9500.0,40.0,114000.0
std,1.870829,,1456.937427,3.50238,17483.249126
