In [1]:
import pandas as pd
from pathlib import Path

In [2]:
import sys
sys.path.append('../src')
import data_cleaner as dc

## 1 - Caminho do dataframe

In [3]:
BASE_DIR = Path.cwd().parent
RAW_DATA_DIR = BASE_DIR / 'data' / 'raw'
PROCESSED_DATA_DIR = BASE_DIR / 'data' / 'processed'

#nome do arquivo
FILE_NAME_2023 = 'State_of_data_2023.csv'
INPUT_FILE_2023 = RAW_DATA_DIR / FILE_NAME_2023 

#abrir arquivo
try: 
  print('Arquivo encontrado')
  df_2023 = pd.read_csv(INPUT_FILE_2023)
except FileNotFoundError as erro:
  print("Arquivo nao encontrado, verifique o caminho" + erro)

Arquivo encontrado


In [4]:
df_2023.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5293 entries, 0 to 5292
Columns: 399 entries, ('P0', 'id') to ('P8_d_12 ', 'Treinando e aplicando LLM's para solucionar problemas de negócio.')
dtypes: float64(328), int64(2), object(69)
memory usage: 16.1+ MB


In [5]:
print(df_2023.columns.tolist())

["('P0', 'id')", "('P1_a ', 'Idade')", "('P1_a_1 ', 'Faixa idade')", "('P1_b ', 'Genero')", "('P1_c ', 'Cor/raca/etnia')", "('P1_d ', 'PCD')", "('P1_e ', 'experiencia_profissional_prejudicada')", "('P1_e_1 ', 'Não acredito que minha experiência profissional seja afetada')", "('P1_e_2 ', 'Experiencia prejudicada devido a minha Cor Raça Etnia')", "('P1_e_3 ', 'Experiencia prejudicada devido a minha identidade de gênero')", "('P1_e_4 ', 'Experiencia prejudicada devido ao fato de ser PCD')", "('P1_f ', 'aspectos_prejudicados')", "('P1_f_1', 'Quantidade de oportunidades de emprego/vagas recebidas')", "('P1_f_2', 'Senioridade das vagas recebidas em relação à sua experiência')", "('P1_f_3', 'Aprovação em processos seletivos/entrevistas')", "('P1_f_4', 'Oportunidades de progressão de carreira')", "('P1_f_5', 'Velocidade de progressão de carreira')", "('P1_f_6', 'Nível de cobrança no trabalho/Stress no trabalho')", "('P1_f_7', 'Atenção dada diante das minhas opiniões e ideias')", "('P1_f_8', 'R

In [6]:
len(df_2023.columns.tolist())

399

## 2 - Renomeação das colunas

In [7]:
mapa_renomeacao_2023 = {
    # === DEMOGRAFIA E EXPERIÊNCIA ===
    "('P0', 'id')": 'id_participante',
    "('P1_a ', 'Idade')": 'idade',
    "('P1_a_1 ', 'Faixa idade')": 'faixa_idade',
    "('P1_b ', 'Genero')": 'genero',
    "('P1_c ', 'Cor/raca/etnia')": 'etnia',
    "('P1_d ', 'PCD')": 'pcd',
    "('P1_e ', 'experiencia_profissional_prejudicada')": 'experiencia_prejudicada',
    "('P1_i_1 ', 'uf onde mora')": 'uf_residencia',
    "('P1_i_2 ', 'Regiao onde mora')": 'regiao_residencia',
    "('P1_k ', 'Regiao de origem')": 'regiao_origem',
    "('P1_l ', 'Nivel de Ensino')": 'nivel_ensino',
    "('P1_m ', 'Área de Formação')": 'area_formacao',

    # === REMUNERAÇÃO E CARREIRA ===
    "('P2_h ', 'Faixa salarial')": 'faixa_salarial',
    "('P2_g ', 'Nivel')": 'nivel_hierarquico',
    "('P2_f ', 'Cargo Atual')": 'cargo_atual',
    "('P2_i ', 'Quanto tempo de experiência na área de dados você tem?')": 'experiencia_dados_anos',
    "('P2_j ', 'Quanto tempo de experiência na área de TI/Engenharia de Software você teve antes de começar a trabalhar na área de dados?')": 'experiencia_ti_anos',
    "('P2_a ', 'Qual sua situação atual de trabalho?')": 'situacao_trabalho',
    "('P2_b ', 'Setor')": 'setor_atuacao',
    "('P2_c ', 'Numero de Funcionarios')": 'tamanho_empresa',
    "('P2_d ', 'Gestor?')": 'atua_como_gestor',

    # === FERRAMENTAS E TECNOLOGIAS (MULTISELEÇÃO E PRINCIPAIS) ===
    "('P4_d ', 'Quais das linguagens listadas abaixo você utiliza no trabalho?')": 'linguagens_usadas_dia_a_dia',
    "('P4_e ', 'Entre as linguagens listadas abaixo, qual é a que você mais utiliza no trabalho?')": 'linguagem_principal',
    "('P4_f ', 'Entre as linguagens listadas abaixo, qual é a sua preferida?')": 'linguagem_preferida',
    "('P4_g ', 'Quais dos bancos de dados/fontes de dados listados abaixo você utiliza no trabalho?')": 'bancos_dados_usados_dia_a_dia',
    "('P4_i ', 'Cloud preferida')": 'cloud_preferida',
    "('P4_j ', 'Ferramenta de BI utilizada no dia a dia')": 'ferramentas_bi_usadas_dia_a_dia',
    "('P4_k ', 'Qual sua ferramenta de BI preferida?')": 'bi_preferida',

    # === MODELO DE TRABALHO E SATISFAÇÃO ===
    "('P2_r ', 'Atualmente qual a sua forma de trabalho?')": 'modelo_trabalho_atual',
    "('P2_s ', 'Qual a forma de trabalho ideal para você?')": 'modelo_trabalho_ideal',
    "('P2_k ', 'Você está satisfeito na sua empresa atual?')": 'satisfacao_trabalho',
    "('P2_l ', 'Qual o principal motivo da sua insatisfação com a empresa atual?')": 'motivos_insatisfacao',
    "('P2_n ', 'Você pretende mudar de emprego nos próximos 6 meses?')": 'planos_mudar_emprego',
    "('P2_m ', 'Você participou de entrevistas de emprego nos últimos 6 meses?')": 'entrevistas_ultimos_6m',
    "('P2_o ', 'Quais os principais critérios que você leva em consideração no momento de decidir onde trabalhar?')": 'criterios_escolha_emprego',
    "('P2_q ', 'Empresa que trabaha passou por layoff em 2023')": 'empresa_teve_layoff_2023',

    # === CONTEXTO DA EMPRESA E GESTÃO ===
    "('P3_a ', 'Qual o número aproximado de pessoas que atuam com dados na sua empresa hoje?')": 'tamanho_equipe_dados',
    "('P3_d ', 'Quais são os 3 maiores desafios que você tem como gestor no atual momento?')": 'desafios_gestor',

    # === BUSCA POR EMPREGO ===
    "('P5_c ', 'Há quanto tempo você busca uma oportunidade na área de dados?')": 'tempo_busca_emprego_meses',
    "('P5_b ', 'Qual oportunidade você está buscando?')": 'tipo_oportunidade_buscada',

    # === IA GENERATIVA ===
    "('P3_e ', 'AI Generativa é uma prioridade em sua empresa?')": 'ia_generativa_prioridade',
    "('P4_m ', 'Utiliza ChatGPT ou LLMs no trabalho?')": 'uso_ia_generativa_trabalho'
}

In [8]:
len(mapa_renomeacao_2023)

42

In [9]:
#renomeação
df_2023_renomeado = df_2023.rename(columns=mapa_renomeacao_2023)

In [10]:
df_2023_renomeado

Unnamed: 0,id_participante,idade,faixa_idade,genero,etnia,pcd,experiencia_prejudicada,"('P1_e_1 ', 'Não acredito que minha experiência profissional seja afetada')","('P1_e_2 ', 'Experiencia prejudicada devido a minha Cor Raça Etnia')","('P1_e_3 ', 'Experiencia prejudicada devido a minha identidade de gênero')",...,"('P8_d_3 ', 'Entrando em contato com os times de negócio para definição do problema, identificar a solução e apresentação de resultados.')","('P8_d_4 ', 'Desenvolvendo modelos de Machine Learning com o objetivo de colocar em produção em sistemas (produtos de dados).')","('P8_d_5 ', 'Colocando modelos em produção, criando os pipelines de dados, APIs de consumo e monitoramento.')","('P8_d_6 ', 'Cuidando da manutenção de modelos de Machine Learning já em produção, atuando no monitoramento, ajustes e refatoração quando necessário.')","('P8_d_7 ', 'Realizando construções de dashboards em ferramentas de BI como PowerBI, Tableau, Looker, Qlik, etc.')","('P8_d_8 ', 'Utilizando ferramentas avançadas de estatística como SAS, SPSS, Stata etc, para realizar análises.')","('P8_d_9 ', 'Criando e dando manutenção em ETLs, DAGs e automações de pipelines de dados.')","('P8_d_10 ', 'Criando e gerenciando soluções de Feature Store e cultura de MLOps.')","('P8_d_11 ', 'Criando e mantendo a infra que meus modelos e soluções rodam (clusters, servidores, API, containers, etc.)')","('P8_d_12 ', 'Treinando e aplicando LLM's para solucionar problemas de negócio.')"
0,001b2d1qtli8t9z7oqgdhj001b2d4i0g,31,30-34,Masculino,Branca,Não,,,,,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0026aa3fwd78u0026asg7456tfkjg2cs,30,30-34,Masculino,Branca,Não,,,,,...,,,,,,,,,,
2,00r21rb9pusd1b0v7ew00r21rw3dy69w,37,35-39,Feminino,Amarela,Não,"Sim, acredito que a minha a experiência profis...",0.0,0.0,1.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,00urm3jf2cek12w6ygue00urm3jzd17j,22,22-24,Masculino,Preta,Não,Não acredito que minha experiência profissiona...,1.0,0.0,0.0,...,,,,,,,,,,
4,00v0az4g792svil00vn6y1kfm9hq8vy9,34,30-34,Masculino,Branca,Não,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5288,zyg9519671iqrgy93qzyg95183k8ix5f,34,30-34,Masculino,Preta,Não,Não acredito que minha experiência profissiona...,1.0,0.0,0.0,...,,,,,,,,,,
5289,zyppgxzxko25qkgwsbrgpzyppgxzxs81,32,30-34,Masculino,Branca,Não,,,,,...,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
5290,zysl5f50cnz3r0cbe6t2zysrxbzfsrng,25,25-29,Masculino,Branca,Não,,,,,...,,,,,,,,,,
5291,zyt2656c9e1becxp457zyt26566dsng8,31,30-34,Masculino,Parda,Não,Não acredito que minha experiência profissiona...,1.0,0.0,0.0,...,,,,,,,,,,


In [11]:
print(df_2023_renomeado.columns.tolist())

['id_participante', 'idade', 'faixa_idade', 'genero', 'etnia', 'pcd', 'experiencia_prejudicada', "('P1_e_1 ', 'Não acredito que minha experiência profissional seja afetada')", "('P1_e_2 ', 'Experiencia prejudicada devido a minha Cor Raça Etnia')", "('P1_e_3 ', 'Experiencia prejudicada devido a minha identidade de gênero')", "('P1_e_4 ', 'Experiencia prejudicada devido ao fato de ser PCD')", "('P1_f ', 'aspectos_prejudicados')", "('P1_f_1', 'Quantidade de oportunidades de emprego/vagas recebidas')", "('P1_f_2', 'Senioridade das vagas recebidas em relação à sua experiência')", "('P1_f_3', 'Aprovação em processos seletivos/entrevistas')", "('P1_f_4', 'Oportunidades de progressão de carreira')", "('P1_f_5', 'Velocidade de progressão de carreira')", "('P1_f_6', 'Nível de cobrança no trabalho/Stress no trabalho')", "('P1_f_7', 'Atenção dada diante das minhas opiniões e ideias')", "('P1_f_8', 'Relação com outros membros da empresa, em momentos de trabalho')", "('P1_f_9', 'Relação com outros m

## 3 -tratando coluna de salário

In [12]:
df_2023_renomeado['faixa_salarial'].value_counts()

faixa_salarial
de R$ 8.001/mês a R$ 12.000/mês     1026
de R$ 4.001/mês a R$ 6.000/mês       745
de R$ 12.001/mês a R$ 16.000/mês     650
de R$ 6.001/mês a R$ 8.000/mês       637
de R$ 3.001/mês a R$ 4.000/mês       352
de R$ 16.001/mês a R$ 20.000/mês     328
de R$ 2.001/mês a R$ 3.000/mês       288
de R$ 1.001/mês a R$ 2.000/mês       215
de R$ 20.001/mês a R$ 25.000/mês     195
de R$ 25.001/mês a R$ 30.000/mês     128
de R$ 30.001/mês a R$ 40.000/mês      86
Acima de R$ 40.001/mês                72
Menos de R$ 1.000/mês                 30
de R$ 101/mês a R$ 2.000/mês           1
Name: count, dtype: int64

In [13]:
df_2023_renomeado['faixa_salarial'].isnull().sum()

np.int64(540)

In [14]:
# USANDO a função em src/data_cleaner.py
print("Aplicando limpeza na coluna 'faixa_salarial'...")
df_2023_renomeado['salario_medio_mensal'] = df_2023_renomeado['faixa_salarial'].apply(dc.converter_faixa_salarial)
print('coluna "salario_medio_mensal" criada')

Aplicando limpeza na coluna 'faixa_salarial'...
coluna "salario_medio_mensal" criada


In [15]:
df_2023_renomeado[['faixa_salarial', 'salario_medio_mensal']].head(10)

Unnamed: 0,faixa_salarial,salario_medio_mensal
0,de R$ 12.001/mês a R$ 16.000/mês,14000.5
1,de R$ 6.001/mês a R$ 8.000/mês,7000.5
2,de R$ 6.001/mês a R$ 8.000/mês,7000.5
3,,
4,de R$ 4.001/mês a R$ 6.000/mês,5000.5
5,de R$ 8.001/mês a R$ 12.000/mês,10000.5
6,de R$ 4.001/mês a R$ 6.000/mês,5000.5
7,de R$ 20.001/mês a R$ 25.000/mês,22500.5
8,,
9,,


## 4- Limpando a coluna cargo

In [16]:
df_2023_renomeado['nivel_hierarquico'].value_counts()

nivel_hierarquico
Sênior    1419
Pleno     1392
Júnior    1046
Name: count, dtype: int64

In [17]:
df_2023_renomeado['grupo_cargo'] = df_2023_renomeado['cargo_atual'].apply(dc.agrupar_cargo)
print("coluna 'gupo_coluna' criado com sucesso ")

coluna 'gupo_coluna' criado com sucesso 


In [18]:
df_2023_renomeado['grupo_cargo'].value_counts()

grupo_cargo
Não se aplica/Outra área      1436
Analista de Dados              907
Cientista de Dados             687
Engenheiro de Dados            684
Outros                         583
Analista de BI                 506
Analista de Negócios           195
Engenheiro de Analytics        139
Gestão de Produto de Dados      81
Engenheiro de ML                75
Name: count, dtype: int64

## 5 - Tratando coluna 'experiencia_dados_anos'

In [19]:
df_2023_renomeado['experiencia_dados_anos'].value_counts()

experiencia_dados_anos
de 1 a 2 anos                             1201
de 3 a 4 anos                             1109
Mais de 10 anos                            557
Menos de 1 ano                             476
de 4 a 6 anos                              463
de 7 a 10 anos                             429
de 5 a 6 anos                              356
Não tenho experiência na área de dados     162
Name: count, dtype: int64

In [20]:
df_2023_renomeado['experiencia_anos_num'] = df_2023_renomeado['experiencia_dados_anos'].apply(dc.converter_experiencia)
print('coluna "experiencia_anos_num" criada com sucesso')

coluna "experiencia_anos_num" criada com sucesso


In [21]:
df_2023_renomeado['experiencia_anos_num'].isna().sum()

np.int64(540)

In [22]:
df_2023_renomeado['experiencia_dados_anos'].isna().sum()

np.int64(540)

In [23]:
df_2023_renomeado[['salario_medio_mensal', 'grupo_cargo', 'experiencia_anos_num']].head(15)

Unnamed: 0,salario_medio_mensal,grupo_cargo,experiencia_anos_num
0,14000.5,Cientista de Dados,3.5
1,7000.5,Analista de BI,3.5
2,7000.5,Analista de Dados,1.5
3,,Não se aplica/Outra área,
4,5000.5,Analista de Dados,0.5
5,10000.5,Engenheiro de Dados,1.5
6,5000.5,Analista de Negócios,3.5
7,22500.5,Não se aplica/Outra área,8.5
8,,Não se aplica/Outra área,
9,,Não se aplica/Outra área,


## 6 - Adicionando coluna ano

In [24]:
print('criando coluna "ano"')
df_2023_renomeado['ano'] = 2023

criando coluna "ano"


## 7 - salvando arquivo novo

In [26]:
output_filename = 'state_of_data_2023_limpo.csv'
outuput_path = PROCESSED_DATA_DIR / output_filename

In [27]:
df_2023_renomeado.to_csv(outuput_path, index=False)