## 1 - Caminho do dataset

In [2]:
import pandas as pd
import numpy as np
from pathlib import Path
import sys

#pasta src com nossas funções
sys.path.append('../src')
import data_cleaner as dc

In [3]:
#caminho vindo de src
RAW_DATA_DIR, PROCESSED_DATA_DIR = dc.caminho_para_dataset()

In [4]:
try:
  df_2022 = pd.read_csv(RAW_DATA_DIR/'State_of_data_2022.csv')
  print("arquivo encontrado")
except FileNotFoundError as e:
  print('Houve um erro, nao encontramos o arquivo' + e)

arquivo encontrado


# 2 - renomeação

In [5]:
print(df_2022.columns.tolist())

["('P0', 'id')", "('P1_a ', 'Idade')", "('P1_a_1 ', 'Faixa idade')", "('P1_b ', 'Genero')", "('P1_c ', 'Cor/raca/etnia')", "('P1_d ', 'PCD')", "('P1_e ', 'experiencia_profissional_prejudicada')", "('P1_f ', 'aspectos_prejudicados')", "('P1_g ', 'vive_no_brasil')", "('P1_i ', 'Estado onde mora')", "('P1_i_1 ', 'uf onde mora')", "('P1_i_2 ', 'Regiao onde mora')", "('P1_j ', 'Mudou de Estado?')", "('P1_k ', 'Regiao de origem')", "('P1_l ', 'Nivel de Ensino')", "('P1_m ', 'Área de Formação')", "('P2_a ', 'Qual sua situação atual de trabalho?')", "('P2_b ', 'Setor')", "('P2_c ', 'Numero de Funcionarios')", "('P2_d ', 'Gestor?')", "('P2_e ', 'Cargo como Gestor')", "('P2_f ', 'Cargo Atual')", "('P2_g ', 'Nivel')", "('P2_h ', 'Faixa salarial')", "('P2_i ', 'Quanto tempo de experiência na área de dados você tem?')", "('P2_j ', 'Quanto tempo de experiência na área de TI/Engenharia de Software você teve antes de começar a trabalhar na área de dados?')", "('P2_k ', 'Você está satisfeito na sua emp

In [6]:
mapa_renomeacao_2022 = {
    # === DEMOGRAFIA E EXPERIÊNCIA ===
    "('P0', 'id')": 'id_participante',
    "('P1_a ', 'Idade')": 'idade',
    "('P1_a_1 ', 'Faixa idade')": 'faixa_idade',
    "('P1_b ', 'Genero')": 'genero',
    "('P1_c ', 'Cor/raca/etnia')": 'etnia',
    "('P1_d ', 'PCD')": 'pcd',
    "('P1_e ', 'experiencia_profissional_prejudicada')": 'experiencia_prejudicada',
    "('P1_i_1 ', 'uf onde mora')": 'uf_residencia',
    "('P1_i_2 ', 'Regiao onde mora')": 'regiao_residencia',
    "('P1_k ', 'Regiao de origem')": 'regiao_origem',
    "('P1_l ', 'Nivel de Ensino')": 'nivel_ensino',
    "('P1_m ', 'Área de Formação')": 'area_formacao',

    # === REMUNERAÇÃO E CARREIRA ===
    "('P2_h ', 'Faixa salarial')": 'faixa_salarial',
    "('P2_g ', 'Nivel')": 'nivel_hierarquico',
    "('P2_f ', 'Cargo Atual')": 'cargo_atual',
    "('P2_i ', 'Quanto tempo de experiência na área de dados você tem?')": 'experiencia_dados_anos',
    "('P2_j ', 'Quanto tempo de experiência na área de TI/Engenharia de Software você teve antes de começar a trabalhar na área de dados?')": 'experiencia_ti_anos',
    "('P2_a ', 'Qual sua situação atual de trabalho?')": 'situacao_trabalho',
    "('P2_b ', 'Setor')": 'setor_atuacao',
    "('P2_c ', 'Numero de Funcionarios')": 'tamanho_empresa',
    "('P2_d ', 'Gestor?')": 'atua_como_gestor',

    # === FERRAMENTAS E TECNOLOGIAS (MULTISELEÇÃO E PRINCIPAIS) ===
    "('P4_d ', 'Quais das linguagens listadas abaixo você utiliza no trabalho?')": 'linguagens_usadas_dia_a_dia',
    "('P4_e ', 'Entre as linguagens listadas abaixo, qual é a que você mais utiliza no trabalho?')": 'linguagem_principal',
    "('P4_f ', 'Entre as linguagens listadas abaixo, qual é a sua preferida?')": 'linguagem_preferida',
    "('P4_g ', 'Quais dos bancos de dados/fontes de dados listados abaixo você utiliza no trabalho?')": 'bancos_dados_usados_dia_a_dia',
    "('P4_g ', 'Quais das opções de Cloud listadas abaixo você utiliza no trabalho?')": 'clouds_utilizadas', # Nota: Mapeando para o mesmo alvo de 2024
    "('P4_h ', 'Dentre as opções listadas, qual sua Cloud preferida?')": 'cloud_preferida',
    "('P4_i ', 'Microsoft PowerBI')": 'ferramentas_bi_usadas_dia_a_dia', # Nota: Em 2022, esta era a pergunta de BI
    # "('P4_k ', 'Qual sua ferramenta de BI preferida?')": 'bi_preferida', # Esta pergunta não parece existir em 2022

    # === MODELO DE TRABALHO E SATISFAÇÃO ===
    "('P2_p ', 'Atualmente qual a sua forma de trabalho?')": 'modelo_trabalho_atual',
    "('P2_q ', 'Qual a forma de trabalho ideal para você?')": 'modelo_trabalho_ideal',
    "('P2_k ', 'Você está satisfeito na sua empresa atual?')": 'satisfacao_trabalho',
    "('P2_l ', 'Qual o principal motivo da sua insatisfação com a empresa atual?')": 'motivos_insatisfacao',
    "('P2_n ', 'Você pretende mudar de emprego nos próximos 6 meses?')": 'planos_mudar_emprego',
    "('P2_m ', 'Você participou de entrevistas de emprego nos últimos 6 meses?')": 'entrevistas_ultimos_6m',
    "('P2_o ', 'Quais os principais critérios que você leva em consideração no momento de decidir onde trabalhar?')": 'criterios_escolha_emprego',
    "('P2_s ', 'Sua empresa passu por Layoff em 2022?')": 'empresa_teve_layoff_2022',

    # === CONTEXTO DA EMPRESA E GESTÃO ===
    "('P3_a ', 'Qual o número aproximado de pessoas que atuam com dados na sua empresa hoje?')": 'tamanho_equipe_dados',
    "('P3_d ', 'Quais são os 3 maiores desafios que você tem como gestor no atual momento?')": 'desafios_gestor',

    # === BUSCA POR EMPREGO ===
    "('P5_c ', 'Há quanto tempo você busca uma oportunidade na área de dados?')": 'tempo_busca_emprego_meses',
    "('P5_b ', 'Qual oportunidade você está buscando?')": 'tipo_oportunidade_buscada'
}

In [7]:
len(mapa_renomeacao_2022)

40

In [8]:
df_2022_renomeado = df_2022.rename(columns=mapa_renomeacao_2022)

In [9]:
df_2022_renomeado

Unnamed: 0,id_participante,idade,faixa_idade,genero,etnia,pcd,experiencia_prejudicada,"('P1_f ', 'aspectos_prejudicados')","('P1_g ', 'vive_no_brasil')","('P1_i ', 'Estado onde mora')",...,"('P8_d_2 ', 'Coletando e limpando os dados que uso para análise e modelagem.')","('P8_d_3 ', 'Entrando em contato com os times de negócio para definição do problema, identificar a solução e apresentação de resultados.')","('P8_d_4 ', 'Desenvolvendo modelos de Machine Learning com o objetivo de colocar em produção em sistemas (produtos de dados).')","('P8_d_5 ', 'Colocando modelos em produção, criando os pipelines de dados, APIs de consumo e monitoramento.')","('P8_d_6 ', 'Cuidando da manutenção de modelos de Machine Learning já em produção, atuando no monitoramento, ajustes e refatoração quando necessário.')","('P8_d_7 ', 'Realizando construções de dashboards em ferramentas de BI como PowerBI, Tableau, Looker, Qlik, etc.')","('P8_d_8 ', 'Utilizando ferramentas avançadas de estatística como SAS, SPSS, Stata etc, para realizar análises.')","('P8_d_9 ', 'Criando e dando manutenção em ETLs, DAGs e automações de pipelines de dados.')","('P8_d_10 ', 'Criando e gerenciando soluções de Feature Store e cultura de MLOps.')","('P8_d_11 ', 'Criando e mantendo a infra que meus modelos e soluções rodam (clusters, servidores, API, containers, etc.)')"
0,zzqzz3l9ily8nuo2m7wyzzqzz3w48o96,39.0,35-39,Masculino,Parda,Não,Não acredito que minha experiência profissiona...,,True,Distrito Federal (DF),...,,,,,,,,,,
1,zzls2oftfn9law393oezzls2ofhvfpzd,32.0,30-34,Masculino,Parda,Não,"Sim, acredito que a minha a experiência profis...",Aprovação em processos seletivos/entrevistas,True,Pará (PA),...,,,,,,,,,,
2,zzdwqzfqqp1ypc7ps6m0hzzdwqz292yi,53.0,50-54,Masculino,Branca,Não,,,True,Distrito Federal (DF),...,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,zzbqh3uy7yk7k9qmkzzbqtb4s9faqspl,27.0,25-29,Masculino,Branca,Não,,,True,Minas Gerais (MG),...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,zzaf1m95yan929rb94wzzaf1mekhvhpg,46.0,45-49,Feminino,Branca,Não,Não acredito que minha experiência profissiona...,,True,Pará (PA),...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4266,01jnrn9f6va0menfhk2ztm01jnrn96bp,26.0,25-29,Masculino,Branca,Não,,,True,São Paulo (SP),...,,,,,,,,,,
4267,01dyfxam4u4bi29fem01dyfxaq9akvqp,30.0,30-34,Feminino,Branca,Não,Não acredito que minha experiência profissiona...,,True,Minas Gerais (MG),...,,,,,,,,,,
4268,00zw9ks9d40z4u00zz3d20iix65qpli3,29.0,25-29,Masculino,Branca,Não,,,True,São Paulo (SP),...,,,,,,,,,,
4269,00xu7yujd7s57emj00xu7y0c3njix3de,,17-21,Masculino,Branca,Não,,,True,São Paulo (SP),...,,,,,,,,,,


## 3 - Tratando coluna de salário

In [10]:
len(df_2022_renomeado['faixa_salarial'].value_counts())

13

In [11]:
df_2022_renomeado['faixa_salarial'].value_counts()

faixa_salarial
de R$ 8.001/mês a R$ 12.000/mês     752
de R$ 4.001/mês a R$ 6.000/mês      584
de R$ 6.001/mês a R$ 8.000/mês      527
de R$ 12.001/mês a R$ 16.000/mês    437
de R$ 3.001/mês a R$ 4.000/mês      303
de R$ 2.001/mês a R$ 3.000/mês      285
de R$ 16.001/mês a R$ 20.000/mês    229
de R$ 1.001/mês a R$ 2.000/mês      216
de R$ 20.001/mês a R$ 25.000/mês    134
de R$ 25.001/mês a R$ 30.000/mês     77
de R$ 30.001/mês a R$ 40.000/mês     70
Acima de R$ 40.001/mês               45
Menos de R$ 1.000/mês                35
Name: count, dtype: int64

In [12]:
df_2022_renomeado['faixa_salarial'].isnull().sum()

np.int64(577)

In [13]:
print("criando coluna salario_medio_mensal")

df_2022_renomeado['salario_medio_mensal'] = df_2022_renomeado['faixa_salarial'].apply(dc.converter_faixa_salarial)

print(df_2022_renomeado['salario_medio_mensal'])

criando coluna salario_medio_mensal
0       10000.5
1        5000.5
2       14000.5
3       14000.5
4        7000.5
         ...   
4266     5000.5
4267     3500.5
4268    18000.5
4269     1000.0
4270     3500.5
Name: salario_medio_mensal, Length: 4271, dtype: float64


In [14]:
df_2022_renomeado[['salario_medio_mensal', 'faixa_salarial']].head(5)

Unnamed: 0,salario_medio_mensal,faixa_salarial
0,10000.5,de R$ 8.001/mês a R$ 12.000/mês
1,5000.5,de R$ 4.001/mês a R$ 6.000/mês
2,14000.5,de R$ 12.001/mês a R$ 16.000/mês
3,14000.5,de R$ 12.001/mês a R$ 16.000/mês
4,7000.5,de R$ 6.001/mês a R$ 8.000/mês


## 4 - LImpando coluna cargo

In [15]:
df_2022_renomeado['nivel_hierarquico'].value_counts()

nivel_hierarquico
Pleno     1060
Júnior    1023
Sênior     898
Name: count, dtype: int64

In [16]:
df_2022_renomeado['cargo_atual'].isnull().sum()

np.int64(1290)

In [17]:
df_2022_renomeado['cargo_atual'].value_counts()

cargo_atual
Analista de Dados/Data Analyst                                         639
Cientista de Dados/Data Scientist                                      556
Engenheiro de Dados/Arquiteto de Dados/Data Engineer/Data Architect    490
Analista de BI/BI Analyst                                              378
Outra Opção                                                            281
Analista de Negócios/Business Analyst                                  123
Desenvolvedor/ Engenheiro de Software/ Analista de Sistemas            106
Analista de Suporte/Analista Técnico                                    72
Analytics Engineer                                                      70
Engenheiro de Machine Learning/ML Engineer                              69
Product Manager/ Product Owner (PM/APM/DPM/GPM/PO)                      51
Analista de Inteligência de Mercado/Market Intelligence                 29
Outras Engenharias (não inclui dev)                                     28
Professor    

In [18]:
df_2022_renomeado['grupo_cargo'] = df_2022_renomeado['cargo_atual'].apply(dc.agrupar_cargo)
print('Coluna "grupo_atual" criado com sucesso')

Coluna "grupo_atual" criado com sucesso


In [19]:
df_2022_renomeado['grupo_cargo'].value_counts()

grupo_cargo
Não se aplica/Outra área      1290
Analista de Dados              639
Outros                         593
Cientista de Dados             556
Engenheiro de Dados            502
Analista de BI                 378
Analista de Negócios           123
Engenheiro de Analytics         70
Engenheiro de ML                69
Gestão de Produto de Dados      51
Name: count, dtype: int64

## 5 - Tratando coluna 'experiencia_dados_anos'

In [20]:
df_2022_renomeado['experiencia_dados_anos'].isnull().sum()

np.int64(577)

In [21]:
df_2022_renomeado['experiencia_dados_anos'].value_counts()

experiencia_dados_anos
de 1 a 2 anos                             980
de 3 a 4 anos                             711
Menos de 1 ano                            596
de 4 a 6 anos                             522
Mais de 10 anos                           403
de 7 a 10 anos                            294
Não tenho experiência na área de dados    188
Name: count, dtype: int64

In [22]:
len(df_2022_renomeado['experiencia_dados_anos'].value_counts())

7

In [23]:
df_2022_renomeado['experiencia_dados_anos'].apply(dc.converter_experiencia).head(10)

0     1.5
1     3.5
2     3.5
3     5.0
4     0.0
5     0.0
6     1.5
7     0.5
8     0.5
9    12.0
Name: experiencia_dados_anos, dtype: float64

In [24]:
df_2022_renomeado['experiencia_anos_num'] = df_2022_renomeado['experiencia_dados_anos'].apply(dc.converter_experiencia)

In [25]:
df_2022_renomeado['experiencia_anos_num'].head(10)

0     1.5
1     3.5
2     3.5
3     5.0
4     0.0
5     0.0
6     1.5
7     0.5
8     0.5
9    12.0
Name: experiencia_anos_num, dtype: float64

In [26]:
print(df_2022_renomeado['experiencia_anos_num'].isnull().sum())
print(df_2022_renomeado['experiencia_dados_anos'].isnull().sum())

577
577


In [27]:
df_2022_renomeado[['experiencia_anos_num', 'experiencia_dados_anos']].head(10)

Unnamed: 0,experiencia_anos_num,experiencia_dados_anos
0,1.5,de 1 a 2 anos
1,3.5,de 3 a 4 anos
2,3.5,de 3 a 4 anos
3,5.0,de 4 a 6 anos
4,0.0,Não tenho experiência na área de dados
5,0.0,Não tenho experiência na área de dados
6,1.5,de 1 a 2 anos
7,0.5,Menos de 1 ano
8,0.5,Menos de 1 ano
9,12.0,Mais de 10 anos


## 6 - criando coluna "ano"

In [29]:
df_2022_renomeado['ano'] = 2022
df_2022_renomeado['ano']

0       2022
1       2022
2       2022
3       2022
4       2022
        ... 
4266    2022
4267    2022
4268    2022
4269    2022
4270    2022
Name: ano, Length: 4271, dtype: int64

## 7 - salvando arquivo

In [30]:
output_path = PROCESSED_DATA_DIR / 'state_of_data_2022_limpo.csv'
df_2022_renomeado.to_csv(output_path, index=False)