In [1]:
import pandas as pd
import numpy as np
from pathlib import Path

### 1 - Caminho dos dataframes

In [2]:
# 1 - base dos caminhos dos datasframes
BASE_DIR = Path.cwd().parent
RAW_DATA_DIR = BASE_DIR / 'data' / 'raw'
PROCESSED_DATA_DIR = BASE_DIR / 'data' / 'processed'

#definindo nome do arquivo que vou usar
FILE_NAME_2024 = 'State_of_data_2024.csv'
INPUT_FILE = RAW_DATA_DIR / FILE_NAME_2024

# 2- carregando os dados
try: 
  df_2024 = pd.read_csv(INPUT_FILE)
  print('dados carregados com sucesso')
except FileNotFoundError as erro:
  print(erro)
  print('Verifique o caminho ou se o arquivo está correto')

dados carregados com sucesso


### 2 - Inspeção inicial do data frame 2024

In [3]:
df_2024.columns

Index(['0.a_token', '0.d_data/hora_envio', '1.a_idade', '1.a.1_faixa_idade',
       '1.b_genero', '1.c_cor/raca/etnia', '1.d_pcd',
       '1.e_experiencia_profissional_prejudicada',
       '1.e.1_Não acredito que minha experiência profissional seja afetada',
       '1.e.2_Sim, devido a minha Cor/Raça/Etnia',
       ...
       '8.d.3_Entrando em contato com os times de negócio para definição do problema, identificar a solução e apresentação de resultados.',
       '8.d.4_Desenvolvendo modelos de Machine Learning com o objetivo de colocar em produção em sistemas (produtos de dados).',
       '8.d.5_Colocando modelos em produção, criando os pipelines de dados, APIs de consumo e monitoramento.',
       '8.d.6_Cuidando da manutenção de modelos de Machine Learning já em produção, atuando no monitoramento, ajustes e refatoração quando necessário.',
       '8.d.7_Realizando construções de dashboards em ferramentas de BI como PowerBI, Tableau, Looker, Qlik, etc.',
       '8.d.8_Utilizando ferra

In [4]:
df_2024.select_dtypes('int64')

Unnamed: 0,1.a_idade
0,18
1,18
2,18
3,18
4,18
...,...
5212,66
5213,66
5214,68
5215,68


In [5]:
df_2024['1.a_idade'] = df_2024['1.a_idade'].astype('int8')

In [6]:
df_2024.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5217 entries, 0 to 5216
Columns: 403 entries, 0.a_token to 8.d.12_Treinando e aplicando LLM's para solucionar problemas de negócio.
dtypes: bool(1), float64(323), int8(1), object(78)
memory usage: 16.0+ MB


In [7]:
print(df_2024.columns.tolist())

['0.a_token', '0.d_data/hora_envio', '1.a_idade', '1.a.1_faixa_idade', '1.b_genero', '1.c_cor/raca/etnia', '1.d_pcd', '1.e_experiencia_profissional_prejudicada', '1.e.1_Não acredito que minha experiência profissional seja afetada', '1.e.2_Sim, devido a minha Cor/Raça/Etnia', '1.e.3_Sim, devido a minha identidade de gênero', '1.e.4_Sim, devido ao fato de ser PCD', '1.i.1_uf_onde_mora', '1.f.1_Quantidade de oportunidades de emprego/vagas recebidas', '1.f.2_Senioridade das vagas recebidas em relação à sua experiência', '1.f.3_Aprovação em processos seletivos/entrevistas', '1.f.4_Oportunidades de progressão de carreira', '1.f.5_Velocidade de progressão de carreira', '1.f.6_Nível de cobrança no trabalho/Stress no trabalho', '1.f.7_Atenção dada pelas pessoas diante das minhas opiniões e ideias', '1.f.8_Relação com outras pessoas da empresa, em momentos de trabalho', '1.f.9_Relação com outras pessoas da empresa, em momentos de integração e outros momentos fora do trabalho', '1.i.2_regiao_onde

In [8]:
df_2024['4.g_banco_de_dados_(dia_a_dia)'].value_counts()

4.g_banco_de_dados_(dia_a_dia)
Google BigQuery                                         344
Databricks                                              255
SQL SERVER                                              195
PostgreSQL                                               97
MySQL                                                    90
                                                       ... 
Databricks, MySQL, Google BigQuery                        1
MongoDB, Amazon Aurora ou RDS, S3, PostgreSQL             1
Hive, SAP HANA, Databricks                                1
MongoDB, Google BigQuery, S3, PostgreSQL, SQL SERVER      1
MongoDB, MySQL, Databricks, PostgreSQL                    1
Name: count, Length: 1644, dtype: int64

In [9]:
df_2024['4.h_cloud_(dia_a_dia)'].value_counts()

4.h_cloud_(dia_a_dia)
Amazon Web Services (AWS)                                                                                   962
Azure (Microsoft)                                                                                           609
Google Cloud (GCP)                                                                                          597
Servidores On Premise/Não utilizamos Cloud                                                                  285
Google Cloud (GCP), Amazon Web Services (AWS)                                                               113
                                                                                                           ... 
Amazon Web Services (AWS), IBM, Google Cloud (GCP)                                                            1
Teradata Vantage                                                                                              1
Google Cloud (GCP), Azure (Microsoft), Amazon Web Services (AWS), Oracle Cloud    

In [10]:
df_2024['2.h_faixa_salarial'].describe()

count                                4863
unique                                 13
top       de R$ 8.001/mês a R$ 12.000/mês
freq                                 1080
Name: 2.h_faixa_salarial, dtype: object

### 3 - Renomeação colunas

3.1 - dicionário com renomeação colunas

In [11]:
mapa_renomeacao = {
    # === DEMOGRAFIA E EXPERIÊNCIA (Hipóteses 1-3) ===
    '0.a_token': 'id_participante',
    '0.d_data/hora_envio': 'data_envio',
    '1.a_idade': 'idade',
    '1.a.1_faixa_idade': 'faixa_idade',
    '1.b_genero': 'genero',
    '1.c_cor/raca/etnia': 'etnia',
    '1.d_pcd': 'pcd',
    '1.i.1_uf_onde_mora': 'uf_residencia',
    '1.i.2_regiao_onde_mora': 'regiao_residencia',
    '1.k.1_uf_de_origem': 'uf_origem',
    '1.k.2_regiao_de_origem': 'regiao_origem',
    '1.l_nivel_de_ensino': 'nivel_ensino',
    '1.m_área_de_formação': 'area_formacao',

    # === BUSCA POR EMPREGO (Hipótese 3) ===
    '5.c_tempo_em_busca_de_oportunidade': 'tempo_busca_emprego_meses',
    '5.b_oportunidade_buscada': 'tipo_oportunidade_buscada',
    '2.m_participou_de_entrevistas_ultimos_6m': 'entrevistas_ultimos_6m',
    
    # === REMUNERAÇÃO E EQUIDADE (Hipóteses 4-7) ===
    '2.h_faixa_salarial': 'faixa_salarial',
    '2.g_nivel': 'nivel_hierarquico',
    '2.f_cargo_atual': 'cargo_atual',
    '2.i_tempo_de_experiencia_em_dados': 'experiencia_dados_anos',
    '2.j_tempo_de_experiencia_em_ti': 'experiencia_ti_anos',
    '2.a_situação_de_trabalho': 'situacao_trabalho',
    '2.b_setor': 'setor_atuacao',
    '2.c_numero_de_funcionarios': 'tamanho_empresa',
    
    # === FERRAMENTAS E TECNOLOGIAS (Hipóteses 8-13) ===
    '4.d_linguagem_de_programacao_(dia_a_dia)': 'linguagens_usadas_dia_a_dia',
    '4.e_linguagem_mais_usada': 'linguagem_principal',
    '4.f_linguagem_preferida': 'linguagem_preferida',
    '4.g_banco_de_dados_(dia_a_dia)': 'bancos_dados_usados_dia_a_dia',
    '4.h_cloud_(dia_a_dia)': 'clouds_utilizadas',
    '4.i_cloud_preferida': 'cloud_preferida',
    '4.j_ferramenta_de_bi_(dia_a_dia)': 'ferramentas_bi_usadas_dia_a_dia',
    '4.k_ferramenta_de_bi_preferida': 'bi_preferida',
    
    # === [ADIÇÃO SUGERIDA] Detalhes de Ferramentas (para Hipótese 8 e 11) ===
    # '4.d.1_SQL': 'usa_sql',
    # '4.d.2_R': 'usa_r',
    # '4.d.3_Python': 'usa_python',
    # '4.j.1_Microsoft PowerBI': 'usa_power_bi',
    # '4.j.3_Tableau': 'usa_tableau',
    # '4.j.8_Looker Studio(Google Data Studio)': 'usa_looker_studio',
    # '4.h.1_Amazon Web Services (AWS)': 'usa_aws',
    # '4.h.2_Google Cloud (GCP)': 'usa_gcp',
    # '4.h.3_Azure (Microsoft)': 'usa_azure',


    # === FORMAÇÃO E HABILIDADES (Hipóteses 14-17) ===
    '5.a_objetivo_na_area_de_dados': 'objetivo_profissional',
    
    # IA Generativa (nova tendência)
    '4.m_usa_chatgpt_ou_copilot_no_trabalho?': 'uso_ia_generativa_trabalho',
    '3.e_ai_generativa_e_llm_é_uma_prioridade?': 'ia_generativa_prioridade',
    
    # === MODELO DE TRABALHO E SATISFAÇÃO (Hipóteses 18-21) ===
    '2.r_modelo_de_trabalho_atual': 'modelo_trabalho_atual',
    '2.s_modelo_de_trabalho_ideal': 'modelo_trabalho_ideal',
    '2.k_satisfeito_atualmente': 'satisfacao_trabalho',
    '2.n_planos_de_mudar_de_emprego_6m': 'planos_mudar_emprego',
    
    # Experiências profissionais (discriminação)
    '1.e_experiencia_profissional_prejudicada': 'experiencia_prejudicada',
    '1.e.2_Sim, devido a minha Cor/Raça/Etnia': 'prejudicado_raca_etnia',
    '1.e.3_Sim, devido a minha identidade de gênero': 'prejudicado_genero',
    '1.e.4_Sim, devido ao fato de ser PCD': 'prejudicado_pcd',
    
    # === ESPECÍFICO POR CARGO (Análises detalhadas) ===
    # Data Engineer
    '6.a_rotina_como_de': 'rotina_engenheiro_dados',
    '6.b_ferramentas_etl_de': 'ferramentas_etl_engineer',
    
    # Data Analyst
    '7.a_rotina_como_da': 'rotina_analista_dados',
    '7.b_ferramentas_etl_da': 'ferramentas_etl_analyst',
    
    # Data Scientist
    '8.a_rotina_como_ds': 'rotina_cientista_dados',
    '8.b_tecnicas_e_metodos_ds': 'tecnicas_ml_cientista',
    '8.c_tecnologias_ds': 'tecnologias_cientista',
    
    # === MOTIVAÇÕES E CRITÉRIOS ===
    '2.o_criterios_para_escolha_de_emprego': 'criterios_escolha_emprego',
    '2.l_motivo_insatisfacao': 'motivos_insatisfacao',

    # === CONTEXTO DA EMPRESA E GESTÃO ===
    '2.d_atua_como_gestor': 'atua_como_gestor',
    '3.a_numero_de_pessoas_em_dados': 'tamanho_equipe_dados',
    '3.d_desafios_como_gestor': 'desafios_gestor',
    '2.q_empresa_passou_por_layoff_em_2024': 'empresa_teve_layoff_2024'
}

In [12]:
len(mapa_renomeacao)

56

3.2 - Novo dataset com colunas renomeadas

In [13]:
try:
  print("renomeando colunas")
  df_2024_renomeado = df_2024.rename(columns=mapa_renomeacao)
  print("colunas renomeada")
except Exception as erro:
  print("Houve um erro" + erro)

renomeando colunas
colunas renomeada


In [14]:
len(df_2024_renomeado.columns)

403

### 4 - Limpando coluna de salário

In [15]:
df_2024_renomeado['faixa_salarial'].isna().value_counts()

faixa_salarial
False    4863
True      354
Name: count, dtype: int64

In [16]:
df_2024_renomeado['faixa_salarial'].unique()

array(['de R$ 1.001/mês a R$ 2.000/mês', 'Menos de R$ 1.000/mês', nan,
       'de R$ 6.001/mês a R$ 8.000/mês', 'de R$ 3.001/mês a R$ 4.000/mês',
       'de R$ 2.001/mês a R$ 3.000/mês', 'de R$ 4.001/mês a R$ 6.000/mês',
       'de R$ 8.001/mês a R$ 12.000/mês',
       'de R$ 12.001/mês a R$ 16.000/mês',
       'de R$ 30.001/mês a R$ 40.000/mês',
       'de R$ 20.001/mês a R$ 25.000/mês',
       'de R$ 16.001/mês a R$ 20.000/mês',
       'de R$ 25.001/mês a R$ 30.000/mês', 'Acima de R$ 40.001/mês'],
      dtype=object)

4.1 - Teste com a coluna faixa_salarial antes de implementar lógica de tratamento

In [17]:
amostras_salarias = [
  'de R$ 4.001/mês a R$ 6.000/mês',
  'de R$ 8.001/mês a R$ 12.000/mês',
  'Mais de R$ 30.001/mês',
  'Menos de R$ 1.000/mês'
]

teste_string_amostra_salarial = amostras_salarias[0]
print(teste_string_amostra_salarial)

de R$ 4.001/mês a R$ 6.000/mês


In [18]:
string_limpa = teste_string_amostra_salarial.lower().replace('r$', '').replace('.', '').replace('/mês', '')

print(string_limpa)

de  4001 a  6000


In [19]:
import re

numeros_encontrados = re.findall(r'[0-9]+', string_limpa)

print(numeros_encontrados)
print(type(numeros_encontrados))

['4001', '6000']
<class 'list'>


In [20]:
numeros_int = [int(n) for n in numeros_encontrados]
media = sum(numeros_int) / len(numeros_int)

print(numeros_int)
print(media)

[4001, 6000]
5000.5


4.2 - Implementando função para limpar "faixa_salarial"

In [21]:
import re
import numpy as np

def converter_faixa_salarial(faixa):
  #converir valores nulos ou faltantes e retornar NaN para n travar
  if pd.isna(faixa):
    return np.nan
  
  #limpeza da faixa
  s = str(faixa).lower().replace('r$', '').replace('.', '').replace('/mês', '').strip()

  #procurando dígitos
  numeros = re.findall(r'[0-9]+', s)

  # Converte os números encontrados (que são strings) para inteiros.
  numeros_int = [int(n) for n in numeros]

  #calcular a média
  if len(numeros_int) == 2:
    return np.mean(numeros_int)
  elif len(numeros_int) == 1:
    return float(numeros_int[0])
  else: 
    return np.nan

In [22]:
#verificação da função
for amostra in amostras_salarias:
  print(f'{amostra} -> {converter_faixa_salarial(amostra)}')

de R$ 4.001/mês a R$ 6.000/mês -> 5000.5
de R$ 8.001/mês a R$ 12.000/mês -> 10000.5
Mais de R$ 30.001/mês -> 30001.0
Menos de R$ 1.000/mês -> 1000.0


In [23]:
#implementação da função
df_2024_renomeado['salario_medio_mensal'] = df_2024_renomeado['faixa_salarial'].apply(converter_faixa_salarial)

In [24]:
df_2024_renomeado[['faixa_salarial','salario_medio_mensal']].head(20)

Unnamed: 0,faixa_salarial,salario_medio_mensal
0,de R$ 1.001/mês a R$ 2.000/mês,1500.5
1,Menos de R$ 1.000/mês,1000.0
2,de R$ 1.001/mês a R$ 2.000/mês,1500.5
3,de R$ 1.001/mês a R$ 2.000/mês,1500.5
4,de R$ 1.001/mês a R$ 2.000/mês,1500.5
5,,
6,de R$ 6.001/mês a R$ 8.000/mês,7000.5
7,de R$ 1.001/mês a R$ 2.000/mês,1500.5
8,Menos de R$ 1.000/mês,1000.0
9,de R$ 3.001/mês a R$ 4.000/mês,3500.5


### 5 - Limpando coluna 'cargo_atual','nivel_hierarquico'

In [25]:
df_2024_renomeado['cargo_atual'].value_counts()

cargo_atual
Analista de Dados/Data Analyst                                 957
Cientista de Dados/Data Scientist                              687
Engenheiro de Dados/Data Engineer/Data Architect               613
Analista de BI/BI Analyst                                      396
Outra Opção                                                    254
Analytics Engineer                                             228
Analista de Negócios/Business Analyst                          184
Desenvolvedor/ Engenheiro de Software/ Analista de Sistemas    122
Engenheiro de Machine Learning/ML Engineer/AI Engineer         103
Data Product Manager/ Product Manager (PM/APM/DPM/GPM/PO)       80
Analista de Suporte/Analista Técnico                            79
Arquiteto de Dados/Data Architect                               48
Outras Engenharias (não inclui dev)                             29
Professor/Pesquisador                                           21
Estatístico                                       

In [26]:
df_2024_renomeado['nivel_hierarquico'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 5217 entries, 0 to 5216
Series name: nivel_hierarquico
Non-Null Count  Dtype 
--------------  ----- 
3818 non-null   object
dtypes: object(1)
memory usage: 40.9+ KB


In [27]:
df_2024_renomeado['cargo_atual'].value_counts()

cargo_atual
Analista de Dados/Data Analyst                                 957
Cientista de Dados/Data Scientist                              687
Engenheiro de Dados/Data Engineer/Data Architect               613
Analista de BI/BI Analyst                                      396
Outra Opção                                                    254
Analytics Engineer                                             228
Analista de Negócios/Business Analyst                          184
Desenvolvedor/ Engenheiro de Software/ Analista de Sistemas    122
Engenheiro de Machine Learning/ML Engineer/AI Engineer         103
Data Product Manager/ Product Manager (PM/APM/DPM/GPM/PO)       80
Analista de Suporte/Analista Técnico                            79
Arquiteto de Dados/Data Architect                               48
Outras Engenharias (não inclui dev)                             29
Professor/Pesquisador                                           21
Estatístico                                       

In [28]:
#Função para agrupar em grupos
def agrupar_cargo(cargo):
  if pd.isna(cargo):
    return 'Não se aplica/Outra área'
  
  cargo = cargo.lower()

  if 'analista de dados' in cargo or 'data analyst' in cargo:
    return 'Analista de Dados'
  if 'cientista de dados' in cargo or 'data scientist' in cargo:
    return 'Cientista de Dados'
  if 'engenheiro de dados' in cargo or 'data engineer' in cargo or 'arquiteto de dados' in cargo or 'data architect' in cargo:
    return 'Engenheiro de Dados'
  if 'analista de bi' in cargo or 'bi analyst' in cargo:
    return 'Analista de BI'
  if 'analytics engineer' in cargo:
    return 'Engenheiro de Analytics'
  if 'machine learning' in cargo or 'ml engineer' in cargo:
    return 'Engenheiro de ML'
  if 'business analyst' in cargo or 'analista de negócios' in cargo:
    return 'Analista de Negócios'
  if 'product manager' in cargo or 'dpm' in cargo:
    return 'Gestão de Produto de Dados'
  else:
    return 'Outros'

In [29]:
df_2024_renomeado['grupo_cargo'] = df_2024_renomeado['cargo_atual'].apply(agrupar_cargo)
df_2024_renomeado['grupo_cargo'].value_counts()

grupo_cargo
Não se aplica/Outra área      1399
Analista de Dados              957
Cientista de Dados             687
Engenheiro de Dados            661
Outros                         522
Analista de BI                 396
Engenheiro de Analytics        228
Analista de Negócios           184
Engenheiro de ML               103
Gestão de Produto de Dados      80
Name: count, dtype: int64

In [30]:
sem_cargo_df = df_2024_renomeado[df_2024_renomeado['grupo_cargo'] == 'Não se aplica/Outra área']

In [31]:
sem_cargo_df['situacao_trabalho'].value_counts(normalize=True).mul(100).round(2).astype(str) + '%'

situacao_trabalho
Empregado (CLT)                                                    52.54%
Empreendedor ou Empregado (CNPJ)                                   15.58%
Desempregado, buscando recolocação                                 14.65%
Somente Estudante (graduação)                                       4.86%
Trabalho na área Acadêmica/Pesquisador                               4.0%
Servidor Público                                                    2.14%
Somente Estudante (pós-graduação)                                   1.79%
Vivo fora do Brasil e trabalho para empresa de fora do Brasil        1.5%
Vivo no Brasil e trabalho remoto para empresa de fora do Brasil     1.22%
Freelancer                                                          0.93%
Prefiro não informar                                                0.57%
Estagiário                                                          0.14%
Desempregado e não estou buscando recolocação                       0.07%
Name: proportion, dt

### 6 - Limpando a coluna 'experiencia_dados_anos'

In [32]:
df_2024_renomeado['experiencia_dados_anos'].value_counts()

experiencia_dados_anos
de 3 a 4 anos                             1386
de 1 a 2 anos                              944
de 5 a 6 anos                              830
Mais de 10 anos                            585
de 7 a 10 anos                             542
Menos de 1 ano                             346
Não tenho experiência na área de dados     230
Name: count, dtype: int64

In [33]:
def converter_experiencia_anos_em_num(experiencia_texto):
  """
  Recebe um texto de experiência (ex: 'de 1 a 2 anos') e o converte para um valor numérico representando os anos.
  """
  if pd.isna(experiencia_texto):
    return np.nan
  
  mapa_experiencia = {
    'Não tenho experiência na área de dados': 0,
    'Menos de 1 ano': 0.5,
    'de 1 a 2 anos': 1.5,
    'de 3 a 4 anos': 3.5,
    'de 5 a 6 anos': 5.5,
    'de 7 a 10 anos': 8.5,#média entre 7 e 10
    'Mais de 10 anos': 12.0 #escolhido valor representativo
  }

  return mapa_experiencia.get(experiencia_texto, np.nan)

In [34]:
df_2024_renomeado['experiencia_anos_num'] = df_2024_renomeado['experiencia_dados_anos'].apply(converter_experiencia_anos_em_num)

In [35]:
df_2024_renomeado['experiencia_anos_num'].isnull().sum()

np.int64(354)

In [36]:
df_2024_renomeado[['experiencia_anos_num', 'experiencia_dados_anos']].head(20)

Unnamed: 0,experiencia_anos_num,experiencia_dados_anos
0,1.5,de 1 a 2 anos
1,0.5,Menos de 1 ano
2,0.0,Não tenho experiência na área de dados
3,0.5,Menos de 1 ano
4,0.5,Menos de 1 ano
5,,
6,5.5,de 5 a 6 anos
7,0.0,Não tenho experiência na área de dados
8,0.0,Não tenho experiência na área de dados
9,0.0,Não tenho experiência na área de dados


In [37]:
df_2024_renomeado['experiencia_anos_num'].describe()

count    4863.000000
mean        4.653917
std         3.581585
min         0.000000
25%         1.500000
50%         3.500000
75%         5.500000
max        12.000000
Name: experiencia_anos_num, dtype: float64

### 7- limpando coluna multiseleção: 'linguagens_usadas_dia_a_dia'

In [38]:
print(df_2024_renomeado['linguagens_usadas_dia_a_dia'].unique().tolist())

['Python, JavaScript, SQL', 'Python', 'Não utilizo linguagem de programação no trabalho', 'SQL', 'SQL, JavaScript', nan, 'SQL, Python', 'Python, SQL', 'Python, SQL, Visual Basic/VBA', 'SQL, R, Python', 'SQL, Python, Visual Basic/VBA, PHP', 'SQL, Python, JavaScript', 'SQL, Python, PHP', 'SQL, Python, SAS/Stata, Visual Basic/VBA', 'Visual Basic/VBA', 'Visual Basic/VBA, SQL', 'SQL, Python, R, Scala', 'Python, R, SQL', 'SQL, Python, Scala', 'SQL, R', 'SQL, Não utilizo linguagem de programação no trabalho', 'JavaScript, Visual Basic/VBA', 'SQL, Python, JavaScript, Visual Basic/VBA', 'Python, Visual Basic/VBA', 'SQL, Python, SAS/Stata, Java', 'SQL, Python, Java', 'SQL, Python, PHP, JavaScript', 'SQL, PHP, Python', 'R', 'Python, SQL, SAS/Stata', 'SQL, C/C++/C#, Python, .NET', 'SQL, R, PHP', 'SQL, Python, Java, Rust, Scala', 'SQL, Python, R', 'SQL, Python, SAS/Stata', 'Python, SQL, Rust', 'Python, C/C++/C#, .NET, SQL', 'SQL, Python, Matlab, JavaScript', 'SQL, Python, C/C++/C#', 'R, SQL, Python

In [39]:
# Preenchemos os valores nulos com uma string vazia para evitar erros.
df_2024_renomeado['linguagens_usadas_dia_a_dia'].fillna('Nenhuma', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_2024_renomeado['linguagens_usadas_dia_a_dia'].fillna('Nenhuma', inplace=True)


In [40]:
linguagens_dummies = df_2024_renomeado['linguagens_usadas_dia_a_dia'].str.get_dummies(sep=', ')

In [41]:
print(len(linguagens_dummies.columns))

16


In [42]:
linguagens_dummies

Unnamed: 0,.NET,C/C++/C#,Java,JavaScript,Julia,Matlab,Nenhuma,Não utilizo linguagem de programação no trabalho,PHP,Python,R,Rust,SAS/Stata,SQL,Scala,Visual Basic/VBA
0,0,0,0,1,0,0,0,0,0,1,0,0,0,1,0,0
1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0
2,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0
4,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5212,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0
5213,0,0,0,0,0,0,0,0,0,1,1,0,1,1,0,0
5214,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0
5215,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0


In [43]:
#Padronizar os nomes das novas colunas
# Criamos nomes mais limpos para usar no futuro, como 'lang_python', 'lang_sql', etc.
novos_nomes_dummies = {col: f'usa_{col.lower().replace(" ", "_").replace("/", "_")}' for col in linguagens_dummies.columns}
linguagens_dummies.rename(columns=novos_nomes_dummies, inplace=True)

In [44]:
print(linguagens_dummies.columns.tolist())

['usa_.net', 'usa_c_c++_c#', 'usa_java', 'usa_javascript', 'usa_julia', 'usa_matlab', 'usa_nenhuma', 'usa_não_utilizo_linguagem_de_programação_no_trabalho', 'usa_php', 'usa_python', 'usa_r', 'usa_rust', 'usa_sas_stata', 'usa_sql', 'usa_scala', 'usa_visual_basic_vba']


In [45]:
linguagens_dummies

Unnamed: 0,usa_.net,usa_c_c++_c#,usa_java,usa_javascript,usa_julia,usa_matlab,usa_nenhuma,usa_não_utilizo_linguagem_de_programação_no_trabalho,usa_php,usa_python,usa_r,usa_rust,usa_sas_stata,usa_sql,usa_scala,usa_visual_basic_vba
0,0,0,0,1,0,0,0,0,0,1,0,0,0,1,0,0
1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0
2,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0
4,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5212,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0
5213,0,0,0,0,0,0,0,0,0,1,1,0,1,1,0,0
5214,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0
5215,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0


In [46]:
# O 'axis=1' significa que estamos juntando lado a lado (colunas)
df_2024_final = pd.concat([df_2024_renomeado, linguagens_dummies], axis=1)

In [47]:
# Verifique as últimas colunas do novo DataFrame para ver o resultado
print("\n--- Verificação Final (últimas colunas do DataFrame) ---")
print(df_2024_final.iloc[:, -15:].head())


--- Verificação Final (últimas colunas do DataFrame) ---
   usa_c_c++_c#  usa_java  usa_javascript  usa_julia  usa_matlab  usa_nenhuma  \
0             0         0               1          0           0            0   
1             0         0               0          0           0            0   
2             0         0               0          0           0            0   
3             0         0               0          0           0            0   
4             0         0               1          0           0            0   

   usa_não_utilizo_linguagem_de_programação_no_trabalho  usa_php  usa_python  \
0                                                  0           0           1   
1                                                  0           0           1   
2                                                  1           0           0   
3                                                  0           0           0   
4                                                  0   

### 8 - Salvando dataset2024 limpo com o suficiente

In [48]:
output_filename = 'state_of_data_2024_limpo.csv'
output_path = PROCESSED_DATA_DIR / output_filename

In [49]:
df_2024_final.to_csv(output_path, index=False)

### 9 - Adicionando coluna de ano

In [50]:
df_2024_limpo = pd.read_csv(PROCESSED_DATA_DIR / 'state_of_data_2024_limpo.csv')

In [None]:
df_2024_final['data_envio'] = pd.to_datetime(df_2024_final['data_envio'])

  df_2024_final['data_envio'] = pd.to_datetime(df_2024_final['data_envio'])


In [52]:
df_2024_final['ano'] = df_2024_final['data_envio'].dt.year

In [53]:
df_2024_final.to_csv(PROCESSED_DATA_DIR / 'state_of_data_2024_limpo.csv', index=False)

In [54]:
df_2024_final[['ano', 'salario_medio_mensal']]

Unnamed: 0,ano,salario_medio_mensal
0,2024,1500.5
1,2024,1000.0
2,2024,1500.5
3,2024,1500.5
4,2024,1500.5
...,...,...
5212,2024,22500.5
5213,2024,14000.5
5214,2024,
5215,2024,40001.0
