## Análise Exploratória de Dados - State of Data 2024-2025

#### Objetivo: Explorar possíveis indícios de etarismo no mercado de dados, com foco em impactos e tomadas de decisão para negócios.

##### 1. Importações e Configurações

In [19]:
import pandas as pd
import plotly.express as px

##### 2. Carregamento e Leitura Inicial dos Dados

In [2]:
# Dataset original da pesquisa State of Data, foi renomeado para simplificar.
df = pd.read_csv("../data/raw/Dataset_Original.csv")

#### 3. Informações Gerais do DataFrame

In [3]:
# Visializando as primeiras linhas do Dataframe
df.head()

Unnamed: 0,0.a_token,0.d_data/hora_envio,1.a_idade,1.a.1_faixa_idade,1.b_genero,1.c_cor/raca/etnia,1.d_pcd,1.e_experiencia_profissional_prejudicada,1.e.1_Não acredito que minha experiência profissional seja afetada,"1.e.2_Sim, devido a minha Cor/Raça/Etnia",...,"8.d.3_Entrando em contato com os times de negócio para definição do problema, identificar a solução e apresentação de resultados.",8.d.4_Desenvolvendo modelos de Machine Learning com o objetivo de colocar em produção em sistemas (produtos de dados).,"8.d.5_Colocando modelos em produção, criando os pipelines de dados, APIs de consumo e monitoramento.","8.d.6_Cuidando da manutenção de modelos de Machine Learning já em produção, atuando no monitoramento, ajustes e refatoração quando necessário.","8.d.7_Realizando construções de dashboards em ferramentas de BI como PowerBI, Tableau, Looker, Qlik, etc.","8.d.8_Utilizando ferramentas avançadas de estatística como SAS, SPSS, Stata etc, para realizar análises.","8.d.9_Criando e dando manutenção em ETLs, DAGs e automações de pipelines de dados.",8.d.10_Criando e gerenciando soluções de Feature Store e cultura de MLOps.,"8.d.11_Criando e mantendo a infra que meus modelos e soluções rodam (clusters, servidores, API, containers, etc.)",8.d.12_Treinando e aplicando LLM's para solucionar problemas de negócio.
0,reb94rv0msth7q4nreb94riaq80iz3yi,16/10/2024 11:19:17,18,17-21,Masculino,Branca,Não,,,,...,,,,,,,,,,
1,1zc66g69jjt49y32l1zc66g8wqj79m4e,16/10/2024 20:45:31,18,17-21,Masculino,Branca,Não,,,,...,,,,,,,,,,
2,uu99wmam4n5kc2uu99wmydf0rk7l58f7,17/10/2024 18:10:59,18,17-21,Masculino,Parda,Não,Não acredito que minha experiência profissiona...,1.0,0.0,...,,,,,,,,,,
3,3ynsw7z0hl5hhpbfvaeqk73ynsw7z04l,22/10/2024 18:03:00,18,17-21,Masculino,Branca,Não,,,,...,,,,,,,,,,
4,v6bji2ct5xckpl1uouv6bjiotkrf3b4f,23/10/2024 01:33:23,18,17-21,Masculino,Branca,Não,,,,...,,,,,,,,,,


In [8]:
# Verificando o número de linhas e colunas.
print(f"Linhas: {df.shape[0]}")
print(f"Colunas: {df.shape[1]}")

Linhas: 5217
Colunas: 403


In [9]:
# Exibindo informações sobre o DataFrame, incluindo tipos de dados e valores não nulos.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5217 entries, 0 to 5216
Columns: 403 entries, 0.a_token to 8.d.12_Treinando e aplicando LLM's para solucionar problemas de negócio.
dtypes: bool(1), float64(323), int64(1), object(78)
memory usage: 16.0+ MB


In [58]:
# Substituí df.columns por este comando para melhor visualizar o DataFrame, que tem muitas colunas.
df.columns.to_list()

['0.a_token',
 '0.d_data/hora_envio',
 '1.a_idade',
 '1.a.1_faixa_idade',
 '1.b_genero',
 '1.c_cor/raca/etnia',
 '1.d_pcd',
 '1.e_experiencia_profissional_prejudicada',
 '1.e.1_Não acredito que minha experiência profissional seja afetada',
 '1.e.2_Sim, devido a minha Cor/Raça/Etnia',
 '1.e.3_Sim, devido a minha identidade de gênero',
 '1.e.4_Sim, devido ao fato de ser PCD',
 '1.i.1_uf_onde_mora',
 '1.f.1_Quantidade de oportunidades de emprego/vagas recebidas',
 '1.f.2_Senioridade das vagas recebidas em relação à sua experiência',
 '1.f.3_Aprovação em processos seletivos/entrevistas',
 '1.f.4_Oportunidades de progressão de carreira',
 '1.f.5_Velocidade de progressão de carreira',
 '1.f.6_Nível de cobrança no trabalho/Stress no trabalho',
 '1.f.7_Atenção dada pelas pessoas diante das minhas opiniões e ideias',
 '1.f.8_Relação com outras pessoas da empresa, em momentos de trabalho',
 '1.f.9_Relação com outras pessoas da empresa, em momentos de integração e outros momentos fora do trabalho

In [59]:
colunas_secoes = {k: [] for k in range(1, 9)}
colunas_secoes

{1: [], 2: [], 3: [], 4: [], 5: [], 6: [], 7: [], 8: []}

In [60]:
# Para cada seção, separar as colunas
for secao in range(1, 9):
    colunas_secoes[secao] = [col for col in df.columns if col.startswith(f"{secao}")]

colunas_secoes

{1: ['1.a_idade',
  '1.a.1_faixa_idade',
  '1.b_genero',
  '1.c_cor/raca/etnia',
  '1.d_pcd',
  '1.e_experiencia_profissional_prejudicada',
  '1.e.1_Não acredito que minha experiência profissional seja afetada',
  '1.e.2_Sim, devido a minha Cor/Raça/Etnia',
  '1.e.3_Sim, devido a minha identidade de gênero',
  '1.e.4_Sim, devido ao fato de ser PCD',
  '1.i.1_uf_onde_mora',
  '1.f.1_Quantidade de oportunidades de emprego/vagas recebidas',
  '1.f.2_Senioridade das vagas recebidas em relação à sua experiência',
  '1.f.3_Aprovação em processos seletivos/entrevistas',
  '1.f.4_Oportunidades de progressão de carreira',
  '1.f.5_Velocidade de progressão de carreira',
  '1.f.6_Nível de cobrança no trabalho/Stress no trabalho',
  '1.f.7_Atenção dada pelas pessoas diante das minhas opiniões e ideias',
  '1.f.8_Relação com outras pessoas da empresa, em momentos de trabalho',
  '1.f.9_Relação com outras pessoas da empresa, em momentos de integração e outros momentos fora do trabalho',
  '1.i.2_reg

In [61]:
# Verificando se ficou alguma coluna de fora
todas_colunas_secoes = [item for sublist in colunas_secoes.values() for item in sublist]
todas_colunas_secoes

['1.a_idade',
 '1.a.1_faixa_idade',
 '1.b_genero',
 '1.c_cor/raca/etnia',
 '1.d_pcd',
 '1.e_experiencia_profissional_prejudicada',
 '1.e.1_Não acredito que minha experiência profissional seja afetada',
 '1.e.2_Sim, devido a minha Cor/Raça/Etnia',
 '1.e.3_Sim, devido a minha identidade de gênero',
 '1.e.4_Sim, devido ao fato de ser PCD',
 '1.i.1_uf_onde_mora',
 '1.f.1_Quantidade de oportunidades de emprego/vagas recebidas',
 '1.f.2_Senioridade das vagas recebidas em relação à sua experiência',
 '1.f.3_Aprovação em processos seletivos/entrevistas',
 '1.f.4_Oportunidades de progressão de carreira',
 '1.f.5_Velocidade de progressão de carreira',
 '1.f.6_Nível de cobrança no trabalho/Stress no trabalho',
 '1.f.7_Atenção dada pelas pessoas diante das minhas opiniões e ideias',
 '1.f.8_Relação com outras pessoas da empresa, em momentos de trabalho',
 '1.f.9_Relação com outras pessoas da empresa, em momentos de integração e outros momentos fora do trabalho',
 '1.i.2_regiao_onde_mora',
 '1.f_as

In [40]:
type(colunas_secoes)

dict

In [41]:
set(df.columns).difference(todas_colunas_secoes)

{'0.a_token', '0.d_data/hora_envio'}

> São colunas que não serão usadas para análise.

##### Analisando cada seção


In [42]:
colunas_secoes[1]

['1.a_idade',
 '1.a.1_faixa_idade',
 '1.b_genero',
 '1.c_cor/raca/etnia',
 '1.d_pcd',
 '1.e_experiencia_profissional_prejudicada',
 '1.e.1_Não acredito que minha experiência profissional seja afetada',
 '1.e.2_Sim, devido a minha Cor/Raça/Etnia',
 '1.e.3_Sim, devido a minha identidade de gênero',
 '1.e.4_Sim, devido ao fato de ser PCD',
 '1.i.1_uf_onde_mora',
 '1.f.1_Quantidade de oportunidades de emprego/vagas recebidas',
 '1.f.2_Senioridade das vagas recebidas em relação à sua experiência',
 '1.f.3_Aprovação em processos seletivos/entrevistas',
 '1.f.4_Oportunidades de progressão de carreira',
 '1.f.5_Velocidade de progressão de carreira',
 '1.f.6_Nível de cobrança no trabalho/Stress no trabalho',
 '1.f.7_Atenção dada pelas pessoas diante das minhas opiniões e ideias',
 '1.f.8_Relação com outras pessoas da empresa, em momentos de trabalho',
 '1.f.9_Relação com outras pessoas da empresa, em momentos de integração e outros momentos fora do trabalho',
 '1.i.2_regiao_onde_mora',
 '1.f_as

In [43]:
df[colunas_secoes[1]].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5217 entries, 0 to 5216
Data columns (total 31 columns):
 #   Column                                                                                                     Non-Null Count  Dtype  
---  ------                                                                                                     --------------  -----  
 0   1.a_idade                                                                                                  5217 non-null   int64  
 1   1.a.1_faixa_idade                                                                                          5217 non-null   object 
 2   1.b_genero                                                                                                 5217 non-null   object 
 3   1.c_cor/raca/etnia                                                                                         5217 non-null   object 
 4   1.d_pcd                                                                 

In [44]:
df[colunas_secoes[1]].head()

Unnamed: 0,1.a_idade,1.a.1_faixa_idade,1.b_genero,1.c_cor/raca/etnia,1.d_pcd,1.e_experiencia_profissional_prejudicada,1.e.1_Não acredito que minha experiência profissional seja afetada,"1.e.2_Sim, devido a minha Cor/Raça/Etnia","1.e.3_Sim, devido a minha identidade de gênero","1.e.4_Sim, devido ao fato de ser PCD",...,1.f_aspectos_prejudicados,1.k.1_uf_de_origem,1.k.2_regiao_de_origem,1.g_vive_no_brasil,1.h_pais_onde_mora,1.i_estado_onde_mora,1.j_vive_no_estado_de_formacao,1.k_estado_de_origem,1.l_nivel_de_ensino,1.m_área_de_formação
0,18,17-21,Masculino,Branca,Não,,,,,,...,,,,True,,Rio Grande do Sul (RS),True,,Estudante de Graduação,Computação / Engenharia de Software / Sistemas...
1,18,17-21,Masculino,Branca,Não,,,,,,...,,PR,Sul,True,,Santa Catarina (SC),False,Paraná (PR),Estudante de Graduação,Computação / Engenharia de Software / Sistemas...
2,18,17-21,Masculino,Parda,Não,Não acredito que minha experiência profissiona...,1.0,0.0,0.0,0.0,...,,,,True,,São Paulo (SP),True,,Estudante de Graduação,Computação / Engenharia de Software / Sistemas...
3,18,17-21,Masculino,Branca,Não,,,,,,...,,,,True,,São Paulo (SP),True,,Estudante de Graduação,Computação / Engenharia de Software / Sistemas...
4,18,17-21,Masculino,Branca,Não,,,,,,...,,,,True,,São Paulo (SP),True,,Estudante de Graduação,Computação / Engenharia de Software / Sistemas...


In [46]:
pd.set_option("display.max_columns", None)
df[colunas_secoes[1]].head()

Unnamed: 0,1.a_idade,1.a.1_faixa_idade,1.b_genero,1.c_cor/raca/etnia,1.d_pcd,1.e_experiencia_profissional_prejudicada,1.e.1_Não acredito que minha experiência profissional seja afetada,"1.e.2_Sim, devido a minha Cor/Raça/Etnia","1.e.3_Sim, devido a minha identidade de gênero","1.e.4_Sim, devido ao fato de ser PCD",1.i.1_uf_onde_mora,1.f.1_Quantidade de oportunidades de emprego/vagas recebidas,1.f.2_Senioridade das vagas recebidas em relação à sua experiência,1.f.3_Aprovação em processos seletivos/entrevistas,1.f.4_Oportunidades de progressão de carreira,1.f.5_Velocidade de progressão de carreira,1.f.6_Nível de cobrança no trabalho/Stress no trabalho,1.f.7_Atenção dada pelas pessoas diante das minhas opiniões e ideias,"1.f.8_Relação com outras pessoas da empresa, em momentos de trabalho","1.f.9_Relação com outras pessoas da empresa, em momentos de integração e outros momentos fora do trabalho",1.i.2_regiao_onde_mora,1.f_aspectos_prejudicados,1.k.1_uf_de_origem,1.k.2_regiao_de_origem,1.g_vive_no_brasil,1.h_pais_onde_mora,1.i_estado_onde_mora,1.j_vive_no_estado_de_formacao,1.k_estado_de_origem,1.l_nivel_de_ensino,1.m_área_de_formação
0,18,17-21,Masculino,Branca,Não,,,,,,RS,,,,,,,,,,Sul,,,,True,,Rio Grande do Sul (RS),True,,Estudante de Graduação,Computação / Engenharia de Software / Sistemas...
1,18,17-21,Masculino,Branca,Não,,,,,,SC,,,,,,,,,,Sul,,PR,Sul,True,,Santa Catarina (SC),False,Paraná (PR),Estudante de Graduação,Computação / Engenharia de Software / Sistemas...
2,18,17-21,Masculino,Parda,Não,Não acredito que minha experiência profissiona...,1.0,0.0,0.0,0.0,SP,,,,,,,,,,Sudeste,,,,True,,São Paulo (SP),True,,Estudante de Graduação,Computação / Engenharia de Software / Sistemas...
3,18,17-21,Masculino,Branca,Não,,,,,,SP,,,,,,,,,,Sudeste,,,,True,,São Paulo (SP),True,,Estudante de Graduação,Computação / Engenharia de Software / Sistemas...
4,18,17-21,Masculino,Branca,Não,,,,,,SP,,,,,,,,,,Sudeste,,,,True,,São Paulo (SP),True,,Estudante de Graduação,Computação / Engenharia de Software / Sistemas...


In [10]:
# Gerando estatísticas descritivas para colunas numéricas.
df.describe()

Unnamed: 0,1.a_idade,1.e.1_Não acredito que minha experiência profissional seja afetada,"1.e.2_Sim, devido a minha Cor/Raça/Etnia","1.e.3_Sim, devido a minha identidade de gênero","1.e.4_Sim, devido ao fato de ser PCD",1.f.1_Quantidade de oportunidades de emprego/vagas recebidas,1.f.2_Senioridade das vagas recebidas em relação à sua experiência,1.f.3_Aprovação em processos seletivos/entrevistas,1.f.4_Oportunidades de progressão de carreira,1.f.5_Velocidade de progressão de carreira,...,"8.d.3_Entrando em contato com os times de negócio para definição do problema, identificar a solução e apresentação de resultados.",8.d.4_Desenvolvendo modelos de Machine Learning com o objetivo de colocar em produção em sistemas (produtos de dados).,"8.d.5_Colocando modelos em produção, criando os pipelines de dados, APIs de consumo e monitoramento.","8.d.6_Cuidando da manutenção de modelos de Machine Learning já em produção, atuando no monitoramento, ajustes e refatoração quando necessário.","8.d.7_Realizando construções de dashboards em ferramentas de BI como PowerBI, Tableau, Looker, Qlik, etc.","8.d.8_Utilizando ferramentas avançadas de estatística como SAS, SPSS, Stata etc, para realizar análises.","8.d.9_Criando e dando manutenção em ETLs, DAGs e automações de pipelines de dados.",8.d.10_Criando e gerenciando soluções de Feature Store e cultura de MLOps.,"8.d.11_Criando e mantendo a infra que meus modelos e soluções rodam (clusters, servidores, API, containers, etc.)",8.d.12_Treinando e aplicando LLM's para solucionar problemas de negócio.
count,5217.0,2641.0,2641.0,2641.0,2641.0,1289.0,1289.0,1289.0,1289.0,1289.0,...,773.0,773.0,773.0,773.0,773.0,773.0,773.0,773.0,773.0,773.0
mean,32.358827,0.511927,0.221128,0.319576,0.033321,0.392552,0.359969,0.373157,0.521334,0.556245,...,0.22251,0.298836,0.086675,0.09185,0.041397,0.003881,0.043984,0.009056,0.011643,0.133247
std,7.419433,0.499952,0.415085,0.466401,0.179507,0.488508,0.480177,0.483831,0.499739,0.497019,...,0.416201,0.458044,0.281541,0.289001,0.199336,0.062217,0.205193,0.094791,0.107342,0.340062
min,18.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,27.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,31.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
75%,36.0,1.0,0.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0,...,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
max,68.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


#### 4. Verificação de Valores Faltantes

In [63]:
missing = df.isnull().mean().sort_values(ascending=False)
missing[missing > 0]   # Focando apenas nas variáveis com ausência
print(missing.head(20))

1.h_pais_onde_mora                                                                                                                                                                                     0.973356
5.b_oportunidade_buscada                                                                                                                                                                               0.945179
5.d_experiencia_em_processos_seletivos                                                                                                                                                                 0.944604
5.c_tempo_em_busca_de_oportunidade                                                                                                                                                                     0.944412
5.a_objetivo_na_area_de_dados                                                                                                                                           

#### 5. Gráficos Exploratórios Iniciais

In [103]:
# Distribuição da Faixa Etária
g1 = px.histogram(
    df,
    x="1.a.1_faixa_idade",
    title="Distribuição por Faixa Etária",
    text_auto=True,
)
g1.update_layout(xaxis_title="Faixa Etária", yaxis_title="Nº de Pessoas")
g1.show()

In [100]:
# Distribuição por Nível de Senioridade
g2 = px.histogram(
    df,
    x="2.g_nivel",
    title="Distribuição por Nível de Senioridade",
    text_auto=True,
)
g2.update_layout(xaxis_title="Nível do Senioridade", yaxis_title="Nº de Pessoas")
g2.show()

In [98]:
# Mapeamento para rótulos simplificados
mapa_faixas = {
    "Menos de R$ 1.000/mês": "< R$1K",
    "de R$ 1.001/mês a R$ 2.000/mês": "R$1K-2K",
    "de R$ 2.001/mês a R$ 3.000/mês": "R$2K-3K",
    "de R$ 3.001/mês a R$ 4.000/mês": "R$3K-4K",
    "de R$ 4.001/mês a R$ 6.000/mês": "R$4K-6K",
    "de R$ 6.001/mês a R$ 8.000/mês": "R$6K-8K",
    "de R$ 8.001/mês a R$ 12.000/mês": "R$8K-12K",
    "de R$ 12.001/mês a R$ 16.000/mês": "R$12K-16K",
    "de R$ 16.001/mês a R$ 20.000/mês": "R$16K-20K",
    "de R$ 20.001/mês a R$ 25.000/mês": "R$20K-25K",
    "de R$ 25.001/mês a R$ 30.000/mês": "R$25K-30K",
    "de R$ 30.001/mês a R$ 40.000/mês": "R$30K-40K",
    "Acima de R$ 40.001/mês": "> R$40K",
}

# Aplicando a coluna formatada
df["faixa_salarial_simplificada"] = df["2.h_faixa_salarial"].map(mapa_faixas)

# Definindo a nova ordem simplificada
ordem_simplificada = list(mapa_faixas.values())

# Distribuição da Faixa Salarial
g3 = px.histogram(
    df,
    x="faixa_salarial_simplificada",
    category_orders={"faixa_salarial_simplificada": ordem_simplificada},
    title="Distribuição da Faixa Salarial",
    text_auto=True,
)
g3.update_layout(xaxis_title="Faixa Salarial", yaxis_title="Nº de Pessoas")
g3.show()

### Hipóteses de Pesquisa

#### Hipóteses a serem exploradas

- **H1**: Faixas etárias enfrentam barreiras diferentes para progressão na carreira
- **H2**: A percepção de discriminação varia conforme a faixa etária
- **H3**: A faixa etária influencia diretamente na faixa salarial
- **H4**: Adoção de ferramentas modernas varia de acordo com a faixa etária
- **H5**: A área de atuação preferida varia com a idade

*Nota*: A depender da disponibilidade de dados e da qualidade, algumas hipóteses podem ser ajustadas ao longo da análise.

#### 6. Seleção das Colunas Relevantes por Hipótese

In [52]:
# H1: Faixa etária vs nível de cargo
df_h1 = df[["1.a.1_faixa_idade", "2.g_nivel"]].dropna()

In [53]:
# H2: Faixa etária vs percepção de discriminação
df_h2 = df[["1.a.1_faixa_idade", "1.e_experiencia_profissional_prejudicada"]].dropna()

In [None]:
# H3: Faixa etária vs faixa salarial
df_h3 = df[["1.a.1_faixa_idade", "2.h_faixa_salarial"]].dropna()

In [54]:
# H4: Faixa etária vs uso de IA generativa
df_h4 = df[["1.a.1_faixa_idade", "4.l_tipo_de_uso_de_ai_generativa"]].dropna()

KeyError: "['4.l_tipo_de_uso_de_ai_generativa'] not in index"

In [55]:
# H5: Faixa etária vs área de atuação desejada
df_h5 = df[["1.a.1_faixa_idade", "2.b_area_atuacao_desejada"]].dropna()

KeyError: "['2.b_area_atuacao_desejada'] not in index"

#### 7. Análise das Hipóteses

In [30]:
# H1: Faixas etárias enfrentam barreiras diferentes para progressão na carreira
fig1 = px.histogram(
    df_h1,
    x="1.a.1_faixa_idade",
    color="2.g_nivel",
    barmode="group",
    title="Distribuição de Cargos por Faixa Etária",
)
fig1.show()

In [31]:
# H2: Percepção de discriminação por idade
fig2 = px.histogram(
    df_h2,
    x="1.a.1_faixa_idade",
    color="1.e_experiencia_profissional_prejudicada",
    barmode="group",
    title="Percepção de Discriminação por Faixa Etária",
)
fig2.show()

In [32]:
# H3: Política salarial desfavorece faixas etárias mais velhas?
fig3 = px.box(
    df_h3,
    x="1.a.1_faixa_idade",
    y="2.h_faixa_salarial",
    title="Distribuição Salarial por Faixa Etária",
)
fig3.show()

In [33]:
# H4: Adoção de ferramentas modernas por faixa etária
fig4 = px.histogram(
    df_h4,
    x="1.a.1_faixa_idade",
    color="4.l_tipo_de_uso_de_ai_generativa_e_llm_na_empresa",
    barmode="group",
    title="Uso de AI Generativa por Faixa Etária",
)
fig4.show()

In [34]:
# H5: Área de atuação varia com a idade?
fig5 = px.histogram(
    df_h5,
    x="1.a.1_faixa_idade",
    color="4.a_funcao_de_atuacao",
    barmode="group",
    title="Áreas de Atuação por Faixa Etária",
)
fig5.show()