# Conectando Dados e Comunidade
<hr color="#ff4500" size="1">

O *State of Data Brazil*, conduzido pela comunidade Data Hackers desde 2019, representa uma das iniciativas mais importantes para mapear o mercado de trabalho em dados no país. Esta pesquisa anual não apenas documenta tendências salariais e tecnológicas, mas também transforma a experiência individual em inteligência coletiva, oferecendo um panorama claro sobre nosso mercado de trabalho.


## A Oportunidade Identificada
<img src="https://redditinc.com/hs-fs/hubfs/Reddit%20Inc/Content/Brand%20Page/Reddit_Logo.png" align="right" width="150" height="150"/>
Durante minha experiência como consumidor de conteúdo na comunidade [r/datasciencebr](https://www.reddit.com/r/datasciencebr/) do Reddit, identifiquei um padrão interessante: as mesmas dúvidas sobre salários, tecnologias, transição de carreira, mercado de trabalho surgem repetidamente.

 As respostas, embora relevantes, são frequentemente baseadas em vivências pessoais e podem não refletir o cenário geral. Cria-se, assim, uma lacuna entre a percepção anedótica e a realidade dos dados.

Essa observação gerou uma hipótese: e se pudéssemos usar os dados robustos do State of Data Brazil para responder, de forma mais objetiva e abrangente, às principais dúvidas da comunidade brasileira de data science?

## Proposta de Análise

Para o Challenge State of Data Brazil 2025, proponho desenvolver uma análise exploratória de dados (EDA) que faça a ponte entre:

-   **As perguntas mais frequentes** da comunidade brasileira de data science
-   **Os insights baseados em dados** do State of Data Brazil
-   **Descobertas que vão além das perguntas óbvias**, explorando correlações e padrões não evidentes

## Objetivo

Não se trata de substituir as valiosas experiências pessoais que são trocadas nos fóruns, mas sim de complementá-las. A minha intenção é apenas organizar os dados de uma forma que possa trazer uma nova perspectiva e, quem sabe, ajudar a comunidade da qual eu estou sendo inserido a encontrar algumas respostas um pouco mais consolidadas. Seria a minha forma de contribuir.

Como o meu principal objetivo com este desafio é o aprendizado, encaro o projeto também como uma oportunidade para experimentar. Por isso, pretendo utilizar um conjunto variado de ferramentas para a manipulação, análise e visualização dos dados, aplicando tanto as que já conheço quanto outras que desejo explorar. No fim das contas, todo o processo será uma jornada de desenvolvimento pessoal, e ficarei feliz em compartilhar o que descobrir pelo caminho.

In [None]:
# -----------------------------------------------------------------------------
# 1. CARREGAMENTO DOS DADOS
# -----------------------------------------------------------------------------

#Instalação e Inicialização dos Pacotes
library(tidyverse) #Para manipulação de dados
library(scales) #Para formatação de números
library(janitor) #Para limpeza de nomes de colunas
install.packages("reactablefmtr")
library(reactable) #Para tabelas mais bonitas e interativas.
library(reactablefmtr)
library(stringr)
#Bancos de Dados
br2019 <- read.csv("/kaggle/input/data2025/df2019.csv") %>% janitor::clean_names()
br2021 <- read.csv("/kaggle/input/data2025/df2021.csv") %>%  janitor::clean_names()
br2022 <- read.csv("/kaggle/input/data2025/df2022.csv") %>%  janitor::clean_names()
br2023 <- read.csv("/kaggle/input/data2025/df2023.csv") %>%  janitor::clean_names()
br2024 <- read.csv("/kaggle/input/data2025/df2024.csv") %>%  janitor::clean_names()

#Nesse ponto é possivel juntar os bancos de dados, mas necessitaria de um entendimento mais profundo dos dados, 
#renomear manualmente utilizando LLMs, mas ainda não tenho total controle sobre alucinações, 
#e ou confundimento então preferi deixar separado, tentarei deixar o codigo o mais legivel possível mesmo assim.



── [1mAttaching core tidyverse packages[22m ────────────────────────────────────────────────────────────────────────────────────────────────────── tidyverse 2.0.0 ──
[32m✔[39m [34mdplyr    [39m 1.1.4     [32m✔[39m [34mreadr    [39m 2.1.5
[32m✔[39m [34mforcats  [39m 1.0.0     [32m✔[39m [34mstringr  [39m 1.5.1
[32m✔[39m [34mggplot2  [39m 3.5.2     [32m✔[39m [34mtibble   [39m 3.3.0
[32m✔[39m [34mlubridate[39m 1.9.4     [32m✔[39m [34mtidyr    [39m 1.3.1
[32m✔[39m [34mpurrr    [39m 1.1.0     
── [1mConflicts[22m ──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()
[36mℹ[39m Use the ]8;;http://conflicted.r-lib.org/conflicted package]8;; to force all conflicts to become errors

Attaching package: ‘scal

# 🎯 Perspectivas Salariais em Dados: O Caminho da Estatística

## A Pergunta Original
    [Dúvidas sobre salários](https://www.reddit.com/r/datasciencebr/comments/1i5utod/d%C3%BAvidas_sobre_sal%C3%A1rios/)
> *"Olá a todos do Sub, estou pesquisando e buscando informações sobre diferentes cursos de graduação e achei muito interessante a graduação em estatística na ufmg e me interessei também pela possibilidade de trabalhar na área de dados. Como estou fazendo uma pesquisa geral a respeito de diferentes cursos, eu gostaria de saber mais sobre questões de salários. Até onde da pra chegar? É possível conseguir uma boa remuneração com uma boa formação, bons estágios, etc?"*

Vamos quebrar essa questão em pedaços menores e mais tangíveis.

---

## 🔍 Dividindo para Conquistar


### **1. Trajetória Inicial: O Primeiro Emprego**
- **Pergunta específica**: Qual é a faixa salarial realista para quem está começando?
- **O que queremos descobrir**: Salários de entrada por nível de experiência (estágio, júnior, trainee)
- **Insight esperado**: Expectativas realistas para os primeiros anos

### **2. Evolução na Carreira: O Crescimento Possível**
- **Pergunta específica**: Como os salários evoluem com o tempo e experiência?
- **O que queremos descobrir**: Progressão salarial ao longo de 3, 5, 10 anos
- **Insight esperado**: Mapear o potencial de crescimento a médio e longo prazo

### **3. Fatores Multiplicadores: O Que Faz a Diferença**
- **Pergunta específica**: Quais elementos impactam mais no salário?
  - Localização geográfica
  - Tipo de empresa (startup, consultoria, banco, tech)
  - Especializações técnicas
  - Certificações e cursos complementares
- **O que queremos descobrir**: Onde investir energia para maximizar retorno financeiro
- **Insight esperado**: Estratégias práticas para otimizar remuneração

### **4. Teto de Vidro: Os Limites Reais**
- **Pergunta específica**: Qual é o "teto" salarial realista na área?
- **O que queremos descobrir**: Faixas salariais dos percentis mais altos (top 10%, top 5%)
- **Insight esperado**: Entender o potencial máximo e o que é necessário para chegar lá

---

## 📊 Estratégia de Análise

### **Abordagem Quantitativa**
- Análise de distribuição salarial por experiência
- Comparação entre formações acadêmicas (Quero detalhar mais sobre isso em uma pergunta posterior)
- Correlação entre fatores e remuneração

### **Abordagem Qualitativa**
- Identificação de padrões em trajetórias de sucesso
- Análise de comentários sobre satisfação vs. remuneração
- Mapeamento de "pontos de virada" na carreira

---

**A meta não é apenas responder "quanto se ganha", mas sim "como construir uma carreira financeiramente recompensadora na área de dados".**

In [None]:
# -----------------------------------------------------------------------------
# CONFIGURAÇÃO DAS FAIXAS SALARIAIS
# -----------------------------------------------------------------------------

# Faixas completas (2021-2024)
faixas_completas <- c(
  "Menos de R$ 1.000/mês",
  "de R$ 1.001/mês a R$ 2.000/mês",
  "de R$ 2.001/mês a R$ 3.000/mês",
  "de R$ 3.001/mês a R$ 4.000/mês",
  "de R$ 4.001/mês a R$ 6.000/mês",
  "de R$ 6.001/mês a R$ 8.000/mês",
  "de R$ 8.001/mês a R$ 12.000/mês",
  "de R$ 12.001/mês a R$ 16.000/mês",
  "de R$ 16.001/mês a R$ 20.000/mês",
  "de R$ 20.001/mês a R$ 25.000/mês",
  "de R$ 25.001/mês a R$ 30.000/mês",
  "de R$ 30.001/mês a R$ 40.000/mês",
  "Acima de R$ 40.001/mês"
)

# Faixas limitadas 2019 (máximo até 25.001)
faixas_2019 <- c(
  "Menos de R$ 1.000/mês",
  "de R$ 1.001/mês a R$ 2.000/mês",
  "de R$ 2.001/mês a R$ 3.000/mês",
  "de R$ 3.001/mês a R$ 4.000/mês",
  "de R$ 4.001/mês a R$ 6.000/mês",
  "de R$ 6.001/mês a R$ 8.000/mês",
  "de R$ 8.001/mês a R$ 12.000/mês",
  "de R$ 12.001/mês a R$ 16.000/mês",
  "de R$ 16.001/mês a R$ 20.000/mês",
  "de R$ 20.001/mês a R$ 25.000/mês",
  "Acima de R$ 25.001/mês"
)

# -----------------------------------------------------------------------------
# PROCESSAMENTO DOS DADOS INDIVIDUAIS
# -----------------------------------------------------------------------------

# Dados 2019
dados_2019 <- br2019 %>%
  select(x_p16_salary_range) %>%
  na.omit() %>%
  rename(faixa_salarial = x_p16_salary_range) %>%
  mutate(faixa_salarial = factor(faixa_salarial, levels = faixas_2019)) %>%
  count(faixa_salarial) %>%
  arrange(faixa_salarial) %>%
  rename(`Faixa Salarial` = faixa_salarial, Quantidade = n) %>%
  mutate(
    Relativo = Quantidade / sum(Quantidade),
    Acumulado = cumsum(Relativo),
    Relativo_fmt = percent(Relativo, accuracy = 0.1),
    Acumulado_fmt = percent(Acumulado, accuracy = 0.1),
    Ano = "2019"
  )

# Dados 2021
dados_2021 <- br2021 %>%
  select(x_p2_h_faixa_salarial) %>%
  na.omit() %>%
  rename(faixa_salarial = x_p2_h_faixa_salarial) %>%
  mutate(faixa_salarial = factor(faixa_salarial, levels = faixas_completas)) %>%
  count(faixa_salarial) %>%
  arrange(faixa_salarial) %>%
  rename(`Faixa Salarial` = faixa_salarial, Quantidade = n) %>%
  mutate(
    Relativo = Quantidade / sum(Quantidade),
    Acumulado = cumsum(Relativo),
    Relativo_fmt = percent(Relativo, accuracy = 0.1),
    Acumulado_fmt = percent(Acumulado, accuracy = 0.1),
    Ano = "2021"
  )

# Dados 2022
dados_2022 <- br2022 %>%
  select(x_p2_h_faixa_salarial) %>%
  na.omit() %>%
  rename(faixa_salarial = x_p2_h_faixa_salarial) %>%
  mutate(faixa_salarial = factor(faixa_salarial, levels = faixas_completas)) %>%
  count(faixa_salarial) %>%
  arrange(faixa_salarial) %>%
  rename(`Faixa Salarial` = faixa_salarial, Quantidade = n) %>%
  mutate(
    Relativo = Quantidade / sum(Quantidade),
    Acumulado = cumsum(Relativo),
    Relativo_fmt = percent(Relativo, accuracy = 0.1),
    Acumulado_fmt = percent(Acumulado, accuracy = 0.1),
    Ano = "2022"
  )

# Dados 2023
dados_2023 <- br2023 %>%
  select(x_p2_h_faixa_salarial) %>%
  na.omit() %>%
  rename(faixa_salarial = x_p2_h_faixa_salarial) %>%
  mutate(faixa_salarial = factor(faixa_salarial, levels = faixas_completas)) %>%
  count(faixa_salarial) %>%
  arrange(faixa_salarial) %>%
  rename(`Faixa Salarial` = faixa_salarial, Quantidade = n) %>%
  mutate(
    Relativo = Quantidade / sum(Quantidade),
    Acumulado = cumsum(Relativo),
    Relativo_fmt = percent(Relativo, accuracy = 0.1),
    Acumulado_fmt = percent(Acumulado, accuracy = 0.1),
    Ano = "2023"
  )

# Dados 2024
dados_2024 <- br2024 %>%
  select(x2_h_faixa_salarial) %>%
  na.omit() %>%
  rename(faixa_salarial = x2_h_faixa_salarial) %>%
  mutate(faixa_salarial = factor(faixa_salarial, levels = faixas_completas)) %>%
  count(faixa_salarial) %>%
  arrange(faixa_salarial) %>%
  rename(`Faixa Salarial` = faixa_salarial, Quantidade = n) %>%
  mutate(
    Relativo = Quantidade / sum(Quantidade),
    Acumulado = cumsum(Relativo),
    Relativo_fmt = percent(Relativo, accuracy = 0.1),
    Acumulado_fmt = percent(Acumulado, accuracy = 0.1),
    Ano = "2024"
  )


In [None]:
# -----------------------------------------------------------------------------
# TABELAS INTERATIVAS INDIVIDUAIS
# -----------------------------------------------------------------------------

# Configurar tema
tema <- espn()
tema$titleStyle <- list(fontFamily = "'Bebas Neue', sans-serif", fontSize = "2rem", fontWeight = "700")
tema$subtitleStyle <- list(fontFamily = "'Bebas Neue', sans-serif", fontSize = "1.25rem", fontWeight = "400", color = "#666")

# Tabela 2024 (mais recente)
tabela_2024 <- dados_2024 %>%
  mutate(Icones_Representacao = Quantidade) %>%
  reactable(
    striped = TRUE,
    pagination = FALSE,
    theme = tema,
    showSortIcon = FALSE,
    searchable = TRUE,
    language = reactableLang(searchPlaceholder = "BUSCAR POR FAIXA..."),
    columns = list(
      "Faixa Salarial" = colDef(name = "Faixa Salarial", maxWidth = 200),
      Icones_Representacao = colDef(
        name = "", align = "center", maxWidth = 150,
        cell = icon_assign(data = ., icon = "user", fill_color = "#555555", buckets = 5, show_values = 'none')
      ),
      Quantidade = colDef(
        name = "Quantidade", maxWidth = 100,
        style = color_scales(data = ., colors = c("#edf8e9", "#74c476", "#005a32"))
      ),
      Relativo_fmt = colDef(name = "Percentual", maxWidth = 150, align = "left"),
      Acumulado_fmt = colDef(name = "Acumulado", maxWidth = 120),
      Relativo = colDef(show = FALSE),
      Acumulado = colDef(show = FALSE),
      Ano = colDef(show = FALSE)
    )
  ) %>% 
  add_title("Distribuição Salarial 2024") %>% 
  add_source("State of Data Brazil 2024")

# Exibir tabelas

print(tabela_2024)


In [None]:

# Tabela 2019
tabela_2019 <- dados_2019 %>%
  mutate(Icones_Representacao = Quantidade) %>%
  reactable(
    striped = TRUE,
    pagination = FALSE,
    theme = tema,
    showSortIcon = FALSE,
    searchable = TRUE,
    language = reactableLang(searchPlaceholder = "BUSCAR POR FAIXA..."),
    columns = list(
      "Faixa Salarial" = colDef(name = "Faixa Salarial", maxWidth = 200),
      Icones_Representacao = colDef(
        name = "", align = "center", maxWidth = 150,
        cell = icon_assign(data = ., icon = "user", fill_color = "#555555", buckets = 5, show_values = 'none')
      ),
      Quantidade = colDef(
        name = "Quantidade", maxWidth = 100,
        style = color_scales(data = ., colors = c("#edf8e8", "#74c476", "#005a32"))
      ),
      Relativo_fmt = colDef(name = "Percentual", maxWidth = 150, align = "left"),
      Acumulado_fmt = colDef(name = "Acumulado", maxWidth = 120),
      Relativo = colDef(show = FALSE),
      Acumulado = colDef(show = FALSE),
      Ano = colDef(show = FALSE)
    )
  ) %>% 
  add_title("Distribuição Salarial 2019") %>% 
  add_source("State of Data Brazil 2019")


In [None]:
dados_2019_expandido <- dados_2019 %>%
  mutate(`Faixa Salarial` = ifelse(`Faixa Salarial` == "Acima de R$ 25.001/mês", 
                                    "Acima de R$ 40.001/mês", 
                                    as.character(`Faixa Salarial`))) %>%
  mutate(`Faixa Salarial` = factor(`Faixa Salarial`, levels = faixas_completas))

# Combinar dados históricos usando todas as faixas completas
dados_historicos <- bind_rows(dados_2019_expandido, dados_2021, dados_2022, dados_2023, dados_2024) %>%
  mutate(
    Ano = factor(Ano, levels = c("2019", "2021", "2022", "2023", "2024")),
    `Faixa Salarial` = factor(`Faixa Salarial`, levels = faixas_completas)
  ) %>%
  # Preencher com 0 para faixas não existentes em 2019
  complete(Ano, `Faixa Salarial`, fill = list(Quantidade = 0, Relativo = 0, Acumulado = 0, 
                                               Relativo_fmt = "0.0%", Acumulado_fmt = "0.0%"))


In [None]:
# -----------------------------------------------------------------------------
# GRÁFICO 1: EVOLUÇÃO POR LINHAS
# -----------------------------------------------------------------------------

grafico_linhas <- ggplot(dados_historicos, aes(x = Ano, y = Relativo, color = `Faixa Salarial`, group = `Faixa Salarial`)) +
  geom_line(size = 1.2, alpha = 0.8) +
  geom_point(size = 3, alpha = 0.9) +
  facet_wrap(~`Faixa Salarial`, scales = "free_y", ncol = 3) +
  scale_y_continuous(labels = percent_format(accuracy = 0.1)) +
  scale_color_viridis_d(option = "plasma", guide = "none") +
  labs(
    title = "Evolução das Faixas Salariais na Área de Dados (2019-2024)",
    subtitle = "Proporção de profissionais em cada faixa salarial ao longo do tempo",
    y = "Proporção de Profissionais",
    x = "Ano",
    caption = "Nota: Dados de 2020 não disponíveis. Faixa 'Acima de R$ 40.001/mês' em 2019 inclui todos os valores acima de R$ 25.001/mês."
  ) +
  theme_minimal() +
  theme(
    strip.text = element_text(size = 9, face = "bold"),
    axis.text.x = element_text(angle = 45, hjust = 1, size = 8),
    plot.title = element_text(hjust = 0.5, face = "bold", size = 14),
    plot.subtitle = element_text(hjust = 0.5, size = 11),
    plot.caption = element_text(size = 8, color = "gray50"),
    panel.grid.minor = element_blank()
  )

print(grafico_linhas)


In [None]:

# -----------------------------------------------------------------------------
# GRÁFICO 3: TENDÊNCIAS GERAIS (TODOS OS ANOS COM FAIXAS COMPLETAS)
# -----------------------------------------------------------------------------

# Criar categorias salariais agrupadas para todos os anos
dados_tendencias <- bind_rows(dados_2019_expandido, dados_2021, dados_2022, dados_2023, dados_2024) %>%
  mutate(
    Categoria_Salario = case_when(
      str_detect(`Faixa Salarial`, "1.000|2.000|3.000") ~ "Até R$ 3.000",
      str_detect(`Faixa Salarial`, "4.000|6.000") ~ "R$ 3.001 - R$ 6.000", 
      str_detect(`Faixa Salarial`, "8.000|12.000") ~ "R$ 6.001 - R$ 12.000",
      str_detect(`Faixa Salarial`, "16.000|20.000|25.000") ~ "R$ 12.001 - R$ 25.000",
      str_detect(`Faixa Salarial`, "30.000|40.000") ~ "R$ 25.001 - R$ 40.000",
      str_detect(`Faixa Salarial`, "Acima") ~ "Acima de R$ 40.000",
      TRUE ~ "Outras faixas"
    )
  ) %>%
  group_by(Ano, Categoria_Salario) %>%
  summarise(Relativo_Agrupado = sum(Relativo), .groups = "drop") %>%
  mutate(
    Ano = factor(Ano, levels = c("2019", "2021", "2022", "2023", "2024")),
    Categoria_Salario = factor(
      Categoria_Salario, 
      levels = c("Até R$ 3.000", "R$ 3.001 - R$ 6.000", "R$ 6.001 - R$ 12.000", 
                 "R$ 12.001 - R$ 25.000", "R$ 25.001 - R$ 40.000", "Acima de R$ 40.000")
    )
  )

grafico_tendencias <- ggplot(dados_tendencias, aes(x = Ano, y = Relativo_Agrupado, fill = Categoria_Salario)) +
  geom_area(alpha = 0.7, position = "stack") +
  scale_y_continuous(labels = percent_format()) +
  scale_fill_viridis_d(option = "viridis", name = "Faixa Salarial") +
  labs(
    title = "Evolução da Estrutura Salarial na Área de Dados",
    subtitle = "Distribuição proporcional por faixas salariais agrupadas (2019, 2021-2024)",
    x = "Ano",
    y = "Proporção Acumulada",
    caption = "Análise incluindo todos os anos disponíveis. Faixa 'Acima de R$ 40.000' em 2019 inclui todos os valores acima de R$ 25.001/mês."
  ) +
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold", size = 14),
    plot.subtitle = element_text(hjust = 0.5, size = 11),
    plot.caption = element_text(size = 8, color = "gray50"),
    legend.position = "bottom",
    panel.grid.minor = element_blank()
  )

print(grafico_tendencias)


🏢 Como é trabalhar nas grandes techs brasileiras?
A Pergunta Original
"Fala galera, beleza? Queria saber se alguém aqui teve experiência com dados (Data Analytics, Science, Engineering) ou Engenharia de Software nessas empresas? Como é o clima dentro? Cultura tóxica? Maturidade técnica? Managers bons ou sacanas?"

Empresas: iFood, Mercado Livre, Uber, PicPay, Hotmart, Loft, Quinto Andar, Magazine Luiza

🔍 O que queremos descobrir
1. Clima de Trabalho
Como é o ambiente no dia a dia?
Existe pressão excessiva ou toxicidade?
As pessoas se sentem confortáveis?
2. Maturidade Técnica
As ferramentas e tecnologias são boas?
A empresa investe em inovação?
Os processos são bem estruturados?
3. Qualidade da Gestão
Os managers são competentes?
Existe apoio para crescimento?
Como é a comunicação com liderança?
📊 Como vamos investigar
Dados que temos:
Satisfação geral: x2_k_satisfeito_atualmente
Ambiente de trabalho: x2_l_5_ambiente_e_clima_de_trabalho
Maturidade técnica: x2_l_8_maturidade_da_empresa_em_termos_de_tecnologia_e_dados
Qualidade dos gestores: x2_l_9_relacao_com_os_gestores_e_lideres
Setor da empresa: x2_b_setor
Análises simples:
Filtrar respondentes dessas empresas específicas
Comparar as notas de satisfação entre elas
Identificar padrões de satisfação vs. insatisfação
Mapear os principais problemas relatados
🎯 Perguntas diretas que vamos responder
Em qual dessas empresas os funcionários estão mais satisfeitos?
Onde o ambiente de trabalho é melhor avaliado?
Qual empresa tem maior maturidade técnica?
Onde estão os melhores managers?
Quais são as principais reclamações de cada empresa?
Objetivo: Criar um ranking simples e direto de como é trabalhar em cada uma dessas empresas, baseado na experiência real dos profissionais.



# 🐍 Python em Dados: É normal não saber depois de 5 anos?

## A Pergunta Original

> *"É normal uma pessoa que diz que trabalha 'com dados' há mais de 5 anos... Nunca ter usado nada de Python. Nem um NunPyzinho, nem um Pandaszinho.... nem ter python instalado na máquina? Nem saber rodar um scriptizinho py arquivo.py ???"*

---

## 🔍 O que queremos descobrir

### **1. Panorama Geral**
- Quantos profissionais de dados realmente usam Python?
- Qual o perfil de quem não usa?
- Isso é comum ou é exceção?

### **2. Por Tempo de Experiência**
- Como varia o uso de Python por anos de experiência?
- Profissionais com 5+ anos usam mais ou menos?
- Existe diferença entre gerações?

### **3. Por Tipo de Cargo**
- Analistas de dados usam Python?
- Cientistas de dados sempre usam?
- Em que cargos Python não é essencial?

---

## 📊 Como vamos investigar

### **Dados que temos:**
- **Tempo de experiência**: `x2_i_tempo_de_experiencia_em_dados`
- **Cargo atual**: `x2_f_cargo_atual` 
- **Nível**: `x2_g_nivel`
- **Setor**: `x2_b_setor`
- **Tamanho da empresa**: `x2_c_numero_de_funcionarios`

### **Análises simples:**
1. **Filtrar** profissionais com 5+ anos de experiência
2. **Cruzar** com ferramentas/tecnologias utilizadas
3. **Segmentar** por cargo e tipo de empresa
4. **Identificar** padrões de uso vs. não uso

---

## 🎯 Perguntas diretas que vamos responder

1. **Quantos % dos profissionais com 5+ anos nunca usaram Python?**
2. **Em quais cargos é mais comum não usar Python?**
3. **Que tipo de empresa/setor tem menos uso de Python?**
4. **Existe correlação entre não usar Python e satisfação profissional?**
5. **O que esses profissionais usam no lugar do Python?**

---

## 🤔 Hipóteses a testar

- **H1**: Analistas de BI/Business podem trabalhar 5+ anos sem Python
- **H2**: Empresas tradicionais (não-tech) usam menos Python
- **H3**: Profissionais focados em dashboards/relatórios dispensam Python
- **H4**: Existe uma "geração Excel/SQL" que nunca migrou para Python

---

**Objetivo:** Descobrir se é realmente "normal" ou se é uma situação atípica um profissional de dados sênior nunca ter usado Python.

## Generalista vs. Especialista em Dados: Qual o Melhor Caminho?

Esta é uma das perguntas mais frequentes e debatidas na área de dados. A escolha entre focar em uma especialidade ou ter um conhecimento mais amplo pode impactar significativamente a trajetória profissional.

## 🔍 Dividindo para Conquistar

Para abordar essa questão de forma estruturada, vamos quebrá-la em componentes mais específicos, baseando-nos nos dados da pesquisa "Estado dos Dados 2024":

### **1. Impacto Salarial: Onde o Dinheiro Fala Mais Alto?**

* **Pergunta específica**: Como o salário de profissionais generalistas se compara ao de especialistas na área de dados?

* **O que queremos descobrir**: A média salarial e a distribuição de faixas salariais para ambos os perfis.

* **Insight esperado**: Qual perfil tende a apresentar maior remuneração e em quais faixas salariais se concentram.

    * *Com base na EDA anterior, vimos que **especialistas tendem a ter salários médios mais altos**.*

### **2. Progressão de Carreira e Senioridade: Quem Chega Mais Longe?**

* **Pergunta específica**: Qual perfil (generalista ou especialista) atinge níveis de senioridade (Júnior, Pleno, Sênior) mais rapidamente ou em maior proporção?

* **O que queremos descobrir**: A distribuição percentual de cada nível de senioridade para generalistas e especialistas.

* **Insight esperado**: Se um dos perfis se destaca na progressão para cargos mais altos e de maior responsabilidade.

    * *Nossa EDA mostrou que **especialistas têm uma porcentagem maior em cargos Sênior**.*

### **3. Funções e Responsabilidades Típicas: O Dia a Dia de Cada Perfil**

* **Pergunta específica**: Quais são as funções e responsabilidades mais comuns e as atividades diárias típicas associadas a cada perfil?

* **O que queremos descobrir**: Os cargos mais frequentemente ocupados por generalistas e especialistas, e as principais tarefas que desempenham.

* **Insight esperado**: Uma compreensão clara da natureza do trabalho para cada perfil, ajudando a identificar afinidades e expectativas.

    * *A análise anterior indicou que **generalistas são mais comuns em Analista de Dados/BI**, enquanto **especialistas dominam Cientista de Dados/Engenheiro de ML**.*

### **4. Demanda de Mercado: Quem o Mercado Procura Mais?**

* **Pergunta específica**: Qual perfil (generalista ou especialista) é mais procurado ou tem maior representatividade no mercado de trabalho atual?

* **O que queremos descobrir**: A frequência de profissionais em papéis que se alinham mais a um perfil generalista ou especialista, inferindo a demanda.

* **Insight esperado**: Uma percepção da demanda atual e das tendências de contratação para cada tipo de profissional.

### **5. Satisfação e Oportunidades de Crescimento: Onde Encontrar Realização?**

* **Pergunta específica**: Há diferenças na satisfação no trabalho, nas oportunidades de aprendizado e no plano de carreira entre generalistas e especialistas?

* **O que queremos descobrir**: A percepção dos profissionais sobre a satisfação geral e as oportunidades de crescimento em seus respectivos perfis.

* **Insight esperado**: Se um perfil tende a levar a maior satisfação a longo prazo ou a mais opções de desenvolvimento profissional.

## 📊 Estratégia de Análise

Para abordar essas sub-perguntas, utilizaremos uma combinação de abordagens:

### **Abordagem Quantitativa**

* **Comparação Salarial:** Análise de médias, medianas e distribuições salariais por tipo de perfil (generalista vs. especialista).

* **Distribuição de Senioridade:** Análise da proporção de profissionais em cada nível (Júnior, Pleno, Sênior) para generalistas e especialistas.

* **Frequência de Cargos:** Contagem e percentual dos cargos mais comuns associados a cada perfil.

* **Correlações:** Se possível, analisar correlações entre o tipo de perfil e variáveis de satisfação ou critérios de escolha de emprego.

### **Abordagem Qualitativa**

* **Interpretação de Funções:** Analisar as descrições de atuação e responsabilidades para entender as nuances de cada perfil.

* **Tendências de Mercado:** Inferir a demanda com base na distribuição atual dos profissionais no dataset.

* **Percepção de Valor:** Buscar insights sobre como cada perfil é percebido em termos de valor no mercado de trabalho.

**A meta final é fornecer um panorama claro e baseado em dados que ajude profissionais e aspirantes da área de dados a tomar decisões informadas sobre qual caminho de carreira — generalista ou especialista — pode ser mais alinhado aos seus objetivos de remuneração, progressão e satisfação.**

## O que um Cientista de Dados Júnior Deve Saber? Ferramentas e Conhecimento Teórico

A transição para a área de dados, especialmente para o papel de Cientista de Dados Júnior, gera muitas dúvidas sobre o conjunto ideal de habilidades. A pergunta "O que, na sua concepção, um cientista de dados júnior deve saber (ferramentas, conhecimento teórico)?" é fundamental para quem busca iniciar ou se aprofundar nessa carreira.

---

## 🔍 Dividindo para Conquistar

Para abordar essa questão de forma estruturada, vamos quebrá-la em componentes mais específicos, buscando insights no dataset "Estado dos Dados 2024":

### **1. Ferramentas Essenciais: O Kit Básico do DS Júnior**
* **Pergunta específica**: Quais linguagens de programação, bancos de dados, ferramentas de BI e outras tecnologias são mais comumente utilizadas por cientistas de dados de nível júnior?
* **O que queremos descobrir**: A frequência de uso de ferramentas como Python, R, SQL, PowerBI, Tableau, além de ambientes de desenvolvimento e sistemas de controle de versão, entre os profissionais classificados como "Cientista de Dados Júnior".
* **Insight esperado**: Identificar o "kit de ferramentas" prático e mais comum que um Cientista de Dados Júnior deve dominar para o dia a dia.

### **2. Conhecimento Teórico Fundamental: A Base Conceitual**
* **Pergunta específica**: Quais conhecimentos teóricos, metodologias e técnicas (estatística, machine learning, modelagem, etc.) são mais aplicados e valorizados no cotidiano de um Cientista de Dados Júnior?
* **O que queremos descobrir**: As técnicas e métodos mais frequentemente mencionados ou utilizados por Cientistas de Dados Juniores, como tipos de modelos de Machine Learning (regressão, classificação), métodos estatísticos clássicos, NLP, visão computacional, etc.
* **Insight esperado**: Compreender os pilares teóricos e conceituais que são prioritários para um Cientista de Dados em início de carreira, focando na aplicação prática.

### **3. Formação e Background Acadêmico: Os Caminhos Educacionais Mais Comuns**
* **Pergunta específica**: Qual é o nível de ensino (graduação, pós-graduação, mestrado, doutorado) e a área de formação acadêmica mais comum entre os profissionais que atuam como Cientistas de Dados Juniores?
* **O que queremos descobrir**: A distribuição dos níveis e áreas de formação dos Cientistas de Dados Juniores no dataset.
* **Insight esperado**: Mapear os caminhos educacionais mais comuns e eficazes para ingressar na carreira de Cientista de Dados em um nível júnior.

### **4. Rotina e Responsabilidades: O Dia a Dia do Júnior**
* **Pergunta específica**: Quais são as principais responsabilidades, atividades e o escopo de trabalho esperado de um Cientista de Dados Júnior?
* **O que queremos descobrir**: As atividades mais frequentemente reportadas na rotina de Cientistas de Dados de nível júnior, como coleta e limpeza de dados, desenvolvimento de modelos, criação de dashboards, comunicação com áreas de negócio, etc.
* **Insight esperado**: Ter uma ideia clara das expectativas e do tipo de projetos e tarefas que um Cientista de Dados Júnior geralmente enfrenta, ajudando a alinhar expectativas e preparar-se para o papel.

---

## 📊 Estratégia de Análise

Para responder a essas perguntas, utilizaremos uma abordagem predominantemente quantitativa:

### **Abordagem Quantitativa**
* **Filtro de Perfil:** Isolar o subconjunto do dataset que corresponde a profissionais com `nivel` = 'Júnior' e `cargo_atual` = 'Cientista de Dados/Data Scientist'.
* **Análise de Frequência de Ferramentas:** Calcular a frequência e o percentual de uso das diversas linguagens de programação (`4.d.*`), bancos de dados (`4.g.*`), ferramentas de BI (`4.j.*`) e tecnologias específicas de Data Science (`8.c_tecnologias_ds`) dentro do perfil de Cientista de Dados Júnior.
* **Análise de Frequência de Conhecimentos Teóricos:** Analisar a frequência das técnicas e métodos de Ciência de Dados (`8.b_tecnicas_e_metodos_ds`) utilizados por esse grupo.
* **Distribuição Demográfica e Formacional:** Investigar as distribuições de `nivel_de_ensino` (`1.l_nivel_de_ensino`) e `area_de_formacao` (`1.m_área_de_formação`) para identificar padrões.
* **Análise da Rotina:** Examinar as atividades mais comuns descritas na rotina de DS (`8.a_rotina_como_ds`) para o nível júnior.

### **Abordagem Qualitativa**
* **Interpretação Holística:** A partir das frequências e distribuições, construir uma interpretação coesa sobre o perfil de habilidades e conhecimentos de um Cientista de Dados Júnior.
* **Implicações Práticas:** Discutir as implicações desses dados para a formação e o desenvolvimento de carreira de aspirantes a Cientistas de Dados Juniores.

---

**A meta final é fornecer um perfil baseado em dados claros e acionáveis sobre as ferramentas, conhecimentos teóricos, formação e responsabilidades que são características de um Cientista de Dados Júnior no mercado de trabalho atual, auxiliando quem busca essa posição.**

## Transição de Carreira para Dados: Um Guia para Não-Nativos

A área de dados atrai profissionais de diversas formações, desde exatas até humanas. A pergunta "Sou de outra área (Química, Humanas, etc.), como faço para começar em dados?" é um ponto de partida crucial para muitos que buscam essa transição. Embora desafiadora, a migração é cada vez mais comum e recompensadora.

## 🔍 Dividindo para Conquistar

Para oferecer um guia prático e baseado em dados, vamos destrinchar essa pergunta em componentes mais específicos, utilizando as informações da pesquisa "Estado dos Dados 2024":

### **1. Perfis de Origem e Destino: De Onde Vêm e Para Onde Vão?**

* **Pergunta específica**: Quais são as áreas de formação acadêmica mais comuns para profissionais que migram para a área de dados, e quais cargos de dados eles costumam ocupar inicialmente?

* **O que queremos descobrir**:

    * `1.m_área_de_formação`: Identificar as formações de origem (Química, Humanas, Engenharia, etc.) que mais se correlacionam com a entrada na área de dados.

    * `2.f_cargo_atual`: Mapear os primeiros cargos em dados (`Analista de Dados/Data Analyst`, `Analista de BI/BI Analyst`, `Cientista de Dados/Data Scientist` etc.) que esses profissionais assumem.

* **Insight esperado**: Compreender os backgrounds mais frequentes de quem transiciona e os pontos de entrada mais comuns no mercado de dados.

### **2. Habilidades Essenciais para a Transição: O Que Aprender Primeiro?**

* **Pergunta específica**: Quais ferramentas e conhecimentos (programação, estatística, visualização) são considerados mais importantes ou foram mais adquiridos por quem veio de outras áreas e hoje atua em dados?

* **O que queremos descobrir**:

    * `4.d_linguagem_de_programacao_(dia_a_dia)` e `4.d.3_Python`: A prevalência de linguagens como Python e SQL.

    * `4.d.15_Não utilizo nenhuma das linguagens listadas`: A proporção de quem não usa programação.

    * `8.b_tecnicas_e_metodos_ds` ou `7.a_rotina_como_da` / `6.a_rotina_como_de`: Indícios sobre as técnicas e rotinas mais relevantes para iniciantes.

* **Insight esperado**: Identificar o conjunto mínimo de habilidades técnicas (hard skills) que facilitam a entrada e o sucesso inicial na carreira de dados para quem não tem formação na área.

### **3. Tempo e Esforço na Transição: Quanto Tempo Leva e Qual o Nível de Entrada?**

* **Pergunta específica**: Qual é o tempo médio de experiência em dados para quem fez a transição de carreira, e em que nível de senioridade (Júnior, Pleno) eles geralmente começam?

* **O que queremos descobrir**:

    * `2.i_tempo_de_experiencia_em_dados`: A distribuição do tempo de experiência em dados para este grupo.

    * `2.g_nivel`: Os níveis de senioridade mais comuns para esses profissionais.

* **Insight esperado**: Estimar o tempo necessário para a transição e definir expectativas realistas sobre o nível de entrada na área de dados.

### **4. Desafios e Critérios de Escolha: O Que É Mais Importante na Busca por Vagas?**

* **Pergunta específica**: Quais são os principais critérios que profissionais que fizeram a transição consideram ao buscar uma vaga em dados, e quais desafios eles podem ter enfrentado?

* **O que queremos descobrir**:

    * `2.o_criterios_para_escolha_de_emprego`: Os fatores mais valorizados na escolha de um novo emprego (remuneração, flexibilidade, aprendizado etc.).

    * `1.e_experiencia_profissional_prejudicada` ou `2.l_motivo_insatisfacao`: Indícios de desafios ou insatisfações que podem ter motivado a transição ou dificultado o processo.

* **Insight esperado**: Compreender as prioridades e os obstáculos enfrentados por quem migra, oferecendo dicas sobre o que focar na busca por oportunidades.

### **5. Potencial de Carreira: Onde Posso Chegar Vindo de Outra Área?**

* **Pergunta específica**: Quais são as faixas salariais realistas e o potencial de crescimento de carreira para profissionais que iniciam em dados vindo de outras áreas?

* **O que queremos descobrir**:

    * `2.h_faixa_salarial`: A distribuição salarial para esse grupo, especialmente nos níveis iniciais.

    * `2.g_nivel` e `2.i_tempo_de_experiencia_em_dados`: A progressão de senioridade e experiência ao longo do tempo.

* **Insight esperado**: Apresentar um panorama do potencial de remuneração e ascensão profissional para quem faz a transição de carreira.

## 📊 Estratégia de Análise

Para responder a essas sub-perguntas, utilizaremos as seguintes abordagens:

### **Abordagem Quantitativa**

* **Segmentação do Dataset:** Filtrar o dataset para identificar profissionais que atuam na área de dados (`4.a.1_atuacao_em_dados` ou `2.f_cargo_atual` indicando uma função em dados) mas que possuem uma `1.m_área_de_formação` diferente das áreas tradicionalmente ligadas a dados (Estatística, Ciência da Computação, Matemática etc.).

* **Análise de Frequências e Distribuições:**

    * Contagem e percentual das `1.m_área_de_formação` de origem e dos `2.f_cargo_atual` de entrada.

    * Distribuição das `4.d_linguagem_de_programacao_(dia_a_dia)` e outras ferramentas (`4.g.*`, `4.j.*`, `8.c_tecnologias_ds`) mais utilizadas.

    * Distribuição de `2.i_tempo_de_experiencia_em_dados` e `2.g_nivel`.

    * Distribuição dos `2.o_criterios_para_escolha_de_emprego`.

    * Análise das `2.h_faixa_salarial` para os diferentes níveis de experiência.

* **Correlações:** Se aplicável, explorar correlações entre a área de formação de origem e o sucesso na transição (e.g., salários mais altos, progressão mais rápida).

### **Abordagem Qualitativa**

* **Interpretação de Padrões:** Analisar os dados para identificar padrões comuns nas trajetórias de transição.

* **Inferência de Desafios:** A partir das variáveis de satisfação e critérios de escolha, inferir os principais desafios e as motivações para a transição.

* **Recomendações Práticas:** Traduzir os insights baseados em dados em conselhos práticos para quem deseja iniciar uma carreira em dados vindo de outra área.

**A meta final é desmistificar o processo de transição de carreira para a área de dados, oferecendo um roteiro claro e baseado em evidências para profissionais de outras áreas que sonham em construir uma trajetória de sucesso no universo dos dados.**

## Estatístico vs. Programador: Qual o Caminho Mais Fácil para a Ciência de Dados?

A questão "É mais fácil ensinar um estatístico a programar do que ensinar estatística a um programador?" é um debate clássico e fundamental no universo da Ciência de Dados. Ela toca na essência das habilidades necessárias e nos desafios de formação de talentos para a área. Esta pergunta busca entender qual base de conhecimento (estatística/matemática ou programação/computação) oferece uma rampa de aprendizado mais suave para se tornar um cientista de dados completo.

## 🔍 Dividindo para Conquistar

Para explorar essa questão complexa, vamos dividi-la em sub-perguntas que podem ser investigadas ou inferidas a partir dos dados da pesquisa "Estado dos Dados 2024":

### **1. Proficiência em Programação de Estatísticos: O Gap Tecnológico**

* **Pergunta específica**: Qual é o nível de proficiência e as linguagens de programação mais comuns entre profissionais com formação em Estatística/Matemática que atuam na área de dados?

* **O que queremos descobrir**:

  * `1.m_área_de_formação`: Identificar os respondentes com formação em Estatística, Matemática ou áreas correlatas.

  * `4.d_linguagem_de_programacao_(dia_a_dia)`, `4.d.3_Python`, `4.d.2_R`, `4.d.1_SQL`, `4.d.15_Não utilizo nenhuma das linguagens listadas`: Analisar o uso e a familiaridade com linguagens de programação.

* **Insight esperado**: Avaliar o ponto de partida dos estatísticos em relação à programação e quais linguagens eles tendem a adotar.

### **2. Conhecimento Estatístico de Programadores: O Gap Teórico**

* **Pergunta específica**: Qual é o nível de conhecimento e as técnicas estatísticas/matemáticas mais aplicadas por profissionais com formação em Computação/TI que atuam na área de dados?

* **O que queremos descobrir**:

  * `1.m_área_de_formação`: Identificar os respondentes com formação em Ciência da Computação, Engenharia de Software ou áreas de TI.

  * `8.b_tecnicas_e_metodos_ds`: Analisar a aplicação de técnicas como regressão, classificação, séries temporais, inferência estatística, etc.

* **Insight esperado**: Entender o ponto de partida dos programadores em relação aos fundamentos estatísticos e quais conceitos eles mais utilizam em seu trabalho de dados.

### **3. Trajetórias de Carreira e Desempenho: Onde Cada Perfil se Destaca?**

* **Pergunta específica**: Há diferenças nas faixas salariais, níveis de senioridade e tipos de cargos ocupados entre cientistas de dados que vieram de uma base estatística (e aprenderam a programar) e aqueles que vieram de uma base de programação (e aprenderam estatística)?

* **O que queremos descobrir**:

  * `2.f_cargo_atual`, `2.g_nivel`, `2.h_faixa_salarial`: Comparar as progressões e remunerações entre os dois grupos.

  * `4.a_funcao_de_atuacao`: Identificar se há predominância em funções mais analíticas, de engenharia de ML, ou de pesquisa.

* **Insight esperado**: Observar se um dos caminhos de formação leva a melhores resultados de carreira ou a papéis mais específicos e valorizados no mercado.

### **4. Percepção do Mercado e Desafios de Contratação: O Que os Gestores Valorizam?**

* **Pergunta específica**: Quais são os principais desafios percebidos pelos gestores ao contratar talentos para a área de dados em relação a esses dois perfis? O mercado valoriza mais a profundidade estatística ou a proficiência em engenharia de software?

* **O que queremos descobrir**:

  * `3.d_desafios_como_gestor`: Buscar menções a "contratar talentos" ou "falta de expertise".

  * `2.o_criterios_para_escolha_de_emprego`: Quais critérios são mais valorizados na escolha de um emprego, que podem indiretamente refletir a demanda por certas habilidades.

* **Insight esperado**: Entender a perspectiva do mercado sobre a escassez de habilidades e qual tipo de "gap" é mais difícil de preencher.

## 📊 Estratégia de Análise

Para abordar essas sub-perguntas, utilizaremos as seguintes abordagens:

### **Abordagem Quantitativa**

* **Segmentação do Dataset:**

  * **Grupo "Estatísticos":** Filtrar profissionais com `1.m_área_de_formação` que inclua termos como "Estatística", "Matemática", "Demografia", "Atuária".

  * **Grupo "Programadores":** Filtrar profissionais com `1.m_área_de_formação` que inclua termos como "Ciência da Computação", "Engenharia de Software", "Sistemas de Informação", "Análise de Sistemas".

  * Cruzar esses grupos com `2.f_cargo_atual` = 'Cientista de Dados/Data Scientist' para focar nos que atuam na função.

* **Análise de Frequências e Distribuições:**

  * Para o grupo "Estatísticos": Frequência de uso de linguagens de programação (`4.d.*`).

  * Para o grupo "Programadores": Frequência de uso de técnicas e métodos de DS (`8.b_tecnicas_e_metodos_ds`).

  * Comparação de `2.h_faixa_salarial`, `2.g_nivel` e `2.f_cargo_atual` entre os dois grupos.

* **Análise de Correlações:** Se possível, identificar correlações entre a área de formação de origem e o domínio de habilidades da "outra" área (ex: estatísticos que usam Python, programadores que usam modelos estatísticos avançados).

### **Abordagem Qualitativa**

* **Interpretação de Gaps:** A partir das frequências, inferir quais lacunas de conhecimento são mais comuns e potencialmente mais desafiadoras para cada perfil.

* **Implicações para Formação:** Discutir as implicações dos dados para programas de formação e desenvolvimento de carreira, sugerindo se é mais eficaz focar em aprimorar a programação para estatísticos ou a estatística para programadores.

* **Perspectiva de Longo Prazo:** Refletir sobre qual caminho pode levar a uma carreira mais robusta e adaptável às futuras demandas do mercado de dados.

**A meta final é fornecer uma perspectiva baseada em dados sobre a curva de aprendizado e o valor de mercado para estatísticos que aprendem a programar versus programadores que aprendem estatística, ajudando a orientar a formação de novos talentos na área de Ciência de Dados.**