# Conectando Dados e Comunidade
<hr color="#ff4500" size="1">

O *State of Data Brazil*, conduzido pela comunidade Data Hackers desde 2019, representa uma das iniciativas mais importantes para mapear o mercado de trabalho em dados no pa√≠s. Esta pesquisa anual n√£o apenas documenta tend√™ncias salariais e tecnol√≥gicas, mas tamb√©m transforma a experi√™ncia individual em intelig√™ncia coletiva, oferecendo um panorama claro sobre nosso mercado de trabalho.


## A Oportunidade Identificada
<img src="https://redditinc.com/hs-fs/hubfs/Reddit%20Inc/Content/Brand%20Page/Reddit_Logo.png" align="right" width="150" height="150"/>
Durante minha experi√™ncia como consumidor de conte√∫do na comunidade [r/datasciencebr](https://www.reddit.com/r/datasciencebr/) do Reddit, identifiquei um padr√£o interessante: as mesmas d√∫vidas sobre sal√°rios, tecnologias, transi√ß√£o de carreira, mercado de trabalho surgem repetidamente.

 As respostas, embora relevantes, s√£o frequentemente baseadas em viv√™ncias pessoais e podem n√£o refletir o cen√°rio geral. Cria-se, assim, uma lacuna entre a percep√ß√£o aned√≥tica e a realidade dos dados.

Essa observa√ß√£o gerou uma hip√≥tese: e se pud√©ssemos usar os dados robustos do State of Data Brazil para responder, de forma mais objetiva e abrangente, √†s principais d√∫vidas da comunidade brasileira de data science?

## Proposta de An√°lise

Para o Challenge State of Data Brazil 2025, proponho desenvolver uma an√°lise explorat√≥ria de dados (EDA) que fa√ßa a ponte entre:

-   **As perguntas mais frequentes** da comunidade brasileira de data science
-   **Os insights baseados em dados** do State of Data Brazil
-   **Descobertas que v√£o al√©m das perguntas √≥bvias**, explorando correla√ß√µes e padr√µes n√£o evidentes

## Objetivo

N√£o se trata de substituir as valiosas experi√™ncias pessoais que s√£o trocadas nos f√≥runs, mas sim de complement√°-las. A minha inten√ß√£o √© apenas organizar os dados de uma forma que possa trazer uma nova perspectiva e, quem sabe, ajudar a comunidade da qual eu estou sendo inserido a encontrar algumas respostas um pouco mais consolidadas. Seria a minha forma de contribuir.

Como o meu principal objetivo com este desafio √© o aprendizado, encaro o projeto tamb√©m como uma oportunidade para experimentar. Por isso, pretendo utilizar um conjunto variado de ferramentas para a manipula√ß√£o, an√°lise e visualiza√ß√£o dos dados, aplicando tanto as que j√° conhe√ßo quanto outras que desejo explorar. No fim das contas, todo o processo ser√° uma jornada de desenvolvimento pessoal, e ficarei feliz em compartilhar o que descobrir pelo caminho.

In [None]:
# -----------------------------------------------------------------------------
# 1. CARREGAMENTO DOS DADOS
# -----------------------------------------------------------------------------

#Instala√ß√£o e Inicializa√ß√£o dos Pacotes
library(tidyverse) #Para manipula√ß√£o de dados
library(scales) #Para formata√ß√£o de n√∫meros
library(janitor) #Para limpeza de nomes de colunas
library(reactable) #Para tabelas mais bonitas e interativas.
library(reactablefmtr)
#Bancos de Dados
br2019 <- read.csv("C:/Users/DamaLaptoper/Desktop/Dmas_code/Dados_sobre_Dados/Bancos_de_Dados/df2019.csv") %>% janitor::clean_names()
br2021 <- read.csv("C:/Users/DamaLaptoper/Desktop/Dmas_code/Dados_sobre_Dados/Bancos_de_Dados/df2021.csv") %>%  janitor::clean_names()
br2022 <- read.csv("C:/Users/DamaLaptoper/Desktop/Dmas_code/Dados_sobre_Dados/Bancos_de_Dados/df2022.csv") %>%  janitor::clean_names()
br2023 <- read.csv("C:/Users/DamaLaptoper/Desktop/Dmas_code/Dados_sobre_Dados/Bancos_de_Dados/df2023.csv") %>%  janitor::clean_names()
br2024 <- read.csv("C:/Users/DamaLaptoper/Desktop/Dmas_code/Dados_sobre_Dados/Bancos_de_Dados/df2024.csv") %>%  janitor::clean_names()

#Nesse ponto √© possivel juntar os bancos de dados, mas necessitaria de um entendimento mais profundo dos dados, 
#renomear manualmente utilizando LLMs, mas ainda n√£o tenho total controle sobre alucina√ß√µes, 
#e ou confundimento ent√£o preferi deixar separado, tentarei deixar o codigo o mais legivel poss√≠vel mesmo assim.



# üéØ Perspectivas Salariais em Dados: O Caminho da Estat√≠stica

## A Pergunta Original
    [D√∫vidas sobre sal√°rios](https://www.reddit.com/r/datasciencebr/comments/1i5utod/d%C3%BAvidas_sobre_sal%C3%A1rios/)
> *"Ol√° a todos do Sub, estou pesquisando e buscando informa√ß√µes sobre diferentes cursos de gradua√ß√£o e achei muito interessante a gradua√ß√£o em estat√≠stica na ufmg e me interessei tamb√©m pela possibilidade de trabalhar na √°rea de dados. Como estou fazendo uma pesquisa geral a respeito de diferentes cursos, eu gostaria de saber mais sobre quest√µes de sal√°rios. At√© onde da pra chegar? √â poss√≠vel conseguir uma boa remunera√ß√£o com uma boa forma√ß√£o, bons est√°gios, etc?"*

Vamos quebrar essa quest√£o em peda√ßos menores e mais tang√≠veis.

---

## üîç Dividindo para Conquistar


### **1. Trajet√≥ria Inicial: O Primeiro Emprego**
- **Pergunta espec√≠fica**: Qual √© a faixa salarial realista para quem est√° come√ßando?
- **O que queremos descobrir**: Sal√°rios de entrada por n√≠vel de experi√™ncia (est√°gio, j√∫nior, trainee)
- **Insight esperado**: Expectativas realistas para os primeiros anos

### **2. Evolu√ß√£o na Carreira: O Crescimento Poss√≠vel**
- **Pergunta espec√≠fica**: Como os sal√°rios evoluem com o tempo e experi√™ncia?
- **O que queremos descobrir**: Progress√£o salarial ao longo de 3, 5, 10 anos
- **Insight esperado**: Mapear o potencial de crescimento a m√©dio e longo prazo

### **3. Fatores Multiplicadores: O Que Faz a Diferen√ßa**
- **Pergunta espec√≠fica**: Quais elementos impactam mais no sal√°rio?
  - Localiza√ß√£o geogr√°fica
  - Tipo de empresa (startup, consultoria, banco, tech)
  - Especializa√ß√µes t√©cnicas
  - Certifica√ß√µes e cursos complementares
- **O que queremos descobrir**: Onde investir energia para maximizar retorno financeiro
- **Insight esperado**: Estrat√©gias pr√°ticas para otimizar remunera√ß√£o

### **4. Teto de Vidro: Os Limites Reais**
- **Pergunta espec√≠fica**: Qual √© o "teto" salarial realista na √°rea?
- **O que queremos descobrir**: Faixas salariais dos percentis mais altos (top 10%, top 5%)
- **Insight esperado**: Entender o potencial m√°ximo e o que √© necess√°rio para chegar l√°

---

## üìä Estrat√©gia de An√°lise

### **Abordagem Quantitativa**
- An√°lise de distribui√ß√£o salarial por experi√™ncia
- Compara√ß√£o entre forma√ß√µes acad√™micas (Quero detalhar mais sobre isso em uma pergunta posterior)
- Correla√ß√£o entre fatores e remunera√ß√£o

### **Abordagem Qualitativa**
- Identifica√ß√£o de padr√µes em trajet√≥rias de sucesso
- An√°lise de coment√°rios sobre satisfa√ß√£o vs. remunera√ß√£o
- Mapeamento de "pontos de virada" na carreira

---

**A meta n√£o √© apenas responder "quanto se ganha", mas sim "como construir uma carreira financeiramente recompensadora na √°rea de dados".**

In [None]:
# -----------------------------------------------------------------------------
# 2. CONFIGURA√á√ÉO DAS FAIXAS SALARIAIS
# -----------------------------------------------------------------------------

# Faixas completas (2021-2024)
faixas_completas <- c(
  "Menos de R$ 1.000/m√™s",
  "de R$ 1.001/m√™s a R$ 2.000/m√™s",
  "de R$ 2.001/m√™s a R$ 3.000/m√™s",
  "de R$ 3.001/m√™s a R$ 4.000/m√™s",
  "de R$ 4.001/m√™s a R$ 6.000/m√™s",
  "de R$ 6.001/m√™s a R$ 8.000/m√™s",
  "de R$ 8.001/m√™s a R$ 12.000/m√™s",
  "de R$ 12.001/m√™s a R$ 16.000/m√™s",
  "de R$ 16.001/m√™s a R$ 20.000/m√™s",
  "de R$ 20.001/m√™s a R$ 25.000/m√™s",
  "de R$ 25.001/m√™s a R$ 30.000/m√™s",
  "de R$ 30.001/m√™s a R$ 40.000/m√™s",
  "Acima de R$ 40.001/m√™s"
)
#OBS: No banco de 2019, as faixas salariais s√≥ v√£o at√© "Acima de R$ 25.001/m√™s"

# Faixas limitadas 2019 (m√°ximo at√© 25.001)
faixas_2019 <- c(
  "Menos de R$ 1.000/m√™s",
  "de R$ 1.001/m√™s a R$ 2.000/m√™s",
  "de R$ 2.001/m√™s a R$ 3.000/m√™s",
  "de R$ 3.001/m√™s a R$ 4.000/m√™s",
  "de R$ 4.001/m√™s a R$ 6.000/m√™s",
  "de R$ 6.001/m√™s a R$ 8.000/m√™s",
  "de R$ 8.001/m√™s a R$ 12.000/m√™s",
  "de R$ 12.001/m√™s a R$ 16.000/m√™s",
  "de R$ 16.001/m√™s a R$ 20.000/m√™s",
  "de R$ 20.001/m√™s a R$ 25.000/m√™s",
  "Acima de R$ 25.001/m√™s"  # Limita√ß√£o do ano 2019
)

# -----------------------------------------------------------------------------
# 3. FUN√á√ïES DE FORMATA√á√ÉO
# -----------------------------------------------------------------------------

formatar_dados_salario <- function(dados, coluna_salario, faixas_ordem) {
  dados %>%
    select(all_of(coluna_salario)) %>%
    na.omit() %>%
    rename(faixa_salarial = 1) %>%
    mutate(faixa_salarial = factor(faixa_salarial, levels = faixas_ordem)) %>%
    count(faixa_salarial) %>%
    arrange(faixa_salarial) %>%
    rename(`Faixa Salarial` = faixa_salarial, Quantidade = n) %>%
    mutate(
      Relativo = Quantidade / sum(Quantidade),
      Acumulado = cumsum(Relativo),
      # Formata√ß√£o em percentual
      Relativo_fmt = percent(Relativo, accuracy = 0.1),
      Acumulado_fmt = percent(Acumulado, accuracy = 0.1)
    )
}

# -----------------------------------------------------------------------------
# 4. CONFIGURA√á√ÉO DO TEMA
# -----------------------------------------------------------------------------

#' Configura o tema visual para tabelas interativas reactable.
#'
#' Esta fun√ß√£o define estilos personalizados para t√≠tulos e subt√≠tulos,
#' retornando um objeto de tema que pode ser utilizado em tabelas interativas.
#' @return Um objeto de tema reactable com estilos personalizados.

configurar_tema <- function() {
  tema <- espn()
  tema$titleStyle <- list(
    fontFamily = "'Bebas Neue', sans-serif", 
    fontSize = "2rem", 
    fontWeight = "700"
  )
  tema$subtitleStyle <- list(
    fontFamily = "'Bebas Neue', sans-serif", 
    fontSize = "1.25rem", 
    fontWeight = "400", 
    color = "#666"
  )
  return(tema)
}

# -----------------------------------------------------------------------------
# 5. FUN√á√ÉO PARA CRIAR TABELA INTERATIVA
# -----------------------------------------------------------------------------

criar_tabela_salarial <- function(dados_formatados, titulo, ano) {
  
  meu_tema <- configurar_tema()
  
  dados_formatados %>%
    mutate(Icones_Representacao = Quantidade) %>% # Adiciona coluna de √≠cones relativos a quantidade.
    reactable(
      striped = TRUE,
      pagination = FALSE,
      theme = meu_tema,
      showSortIcon = FALSE,
      searchable = TRUE,
      language = reactableLang(
        searchPlaceholder = "BUSCAR POR FAIXA..."
      ),
      columns = list(
        "Faixa Salarial" = colDef(
          name = "Faixa Salarial", 
          maxWidth = 200
        ),
        
        Icones_Representacao = colDef(
          name = "",
          align = "center",
          maxWidth = 150,
          cell = icon_assign(
            data = ., 
            icon = "user", 
            fill_color = "#555555",
            buckets = 5,
            show_values = 'none' 
          )
        ),
        
        Quantidade = colDef(
          name = "Quantidade",
          maxWidth = 100,
          style = color_scales(
            data = .,
            colors = c("#edf8e9", "#74c476", "#005a32")
          )
        ),
        
        Relativo_fmt = colDef(
          name = "Percentual",
          cell = data_bars(
            data = .,
            fill_color = "#3fc1c9",
            background = "#f2f2f2",
            text_position = "outside-end"
          )
        ),
        
        Acumulado_fmt = colDef(
          name = "Acumulado",
          maxWidth = 120
        ),
        
        # Ocultar colunas auxiliares
        Relativo = colDef(show = FALSE),
        Acumulado = colDef(show = FALSE)
      )
    ) %>% 
    add_title(paste("Distribui√ß√£o Salarial", titulo)) %>% 
    add_source(paste("State of Data Brazil", ano))
}

# -----------------------------------------------------------------------------
# AN√ÅLISE PARA 2024 
# -----------------------------------------------------------------------------

# Processar dados de 2024
tabela_2024 <- formatar_dados_salario(
  dados = br2024,
  coluna_salario = "x2_h_faixa_salarial",
  faixas_ordem = faixas_completas
)

# Criar tabela interativa
tabela_interativa_2024 <- criar_tabela_salarial(
  dados_formatados = tabela_2024,
  titulo = "2024",
  ano = "2024-2025"
)

# Exibir tabela



# -----------------------------------------------------------------------------
# AN√ÅLISE PARA 2023
# -----------------------------------------------------------------------------

# Processar dados de 2023
tabela_2023 <- formatar_dados_salario(
  dados = br2023,
  coluna_salario = "x_p2_h_faixa_salarial",
  faixas_ordem = faixas_completas
)

# Criar tabela interativa
tabela_interativa_2023 <- criar_tabela_salarial(
  dados_formatados = tabela_2023,
  titulo = "2023",
  ano = "2023-2024"
)

# Exibir tabela



# -----------------------------------------------------------------------------
# AN√ÅLISE PARA 2022
# -----------------------------------------------------------------------------

# Processar dados de 2022
tabela_2022 <- formatar_dados_salario(
  dados = br2022,
  coluna_salario = "x_p2_h_faixa_salarial",
  faixas_ordem = faixas_completas
)

# Criar tabela interativa
tabela_interativa_2022 <- criar_tabela_salarial(
  dados_formatados = tabela_2022,
  titulo = "2023",
  ano = "2022-2023"
)

# Exibir tabela



# -----------------------------------------------------------------------------
# AN√ÅLISE PARA 2021
# -----------------------------------------------------------------------------

# Processar dados de 2021
tabela_2021 <- formatar_dados_salario(
  dados = br2021,
  coluna_salario = "x_p2_h_faixa_salarial",
  faixas_ordem = faixas_completas
)

# Criar tabela interativa
tabela_interativa_2021 <- criar_tabela_salarial(
  dados_formatados = tabela_2021,
  titulo = "2022",
  ano = "2021-2022"
)

# Exibir tabela


# -----------------------------------------------------------------------------
# EXEMPLO PARA AN√ÅLISE HIST√ìRICA (2019)
# -----------------------------------------------------------------------------

# Para comparar com 2019 (limita√ß√£o nas faixas)
tabela_2019 <- formatar_dados_salario(
  dados = br2019,
  coluna_salario = "x_p16_salary_range", # Ajustar nome da coluna
  faixas_ordem = faixas_2019
)

# Criar tabela para 2019
tabela_interativa_2019 <- criar_tabela_salarial(
  dados_formatados = tabela_2019,
  titulo = "2019 (Dados Limitados)",
  ano = "2019"
)

tabela_interativa_2024

In [None]:
 
# -----------------------------------------------------------------------------
# 7. FUN√á√ïES PARA GR√ÅFICOS EVOLUTIVOS
# -----------------------------------------------------------------------------

combinar_dados_historicos <- function() {
  # Processar cada ano individualmente
  dados_2019 <- formatar_dados_salario(br2019, "coluna_salario_2019", faixas_2019) %>%
    mutate(Ano = "2019")
  
  dados_2021 <- formatar_dados_salario(br2021, "coluna_salario_2021", faixas_completas) %>%
    mutate(Ano = "2021")
  
  dados_2022 <- formatar_dados_salario(br2022, "coluna_salario_2022", faixas_completas) %>%
    mutate(Ano = "2022")
  
  dados_2023 <- formatar_dados_salario(br2023, "coluna_salario_2023", faixas_completas) %>%
    mutate(Ano = "2023")
  
  dados_2024 <- formatar_dados_salario(br2024, "2.h_faixa_salarial", faixas_completas) %>%
    mutate(Ano = "2024")
  
  # Padronizar faixas para compara√ß√£o (usar apenas faixas presentes em 2019)
  faixas_padronizadas <- intersect(faixas_2019, faixas_completas)
  
  # Combinar e filtrar apenas faixas compar√°veis
  dados_combinados <- bind_rows(dados_2019, dados_2021, dados_2022, dados_2023, dados_2024) %>%
    filter(`Faixa Salarial` %in% faixas_padronizadas) %>%
    mutate(
      Ano = factor(Ano, levels = c("2019", "2021", "2022", "2023", "2024")),
      `Faixa Salarial` = factor(`Faixa Salarial`, levels = faixas_padronizadas)
    )
  
  return(dados_combinados)
}

criar_grafico_evolutivo_linhas <- function(dados_combinados) {
  ggplot(dados_combinados, aes(x = Ano, y = Relativo, color = `Faixa Salarial`, group = `Faixa Salarial`)) +
    geom_line(size = 1.2, alpha = 0.8) +
    geom_point(size = 3, alpha = 0.9) +
    facet_wrap(~`Faixa Salarial`, scales = "free_y", ncol = 3) +
    scale_y_continuous(labels = percent_format(accuracy = 0.1)) +
    scale_color_viridis_d(option = "plasma", guide = "none") +
    labs(
      title = "Evolu√ß√£o das Faixas Salariais na √Årea de Dados (2019-2024)",
      subtitle = "Propor√ß√£o de profissionais em cada faixa salarial ao longo do tempo",
      y = "Propor√ß√£o de Profissionais",
      x = "Ano",
      caption = "Nota: Dados de 2020 n√£o dispon√≠veis. Faixas limitadas √†s presentes em 2019 para comparabilidade."
    ) +
    theme_minimal() +
    theme(
      strip.text = element_text(size = 9, face = "bold"),
      axis.text.x = element_text(angle = 45, hjust = 1, size = 8),
      plot.title = element_text(hjust = 0.5, face = "bold", size = 14),
      plot.subtitle = element_text(hjust = 0.5, size = 11),
      plot.caption = element_text(size = 8, color = "gray50"),
      panel.grid.minor = element_blank()
    )
}

criar_grafico_barras_comparativo <- function(dados_combinados) {
  ggplot(dados_combinados, aes(x = `Faixa Salarial`, y = Relativo, fill = Ano)) +
    geom_col(position = position_dodge(width = 0.8), alpha = 0.8) +
    scale_y_continuous(labels = percent_format(accuracy = 0.1)) +
    scale_fill_brewer(
      palette = "Set2", 
      name = "Ano",
      guide = guide_legend(title.position = "top", title.hjust = 0.5)
    ) +
    labs(
      title = "Distribui√ß√£o Salarial por Ano na √Årea de Dados",
      subtitle = "Compara√ß√£o da propor√ß√£o de profissionais em cada faixa salarial (2019-2024)",
      x = "Faixa Salarial",
      y = "Propor√ß√£o de Profissionais",
      caption = "Nota: Dados de 2020 n√£o dispon√≠veis. An√°lise baseada em dados compar√°veis entre os anos."
    ) +
    theme_minimal() +
    theme(
      axis.text.x = element_text(angle = 45, hjust = 1, size = 9),
      legend.position = "bottom",
      plot.title = element_text(hjust = 0.5, face = "bold", size = 14),
      plot.subtitle = element_text(hjust = 0.5, size = 11),
      plot.caption = element_text(size = 8, color = "gray50"),
      panel.grid.minor.y = element_blank(),
      panel.grid.major.x = element_blank()
    ) +
    guides(fill = guide_legend(nrow = 1, title.position = "top"))
}

# Fun√ß√£o para criar gr√°fico de tend√™ncias gerais
criar_grafico_tendencias <- function(dados_combinados) {
  # Criar categorias simplificadas para an√°lise de tend√™ncias
  dados_tendencias <- dados_combinados %>%
    mutate(
      Categoria_Salario = case_when(
        str_detect(`Faixa Salarial`, "1.000|2.000|3.000") ~ "At√© R$ 3.000",
        str_detect(`Faixa Salarial`, "4.000|6.000") ~ "R$ 3.001 - R$ 6.000",
        str_detect(`Faixa Salarial`, "8.000|12.000") ~ "R$ 6.001 - R$ 12.000",
        str_detect(`Faixa Salarial`, "16.000|20.000|25.000") ~ "R$ 12.001 - R$ 25.000",
        TRUE ~ "Acima de R$ 25.000"
      )
    ) %>%
    group_by(Ano, Categoria_Salario) %>%
    summarise(Relativo_Agrupado = sum(Relativo), .groups = "drop") %>%
    mutate(Categoria_Salario = factor(
      Categoria_Salario, 
      levels = c("At√© R$ 3.000", "R$ 3.001 - R$ 6.000", "R$ 6.001 - R$ 12.000", 
                 "R$ 12.001 - R$ 25.000", "Acima de R$ 25.000")
    ))
  
  ggplot(dados_tendencias, aes(x = Ano, y = Relativo_Agrupado, fill = Categoria_Salario)) +
    geom_area(alpha = 0.7, position = "stack") +
    scale_y_continuous(labels = percent_format()) +
    scale_fill_viridis_d(option = "viridis", name = "Faixa Salarial") +
    labs(
      title = "Evolu√ß√£o da Estrutura Salarial na √Årea de Dados",
      subtitle = "Distribui√ß√£o proporcional por grandes faixas salariais (2019-2024)",
      x = "Ano",
      y = "Propor√ß√£o Acumulada",
      caption = "Faixas agrupadas para melhor visualiza√ß√£o das tend√™ncias gerais"
    ) +
    theme_minimal() +
    theme(
      plot.title = element_text(hjust = 0.5, face = "bold", size = 14),
      plot.subtitle = element_text(hjust = 0.5, size = 11),
      plot.caption = element_text(size = 8, color = "gray50"),
      legend.position = "bottom",
      panel.grid.minor = element_blank()
    ) +
    guides(fill = guide_legend(nrow = 2, title.position = "top"))
}

# -----------------------------------------------------------------------------
# 8. EXECU√á√ÉO DA AN√ÅLISE HIST√ìRICA
# -----------------------------------------------------------------------------

# Combinar dados hist√≥ricos
dados_historicos <- combinar_dados_historicos()

# Criar gr√°ficos
grafico_linhas <- criar_grafico_evolutivo_linhas(dados_historicos)
grafico_barras <- criar_grafico_barras_comparativo(dados_historicos)
grafico_tendencias <- criar_grafico_tendencias(dados_historicos)
