# Conectando Dados e Comunidade
<hr color="#ff4500" size="1">

O *State of Data Brazil*, conduzido pela comunidade Data Hackers desde 2019, representa uma das iniciativas mais importantes para mapear o mercado de trabalho em dados no país. Esta pesquisa anual não apenas documenta tendências salariais e tecnológicas, mas também transforma a experiência individual em inteligência coletiva, oferecendo um panorama claro sobre nosso mercado de trabalho.


## A Oportunidade Identificada
<img src="https://redditinc.com/hs-fs/hubfs/Reddit%20Inc/Content/Brand%20Page/Reddit_Logo.png" align="right" width="150" height="150"/>
Durante minha experiência como consumidor de conteúdo na comunidade [r/datasciencebr](https://www.reddit.com/r/datasciencebr/) do Reddit, identifiquei um padrão interessante: as mesmas dúvidas sobre salários, tecnologias, transição de carreira, mercado de trabalho surgem repetidamente.

 As respostas, embora relevantes, são frequentemente baseadas em vivências pessoais e podem não refletir o cenário geral. Cria-se, assim, uma lacuna entre a percepção anedótica e a realidade dos dados.

Essa observação gerou uma hipótese: e se pudéssemos usar os dados robustos do State of Data Brazil para responder, de forma mais objetiva e abrangente, às principais dúvidas da comunidade brasileira de data science?

## Proposta de Análise

Para o Challenge State of Data Brazil 2025, proponho desenvolver uma análise exploratória de dados (EDA) que faça a ponte entre:

-   **As perguntas mais frequentes** da comunidade brasileira de data science
-   **Os insights baseados em dados** do State of Data Brazil
-   **Descobertas que vão além das perguntas óbvias**, explorando correlações e padrões não evidentes

## Objetivo

Não se trata de substituir as valiosas experiências pessoais que são trocadas nos fóruns, mas sim de complementá-las. A minha intenção é apenas organizar os dados de uma forma que possa trazer uma nova perspectiva e, quem sabe, ajudar a comunidade da qual eu estou sendo inserido a encontrar algumas respostas um pouco mais consolidadas. Seria a minha forma de contribuir.

Como o meu principal objetivo com este desafio é o aprendizado, encaro o projeto também como uma oportunidade para experimentar. Por isso, pretendo utilizar um conjunto variado de ferramentas para a manipulação, análise e visualização dos dados, aplicando tanto as que já conheço quanto outras que desejo explorar. No fim das contas, todo o processo será uma jornada de desenvolvimento pessoal, e ficarei feliz em compartilhar o que descobrir pelo caminho.

In [4]:
# -----------------------------------------------------------------------------
# 1. CARREGAMENTO DOS DADOS
# -----------------------------------------------------------------------------

#Instalação e Inicialização dos Pacotes
library(tidyverse) #Para manipulação de dados
library(scales) #Para formatação de números
library(janitor) #Para limpeza de nomes de colunas
library(reactable) #Para tabelas mais bonitas e interativas.

#Bancos de Dados
br2019 <- read.csv("C:/Users/DamaLaptoper/Desktop/Dmas_code/Dados_sobre_Dados/Bancos_de_Dados/df2019.csv") %>% janitor::clean_names()
br2021 <- read.csv("C:/Users/DamaLaptoper/Desktop/Dmas_code/Dados_sobre_Dados/Bancos_de_Dados/df2021.csv") %>%  janitor::clean_names()
br2022 <- read.csv("C:/Users/DamaLaptoper/Desktop/Dmas_code/Dados_sobre_Dados/Bancos_de_Dados/df2022.csv") %>%  janitor::clean_names()
br2023 <- read.csv("C:/Users/DamaLaptoper/Desktop/Dmas_code/Dados_sobre_Dados/Bancos_de_Dados/df2023.csv") %>%  janitor::clean_names()
br2024 <- read.csv("C:/Users/DamaLaptoper/Desktop/Dmas_code/Dados_sobre_Dados/Bancos_de_Dados/df2024.csv") %>%  janitor::clean_names()

#Nesse ponto é possivel juntar os bancos de dados, mas necessitaria de um entendimento mais profundo dos dados, 
#renomear manualmente utilizando LLMs, mas ainda não tenho total controle sobre alucinações, 
#e ou confundimento então preferi deixar separado, tentarei deixar o codigo o mais legivel possível mesmo assim.



# 🎯 Perspectivas Salariais em Dados: O Caminho da Estatística

## A Pergunta Original
    [Dúvidas sobre salários](https://www.reddit.com/r/datasciencebr/comments/1i5utod/d%C3%BAvidas_sobre_sal%C3%A1rios/)
> *"Olá a todos do Sub, estou pesquisando e buscando informações sobre diferentes cursos de graduação e achei muito interessante a graduação em estatística na ufmg e me interessei também pela possibilidade de trabalhar na área de dados. Como estou fazendo uma pesquisa geral a respeito de diferentes cursos, eu gostaria de saber mais sobre questões de salários. Até onde da pra chegar? É possível conseguir uma boa remuneração com uma boa formação, bons estágios, etc?"*

Vamos quebrar essa questão em pedaços menores e mais tangíveis.

---

## 🔍 Dividindo para Conquistar


### **1. Trajetória Inicial: O Primeiro Emprego**
- **Pergunta específica**: Qual é a faixa salarial realista para quem está começando?
- **O que queremos descobrir**: Salários de entrada por nível de experiência (estágio, júnior, trainee)
- **Insight esperado**: Expectativas realistas para os primeiros anos

### **2. Evolução na Carreira: O Crescimento Possível**
- **Pergunta específica**: Como os salários evoluem com o tempo e experiência?
- **O que queremos descobrir**: Progressão salarial ao longo de 3, 5, 10 anos
- **Insight esperado**: Mapear o potencial de crescimento a médio e longo prazo

### **3. Fatores Multiplicadores: O Que Faz a Diferença**
- **Pergunta específica**: Quais elementos impactam mais no salário?
  - Localização geográfica
  - Tipo de empresa (startup, consultoria, banco, tech)
  - Especializações técnicas
  - Certificações e cursos complementares
- **O que queremos descobrir**: Onde investir energia para maximizar retorno financeiro
- **Insight esperado**: Estratégias práticas para otimizar remuneração

### **4. Teto de Vidro: Os Limites Reais**
- **Pergunta específica**: Qual é o "teto" salarial realista na área?
- **O que queremos descobrir**: Faixas salariais dos percentis mais altos (top 10%, top 5%)
- **Insight esperado**: Entender o potencial máximo e o que é necessário para chegar lá

---

## 📊 Estratégia de Análise

### **Abordagem Quantitativa**
- Análise de distribuição salarial por experiência
- Comparação entre formações acadêmicas (Quero detalhar mais sobre isso em uma pergunta posterior)
- Correlação entre fatores e remuneração

### **Abordagem Qualitativa**
- Identificação de padrões em trajetórias de sucesso
- Análise de comentários sobre satisfação vs. remuneração
- Mapeamento de "pontos de virada" na carreira

---

**A meta não é apenas responder "quanto se ganha", mas sim "como construir uma carreira financeiramente recompensadora na área de dados".**

In [None]:
#Codigo Puro

#Instalação e Inicialização dos Pacotes
library(tidyverse) #Para manipulação de dados
library(scales) #Para formatação de números
library(janitor) #Para limpeza de nomes de colunas
library(reactable) #Para tabelas mais bonitas e interativas.
library(reactablefmtr)
#Bancos de Dados
br2019 <- read.csv("C:/Users/DamaLaptoper/Desktop/Dmas_code/Dados_sobre_Dados/Bancos_de_Dados/df2019.csv") %>% janitor::clean_names()
br2021 <- read.csv("C:/Users/DamaLaptoper/Desktop/Dmas_code/Dados_sobre_Dados/Bancos_de_Dados/df2021.csv") %>%  janitor::clean_names()
br2022 <- read.csv("C:/Users/DamaLaptoper/Desktop/Dmas_code/Dados_sobre_Dados/Bancos_de_Dados/df2022.csv") %>%  janitor::clean_names()
br2023 <- read.csv("C:/Users/DamaLaptoper/Desktop/Dmas_code/Dados_sobre_Dados/Bancos_de_Dados/df2023.csv") %>%  janitor::clean_names()
br2024 <- read.csv("C:/Users/DamaLaptoper/Desktop/Dmas_code/Dados_sobre_Dados/Bancos_de_Dados/df2024.csv") %>%  janitor::clean_names()

#Nesse ponto é possivel juntar os bancos de dados, mas necessitaria de um entendimento mais profundo dos dados, 
#renomear manualmente utilizando LLMs, mas ainda não tenho total controle sobre alucinações, 
#e ou confundimento então preferi deixar separado, tentarei deixar o codigo o mais legivel possível mesmo assim.


# =============================================================================
# ANÁLISE SALARIAL - STATE OF DATA BRAZIL
# =============================================================================

# -----------------------------------------------------------------------------
# 2. CONFIGURAÇÃO DAS FAIXAS SALARIAIS
# -----------------------------------------------------------------------------

# Faixas completas (2021-2024)
faixas_completas <- c(
  "Menos de R$ 1.000/mês",
  "de R$ 1.001/mês a R$ 2.000/mês",
  "de R$ 2.001/mês a R$ 3.000/mês",
  "de R$ 3.001/mês a R$ 4.000/mês",
  "de R$ 4.001/mês a R$ 6.000/mês",
  "de R$ 6.001/mês a R$ 8.000/mês",
  "de R$ 8.001/mês a R$ 12.000/mês",
  "de R$ 12.001/mês a R$ 16.000/mês",
  "de R$ 16.001/mês a R$ 20.000/mês",
  "de R$ 20.001/mês a R$ 25.000/mês",
  "de R$ 25.001/mês a R$ 30.000/mês",
  "de R$ 30.001/mês a R$ 40.000/mês",
  "Acima de R$ 40.001/mês"
)

# Faixas limitadas 2019 (máximo até 25.001)
faixas_2019 <- c(
  "Menos de R$ 1.000/mês",
  "de R$ 1.001/mês a R$ 2.000/mês",
  "de R$ 2.001/mês a R$ 3.000/mês",
  "de R$ 3.001/mês a R$ 4.000/mês",
  "de R$ 4.001/mês a R$ 6.000/mês",
  "de R$ 6.001/mês a R$ 8.000/mês",
  "de R$ 8.001/mês a R$ 12.000/mês",
  "de R$ 12.001/mês a R$ 16.000/mês",
  "de R$ 16.001/mês a R$ 20.000/mês",
  "de R$ 20.001/mês a R$ 25.000/mês",
  "Acima de R$ 25.001/mês"  # Limitação do ano 2019
)

# -----------------------------------------------------------------------------
# 3. FUNÇÕES DE FORMATAÇÃO
# -----------------------------------------------------------------------------

formatar_dados_salario <- function(dados, coluna_salario, faixas_ordem) {
  dados %>%
    select(all_of(coluna_salario)) %>%
    na.omit() %>%
    rename(faixa_salarial = 1) %>%
    mutate(faixa_salarial = factor(faixa_salarial, levels = faixas_ordem)) %>%
    count(faixa_salarial) %>%
    arrange(faixa_salarial) %>%
    rename(`Faixa Salarial` = faixa_salarial, Quantidade = n) %>%
    mutate(
      Relativo = Quantidade / sum(Quantidade),
      Acumulado = cumsum(Relativo),
      # Formatação em percentual
      Relativo_fmt = percent(Relativo, accuracy = 0.1),
      Acumulado_fmt = percent(Acumulado, accuracy = 0.1)
    )
}

# -----------------------------------------------------------------------------
# 4. CONFIGURAÇÃO DO TEMA
# -----------------------------------------------------------------------------

configurar_tema <- function() {
  tema <- espn()
  tema$titleStyle <- list(
    fontFamily = "'Bebas Neue', sans-serif", 
    fontSize = "2rem", 
    fontWeight = "700"
  )
  tema$subtitleStyle <- list(
    fontFamily = "'Bebas Neue', sans-serif", 
    fontSize = "1.25rem", 
    fontWeight = "400", 
    color = "#666"
  )
  return(tema)
}

# -----------------------------------------------------------------------------
# 5. FUNÇÃO PARA CRIAR TABELA INTERATIVA
# -----------------------------------------------------------------------------

criar_tabela_salarial <- function(dados_formatados, titulo, ano) {
  
  meu_tema <- configurar_tema()
  
  dados_formatados %>%
    mutate(Icones_Representacao = Quantidade) %>%
    reactable(
      striped = TRUE,
      pagination = FALSE,
      theme = meu_tema,
      showSortIcon = FALSE,
      searchable = TRUE,
      language = reactableLang(
        searchPlaceholder = "BUSCAR POR FAIXA..."
      ),
      columns = list(
        "Faixa Salarial" = colDef(
          name = "Faixa Salarial", 
          maxWidth = 200
        ),
        
        Icones_Representacao = colDef(
          name = "",
          align = "center",
          maxWidth = 150,
          cell = icon_assign(
            data = ., 
            icon = "user", 
            fill_color = "#555555",
            buckets = 5,
            show_values = 'none' 
          )
        ),
        
        Quantidade = colDef(
          name = "Quantidade",
          maxWidth = 100,
          style = color_scales(
            data = .,
            colors = c("#edf8e9", "#74c476", "#005a32")
          )
        ),
        
        Relativo_fmt = colDef(
          name = "Percentual",
          cell = data_bars(
            data = .,
            fill_color = "#3fc1c9",
            background = "#f2f2f2",
            text_position = "outside-end"
          )
        ),
        
        Acumulado_fmt = colDef(
          name = "Acumulado",
          maxWidth = 120
        ),
        
        # Ocultar colunas auxiliares
        Relativo = colDef(show = FALSE),
        Acumulado = colDef(show = FALSE)
      )
    ) %>% 
    add_title(paste("Distribuição Salarial", titulo)) %>% 
    add_source(paste("State of Data Brazil", ano))
}

# -----------------------------------------------------------------------------
# 6. ANÁLISE PARA 2024 (EXEMPLO DE USO)
# -----------------------------------------------------------------------------

# Processar dados de 2024
tabela_2024 <- formatar_dados_salario(
  dados = br2024,
  coluna_salario = "x2_h_faixa_salarial",
  faixas_ordem = faixas_completas
)

# Criar tabela interativa
tabela_interativa_2024 <- criar_tabela_salarial(
  dados_formatados = tabela_2024,
  titulo = "2024",
  ano = "2024-2025"
)

# Exibir tabela
tabela_interativa_2024

# -----------------------------------------------------------------------------
# 7. EXEMPLO PARA ANÁLISE HISTÓRICA (2019)
# -----------------------------------------------------------------------------

# Para comparar com 2019 (limitação nas faixas)
tabela_2019 <- formatar_dados_salario(
  dados = br2019,
  coluna_salario = "x_p16_salary_range", # Ajustar nome da coluna
  faixas_ordem = faixas_2019
)

# Criar tabela para 2019
tabela_interativa_2019 <- criar_tabela_salarial(
  dados_formatados = tabela_2019,
  titulo = "2019 (Dados Limitados)",
  ano = "2019"
)

: [1m[33mError[39m:[22m
[33m![39m object 'bancoBR24' not found