<a href="https://colab.research.google.com/github/ThiagoVenturim/banco-vs-fintech/blob/main/src/C%C3%B3pia_de_EDA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>



#  Importação das Bibliotecas

Para a análise e visualização dos dados, foram utilizadas as seguintes bibliotecas do ecossistema Python, amplamente adotadas na ciência de dados:

* **`pandas`**: essencial para manipulação e análise de dados tabulares, permitindo operações como leitura de arquivos `.csv`, tratamento de dados nulos e criação de filtros personalizados.
* **`numpy`**: utilizada para operações matemáticas e manipulação de arrays, com foco em desempenho computacional.
* **`matplotlib.pyplot`** (importado como `plt`): biblioteca de visualização base que possibilita a criação de gráficos estáticos, como histogramas, linhas e barras.
* **`seaborn`**: biblioteca baseada no `matplotlib`, voltada para visualizações estatísticas mais elaboradas, com gráficos otimizados e de fácil interpretação.
* **`os`**: permite interações com o sistema operacional, como navegação entre diretórios e verificação de arquivos, facilitando o gerenciamento dos dados localmente.
* **`plotly.express`**:  Uma biblioteca, baseada no plotly.py, para a criação de gráficos interativos e de fácil utilização.

In [118]:

# Manipulção de Dados
import pandas as pd
import numpy as np

#Visualização de Dados
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from pandas.api.types import CategoricalDtype


# Importando Base de Dados

Nesta etapa, foram importadas as três bases de dados do projeto State of Data Brazil, referentes aos anos de 2022, 2023 e 2024. Para permitir rastreabilidade temporal e facilitar análises comparativas, foi adicionada a coluna ano_base em cada DataFrame, indicando o respectivo ano da pesquisa.

Além disso, foi realizada uma verificação inicial do tamanho de cada conjunto de dados, com o objetivo de inspecionar a quantidade de linhas (respostas) e colunas (variáveis) disponíveis em cada ano.


In [119]:
# Carregando os CSVs
df_2022 = pd.read_csv('/content/state_of_data_2022.csv')
df_2023 = pd.read_csv('/content/state_of_data_2023.csv')
df_2024 = pd.read_csv('/content/state_of_data_2024.csv')

# Adicionando coluna de ano para identificar depois.
df_2022["ano_base"] = 2022
df_2023["ano_base"] = 2023
df_2024["ano_base"] = 2024

# Verificando quantas linhas cada base tem
print(f"2022: {df_2022.shape}")
print(f"2023: {df_2023.shape}")
print(f"2024: {df_2024.shape}")

2022: (4271, 354)
2023: (5293, 400)
2024: (5217, 404)


# Padronização dos nomes das colunas
Durante o processo de preparação dos dados, foi realizada uma padronização completa dos nomes das colunas das bases de dados referentes aos anos de 2022, 2023 e 2024 da pesquisa State of Data Brazil. Essa padronização teve como objetivo:

* Unificar a nomenclatura das variáveis entre diferentes edições da pesquisa.

* Facilitar a concatenação dos datasets e a análise temporal dos dados.

* Garantir consistência semântica, mesmo quando as perguntas ou estruturas mudaram levemente entre os anos.

In [120]:
colunas_2022_simplificadas = [
    'id', 'idade', 'faixa_idade', 'genero', 'cor_raca_etnia', 'pcd',
    'experiencia_profissional_prejudicada', 'aspectos_prejudicados', 'vive_no_brasil',
    'estado_onde_mora', 'uf_onde_mora', 'regiao_onde_mora', 'mudou_de_estado_de_origem',
    'regiao_de_origem', 'nivel_ensino', 'area_formacao', 'situacao_trabalho', 'setor',
    'numero_funcionarios_empresa', 'atua_como_gestor', 'cargo_gestor', 'cargo_atual', 'nivel_senioridade',
    'faixa_salarial', 'tempo_experiencia_dados', 'tempo_experiencia_ti', 'satisfacao_empresa_atual',
    'motivos_insatisfacao', 'motivo_insatisfacao_oportunidade_crescimento',
    'motivo_insatisfacao_salario_incompativel', 'motivo_insatisfacao_relacao_lider_ruim',
    'motivo_insatisfacao_desejo_mudar_area', 'motivo_insatisfacao_mais_beneficios',
    'motivo_insatisfacao_clima_ambiente_ruim', 'motivo_insatisfacao_falta_maturidade_analitica',
    'participou_entrevistas_ultimos_6m', 'pretende_mudar_emprego_ultimos_6m', 'criterios_escolha_emprego',
    'criterio_escolha_remuneracao_salario', 'criterio_escolha_beneficios',
    'criterio_escolha_proposito_empresa', 'criterio_escolha_flexibilidade_remoto',
    'criterio_escolha_ambiente_clima', 'criterio_escolha_oportunidade_aprendizado',
    'criterio_escolha_plano_carreira', 'criterio_escolha_maturidade_dados_empresa',
    'criterio_escolha_qualidade_gestores', 'criterio_escolha_reputacao_empresa', 'modelo_trabalho_atual',
    'modelo_trabalho_ideal', 'atitude_retorno_100_presencial', 'empresa_passou_por_layoff',
    'numero_pessoas_dados_empresa', 'cargos_time_dados_empresa', 'cargo_dados_analytics_engineer',
    'cargo_dados_data_engineer', 'cargo_dados_data_analyst', 'cargo_dados_data_scientist',
    'cargo_dados_dba', 'cargo_dados_analista_bi', 'cargo_dados_arquiteto_dados',
    'cargo_dados_data_product_manager', 'cargo_dados_business_analyst', 'responsabilidades_como_gestor',
    'responsabilidade_gestor_visao_longo_prazo', 'responsabilidade_gestor_organiza_treinamentos',
    'responsabilidade_gestor_contrata_talentos', 'responsabilidade_gestor_decide_ferramentas',
    'responsabilidade_gestor_head_engenharia', 'responsabilidade_gestor_head_analises_bi',
    'responsabilidade_gestor_head_ia_ml', 'responsabilidade_gestor_atua_tecnicamente',
    'responsabilidade_gestor_gestao_projetos', 'responsabilidade_gestor_gestao_produtos',
    'responsabilidade_gestor_gestao_pessoas', 'maiores_desafios_gestor', 'desafio_gestor_contratar_talentos',
    'desafio_gestor_reter_talentos', 'desafio_gestor_convencer_investimentos',
    'desafio_gestor_equipes_remotas', 'desafio_gestor_projetos_multidisciplinares',
    'desafio_gestor_garantir_qualidade_dados', 'desafio_gestor_processar_grande_volume',
    'desafio_gestor_gerar_valor_negocio', 'desafio_gestor_manter_modelos_ml_producao',
    'desafio_gestor_gerenciar_expectativas', 'desafio_gestor_manter_projetos_crescimento',
    'desafio_gestor_inovar_com_dados', 'desafio_gestor_garantir_roi', 'desafio_gestor_dividir_tempo_tecnico_gestao',
    'principal_atuacao_dados', 'atuacao_dados', 'fontes_dados_analisadas', 'fonte_dados_analisada_sql',
    'fonte_dados_analisada_nosql', 'fonte_dados_analisada_imagens', 'fonte_dados_analisada_textos',
    'fonte_dados_analisada_videos', 'fonte_dados_analisada_audios', 'fonte_dados_analisada_planilhas',
    'fonte_dados_analisada_geo', 'fonte_dados_mais_utilizada', 'fonte_dados_principal_sql',
    'fonte_dados_principal_nosql', 'fonte_dados_principal_imagens', 'fonte_dados_principal_textos',
    'fonte_dados_principal_videos', 'fonte_dados_principal_audios', 'fonte_dados_principal_planilhas',
    'fonte_dados_principal_geo', 'linguagens_programacao_usadas', 'linguagem_usada_sql',
    'linguagem_usada_r', 'linguagem_usada_python', 'linguagem_usada_c_cplusplus_csharp',
    'linguagem_usada_dotnet', 'linguagem_usada_java', 'linguagem_usada_julia',
    'linguagem_usada_sas_stata', 'linguagem_usada_vba', 'linguagem_usada_scala',
    'linguagem_usada_matlab', 'linguagem_usada_php', 'linguagem_usada_javascript',
    'linguagem_usada_nenhuma', 'linguagem_programacao_mais_usada', 'linguagem_programacao_preferida',
    'bancos_dados_usados', 'banco_dados_usado_mysql', 'banco_dados_usado_oracle', 'banco_dados_usado_sql_server',
    'banco_dados_usado_aurora_rds', 'banco_dados_usado_dynamodb', 'banco_dados_usado_couchdb',
    'banco_dados_usado_cassandra', 'banco_dados_usado_mongodb', 'banco_dados_usado_mariadb',
    'banco_dados_usado_datomic', 'banco_dados_usado_s3', 'banco_dados_usado_postgresql',
    'banco_dados_usado_elasticsearch', 'banco_dados_usado_db2', 'banco_dados_usado_access',
    'banco_dados_usado_sqlite', 'banco_dados_usado_sybase', 'banco_dados_usado_firebase',
    'banco_dados_usado_vertica', 'banco_dados_usado_redis', 'banco_dados_usado_neo4j',
    'banco_dados_usado_bigquery', 'banco_dados_usado_firestore', 'banco_dados_usado_redshift',
    'banco_dados_usado_athena', 'banco_dados_usado_snowflake', 'banco_dados_usado_databricks',
    'banco_dados_usado_hbase', 'banco_dados_usado_presto', 'banco_dados_usado_splunk',
    'banco_dados_usado_sap_hana', 'banco_dados_usado_hive', 'banco_dados_usado_firebird',
    'cloud_usada_trabalho', 'cloud_preferida', 'cloud_usada_azure', 'cloud_usada_aws', 'cloud_usada_gcp',
    'ferramentas_bi_usadas', 'ferramenta_bi_usada_powerbi', 'ferramenta_bi_usada_qlik',
    'ferramenta_bi_usada_tableau', 'ferramenta_bi_usada_metabase', 'ferramenta_bi_usada_superset',
    'ferramenta_bi_usada_redash', 'ferramenta_bi_usada_microstrategy', 'ferramenta_bi_usada_ibm_cognos',
    'ferramenta_bi_usada_sap_bo', 'ferramenta_bi_usada_oracle_bi', 'ferramenta_bi_usada_quicksight',
    'ferramenta_bi_usada_salesforce_einstein', 'ferramenta_bi_usada_mode', 'ferramenta_bi_usada_alteryx',
    'ferramenta_bi_usada_birst', 'ferramenta_bi_usada_looker', 'ferramenta_bi_usada_looker_studio',
    'ferramenta_bi_usada_sas_va', 'ferramenta_bi_usada_grafana', 'ferramenta_bi_usada_spotfire',
    'ferramenta_bi_usada_pentaho', 'ferramenta_bi_usada_planilhas', 'ferramenta_bi_usada_nenhuma',
    'objetivo_area_dados', 'oportunidade_desejada', 'tempo_busca_oportunidade',
    'experiencia_busca_emprego', 'rotina_engenheiro_dados', 'rotina_de_desenvolve_pipelines',
    'rotina_de_constroi_etl', 'rotina_de_cria_consultas_sql', 'rotina_de_integra_fontes_dados',
    'rotina_de_modela_arquitetura', 'rotina_de_mantem_datalakes', 'rotina_de_modela_dw_dm',
    'rotina_de_cuida_qualidade_dados', 'rotina_de_nenhuma_opcao', 'ferramentas_etl_engenheiro_dados',
    'etl_de_python', 'etl_de_sql_sp', 'etl_de_airflow', 'etl_de_luigi', 'etl_de_aws_glue',
    'etl_de_talend', 'etl_de_pentaho', 'etl_de_alteryx', 'etl_de_stitch', 'etl_de_fivetran',
    'etl_de_dataflow', 'etl_de_oracle_di', 'etl_de_ibm_datastage', 'etl_de_sap_bw', 'etl_de_ssis',
    'etl_de_sas_di', 'etl_de_qlik_sense', 'etl_de_knime', 'etl_de_databricks', 'etl_de_nenhuma',
    'empresa_possui_datalake', 'plataforma_datalake', 'empresa_possui_datawarehouse',
    'plataforma_datawarehouse', 'ferramentas_qualidade_dados_usadas',
    'ferramenta_qualidade_great_expectations', 'ferramenta_qualidade_dbt', 'ferramenta_qualidade_aws_deequ',
    'ferramenta_qualidade_apache_griffin', 'ferramenta_qualidade_datafold', 'ferramenta_qualidade_amundsen',
    'ferramenta_qualidade_monte_carlo', 'ferramenta_qualidade_soda', 'ferramenta_qualidade_big_eye',
    'ferramenta_qualidade_data_band', 'ferramenta_qualidade_anomalo', 'ferramenta_qualidade_metaplane',
    'ferramenta_qualidade_acceldata', 'principal_gasto_tempo_de', 'tempo_de_desenvolvendo_pipelines',
    'tempo_de_construindo_etl', 'tempo_de_criando_consultas_sql', 'tempo_de_integrando_fontes_dados',
    'tempo_de_modelando_arquitetura', 'tempo_de_mantendo_datalakes', 'tempo_de_modelando_dw_dm',
    'tempo_de_cuidando_qualidade_dados', 'tempo_de_nenhuma_opcao', 'rotina_analista_dados',
    'rotina_da_analisa_dados_py_r', 'rotina_da_constroi_dashboards', 'rotina_da_cria_consultas_sql',
    'rotina_da_usa_apis', 'rotina_da_realiza_testes_estatisticos', 'rotina_da_mantem_etl',
    'rotina_da_modela_dw_dm', 'rotina_da_mantem_planilhas', 'rotina_da_usa_ferramentas_estatisticas',
    'rotina_da_nenhuma_opcao', 'ferramentas_etl_analista_dados', 'etl_da_python', 'etl_da_sql_sp',
    'etl_da_airflow', 'etl_da_luigi', 'etl_da_aws_glue', 'etl_da_talend', 'etl_da_pentaho',
    'etl_da_alteryx', 'etl_da_stitch', 'etl_da_fivetran', 'etl_da_dataflow', 'etl_da_oracle_di',
    'etl_da_ibm_datastage', 'etl_da_sap_bw', 'etl_da_ssis', 'etl_da_sas_di', 'etl_da_qlik_sense',
    'etl_da_knime', 'etl_da_databricks', 'etl_da_nenhuma', 'empresa_usa_ferramentas_autonomia_negocio',
    'ferramenta_autonomia_automl', 'ferramenta_autonomia_point_click', 'ferramenta_autonomia_product_insights',
    'ferramenta_autonomia_crm_analytics', 'ferramenta_autonomia_nenhuma', 'ferramenta_autonomia_nao_sei',
    'principal_gasto_tempo_da', 'tempo_da_analisando_dados_py_r', 'tempo_da_construindo_dashboards',
    'tempo_da_criando_consultas_sql', 'tempo_da_usando_apis', 'tempo_da_realizando_testes_estatisticos',
    'tempo_da_mantendo_etl', 'tempo_da_modelando_dw_dm', 'tempo_da_mantendo_planilhas',
    'tempo_da_usando_ferramentas_estatisticas', 'tempo_da_nenhuma_opcao', 'rotina_cientista_dados',
    'rotina_ds_estudos_ad_hoc', 'rotina_ds_coleta_limpeza_dados', 'rotina_ds_contato_area_negocio',
    'rotina_ds_desenvolve_modelos_ml', 'rotina_ds_coloca_modelos_producao', 'rotina_ds_mantem_modelos_producao',
    'rotina_ds_constroi_dashboards', 'rotina_ds_usa_ferramentas_estatisticas',
    'rotina_ds_mantem_etl_dags', 'rotina_ds_gerencia_feature_store_mlops', 'rotina_ds_cria_mantem_infra',
    'tecnicas_metodos_cientista_dados', 'tecnica_ds_regressao', 'tecnica_ds_redes_neurais_arvores',
    'tecnica_ds_sistemas_recomendacao', 'tecnica_ds_metodos_bayesianos', 'tecnica_ds_nlp',
    'tecnica_ds_metodos_estatisticos_classicos', 'tecnica_ds_markov_hmm', 'tecnica_ds_clusterizacao',
    'tecnica_ds_series_temporais', 'tecnica_ds_reinforcement_learning', 'tecnica_ds_deteccao_fraude',
    'tecnica_ds_visao_computacional', 'tecnica_ds_deteccao_churn', 'tecnologias_dia_a_dia_cientista_dados',
    'tecnologia_ds_ferramentas_bi', 'tecnologia_ds_planilhas', 'tecnologia_ds_ide_local',
    'tecnologia_ds_ide_nuvem', 'tecnologia_ds_ferramentas_automl', 'tecnologia_ds_ferramentas_etl',
    'tecnologia_ds_plataformas_ml', 'tecnologia_ds_feature_store', 'tecnologia_ds_controle_versao',
    'tecnologia_ds_data_apps', 'tecnologia_ds_ferramentas_estatisticas', 'principal_gasto_tempo_ds',
    'tempo_ds_estudos_ad_hoc', 'tempo_ds_coleta_limpeza_dados', 'tempo_ds_contato_area_negocio',
    'tempo_ds_desenvolve_modelos_ml', 'tempo_ds_coloca_modelos_producao', 'tempo_ds_mantem_modelos_producao',
    'tempo_ds_constroi_dashboards', 'tempo_ds_usa_ferramentas_estatisticas', 'tempo_ds_mantem_etl_dags',
    'tempo_ds_gerencia_feature_store_mlops', 'tempo_ds_cria_mantem_infra', 'ano_base'
]

In [121]:
colunas_2023_simplificadas = [
    'id', 'idade', 'faixa_idade', 'genero', 'cor_raca_etnia', 'pcd',
    'experiencia_profissional_prejudicada', 'exp_prejudicada_nao_acredito',
    'exp_prejudicada_cor_raca_etnia', 'exp_prejudicada_identidade_genero',
    'exp_prejudicada_pcd', 'aspectos_prejudicados', 'aspecto_prejudicado_qtd_oportunidades',
    'aspecto_prejudicado_senioridade_vagas', 'aspecto_prejudicado_aprovacao_processos',
    'aspecto_prejudicado_progressao_carreira', 'aspecto_prejudicado_velocidade_progressao',
    'aspecto_prejudicado_cobranca_stress', 'aspecto_prejudicado_atencao_ideias',
    'aspecto_prejudicado_relacao_colegas_trabalho', 'aspecto_prejudicado_relacao_colegas_fora_trabalho',
    'vive_no_brasil', 'estado_onde_mora', 'uf_onde_mora', 'regiao_onde_mora', 'mudou_de_estado_de_origem',
    'regiao_de_origem', 'nivel_ensino', 'area_formacao', 'situacao_trabalho', 'setor',
    'numero_funcionarios_empresa', 'atua_como_gestor', 'cargo_gestor', 'cargo_atual', 'nivel_senioridade',
    'faixa_salarial', 'tempo_experiencia_dados', 'tempo_experiencia_ti', 'satisfacao_empresa_atual',
    'motivos_insatisfacao', 'motivo_insatisfacao_oportunidade_crescimento',
    'motivo_insatisfacao_salario_incompativel', 'motivo_insatisfacao_relacao_lider_ruim',
    'motivo_insatisfacao_desejo_mudar_area', 'motivo_insatisfacao_mais_beneficios',
    'motivo_insatisfacao_clima_ambiente_ruim', 'motivo_insatisfacao_falta_maturidade_analitica',
    'participou_entrevistas_ultimos_6m', 'pretende_mudar_emprego_ultimos_6m', 'criterios_escolha_emprego',
    'criterio_escolha_remuneracao_salario', 'criterio_escolha_beneficios',
    'criterio_escolha_proposito_empresa', 'criterio_escolha_flexibilidade_remoto',
    'criterio_escolha_ambiente_clima', 'criterio_escolha_oportunidade_aprendizado',
    'criterio_escolha_plano_carreira', 'criterio_escolha_maturidade_dados_empresa',
    'criterio_escolha_qualidade_gestores', 'criterio_escolha_reputacao_empresa',
    'empresa_passou_por_layoff', 'modelo_trabalho_atual', 'modelo_trabalho_ideal',
    'atitude_retorno_100_presencial', 'numero_pessoas_dados_empresa', 'cargos_time_dados_empresa',
    'cargo_dados_analytics_engineer', 'cargo_dados_data_engineer', 'cargo_dados_data_analyst',
    'cargo_dados_data_scientist', 'cargo_dados_dba', 'cargo_dados_analista_bi', 'cargo_dados_arquiteto_dados',
    'cargo_dados_data_product_manager', 'cargo_dados_business_analyst', 'responsabilidades_como_gestor',
    'responsabilidade_gestor_visao_longo_prazo', 'responsabilidade_gestor_organiza_treinamentos',
    'responsabilidade_gestor_contrata_talentos', 'responsabilidade_gestor_decide_ferramentas',
    'responsabilidade_gestor_head_engenharia', 'responsabilidade_gestor_head_analises_bi',
    'responsabilidade_gestor_head_ia_ml', 'responsabilidade_gestor_atua_tecnicamente',
    'responsabilidade_gestor_gestao_projetos', 'responsabilidade_gestor_gestao_produtos',
    'responsabilidade_gestor_gestao_pessoas', 'maiores_desafios_gestor', 'desafio_gestor_contratar_talentos',
    'desafio_gestor_reter_talentos', 'desafio_gestor_convencer_investimentos',
    'desafio_gestor_equipes_remotas', 'desafio_gestor_projetos_multidisciplinares',
    'desafio_gestor_garantir_qualidade_dados', 'desafio_gestor_processar_grande_volume',
    'desafio_gestor_gerar_valor_negocio', 'desafio_gestor_manter_modelos_ml_producao',
    'desafio_gestor_gerenciar_expectativas', 'desafio_gestor_manter_projetos_crescimento',
    'desafio_gestor_inovar_com_dados', 'desafio_gestor_garantir_roi', 'desafio_gestor_dividir_tempo_tecnico_gestao',
    'ia_generativa_prioridade_empresa', 'ia_generativa_tipos_uso_empresa',
    'ia_generativa_uso_independente', 'ia_generativa_uso_centralizado',
    'ia_generativa_uso_copilots', 'ia_generativa_melhora_produtos_externos',
    'ia_generativa_melhora_produtos_internos', 'ia_generativa_principal_frente_negocio',
    'ia_generativa_nao_prioridade', 'ia_generativa_nao_sei_opinar',
    'ia_generativa_motivos_nao_usar', 'ia_motivo_nao_usar_falta_compreensao',
    'ia_motivo_nao_usar_falta_confiabilidade', 'ia_motivo_nao_usar_incerteza_regulamentacao',
    'ia_motivo_nao_usar_seguranca_privacidade', 'ia_motivo_nao_usar_roi_nao_comprovado',
    'ia_motivo_nao_usar_dados_nao_prontos', 'ia_motivo_nao_usar_falta_expertise_recursos',
    'ia_motivo_nao_usar_diretoria_nao_ve_valor', 'ia_motivo_nao_usar_propriedade_intelectual',
    'principal_atuacao_dados', 'atuacao_dados', 'fontes_dados_analisadas',
    'fonte_dados_analisada_sql', 'fonte_dados_analisada_nosql', 'fonte_dados_analisada_imagens',
    'fonte_dados_analisada_textos', 'fonte_dados_analisada_videos', 'fonte_dados_analisada_audios',
    'fonte_dados_analisada_planilhas', 'fonte_dados_analisada_geo', 'fonte_dados_mais_utilizada',
    'fonte_dados_principal_sql', 'fonte_dados_principal_nosql', 'fonte_dados_principal_imagens',
    'fonte_dados_principal_textos', 'fonte_dados_principal_videos', 'fonte_dados_principal_audios',
    'fonte_dados_principal_planilhas', 'fonte_dados_principal_geo', 'linguagens_programacao_usadas',
    'linguagem_usada_sql', 'linguagem_usada_r', 'linguagem_usada_python',
    'linguagem_usada_c_cplusplus_csharp', 'linguagem_usada_dotnet', 'linguagem_usada_java',
    'linguagem_usada_julia', 'linguagem_usada_sas_stata', 'linguagem_usada_vba', 'linguagem_usada_scala',
    'linguagem_usada_matlab', 'linguagem_usada_rust', 'linguagem_usada_php', 'linguagem_usada_javascript',
    'linguagem_usada_nenhuma', 'linguagem_programacao_mais_usada', 'linguagem_programacao_preferida',
    'bancos_dados_usados', 'banco_dados_usado_mysql', 'banco_dados_usado_oracle', 'banco_dados_usado_sql_server',
    'banco_dados_usado_aurora_rds', 'banco_dados_usado_dynamodb', 'banco_dados_usado_couchdb',
    'banco_dados_usado_cassandra', 'banco_dados_usado_mongodb', 'banco_dados_usado_mariadb',
    'banco_dados_usado_datomic', 'banco_dados_usado_s3', 'banco_dados_usado_postgresql',
    'banco_dados_usado_elasticsearch', 'banco_dados_usado_db2', 'banco_dados_usado_access',
    'banco_dados_usado_sqlite', 'banco_dados_usado_sybase', 'banco_dados_usado_firebase',
    'banco_dados_usado_vertica', 'banco_dados_usado_redis', 'banco_dados_usado_neo4j',
    'banco_dados_usado_bigquery', 'banco_dados_usado_firestore', 'banco_dados_usado_redshift',
    'banco_dados_usado_athena', 'banco_dados_usado_snowflake', 'banco_dados_usado_databricks',
    'banco_dados_usado_hbase', 'banco_dados_usado_presto', 'banco_dados_usado_splunk',
    'banco_dados_usado_sap_hana', 'banco_dados_usado_hive', 'banco_dados_usado_firebird',
    'cloud_usada_trabalho', 'cloud_usada_azure', 'cloud_usada_aws', 'cloud_usada_gcp',
    'cloud_usada_oracle', 'cloud_usada_ibm', 'cloud_usada_on_premise', 'cloud_usada_propria',
    'cloud_preferida', 'ferramentas_bi_usadas', 'ferramenta_bi_usada_powerbi', 'ferramenta_bi_usada_qlik',
    'ferramenta_bi_usada_tableau', 'ferramenta_bi_usada_metabase', 'ferramenta_bi_usada_superset',
    'ferramenta_bi_usada_redash', 'ferramenta_bi_usada_looker', 'ferramenta_bi_usada_looker_studio',
    'ferramenta_bi_usada_quicksight', 'ferramenta_bi_usada_mode', 'ferramenta_bi_usada_alteryx',
    'ferramenta_bi_usada_microstrategy', 'ferramenta_bi_usada_ibm_cognos', 'ferramenta_bi_usada_sap_bo',
    'ferramenta_bi_usada_oracle_bi', 'ferramenta_bi_usada_salesforce_einstein', 'ferramenta_bi_usada_birst',
    'ferramenta_bi_usada_sas_va', 'ferramenta_bi_usada_grafana', 'ferramenta_bi_usada_spotfire',
    'ferramenta_bi_usada_pentaho', 'ferramenta_bi_usada_planilhas', 'ferramenta_bi_usada_nenhuma',
    'ferramenta_bi_preferida', 'ia_generativa_uso_pessoal', 'ia_generativa_uso_pessoal_independente',
    'ia_generativa_uso_pessoal_centralizado', 'ia_generativa_uso_pessoal_copilots',
    'ia_generativa_uso_pessoal_melhora_produtos_externos', 'ia_generativa_uso_pessoal_melhora_produtos_internos',
    'ia_generativa_uso_pessoal_principal_frente_negocio', 'ia_generativa_uso_pessoal_nao_prioridade',
    'ia_generativa_uso_pessoal_nao_sei_opinar', 'ia_generativa_produtividade_uso',
    'ia_produtividade_nao_uso', 'ia_produtividade_uso_gratis', 'ia_produtividade_pago_uso',
    'ia_produtividade_empresa_paga', 'ia_produtividade_uso_copilot_dev', 'objetivo_area_dados',
    'oportunidade_desejada', 'tempo_busca_oportunidade', 'experiencia_busca_emprego',
    'rotina_engenheiro_dados', 'rotina_de_desenvolve_pipelines', 'rotina_de_constroi_etl',
    'rotina_de_cria_consultas_sql', 'rotina_de_integra_fontes_dados', 'rotina_de_modela_arquitetura',
    'rotina_de_mantem_datalakes', 'rotina_de_modela_dw_dm', 'rotina_de_cuida_qualidade_dados',
    'rotina_de_nenhuma_opcao', 'ferramentas_etl_engenheiro_dados', 'etl_de_python', 'etl_de_sql_sp',
    'etl_de_airflow', 'etl_de_nifi', 'etl_de_luigi', 'etl_de_aws_glue', 'etl_de_talend',
    'etl_de_pentaho', 'etl_de_alteryx', 'etl_de_stitch', 'etl_de_fivetran', 'etl_de_dataflow',
    'etl_de_oracle_di', 'etl_de_ibm_datastage', 'etl_de_sap_bw', 'etl_de_ssis', 'etl_de_sas_di',
    'etl_de_qlik_sense', 'etl_de_knime', 'etl_de_databricks', 'etl_de_nenhuma',
    'empresa_possui_datalake', 'plataforma_datalake', 'empresa_possui_datawarehouse',
    'plataforma_datawarehouse', 'ferramentas_qualidade_dados_usadas', 'principal_gasto_tempo_de',
    'tempo_de_desenvolvendo_pipelines', 'tempo_de_construindo_etl', 'tempo_de_criando_consultas_sql',
    'tempo_de_integrando_fontes_dados', 'tempo_de_modelando_arquitetura', 'tempo_de_mantendo_datalakes',
    'tempo_de_modelando_dw_dm', 'tempo_de_cuidando_qualidade_dados', 'tempo_de_nenhuma_opcao',
    'rotina_analista_dados', 'rotina_da_analisa_dados_py_r', 'rotina_da_constroi_dashboards',
    'rotina_da_cria_consultas_sql', 'rotina_da_usa_apis', 'rotina_da_realiza_testes_estatisticos',
    'rotina_da_mantem_etl', 'rotina_da_modela_dw_dm', 'rotina_da_mantem_planilhas',
    'rotina_da_usa_ferramentas_estatisticas', 'rotina_da_nenhuma_opcao', 'ferramentas_etl_analista_dados',
    'etl_da_python', 'etl_da_sql_sp', 'etl_da_airflow', 'etl_da_nifi', 'etl_da_luigi', 'etl_da_aws_glue',
    'etl_da_talend', 'etl_da_pentaho', 'etl_da_alteryx', 'etl_da_stitch', 'etl_da_fivetran',
    'etl_da_dataflow', 'etl_da_oracle_di', 'etl_da_ibm_datastage', 'etl_da_sap_bw', 'etl_da_ssis',
    'etl_da_sas_di', 'etl_da_qlik_sense', 'etl_da_knime', 'etl_da_databricks', 'etl_da_nenhuma',
    'empresa_usa_ferramentas_autonomia_negocio', 'ferramenta_autonomia_automl',
    'ferramenta_autonomia_point_click', 'ferramenta_autonomia_product_insights',
    'ferramenta_autonomia_crm_analytics', 'ferramenta_autonomia_nenhuma', 'ferramenta_autonomia_nao_sei',
    'principal_gasto_tempo_da', 'tempo_da_analisando_dados_py_r', 'tempo_da_construindo_dashboards',
    'tempo_da_criando_consultas_sql', 'tempo_da_usando_apis', 'tempo_da_realizando_testes_estatisticos',
    'tempo_da_mantendo_etl', 'tempo_da_modelando_dw_dm', 'tempo_da_mantendo_planilhas',
    'tempo_da_usando_ferramentas_estatisticas', 'tempo_da_nenhuma_opcao', 'rotina_cientista_dados',
    'rotina_ds_estudos_ad_hoc', 'rotina_ds_coleta_limpeza_dados', 'rotina_ds_contato_area_negocio',
    'rotina_ds_desenvolve_modelos_ml', 'rotina_ds_coloca_modelos_producao', 'rotina_ds_mantem_modelos_producao',
    'rotina_ds_constroi_dashboards', 'rotina_ds_usa_ferramentas_estatisticas', 'rotina_ds_mantem_etl_dags',
    'rotina_ds_gerencia_feature_store_mlops', 'rotina_ds_cria_mantem_infra', 'rotina_ds_treina_aplica_llm',
    'tecnicas_metodos_cientista_dados', 'tecnica_ds_regressao', 'tecnica_ds_redes_neurais_arvores',
    'tecnica_ds_sistemas_recomendacao', 'tecnica_ds_metodos_bayesianos', 'tecnica_ds_nlp',
    'tecnica_ds_metodos_estatisticos_classicos', 'tecnica_ds_markov_hmm', 'tecnica_ds_clusterizacao',
    'tecnica_ds_series_temporais', 'tecnica_ds_reinforcement_learning', 'tecnica_ds_deteccao_fraude',
    'tecnica_ds_visao_computacional', 'tecnica_ds_deteccao_churn', 'tecnica_ds_usa_llm',
    'tecnologias_dia_a_dia_cientista_dados', 'tecnologia_ds_ferramentas_bi', 'tecnologia_ds_planilhas',
    'tecnologia_ds_ide_local', 'tecnologia_ds_ide_nuvem', 'tecnologia_ds_ferramentas_automl',
    'tecnologia_ds_ferramentas_etl', 'tecnologia_ds_plataformas_ml', 'tecnologia_ds_feature_store',
    'tecnologia_ds_controle_versao', 'tecnologia_ds_data_apps', 'tecnologia_ds_ferramentas_estatisticas',
    'principal_gasto_tempo_ds', 'tempo_ds_estudos_ad_hoc', 'tempo_ds_coleta_limpeza_dados',
    'tempo_ds_contato_area_negocio', 'tempo_ds_desenvolve_modelos_ml', 'tempo_ds_coloca_modelos_producao',
    'tempo_ds_mantem_modelos_producao', 'tempo_ds_constroi_dashboards', 'tempo_ds_usa_ferramentas_estatisticas',
    'tempo_ds_mantem_etl_dags', 'tempo_ds_gerencia_feature_store_mlops', 'tempo_ds_cria_mantem_infra',
    'tempo_ds_treina_aplica_llm', 'ano_base'
]

In [122]:
colunas_2024_simplificadas = [
    'id', 'data_hora_envio', 'idade', 'faixa_idade', 'genero', 'cor_raca_etnia', 'pcd',
    'experiencia_profissional_prejudicada', 'exp_prejudicada_nao_acredito',
    'exp_prejudicada_cor_raca_etnia', 'exp_prejudicada_identidade_genero',
    'exp_prejudicada_pcd', 'uf_onde_mora', 'aspecto_prejudicado_qtd_oportunidades',
    'aspecto_prejudicado_senioridade_vagas', 'aspecto_prejudicado_aprovacao_processos',
    'aspecto_prejudicado_progressao_carreira', 'aspecto_prejudicado_velocidade_progressao',
    'aspecto_prejudicado_cobranca_stress', 'aspecto_prejudicado_atencao_ideias',
    'aspecto_prejudicado_relacao_colegas_trabalho', 'aspecto_prejudicado_relacao_colegas_fora_trabalho',
    'regiao_onde_mora', 'aspectos_prejudicados', 'uf_de_origem', 'regiao_de_origem',
    'vive_no_brasil', 'pais_onde_mora', 'estado_onde_mora', 'vive_no_estado_de_formacao',
    'estado_de_origem', 'nivel_ensino', 'area_formacao', 'situacao_trabalho', 'setor',
    'numero_funcionarios_empresa', 'atua_como_gestor', 'cargo_gestor', 'cargo_atual',
    'nivel_senioridade', 'faixa_salarial', 'tempo_experiencia_dados', 'tempo_experiencia_ti',
    'satisfacao_empresa_atual', 'motivo_insatisfacao_remuneracao_salario',
    'motivo_insatisfacao_beneficios', 'motivo_insatisfacao_proposito_empresa',
    'motivo_insatisfacao_flexibilidade_remoto', 'motivo_insatisfacao_ambiente_clima_ruim',
    'motivo_insatisfacao_oportunidade_aprendizado', 'motivo_insatisfacao_oportunidade_crescimento',
    'motivo_insatisfacao_maturidade_dados_empresa', 'motivo_insatisfacao_relacao_lider_ruim',
    'motivo_insatisfacao_reputacao_empresa', 'motivo_insatisfacao_desejo_mudar_area',
    'motivos_insatisfacao', 'participou_entrevistas_ultimos_6m', 'pretende_mudar_emprego_ultimos_6m',
    'criterios_escolha_emprego', 'criterio_escolha_remuneracao_salario', 'criterio_escolha_beneficios',
    'criterio_escolha_proposito_empresa', 'criterio_escolha_flexibilidade_remoto',
    'criterio_escolha_ambiente_clima', 'criterio_escolha_oportunidade_aprendizado',
    'criterio_escolha_plano_carreira', 'criterio_escolha_maturidade_dados_empresa',
    'criterio_escolha_qualidade_gestores', 'criterio_escolha_reputacao_empresa',
    'empresa_passou_por_layoff', 'modelo_trabalho_atual', 'modelo_trabalho_ideal',
    'atitude_retorno_100_presencial', 'numero_pessoas_dados_empresa', 'cargos_time_dados_empresa',
    'cargo_dados_analytics_engineer', 'cargo_dados_data_engineer', 'cargo_dados_data_analyst',
    'cargo_dados_data_scientist', 'cargo_dados_dba', 'cargo_dados_analista_bi',
    'cargo_dados_arquiteto_dados', 'cargo_dados_data_product_manager',
    'cargo_dados_business_analyst', 'cargo_dados_ml_engineer', 'responsabilidades_como_gestor',
    'responsabilidade_gestor_visao_longo_prazo', 'responsabilidade_gestor_organiza_treinamentos',
    'responsabilidade_gestor_contrata_talentos', 'responsabilidade_gestor_decide_ferramentas',
    'responsabilidade_gestor_head_engenharia', 'responsabilidade_gestor_head_analises_bi',
    'responsabilidade_gestor_head_ia_ml', 'responsabilidade_gestor_atua_tecnicamente',
    'responsabilidade_gestor_gestao_projetos', 'responsabilidade_gestor_gestao_produtos',
    'responsabilidade_gestor_gestao_pessoas', 'maiores_desafios_gestor',
    'desafio_gestor_contratar_talentos', 'desafio_gestor_reter_talentos',
    'desafio_gestor_convencer_investimentos', 'desafio_gestor_equipes_remotas',
    'desafio_gestor_projetos_multidisciplinares', 'desafio_gestor_garantir_qualidade_dados',
    'desafio_gestor_processar_grande_volume', 'desafio_gestor_gerar_valor_negocio',
    'desafio_gestor_manter_modelos_ml_producao', 'desafio_gestor_gerenciar_expectativas',
    'desafio_gestor_manter_projetos_crescimento', 'desafio_gestor_inovar_com_dados',
    'desafio_gestor_garantir_roi', 'desafio_gestor_dividir_tempo_tecnico_gestao',
    'ia_generativa_prioridade_empresa', 'ia_generativa_tipos_uso_empresa',
    'ia_generativa_uso_independente', 'ia_generativa_uso_centralizado',
    'ia_generativa_uso_copilots', 'ia_generativa_melhora_produtos_externos',
    'ia_generativa_melhora_produtos_internos', 'ia_generativa_principal_frente_negocio',
    'ia_generativa_nao_prioridade', 'ia_generativa_nao_sei_opinar',
    'ia_generativa_motivos_nao_usar', 'ia_motivo_nao_usar_falta_compreensao',
    'ia_motivo_nao_usar_falta_confiabilidade', 'ia_motivo_nao_usar_incerteza_regulamentacao',
    'ia_motivo_nao_usar_seguranca_privacidade', 'ia_motivo_nao_usar_roi_nao_comprovado',
    'ia_motivo_nao_usar_dados_nao_prontos', 'ia_motivo_nao_usar_falta_expertise_recursos',
    'ia_motivo_nao_usar_diretoria_nao_ve_valor', 'ia_motivo_nao_usar_propriedade_intelectual',
    'principal_atuacao_dados', 'atuacao_dados', 'fontes_dados_analisadas', 'fonte_dados_analisada_sql',
    'fonte_dados_analisada_nosql', 'fonte_dados_analisada_imagens', 'fonte_dados_analisada_textos',
    'fonte_dados_analisada_videos', 'fonte_dados_analisada_audios', 'fonte_dados_analisada_planilhas',
    'fonte_dados_analisada_geo', 'fonte_dados_mais_utilizada', 'fonte_dados_principal_sql',
    'fonte_dados_principal_nosql', 'fonte_dados_principal_imagens', 'fonte_dados_principal_textos',
    'fonte_dados_principal_videos', 'fonte_dados_principal_audios', 'fonte_dados_principal_planilhas',
    'fonte_dados_principal_geo', 'linguagens_programacao_usadas', 'linguagem_usada_sql',
    'linguagem_usada_r', 'linguagem_usada_python', 'linguagem_usada_c_cplusplus_csharp',
    'linguagem_usada_dotnet', 'linguagem_usada_java', 'linguagem_usada_julia',
    'linguagem_usada_sas_stata', 'linguagem_usada_vba', 'linguagem_usada_scala',
    'linguagem_usada_matlab', 'linguagem_usada_rust', 'linguagem_usada_php',
    'linguagem_usada_javascript', 'linguagem_usada_nenhuma', 'linguagem_programacao_mais_usada',
    'linguagem_programacao_preferida', 'bancos_dados_usados', 'banco_dados_usado_mysql',
    'banco_dados_usado_oracle', 'banco_dados_usado_sql_server', 'banco_dados_usado_aurora_rds',
    'banco_dados_usado_dynamodb', 'banco_dados_usado_couchdb', 'banco_dados_usado_cassandra',
    'banco_dados_usado_mongodb', 'banco_dados_usado_mariadb', 'banco_dados_usado_datomic',
    'banco_dados_usado_s3', 'banco_dados_usado_postgresql', 'banco_dados_usado_elasticsearch',
    'banco_dados_usado_db2', 'banco_dados_usado_access', 'banco_dados_usado_sqlite',
    'banco_dados_usado_sybase', 'banco_dados_usado_firebase', 'banco_dados_usado_vertica',
    'banco_dados_usado_redis', 'banco_dados_usado_neo4j', 'banco_dados_usado_bigquery',
    'banco_dados_usado_firestore', 'banco_dados_usado_redshift', 'banco_dados_usado_athena',
    'banco_dados_usado_snowflake', 'banco_dados_usado_databricks', 'banco_dados_usado_hbase',
    'banco_dados_usado_presto', 'banco_dados_usado_splunk', 'banco_dados_usado_sap_hana',
    'banco_dados_usado_hive', 'banco_dados_usado_firebird', 'cloud_usada_trabalho',
    'cloud_usada_aws', 'cloud_usada_gcp', 'cloud_usada_azure', 'cloud_usada_oracle', 'cloud_usada_ibm',
    'cloud_usada_on_premise', 'cloud_usada_propria', 'cloud_preferida', 'ferramentas_bi_usadas',
    'ferramenta_bi_usada_powerbi', 'ferramenta_bi_usada_qlik', 'ferramenta_bi_usada_tableau',
    'ferramenta_bi_usada_metabase', 'ferramenta_bi_usada_superset', 'ferramenta_bi_usada_redash',
    'ferramenta_bi_usada_looker', 'ferramenta_bi_usada_looker_studio', 'ferramenta_bi_usada_quicksight',
    'ferramenta_bi_usada_alteryx', 'ferramenta_bi_usada_sap_bo', 'ferramenta_bi_usada_oracle_bi',
    'ferramenta_bi_usada_salesforce_einstein', 'ferramenta_bi_usada_sas_va', 'ferramenta_bi_usada_grafana',
    'ferramenta_bi_usada_pentaho', 'ferramenta_bi_usada_planilhas', 'ferramenta_bi_usada_nenhuma',
    'ferramenta_bi_preferida', 'ia_generativa_uso_pessoal', 'ia_generativa_uso_pessoal_independente',
    'ia_generativa_uso_pessoal_centralizado', 'ia_generativa_uso_pessoal_copilots',
    'ia_generativa_uso_pessoal_melhora_produtos_externos', 'ia_generativa_uso_pessoal_melhora_produtos_internos',
    'ia_generativa_uso_pessoal_principal_frente_negocio', 'ia_generativa_uso_pessoal_nao_prioridade',
    'ia_generativa_uso_pessoal_nao_sei_opinar', 'ia_generativa_produtividade_uso',
    'ia_produtividade_nao_uso', 'ia_produtividade_uso_gratis', 'ia_produtividade_pago_uso',
    'ia_produtividade_empresa_paga', 'ia_produtividade_uso_copilot_dev', 'objetivo_area_dados',
    'oportunidade_desejada', 'tempo_busca_oportunidade', 'experiencia_busca_emprego',
    'rotina_engenheiro_dados', 'rotina_de_desenvolve_pipelines', 'rotina_de_constroi_etl',
    'rotina_de_cria_consultas_sql', 'rotina_de_integra_fontes_dados', 'rotina_de_modela_arquitetura',
    'rotina_de_mantem_datalakes', 'rotina_de_modela_dw_dm', 'rotina_de_cuida_qualidade_dados',
    'rotina_de_nenhuma_opcao', 'ferramentas_etl_engenheiro_dados', 'etl_de_python', 'etl_de_sql_sp',
    'etl_de_airflow', 'etl_de_nifi', 'etl_de_luigi', 'etl_de_aws_glue', 'etl_de_talend', 'etl_de_pentaho',
    'etl_de_alteryx', 'etl_de_stitch', 'etl_de_fivetran', 'etl_de_dataflow', 'etl_de_oracle_di',
    'etl_de_ibm_datastage', 'etl_de_sap_bw', 'etl_de_ssis', 'etl_de_sas_di', 'etl_de_qlik_sense',
    'etl_de_knime', 'etl_de_databricks', 'etl_de_nenhuma', 'empresa_possui_datalake',
    'plataforma_datalake', 'empresa_possui_datawarehouse', 'plataforma_datawarehouse',
    'ferramentas_qualidade_dados_usadas', 'principal_gasto_tempo_de', 'tempo_de_desenvolvendo_pipelines',
    'tempo_de_construindo_etl', 'tempo_de_criando_consultas_sql', 'tempo_de_integrando_fontes_dados',
    'tempo_de_modelando_arquitetura', 'tempo_de_mantendo_datalakes', 'tempo_de_modelando_dw_dm',
    'tempo_de_cuidando_qualidade_dados', 'tempo_de_nenhuma_opcao', 'rotina_analista_dados',
    'rotina_da_analisa_dados_py_r', 'rotina_da_constroi_dashboards', 'rotina_da_cria_consultas_sql',
    'rotina_da_usa_apis', 'rotina_da_realiza_testes_estatisticos', 'rotina_da_mantem_etl',
    'rotina_da_modela_dw_dm', 'rotina_da_mantem_planilhas', 'rotina_da_usa_ferramentas_estatisticas',
    'rotina_da_nenhuma_opcao', 'ferramentas_etl_analista_dados', 'etl_da_python', 'etl_da_sql_sp',
    'etl_da_airflow', 'etl_da_nifi', 'etl_da_luigi', 'etl_da_aws_glue', 'etl_da_talend',
    'etl_da_pentaho', 'etl_da_alteryx', 'etl_da_stitch', 'etl_da_fivetran', 'etl_da_dataflow',
    'etl_da_oracle_di', 'etl_da_ibm_datastage', 'etl_da_sap_bw', 'etl_da_ssis', 'etl_da_sas_di',
    'etl_da_qlik_sense', 'etl_da_knime', 'etl_da_databricks', 'etl_da_nenhuma',
    'empresa_usa_ferramentas_autonomia_negocio', 'ferramenta_autonomia_automl',
    'ferramenta_autonomia_point_click', 'ferramenta_autonomia_product_insights',
    'ferramenta_autonomia_crm_analytics', 'ferramenta_autonomia_nenhuma',
    'ferramenta_autonomia_nao_sei', 'principal_gasto_tempo_da', 'tempo_da_analisando_dados_py_r',
    'tempo_da_construindo_dashboards', 'tempo_da_criando_consultas_sql', 'tempo_da_usando_apis',
    'tempo_da_realizando_testes_estatisticos', 'tempo_da_mantendo_etl', 'tempo_da_modelando_dw_dm',
    'tempo_da_mantendo_planilhas', 'tempo_da_usando_ferramentas_estatisticas', 'tempo_da_nenhuma_opcao',
    'rotina_cientista_dados', 'rotina_ds_estudos_ad_hoc', 'rotina_ds_coleta_limpeza_dados',
    'rotina_ds_contato_area_negocio', 'rotina_ds_desenvolve_modelos_ml', 'rotina_ds_coloca_modelos_producao',
    'rotina_ds_mantem_modelos_producao', 'rotina_ds_constroi_dashboards', 'rotina_ds_usa_ferramentas_estatisticas',
    'rotina_ds_mantem_etl_dags', 'rotina_ds_gerencia_feature_store_mlops',
    'rotina_ds_cria_mantem_infra', 'rotina_ds_treina_aplica_llm', 'tecnicas_metodos_cientista_dados',
    'tecnica_ds_regressao', 'tecnica_ds_redes_neurais_arvores', 'tecnica_ds_sistemas_recomendacao',
    'tecnica_ds_metodos_bayesianos', 'tecnica_ds_nlp', 'tecnica_ds_metodos_estatisticos_classicos',
    'tecnica_ds_markov_hmm', 'tecnica_ds_clusterizacao', 'tecnica_ds_series_temporais',
    'tecnica_ds_reinforcement_learning', 'tecnica_ds_deteccao_fraude', 'tecnica_ds_visao_computacional',
    'tecnica_ds_deteccao_churn', 'tecnica_ds_usa_llm', 'tecnologias_dia_a_dia_cientista_dados',
    'tecnologia_ds_ferramentas_bi', 'tecnologia_ds_planilhas', 'tecnologia_ds_ide_local',
    'tecnologia_ds_ide_nuvem', 'tecnologia_ds_ferramentas_automl', 'tecnologia_ds_ferramentas_etl',
    'tecnologia_ds_plataformas_ml', 'tecnologia_ds_feature_store', 'tecnologia_ds_controle_versao',
    'tecnologia_ds_data_apps', 'tecnologia_ds_ferramentas_estatisticas', 'principal_gasto_tempo_ds',
    'tempo_ds_estudos_ad_hoc', 'tempo_ds_coleta_limpeza_dados', 'tempo_ds_contato_area_negocio',
    'tempo_ds_desenvolve_modelos_ml', 'tempo_ds_coloca_modelos_producao',
    'tempo_ds_mantem_modelos_producao', 'tempo_ds_constroi_dashboards',
    'tempo_ds_usa_ferramentas_estatisticas', 'tempo_ds_mantem_etl_dags',
    'tempo_ds_gerencia_feature_store_mlops', 'tempo_ds_cria_mantem_infra',
    'tempo_ds_treina_aplica_llm', 'ano_base'
]

 Substituindo os nomes para os simplificados

In [123]:

# Renaming columns using the standardized lists
df_2022.columns = colunas_2022_simplificadas
df_2023.columns = colunas_2023_simplificadas
df_2024.columns = colunas_2024_simplificadas

# Juntando as bases de dados

Após a padronização dos nomes das colunas, foi realizada a junção das três edições da pesquisa (2022, 2023 e 2024) em um único DataFrame, denominado data_completo. Esse processo permitiu a criação de uma base histórica unificada, viabilizando análises comparativas e séries temporais ao longo dos anos.

In [124]:
# Renomear colunas e empilhar os DataFrames
data_completo = pd.concat([df_2022, df_2023, df_2024], ignore_index=True)

print("DataFrame completo:", data_completo.shape)

data_completo.info()

print("Colunas 2022-24:")

print(data_completo.columns.tolist())

DataFrame completo: (14781, 427)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14781 entries, 0 to 14780
Columns: 427 entries, id to cargo_dados_ml_engineer
dtypes: float64(346), int64(2), object(79)
memory usage: 48.2+ MB
Colunas 2022-24:
['id', 'idade', 'faixa_idade', 'genero', 'cor_raca_etnia', 'pcd', 'experiencia_profissional_prejudicada', 'aspectos_prejudicados', 'vive_no_brasil', 'estado_onde_mora', 'uf_onde_mora', 'regiao_onde_mora', 'mudou_de_estado_de_origem', 'regiao_de_origem', 'nivel_ensino', 'area_formacao', 'situacao_trabalho', 'setor', 'numero_funcionarios_empresa', 'atua_como_gestor', 'cargo_gestor', 'cargo_atual', 'nivel_senioridade', 'faixa_salarial', 'tempo_experiencia_dados', 'tempo_experiencia_ti', 'satisfacao_empresa_atual', 'motivos_insatisfacao', 'motivo_insatisfacao_oportunidade_crescimento', 'motivo_insatisfacao_salario_incompativel', 'motivo_insatisfacao_relacao_lider_ruim', 'motivo_insatisfacao_desejo_mudar_area', 'motivo_insatisfacao_mais_beneficios', '

#  Contagem de profissionais por setor a cada Ano
Com o objetivo de identificar tendências setoriais e verificar o crescimento ou retração de setores específicos no mercado de dados brasileiro, foi realizada uma contagem do número de profissionais por setor, segmentada por ano.

In [125]:

# Agrupar por ano e depois contar os setores
contagem_anual = data_completo.groupby('ano_base')['setor'].value_counts()

# Usar 'unstack()' para transformar os anos em colunas, facilitando a leitura
contagem_anual_tabela = contagem_anual.unstack(level='ano_base', fill_value=0)

print("\nContagem de profissionais por setor a cada ano:")
display(contagem_anual_tabela)


Contagem de profissionais por setor a cada ano:


ano_base,2022,2023,2024
setor,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Agronegócios,69,92,84
Educação,142,209,194
Entretenimento ou Esportes,32,59,46
Filantropia/ONG's,11,28,15
Finanças ou Bancos,600,927,1035
Indústria,218,313,328
Internet/Ecommerce,167,129,153
Marketing,95,115,114
Outra Opção,269,344,332
Seguros ou Previdência,55,68,65


# Seleção dos Dados
Como vamos trabalhar somente com setores relacionados a bancos ou fintchs seleicionamos 'Finanças ou Bancos', 'Seguros ou Previdência', e validamos par ver se foi executado


In [126]:
# Filtrar setores financeiros
setores_financeiros = ['Finanças ou Bancos', 'Seguros ou Previdência']
df_financeiro = data_completo[data_completo['setor'].isin(setores_financeiros)].copy()

print("\nDataFrame filtrado (df_financeiro):", df_financeiro.shape)
print("Setores no novo DataFrame:", df_financeiro['setor'].unique())



DataFrame filtrado (df_financeiro): (2750, 427)
Setores no novo DataFrame: ['Finanças ou Bancos' 'Seguros ou Previdência']


# Separando Banco de Fintchs

A base da pesquisa State of Data não apresenta uma classificação explícita para distinguir bancos tradicionais de fintechs. Diante disso, foi necessário estabelecer uma abordagem analítica baseada em hipóteses e estudos de mercado para fazer essa distinção.

 **Desafio**
Como separar bancos e fintechs se ambos pertencem ao setor "Finanças ou Bancos"?

**Hipótese Adotada**
Com base em referências de mercado e estrutura organizacional de empresas como Nubank, Inter, C6 Bank, entre outras, foi adotado o número de funcionários como critério principal para inferir o porte da empresa:

Bancos tradicionais geralmente possuem acima de 1.000 funcionários.

Fintechs, por outro lado, tendem a ter estruturas mais enxutas, mesmo com forte presença tecnológica.


In [127]:
# Classificação do porte da empresa
faixas_grande_porte = ['Acima de 3.000', 'de 1.001 a 3.000']
faixas_pequeno_medio_porte = [
    'de 501 a 1.000',
    'de 101 a 500',
    'de 51 a 100',
    'de 11 a 50',
    'de 6 a 10',
    'de 1 a 5'
]

# Inicializa a coluna com valor padrão
df_financeiro['arquétipo_tamanho'] = 'Não Classificado'

In [128]:
# Aplica as classificações
df_financeiro.loc[
    df_financeiro['numero_funcionarios_empresa'].isin(faixas_grande_porte),
    'arquétipo_tamanho'
] = 'Grande Porte (Provável Banco)'

df_financeiro.loc[
    df_financeiro['numero_funcionarios_empresa'].isin(faixas_pequeno_medio_porte),
    'arquétipo_tamanho'
] = 'Pequeno/Médio Porte (Provável Fintech)'

# Verificação
print("\nContagem final de cada arquétipo:")
print(df_financeiro['arquétipo_tamanho'].value_counts())

# Salvar tudo em um único DataFrame
df_financeiro.to_csv('data_financeiro_classificado.csv', sep=';', encoding='utf-8-sig', index=False)



Contagem final de cada arquétipo:
arquétipo_tamanho
Grande Porte (Provável Banco)             1847
Pequeno/Médio Porte (Provável Fintech)     903
Name: count, dtype: int64


#  Analise Exploratoria

Após a etapa de limpeza, padronização, tratamento e integração das bases de dados do State of Data Brazil (2022–2024), iniciamos a análise exploratória orientada por hipóteses, com o objetivo de investigar fenômenos emergentes no setor financeiro e tecnológico brasileiro.

A análise foi estruturada em cinco eixos temáticos, sendo que cada eixo apresenta:

##  **Eixo 1 — Remuneração e Valorização Profissional**

## Distribuição Salarial Comparativa Bancos vs Fitchs (22-24)

O gráfico interativo a seguir apresenta a distribuição percentual dos profissionais de dados por faixa salarial, segmentada entre empresas de grande porte (prováveis bancos) e pequeno/médio porte (prováveis fintechs), com base nas edições de 2022 a 2024 da pesquisa State of Data - Brasil.

Cada linha do gráfico representa um ano, permitindo a comparação temporal. As faixas salariais estão organizadas no eixo horizontal, e a proporção de respondentes está no eixo vertical. O uso de cores diferencia os arquétipos analisados, enquanto a interatividade do gráfico permite a inspeção detalhada de cada ponto, com destaque para a porcentagem de profissionais em cada faixa.

Essa visualização tem como objetivo identificar padrões salariais e possíveis desigualdades estruturais entre os dois modelos de negócio ao longo do tempo.



In [129]:
# 1. Mapeamento das faixas salariais para valores numéricos
salary_map = {
    'Menos de R$ 1.000/mês': 1000,
    'de R$ 1.001/mês a R$ 2.000/mês': 1500,
    'de R$ 2.001/mês a R$ 3.000/mês': 2500,
    'de R$ 3.001/mês a R$ 4.000/mês': 3500,
    'de R$ 4.001/mês a R$ 6.000/mês': 5000,
    'de R$ 6.001/mês a R$ 8.000/mês': 7000,
    'de R$ 8.001/mês a R$ 12.000/mês': 10000,
    'de R$ 12.001/mês a R$ 16.000/mês': 14000,
    'de R$ 16.001/mês a R$ 20.000/mês': 18000,
    'de R$ 20.001/mês a R$ 25.000/mês': 22500,
    'de R$ 25.001/mês a R$ 30.000/mês': 27500,
    'de R$ 30.001/mês a R$ 40.000/mês': 35000,
    'Acima de R$ 40.001/mês': 45000
}

# 2. Definir ordem correta das faixas salariais
faixa_salarial_order = list(salary_map.keys())

# 3. Criar coluna numérica e verificar valores ausentes
df_financeiro['salario_numerico'] = df_financeiro['faixa_salarial'].map(salary_map)

print("Verificação da nova coluna 'salario_numerico':")
print(df_financeiro[['faixa_salarial', 'salario_numerico']].head())
print("\nDados faltantes na nova coluna:", df_financeiro['salario_numerico'].isnull().sum())

# (Opcional) Mostrar faixas não mapeadas
faixas_invalidas = df_financeiro[df_financeiro['salario_numerico'].isnull()]['faixa_salarial'].unique()
if len(faixas_invalidas) > 0:
    print("\nFaixas salariais não mapeadas detectadas:")
    print(faixas_invalidas)

# 4. Converter faixa salarial para tipo categórico ordenado
faixa_salarial_cat_type = CategoricalDtype(categories=faixa_salarial_order, ordered=True)
df_financeiro['salary_map'] = df_financeiro['faixa_salarial'].astype(faixa_salarial_cat_type)

# 5. Agrupar e contar registros por grupo
distribuicao_completa_df = df_financeiro.groupby(
    ['ano_base', 'arquétipo_tamanho', 'salary_map'],
    observed=False  # Para evitar FutureWarning do Pandas
).size().reset_index(name='contagem')

# 6. Calcular porcentagem dentro de cada grupo
total_por_grupo = distribuicao_completa_df.groupby(['ano_base', 'arquétipo_tamanho'])['contagem'].transform('sum')
distribuicao_completa_df['porcentagem'] = (distribuicao_completa_df['contagem'] / total_por_grupo) * 100



Verificação da nova coluna 'salario_numerico':
                      faixa_salarial  salario_numerico
2   de R$ 12.001/mês a R$ 16.000/mês             14000
6     de R$ 4.001/mês a R$ 6.000/mês              5000
13    de R$ 4.001/mês a R$ 6.000/mês              5000
18    de R$ 6.001/mês a R$ 8.000/mês              7000
19   de R$ 8.001/mês a R$ 12.000/mês             10000

Dados faltantes na nova coluna: 0


In [130]:
# 1. Obter a lista de anos únicos no DataFrame (em ordem cronológica)
anos = sorted(distribuicao_completa_df['ano_base'].unique())

# 2. Loop para criar e exibir um gráfico para cada ano
print("Exibindo os gráficos interativos por ano:")

for ano in anos:
    # Filtrar os dados apenas para o ano atual
    df_ano = distribuicao_completa_df[distribuicao_completa_df['ano_base'] == ano]

    # Criar o gráfico de barras interativo usando Plotly Express
    fig = px.bar(
        data_frame=df_ano,
        x='salary_map',
        y='porcentagem',
        color='arquétipo_tamanho',  # Equivalente ao 'hue' do Seaborn
        text='porcentagem',          # Adiciona os valores como texto nas barras
        barmode='group',             # Agrupa as barras (comportamento padrão)
        color_discrete_map={         # Equivalente à 'palette' do Seaborn
            'Grande Porte (Provável Banco)': '#854442',
            'Pequeno/Médio Porte (Provável Fintech)': '#b3cde0'
        }
    )

    # Personalizar o layout do gráfico (títulos, eixos, etc.)
    fig.update_layout(
        title={
            'text': f'Distribuição Salarial Comparativa: Bancos vs. Fintechs ({ano})',
            'y':0.95,
            'x':0.5,
            'xanchor': 'center',
            'yanchor': 'top',
            'font': {'size': 18}
        },
        xaxis_title="Faixa Salarial",
        yaxis_title="Porcentagem de Respondentes (%)",
        legend_title="Arquétipo",
        xaxis_tickangle=-45, # Rotaciona os rótulos do eixo X
        height=600,
        width=1000,
        font=dict(size=12)
    )

    # Personalizar a formatação do texto sobre as barras
    # Formata o número para ter uma casa decimal e adiciona o sufixo '%'
    fig.update_traces(
        texttemplate='%{text:.1f}%',
        textposition='outside' # Coloca o texto fora (acima) da barra
    )

    # Exibir o gráfico interativo
    fig.show()



Exibindo os gráficos interativos por ano:


## Cáculo de Variação Percentual Anual

Para garantir que o cálculo da variação percentual seja correto e coerente, o primeiro passo é ordenar os dados de forma adequada.

* Ordenamos o DataFrame distribuicao_completa_df por três colunas, em ordem hierárquica:

* arquétipo_tamanho — para agrupar os dados por categoria ou perfil de tamanho;

* faixa_salarial_ordenada — para manter as faixas salariais em sequência lógica;

ano_base — para garantir a ordenação cronológica dos dados.

In [131]:
# 1. Ordenar os dados para garantir cálculo correto da variação ano a ano
distribuicao_completa_df = distribuicao_completa_df.sort_values(
    by=['arquétipo_tamanho', 'salary_map', 'ano_base']
)

# 2. Calcular a variação percentual ano a ano por arquétipo e faixa salarial
variacao = distribuicao_completa_df.groupby(
    ['arquétipo_tamanho', 'salary_map']
)['porcentagem'].pct_change()

# 3. Criar novo DataFrame com a coluna de variação percentual
df_variacao = distribuicao_completa_df.copy()
df_variacao['variacao_percentual'] = variacao

# 4. Converter para porcentagem legível e preencher NaNs com 0
df_variacao['variacao_percentual'] = df_variacao['variacao_percentual'].fillna(0).mul(100).round(2)

# 5. Exibir resultado para uma faixa salarial específica (exemplo: R$ 12.001 a R$ 16.000)
print("Cálculo da variação percentual ano a ano concluído. Veja uma amostra:\n")
print(
    df_variacao[df_variacao['salary_map'] == 'de R$ 12.001/mês a R$ 16.000/mês']
)

Cálculo da variação percentual ano a ano concluído. Veja uma amostra:

    ano_base                       arquétipo_tamanho  \
7       2022           Grande Porte (Provável Banco)   
33      2023           Grande Porte (Provável Banco)   
59      2024           Grande Porte (Provável Banco)   
20      2022  Pequeno/Médio Porte (Provável Fintech)   
46      2023  Pequeno/Médio Porte (Provável Fintech)   
72      2024  Pequeno/Médio Porte (Provável Fintech)   

                          salary_map  contagem  porcentagem  \
7   de R$ 12.001/mês a R$ 16.000/mês        68    16.464891   
33  de R$ 12.001/mês a R$ 16.000/mês       107    16.310976   
59  de R$ 12.001/mês a R$ 16.000/mês       131    16.838046   
20  de R$ 12.001/mês a R$ 16.000/mês        36    14.876033   
46  de R$ 12.001/mês a R$ 16.000/mês        41    12.094395   
72  de R$ 12.001/mês a R$ 16.000/mês        42    13.043478   

    variacao_percentual  
7                  0.00  
33                -0.93  
59              





# Variacao Salarial Ano a Ano

Criamos um gráfico comparativo que mostra a variação percentual anual na distribuição salarial entre 2022-2023 e 2023-2024 para dois arquétipos: grandes empresas (prováveis bancos) e pequenas/médias empresas (prováveis fintechs). O gráfico evidencia quais faixas salariais tiveram aumento ou queda em cada ano, facilitando a visualização das dinâmicas salariais diferenciadas entre os setores ao longo do tempo.

In [132]:
# 1. Preparar e filtrar os dados (como no seu código)
df_variacao['ano_base'] = pd.to_numeric(df_variacao['ano_base'], errors='coerce')
df_plot_variacao = df_variacao[df_variacao['ano_base'].isin([2023, 2024])]

# Verificação para garantir que o DataFrame não está vazio
if df_plot_variacao.empty:
    print("AVISO: O DataFrame está vazio após o filtro. Não há dados para os anos 2023 e 2024.")
    print("Nenhum gráfico será gerado.")
else:
    # Lista de anos ordenada
    anos_para_plotar = sorted(df_plot_variacao['ano_base'].unique())

    # 2. Loop para plotar gráfico de variação para cada ano
    for ano in anos_para_plotar:
        df_ano = df_plot_variacao[df_plot_variacao['ano_base'] == ano]

        # Criar o gráfico de barras interativo usando Plotly Express
        fig = px.bar(
            data_frame=df_ano,
            x='salary_map',
            y='variacao_percentual',
            color='arquétipo_tamanho',  # Equivalente ao 'hue' do Seaborn
            text='variacao_percentual', # Adiciona os valores como texto nas barras
            barmode='group',
            color_discrete_map={       # Equivalente à 'palette'
                'Grande Porte (Provável Banco)': '#854442',
                'Pequeno/Médio Porte (Provável Fintech)': '#b3cde0'
            }
        )

        # 3. Personalizações
        # Adicionar linha horizontal em y=0 (equivalente a ax.axhline)
        fig.add_hline(y=0, line_width=1, line_dash="dash", line_color="gray")

        # Personalizar o layout do gráfico (títulos, eixos, etc.)
        fig.update_layout(
            title={
                'text': f'Variação Anual (%) na Distribuição de Salários em {int(ano)}',
                'y':0.95,
                'x':0.5,
                'xanchor': 'center',
                'yanchor': 'top',
                'font': {'size': 18}
            },
            xaxis_title="Faixa Salarial",
            yaxis_title="Variação Percentual vs. Ano Anterior",
            legend_title="Arquétipo",
            xaxis_tickangle=-45,
            height=600,
            width=1000
        )

        # Personalizar a formatação e posição do texto sobre as barras
        # Formata como inteiro e adiciona '%'
        # 'outside' posiciona o texto acima das barras positivas e abaixo das negativas
        fig.update_traces(
            texttemplate='%{text:.0f}%',
            textposition='outside'
        )

        # Exibir o gráfico interativo
        fig.show()

## Perfil Médio de Distribuição Salarial: Bancos vs. Fintechs (2022-2024)
O script tem como objetivo analisar e visualizar a distribuição média de salários entre dois arquétipos de empresas (bancos e fintechs), com base em dados agregados das edições da pesquisa State of Data Brazil de 2022 a 2024. A visualização busca identificar padrões de concentração de profissionais por faixa salarial em diferentes portes de empresa.



In [133]:
# 1. Agrupar e calcular a média (código pandas inalterado)
perfil_medio = distribuicao_completa_df.groupby(
    ['arquétipo_tamanho', 'salary_map']
)['porcentagem'].mean().round(2)

# 2. Transformar em DataFrame (código pandas inalterado)
perfil_medio_df = perfil_medio.reset_index()
perfil_medio_df.rename(columns={'porcentagem': 'media_porcentagem'}, inplace=True)


# 4. Criar gráfico com Plotly Express
fig = px.bar(
    data_frame=perfil_medio_df,
    x='salary_map',
    y='media_porcentagem',
    color='arquétipo_tamanho',
    text='media_porcentagem',
    barmode='group',
    color_discrete_map={
        'Grande Porte (Provável Banco)': '#854442',
        'Pequeno/Médio Porte (Provável Fintech)': '#b3cde0'
    }
)

# 5. Estilização e rótulos
fig.update_layout(
    title={
        'text': 'Perfil Médio de Distribuição Salarial: Bancos vs. Fintechs (2022–2024)',
        'font': {'size': 20},
        'x': 0.5, # Centraliza o título
        'y': 0.95
    },
    xaxis_title="Faixa Salarial",
    yaxis_title="Média da Porcentagem de Profissionais (%)",
    xaxis_tickangle=45,
    legend_title="Arquétipo de Empresa",
    font=dict(size=12), # Fonte padrão para o restante do gráfico
    height=650,
    width=1200
)

# 6. Adicionar e formatar valores nas barras
fig.update_traces(
    texttemplate='%{text:.1f}%', # Formato com uma casa decimal e '%'
    textposition='outside',     # Posição do texto (acima da barra)
    textfont_size=9
)

# Exibir o gráfico interativo
fig.show()







# Salário do 3º Quartil (p75) por Senioridade e Arquétipo  
Este gráfico oferece uma visão detalhada dos salários superiores praticados no setor financeiro, evidenciando diferenças salariais por senioridade e porte organizacional. É uma ferramenta estratégica para:

* Analisar desigualdades de remuneração;

* Compreender o teto salarial mais comum em diferentes perfis de empresa;

Orientar decisões de carreira e políticas salariais.

Este script visa calcular e visualizar o salário do 3º quartil (percentil 75, ou p75) para diferentes níveis de senioridade, segmentando os dados por tipo de empresa (grande porte vs. pequeno/médio porte). A análise permite identificar os valores salariais mais altos comumente oferecidos nos diferentes níveis hierárquicos dentro de bancos e fintechs.



In [134]:
# 1. Calcular o 3º Quartil (p75) - código pandas inalterado
p75_salary_by_level_archetype = df_financeiro.groupby(['nivel_senioridade', 'arquétipo_tamanho'])['salario_numerico'].quantile(0.75)
p75_salary_plot_df = p75_salary_by_level_archetype.reset_index()

# 2. (Opcional, mas recomendado) Criar uma coluna com o texto já formatado para os rótulos
# Isso dá controle total sobre a aparência do texto nas barras.
p75_salary_plot_df['texto_salario'] = p75_salary_plot_df['salario_numerico'].apply(
    lambda x: f"R$ {x:,.0f}".replace(',', '.')
)

# 3. Criar o gráfico com Plotly Express
fig = px.bar(
    data_frame=p75_salary_plot_df,
    x='nivel_senioridade',
    y='salario_numerico',
    color='arquétipo_tamanho',
    text='texto_salario', # Usa a coluna de texto pré-formatado para os rótulos
    category_orders={ # Equivalente ao 'order' do Seaborn
        'nivel_senioridade': ['Júnior', 'Pleno', 'Sênior']
    },
    color_discrete_map={ # Equivalente à 'palette'
        'Grande Porte (Provável Banco)': '#854442',
        'Pequeno/Médio Porte (Provável Fintech)': '#b3cde0'
    }
)

# 4. Personalizar layout, títulos e eixos
fig.update_layout(
    title={
        'text': 'Salário do 3º Quartil (p75) por Senioridade e Arquétipo',
        'font': {'size': 18},
        'x': 0.5 # Centraliza o título
    },
    xaxis_title='Nível de Senioridade',
    yaxis_title='Salário do 3º Quartil (R$)',
    legend_title='Arquétipo',
    font=dict(size=12),
    height=600,
    width=1000
)

# 5. Personalizar a aparência do texto nas barras
fig.update_traces(
    textposition='outside', # Posiciona o texto acima da barra
    texttemplate='%{text}', # Usa o conteúdo da coluna 'text' sem formatação adicional
    textfont_size=12
)

# Exibir o gráfico interativo
fig.show()


## Distribuição Salarial Completa por Senioridade e Arquétipo¶

Este script tem como finalidade representar a distribuição completa dos salários no setor financeiro por meio de um boxplot (diagrama de caixa), segmentando os dados por nível de senioridade e arquétipo da empresa (bancos de grande porte e fintechs de pequeno/médio porte). A visualização permite identificar dispersão, mediana, outliers e assimetrias salariais em diferentes perfis organizacionais.



In [135]:

# 1. Criar o gráfico de Box Plot com Plotly Express
fig = px.box(
    data_frame=df_financeiro,
    x='nivel_senioridade',
    y='salario_numerico',
    color='arquétipo_tamanho', # Equivalente ao 'hue' do Seaborn
    category_orders={        # Equivalente ao 'order' do Seaborn
        'nivel_senioridade': ['Júnior', 'Pleno', 'Sênior', 'Liderança']
    },
    color_discrete_map={     # Equivalente à 'palette'
        'Grande Porte (Provável Banco)': '#854442',
        'Pequeno/Médio Porte (Provável Fintech)': '#b3cde0'
    }
)

# 2. Personalizar layout, títulos e eixos
fig.update_layout(
    title={
        'text': 'Distribuição Salarial Completa por Senioridade e Arquétipo',
        'font': {'size': 18},
        'x': 0.5 # Centraliza o título
    },
    xaxis_title='Nível de Senioridade',
    yaxis_title='Salário (R$)',
    legend_title='Arquétipo',
    font=dict(size=12),
    height=650,
    width=1100
)

# Formata o eixo Y para exibir a moeda corretamente
fig.update_yaxes(tickprefix="R$ ", tickformat=",.0f")

# Exibir o gráfico interativo

fig.show()


#Eixo 2

## Taxa de Adoção (%) de Plataformas de Nuvem por Ano e Arquétipo:
Este trecho de código tem como finalidade calcular a taxa de adoção de plataformas de computação em nuvem no setor financeiro, segmentando os dados por ano-base e arquétipo organizacional (bancos de grande porte e fintechs de pequeno/médio porte). A análise busca compreender a evolução do uso de serviços de nuvem e o ritmo de migração de infraestruturas legadas.

Esta métrica fornece insumos estratégicos para avaliar maturidade tecnológica, auxiliar diagnósticos de modernização de infraestrutura, além de revelar diferenciais competitivos entre bancos e fintechs no uso de tecnologias escaláveis.


In [136]:

# As colunas de nuvem são booleanas (True/False ou 1/0), então podemos usar a média para obter a taxa de adoção.
# A média de uma coluna de 0s e 1s é o mesmo que a porcentagem de 1s.
cloud_columns = [
    'cloud_usada_aws',
    'cloud_usada_gcp',
    'cloud_usada_azure',
    'cloud_usada_on_premise' # Importante para analisar a migração de sistemas legados
]

# Agrupe por ano e arquétipo e calcule a média para cada coluna de nuvem
adoption_rates = df_financeiro.groupby(['ano_base', 'arquétipo_tamanho'])[cloud_columns].mean().mul(100).round(2)

print("Taxa de Adoção (%) de Plataformas de Nuvem por Ano e Arquétipo:")
display(adoption_rates)

Taxa de Adoção (%) de Plataformas de Nuvem por Ano e Arquétipo:


Unnamed: 0_level_0,Unnamed: 1_level_0,cloud_usada_aws,cloud_usada_gcp,cloud_usada_azure,cloud_usada_on_premise
ano_base,arquétipo_tamanho,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2022,Grande Porte (Provável Banco),54.96,16.15,12.75,
2022,Pequeno/Médio Porte (Provável Fintech),46.7,21.98,13.74,
2023,Grande Porte (Provável Banco),18.72,25.69,64.04,15.41
2023,Pequeno/Médio Porte (Provável Fintech),23.55,27.8,51.74,10.42
2024,Grande Porte (Provável Banco),64.41,14.8,29.76,11.34
2024,Pequeno/Médio Porte (Provável Fintech),55.56,23.87,24.69,11.11


## Evolução Adoção Cloud

 Este bloco de código tem como finalidade gerar uma visualização temporal da adoção de plataformas de computação em nuvem por parte de empresas do setor financeiro, segmentando os dados por ano-base e tipo de organização (bancos e fintechs). A análise permite observar tendências e diferenças de comportamento tecnológico entre os dois perfis ao longo do tempo (2022–2024).

A visualização gerada permite:

* Monitorar crescimento ou declínio na adoção de cada tecnologia cloud;

* Comparar a velocidade de modernização tecnológica entre bancos e fintechs;

* Detectar resistência à migração de sistemas legados (caso de on-premise);

* Subsidiar análises de maturidade digital organizacional.




In [137]:
# As colunas de nuvem são booleanas (True/False ou 1/0), então podemos usar a média para obter a taxa de adoção.
# A média de uma coluna de 0s e 1s é o mesmo que a porcentagem de 1s.
cloud_columns = [
    'cloud_usada_aws',
    'cloud_usada_gcp',
    'cloud_usada_azure',
    'cloud_usada_on_premise' # Importante para analisar a migração de sistemas legados
]

# Agrupe por ano e arquétipo e calcule a média para cada coluna de nuvem
adoption_rates = df_financeiro.groupby(['ano_base', 'arquétipo_tamanho'])[cloud_columns].mean().mul(100).round(2)

# --- SEÇÃO ADICIONADA PARA CRIAR adoption_plot_df ---
# 1. Transformar a tabela resumida em formato longo para Plotly
adoption_plot_df = adoption_rates.reset_index().melt(
    id_vars=['ano_base', 'arquétipo_tamanho'],
    value_vars=cloud_columns,
    var_name='plataforma',
    value_name='taxa_de_adocao_percentual'
)

# 2. Limpar os nomes das plataformas para os rótulos do gráfico
plataformas = adoption_plot_df['plataforma'].unique()
plataforma_nomes_amigaveis = {
    'cloud_usada_aws': 'AWS',
    'cloud_usada_gcp': 'GCP',
    'cloud_usada_azure': 'Azure',
    'cloud_usada_on_premise': 'On-Premise'
}
adoption_plot_df['plataforma'] = adoption_plot_df['plataforma'].map(plataforma_nomes_amigaveis)
# --- FIM DA SEÇÃO ADICIONADA ---


fig_facet = px.line(
    data_frame=adoption_plot_df, # Usa o DataFrame completo
    x='ano_base',
    y='taxa_de_adocao_percentual',
    color='arquétipo_tamanho',
    line_dash='arquétipo_tamanho',
    facet_row='plataforma',      # << A MÁGICA ACONTECE AQUI: cria um subplot por plataforma
    markers=True,
    category_orders={'plataforma': sorted(adoption_plot_df['plataforma'].unique())}, # Garante a ordem dos subplots
    color_discrete_map={
        'Grande Porte (Provável Banco)': '#854442',
        'Pequeno/Médio Porte (Provável Fintech)': '#b3cde0'
    },
    labels={ # Renomeia os rótulos de forma geral
        'taxa_de_adocao_percentual': 'Taxa de Adoção (%)',
        'ano_base': 'Ano'
    }
)

# Personaliza o layout geral
fig_facet.update_layout(
    title={
        'text': 'Evolução da Adoção de Cloud: Bancos vs. Fintechs (2022-2024)',
        'font': {'size': 20},
        'x': 0.5
    },
    legend_title="Arquétipo",
    height=800 # Altura maior para acomodar os subplots
)

# Personaliza os títulos dos subplots (que são gerados automaticamente)
fig_facet.for_each_annotation(lambda a: a.update(text=a.text.split("=")[1]))

# Ajustes finos nos eixos
fig_facet.update_yaxes(ticksuffix="%")
fig_facet.update_xaxes(dtick=1)


# Exibir o gráfico interativo completo
print("\nMapa gerado. Use o slider ou o botão 'play' para ver a evolução.") # Keep this print for consistency
fig.show()


Mapa gerado. Use o slider ou o botão 'play' para ver a evolução.


## Evolucão MultiCloud

Este código visa mensurar e visualizar a adoção de estratégias multicloud no setor financeiro brasileiro, considerando dados das edições da pesquisa State of Data Brazil entre 2022 e 2024. A análise busca identificar a proporção de profissionais que utilizam duas ou mais plataformas de nuvem (AWS, GCP, Azure), comparando bancos e fintechs ao longo do tempo.




In [138]:

# --- O seu código de manipulação de dados permanece EXATAMENTE O MESMO ---
# 1. Crie uma coluna que soma quantas das 3 principais nuvens cada respondente usa
df_financeiro['num_clouds'] = df_financeiro[['cloud_usada_aws', 'cloud_usada_gcp', 'cloud_usada_azure']].sum(axis=1)

# 2. Crie uma coluna booleana para identificar quem é multicloud (usa 2 ou mais)
df_financeiro['is_multicloud'] = df_financeiro['num_clouds'] >= 2

# 3. Calcule a taxa de adoção de multicloud
multicloud_adoption = df_financeiro.groupby(['ano_base', 'arquétipo_tamanho'])['is_multicloud'].mean().mul(100).round(2).reset_index()


# 4. Plote o gráfico com Plotly Express
fig = px.line(
    data_frame=multicloud_adoption,
    x='ano_base',
    y='is_multicloud',
    color='arquétipo_tamanho',      # Equivalente ao 'hue'
    line_dash='arquétipo_tamanho',  # Equivalente ao 'style'
    markers=True,                   # Adiciona pontos nos dados
    color_discrete_map={            # Equivalente à 'palette'
        'Grande Porte (Provável Banco)': '#854442',
        'Pequeno/Médio Porte (Provável Fintech)': '#b3cde0'
    },
    labels={ # Renomeia os rótulos para o gráfico
        'ano_base': 'Ano',
        'is_multicloud': 'Taxa de Adoção (%)'
    }
)

# 5. Personalize o layout (títulos, eixos, grade, etc.)
fig.update_layout(
    title={
        'text': 'Evolução da Adoção de Estratégia Multicloud',
        'font': {'size': 16},
        'x': 0.5 # Centraliza o título
    },
    xaxis_title='Ano',
    yaxis_title='Taxa de Adoção Multicloud (%)',
    legend_title='Arquétipo',
    height=550,
    width=900
)

# Ajustes finos nos eixos (equivalente a plt.xticks e plt.grid)
fig.update_xaxes(
    dtick=1, # Garante que o eixo X mostre apenas anos inteiros (ex: 2022, 2023, 2024)
    showgrid=True, gridwidth=1, gridcolor='LightGray' # Estiliza a grade vertical
)
fig.update_yaxes(
    ticksuffix="%", # Adiciona '%' ao final dos números do eixo Y
    showgrid=True, gridwidth=1, gridcolor='LightGray' # Estiliza a grade horizontal
)


# Exibir o gráfico interativo
fig.show()



 isolar os profissionais com perfil de liderança dentro do setor financeiro, a partir da base df_financeiro, e contabilizar sua representatividade na amostra total. Essa segmentação é essencial para análises comparativas entre gestores e não-gestores, sobretudo em temas como remuneração, ferramentas utilizadas, adoção de tecnologias e perfil de decisão.

In [139]:
try:
    df_lideres = df_financeiro[df_financeiro['atua_como_gestor'] == True].copy()
except TypeError:
    df_lideres = df_financeiro[df_financeiro['atua_como_gestor'] == 1].copy()


print(f"O número total de respondentes no setor financeiro é: {len(df_financeiro)}")
print(f"O número de líderes/gestores na nossa amostra é: {len(df_lideres)}")

O número total de respondentes no setor financeiro é: 2750
O número de líderes/gestores na nossa amostra é: 460


## Eixo 3

## Porcentagem de líderes que apontou cada desafio

Este bloco tem como finalidade identificar e quantificar os principais desafios enfrentados por profissionais em cargos de gestão no setor financeiro, segmentando a análise por tipo de organização (bancos x fintechs). O foco está em avaliar, com base em autodeclarações, quais áreas da liderança em dados apresentam maior complexidade ou obstáculo no dia a dia desses profissionais.

A análise fornece subsídios para:

* Entender prioridades e gargalos enfrentados por lideranças técnicas;

* Avaliar se certos desafios são mais frequentes em estruturas mais consolidadas (bancos) ou em organizações mais ágeis e enxutas (fintechs);

* Apoiar decisões estratégicas de formação, planejamento e investimentos em governança de dados, infraestrutura e gestão de times técnicos.




In [140]:
# Lista de colunas correspondentes aos desafios de gestão
challenge_columns = [
    'desafio_gestor_contratar_talentos', 'desafio_gestor_reter_talentos',
    'desafio_gestor_convencer_investimentos', 'desafio_gestor_equipes_remotas',
    'desafio_gestor_projetos_multidisciplinares', 'desafio_gestor_garantir_qualidade_dados',
    'desafio_gestor_processar_grande_volume', 'desafio_gestor_gerar_valor_negocio',
    'desafio_gestor_manter_modelos_ml_producao', 'desafio_gestor_gerenciar_expectativas',
    'desafio_gestor_manter_projetos_crescimento', 'desafio_gestor_inovar_com_dados',
    'desafio_gestor_garantir_roi', 'desafio_gestor_dividir_tempo_tecnico_gestao'
]

# Agrupar por arquétipo e calcular a média (que é a porcentagem para colunas 0/1)
challenges_summary = df_lideres.groupby('arquétipo_tamanho')[challenge_columns].mean().mul(100).round(2)

# Limpar os nomes das colunas para o gráfico
challenges_summary.columns = challenges_summary.columns.str.replace('desafio_gestor_', '').str.replace('_', ' ').str.title()

print("Porcentagem de líderes que apontou cada desafio:")
display(challenges_summary.T) # .T transpõe a tabela para melhor visualização

Porcentagem de líderes que apontou cada desafio:


arquétipo_tamanho,Grande Porte (Provável Banco),Pequeno/Médio Porte (Provável Fintech)
Contratar Talentos,15.27,15.34
Reter Talentos,15.65,13.76
Convencer Investimentos,15.65,19.58
Equipes Remotas,9.54,10.05
Projetos Multidisciplinares,20.99,16.4
Garantir Qualidade Dados,32.06,28.57
Processar Grande Volume,6.11,7.41
Gerar Valor Negocio,30.53,29.1
Manter Modelos Ml Producao,8.4,8.99
Gerenciar Expectativas,40.08,37.04


## Comparativo Desafios Gestão

O script tem como objetivo visualizar comparativamente os principais desafios enfrentados por lideranças técnicas no setor financeiro, segmentando por tipo de empresa (bancos de grande porte vs. fintechs). O gráfico final destaca quais desafios apresentam maior disparidade entre os arquétipos, permitindo análises mais direcionadas sobre as necessidades e obstáculos específicos de cada perfil organizacional.

O gráfico gerado é uma ferramenta poderosa para:

* Identificar diferenças estruturais de maturidade e operação entre bancos e fintechs;

* Priorizar ações de capacitação, investimento ou reorganização de equipes de liderança;

* Fundamentar tomadas de decisão em políticas de gestão de dados e talentos;

* Comunicar de forma objetiva quais desafios mais impactam diferentes perfis organizacionais.

In [141]:
# 1. Preparar os dados para o gráfico
challenges_plot_df = challenges_summary.T.reset_index().rename(columns={'index': 'desafio'})
challenges_plot_df = challenges_plot_df.melt(
    id_vars='desafio',
    var_name='arquétipo',
    value_name='porcentagem'
)

# 2. Calcular a diferença para ordenar o gráfico (lógica inalterada)
challenges_diff = challenges_summary.T['Pequeno/Médio Porte (Provável Fintech)'] - challenges_summary.T['Grande Porte (Provável Banco)']
sorted_challenges = challenges_diff.abs().sort_values(ascending=False).index


# 3. Criar o gráfico com Plotly Express
fig = px.bar(
    data_frame=challenges_plot_df,
    y='desafio',          # Categorias no eixo Y para um gráfico horizontal
    x='porcentagem',      # Valores no eixo X
    color='arquétipo',    # Equivalente ao 'hue'
    orientation='h',      # Define explicitamente a orientação como horizontal
    text='porcentagem',   # Define a coluna para os rótulos de texto
    category_orders={     # Equivalente ao 'order' do Seaborn
        'desafio': sorted_challenges
    },
    color_discrete_map={  # Equivalente à 'palette'
        'Grande Porte (Provável Banco)': '#854442',
        'Pequeno/Médio Porte (Provável Fintech)': '#b3cde0'
    }
)

# 4. Adicionar títulos, rótulos e personalizar o layout
fig.update_layout(
    title={
        'text': 'Principais Desafios de Gestão: Bancos vs. Fintechs (2022-2024)',
        'font': {'size': 20},
        'x': 0.5
    },
    xaxis_title='Líderes que Reportaram o Desafio (%)',
    yaxis_title='Desafio de Gestão',
    legend_title='Arquétipo',
    legend=dict(x=0.8, y=0.1), # Posição da legenda (similar a loc='lower right')
    height=700,
    width=1100,
    # Adiciona uma margem à esquerda para garantir que os rótulos não sejam cortados
    margin=dict(l=150)
)

# 5. Formatar o texto nas barras e a grade
# Usamos %{x:.1f}% porque 'porcentagem' está no eixo X
fig.update_traces(
    texttemplate='%{x:.1f}%',
    textposition='outside', # Coloca o texto à direita da barra
    textfont_size=10
)
fig.update_xaxes(showgrid=True, gridwidth=1, gridcolor='LightGray')


# Exibir o gráfico interativo

fig.show()


## Evolução dos Desafios de Gestão

O script tem como propósito analisar a evolução temporal dos desafios enfrentados por líderes no setor financeiro, segmentando a análise por ano-base (2022 a 2024) e por arquétipo organizacional (bancos de grande porte e fintechs). A visualização resultante permite identificar tendências, aumentos ou reduções na percepção dos desafios ao longo do tempo para cada tipo de empresa.



In [142]:
import textwrap

# Preparação de dados (código inalterado)
challenges_yearly = df_lideres.groupby(['ano_base', 'arquétipo_tamanho'])[challenge_columns].mean().mul(100).round(2)
challenges_yearly.columns = challenges_yearly.columns.str.replace('desafio_gestor_', '').str.replace('_', ' ').str.title()
challenges_yearly_plot_df = challenges_yearly.reset_index().melt(
    id_vars=['ano_base', 'arquétipo_tamanho'], var_name='desafio', value_name='porcentagem'
)
lista_desafios = sorted(challenges_yearly_plot_df['desafio'].unique())

# Criação do gráfico (código inalterado)
fig_facet = px.line(
    data_frame=challenges_yearly_plot_df,
    x='ano_base',
    y='porcentagem',
    color='arquétipo_tamanho',
    line_dash='arquétipo_tamanho',
    facet_row='desafio',
    markers=True,
    category_orders={'desafio': lista_desafios},
    color_discrete_map={
        'Grande Porte (Provável Banco)': '#854442',
        'Pequeno/Médio Porte (Provável Fintech)': '#b3cde0'
    },
    labels={'porcentagem': 'Líderes que Reportaram (%)', 'ano_base': 'Ano'}
)

# Personaliza o layout geral (código inalterado)
fig_facet.update_layout(
    title={'text': 'Evolução dos Principais Desafios de Gestão', 'font': {'size': 20}, 'x': 0.5},
    legend_title="Arquétipo",
    height=400 * len(lista_desafios),
    width=900
)

# --- SEÇÃO MODIFICADA PARA QUEBRA DE LINHA ---
# Limpa os títulos dos subplots E aplica a quebra de linha
fig_facet.for_each_annotation(lambda a: a.update(
    text='<br>'.join(textwrap.wrap(
        a.text.split("=")[1], # Pega o texto limpo (ex: "Reter Talentos...")
        width=30  # Define a largura máxima da linha em caracteres
    ))
))
# --- FIM DA SEÇÃO MODIFICADA ---


fig_facet.update_traces(line=dict(width=2.5))
fig_facet.update_yaxes(ticksuffix="%")
fig_facet.update_xaxes(dtick=1)

# Exibe o dashboard interativo completo
fig_facet.show()

## Variacao Desafios de Gestão 2022-2024

O propósito deste código é analisar a variação percentual na percepção dos desafios de gestão enfrentados por líderes do setor financeiro entre os anos de 2022 e 2024, comparando bancos de grande porte e fintechs de pequeno/médio porte. O objetivo é identificar quais desafios aumentaram ou diminuíram em importância ao longo desse período para cada arquétipo.


In [143]:
# 1. Filtrar, transformar e pivotar os dados
df_change = challenges_yearly.loc[[2022, 2023, 2024]]
df_long = df_change.reset_index().melt(
    id_vars=['ano_base', 'arquétipo_tamanho'],
    var_name='desafio',
    value_name='porcentagem'
)
df_pivoted = df_long.pivot_table(
    index=['arquétipo_tamanho', 'desafio'],
    columns='ano_base',
    values='porcentagem'
)

# 2. Calcular a variação e tratar casos especiais
variacao = (df_pivoted[2024] - df_pivoted[2022]) / df_pivoted[2022]
variacao_percentual = variacao.replace([np.inf, -np.inf], np.nan).fillna(0).mul(100).round(2)
df_plot_change = variacao_percentual.reset_index().rename(columns={0: 'variacao_percentual'})

# 3. Ordenar os desafios pela variação nas Fintechs
fintech_variations = df_plot_change.loc[df_plot_change['arquétipo_tamanho'] == 'Pequeno/Médio Porte (Provável Fintech)']
ordem_grafico = fintech_variations.set_index('desafio')['variacao_percentual'].sort_values(ascending=False).index.tolist()
all_challenges = df_plot_change['desafio'].unique().tolist()
for challenge in all_challenges:
    if challenge not in ordem_grafico:
        ordem_grafico.append(challenge)
# --- FIM DO CÓDIGO DE MANIPULAÇÃO DE DADOS ---


# 4. Criar o gráfico com Plotly Express
fig = px.bar(
    data_frame=df_plot_change,
    y='desafio',
    x='variacao_percentual',
    color='arquétipo_tamanho',
    orientation='h',
    text='variacao_percentual', # Adiciona os valores como texto
    category_orders={'desafio': ordem_grafico}, # Ordena pela maior mudança nas Fintechs
    color_discrete_map={
        'Grande Porte (Provável Banco)': '#854442',
        'Pequeno/Médio Porte (Provável Fintech)': '#b3cde0'
    },
    labels={ # Renomeia os rótulos para o gráfico
        'variacao_percentual': 'Variação Percentual (%)',
        'desafio': 'Desafio de Gestão'
    }
)

# 5. Adicionar a linha vertical em x=0
fig.add_vline(x=0, line_width=1, line_dash="dash", line_color="grey")

# 6. Personalizar o layout e a aparência
fig.update_layout(
    title={'text': 'Variação % na Importância dos Desafios de Gestão (2022 vs. 2024)', 'font': {'size': 20}, 'x': 0.5},
    legend_title='Arquétipo',
    legend=dict(x=0.8, y=0.1),
    height=700,
    width=1200,
    margin=dict(l=200) # Margem esquerda para garantir que os nomes dos desafios não sejam cortados
)

# 7. Formatar o texto nas barras e a grade do eixo X
# O formato '%{x:+.1f}%' adiciona um sinal de '+' para valores positivos, o que é ótimo para variações
fig.update_traces(texttemplate='%{x:+.1f}%', textposition='outside', textfont_size=10)
fig.update_xaxes(showgrid=True, gridwidth=1, gridcolor='LightGray')

# Exibir o gráfico interativo
fig.show()

## Profissionais que Participaram de Entrevistas nos Últimos 6 Meses

Este código tem como finalidade simplificar e analisar a participação dos profissionais do setor financeiro em processos seletivos nos últimos 6 meses, agrupando-os entre bancos de grande porte e fintechs, e monitorando essa atividade entre os anos de 2022 e 2024.

Potenciais Aplicações:
* Monitorar o dinamismo do mercado financeiro em termos de mobilidade profissional;

* Comparar o nível de atividade de contratação entre bancos tradicionais e fintechs;

* Auxiliar análises relacionadas a satisfação, retenção e atração de talentos;

* Subsidiar estratégias de RH e planejamento organizacional.

In [144]:

# 1. Definir as respostas que significam "Sim"
respostas_sim = [
    'Sim, fui aprovado e mudei de emprego',
    'Sim, fui aprovado mas decidi não mudar de emprego',
    'Sim, fiz entrevistas mas não fui aprovado',
    'Sim, fiz entrevistas mas não fui aprovado (ou ainda aguardo resposta)',
    'Sim, fui aprovado no meu primeiro emprego (ou estava sem emprego)'
]

# 2. Criar a coluna simplificada 'Sim'/'Não'
df_financeiro['entrevistou_simplificado'] = df_financeiro['participou_entrevistas_ultimos_6m'].apply(
    lambda x: 'Sim' if x in respostas_sim else 'Não'
)

# 3. Calcular a taxa de quem entrevistou
entrevistas_rate = df_financeiro.groupby(['ano_base', 'arquétipo_tamanho'])['entrevistou_simplificado'].value_counts(normalize=True).mul(100).rename('porcentagem').reset_index()

# 4. Filtrar apenas as respostas "Sim"
entrevistas_rate_sim = entrevistas_rate[entrevistas_rate['entrevistou_simplificado'] == 'Sim']
# --- FIM DO CÓDIGO DE MANIPULAÇÃO DE DADOS ---


# 5. Plote o gráfico com Plotly Express
fig = px.line(
    data_frame=entrevistas_rate_sim,
    x='ano_base',
    y='porcentagem',
    color='arquétipo_tamanho',      # Equivalente ao 'hue'
    line_dash='arquétipo_tamanho',  # Equivalente ao 'style'
    markers=True,                   # Adiciona pontos nos dados
    color_discrete_map={            # Equivalente à 'palette'
        'Grande Porte (Provável Banco)': '#854442',
        'Pequeno/Médio Porte (Provável Fintech)': '#b3cde0'
    },
    labels={ # Renomeia os rótulos para o gráfico
        'ano_base': 'Ano',
        'porcentagem': 'Profissionais (%)'
    }
)

# 6. Personalize o layout (títulos, eixos, grade, etc.)
fig.update_layout(
    title={
        'text': 'Profissionais que Participaram de Entrevistas nos Últimos 6 Meses (%)',
        'font': {'size': 16},
        'x': 0.5 # Centraliza o título
    },
    xaxis_title='Ano',
    yaxis_title='Profissionais (%)',
    legend_title='Arquétipo',
    height=550,
    width=950
)

# 7. Ajustes finos nos eixos
fig.update_xaxes(
    dtick=1, # Garante que o eixo X mostre apenas anos inteiros (ex: 2022, 2023, 2024)
    showgrid=True, gridwidth=1, gridcolor='LightGray'
)
fig.update_yaxes(
    rangemode='tozero', # Equivalente a plt.ylim(0), força o eixo a começar em 0
    ticksuffix="%",     # Adiciona '%' ao final dos números do eixo Y
    showgrid=True, gridwidth=1, gridcolor='LightGray'
)

# Exibir o gráfico interativo
fig.show()

## Profissionais Abertos a Mudar de Emprego

Este bloco de código visa analisar a intenção ou abertura dos profissionais do setor financeiro para mudança de emprego nos últimos 6 meses, segmentando por ano-base e tipo de organização (bancos de grande porte vs. fintechs de pequeno/médio porte). O objetivo é monitorar tendências de mobilidade e possíveis movimentações no mercado de trabalho entre 2022 e 2024.



In [145]:

# --- O seu código de manipulação de dados permanece EXATAMENTE O MESMO ---
# 1. Lista com todas as categorias que significam "Sim, tenho intenção/abertura para mudar"
respostas_sim_pretende_mudar = [
    'Não estou buscando, mas me considero aberto a outras oportunidades',
    'Estou em busca de oportunidades dentro ou fora do Brasil',
    'Estou em busca de oportunidades, mas apenas fora do Brasil'
]

# 2. Crie uma nova coluna simplificada ('Sim'/'Não')
df_financeiro['pretende_mudar_simplificado'] = df_financeiro['pretende_mudar_emprego_ultimos_6m'].apply(
    lambda x: 'Sim' if x in respostas_sim_pretende_mudar else 'Não'
)

# 3. Calcular a porcentagem usando a nova coluna
pretende_mudar_rate = df_financeiro.groupby(['ano_base', 'arquétipo_tamanho'])['pretende_mudar_simplificado'].value_counts(normalize=True).mul(100).rename('porcentagem').reset_index()

# 4. Filtrar apenas as respostas "Sim"
pretende_mudar_rate_sim = pretende_mudar_rate[pretende_mudar_rate['pretende_mudar_simplificado'] == 'Sim']
# --- FIM DO CÓDIGO DE MANIPULAÇÃO DE DADOS ---


# 5. Plotar o gráfico com Plotly Express
fig = px.line(
    data_frame=pretende_mudar_rate_sim,
    x='ano_base',
    y='porcentagem',
    color='arquétipo_tamanho',      # Equivalente ao 'hue'
    line_dash='arquétipo_tamanho',  # Equivalente ao 'style'
    markers=True,                   # Adiciona pontos nos dados
    color_discrete_map={            # Equivalente à 'palette'
        'Grande Porte (Provável Banco)': '#854442',
        'Pequeno/Médio Porte (Provável Fintech)': '#b3cde0'
    },
    labels={ # Renomeia os rótulos para o gráfico
        'ano_base': 'Ano',
        'porcentagem': 'Profissionais (%)'
    }
)

# 6. Personalize o layout (títulos, eixos, grade, etc.)
fig.update_layout(
    title={
        'text': 'Profissionais Abertos a Mudar de Emprego (%)',
        'font': {'size': 16},
        'x': 0.5 # Centraliza o título
    },
    xaxis_title='Ano',
    yaxis_title='Profissionais (%)',
    legend_title='Arquétipo',
    height=550,
    width=950
)

# 7. Ajustes finos nos eixos
fig.update_xaxes(
    dtick=1, # Garante que o eixo X mostre apenas anos inteiros (ex: 2022, 2023, 2024)
    showgrid=True, gridwidth=1, gridcolor='LightGray'
)
fig.update_yaxes(
    rangemode='tozero', # Equivalente a plt.ylim(0), força o eixo a começar em 0
    ticksuffix="%",     # Adiciona '%' ao final dos números do eixo Y
    showgrid=True, gridwidth=1, gridcolor='LightGray'
)

# Exibir o gráfico interativo
fig.show()

## Mudança nos Critérios para Escolha de Emprego

Este código tem por objetivo analisar e comparar a importância atribuída pelos profissionais do setor financeiro a diferentes critérios para escolha de emprego, nos anos de 2022 e 2024. A intenção é identificar mudanças e tendências na valorização desses aspectos ao longo do tempo.



In [146]:
# Define the list of columns related to job choice criteria
critérios_cols = [
    'criterio_escolha_remuneracao_salario',
    'criterio_escolha_beneficios',
    'criterio_escolha_proposito_empresa',
    'criterio_escolha_flexibilidade_remoto',
    'criterio_escolha_ambiente_clima',
    'criterio_escolha_oportunidade_aprendizado',
    'criterio_escolha_plano_carreira',
    'criterio_escolha_maturidade_dados_empresa',
    'criterio_escolha_qualidade_gestores',
    'criterio_escolha_reputacao_empresa'
]

# 1. Filtrar dados de 2022, 2023 e 2024
df_critérios = df_financeiro[df_financeiro['ano_base'].isin([2022, 2023, 2024])]

# 2. Calcular a média por ano e limpar os nomes das colunas
critérios_summary = df_critérios.groupby('ano_base')[critérios_cols].mean().mul(100).round(2)
critérios_summary.columns = critérios_summary.columns.str.replace('criterio_escolha_', '').str.replace('_', ' ').str.title()

# 3. Preparar os dados para a plotagem (transpor e "derreter")
critérios_plot_df = critérios_summary.T.reset_index().rename(columns={'index': 'criterio'}).melt(id_vars='criterio', var_name='ano', value_name='porcentagem')
# --- FIM DO CÓDIGO DE MANIPULAÇÃO DE DADOS ---


# 4. Plotar o gráfico com Plotly Express
fig = px.bar(
    data_frame=critérios_plot_df,
    y='criterio',                   # Categorias no eixo Y para um gráfico horizontal
    x='porcentagem',                # Valores no eixo X
    color='ano',                    # Equivalente ao 'hue'
    barmode='group',                # Agrupa as barras por ano
    orientation='h',                # Define a orientação como horizontal
    text='porcentagem'              # Adiciona os valores como texto nas barras
    # O Plotly escolherá uma paleta de cores similar à 'viridis' por padrão
)

# 5. Adicionar títulos e rótulos e personalizar o layout
fig.update_layout(
    title={
        'text': 'Mudança nos Critérios para Escolha de Emprego (2022 vs. 2024)',
        'font': {'size': 18},
        'x': 0.5
    },
    xaxis_title='Importância para os Profissionais (%)',
    yaxis_title='Critério de Escolha',
    legend_title='Ano',
    height=600,
    width=1100,
    margin=dict(l=250) # Aumenta a margem esquerda para os rótulos não serem cortados
)

# 6. Formatar o texto nas barras e a grade do eixo X
fig.update_traces(
    texttemplate='%{x:.1f}%', # Formato com uma casa decimal e '%'
    textposition='outside'    # Coloca o texto à direita da barra
)
fig.update_xaxes(showgrid=True, gridwidth=1, gridcolor='LightGray')


fig.show()



# 8. Exibir a tabela transposta (como no seu código original)
display(critérios_summary.T)

ano_base,2022,2023,2024
Remuneracao Salario,76.34,83.5,82.18
Beneficios,17.71,23.68,28.82
Proposito Empresa,16.79,14.07,17.0
Flexibilidade Remoto,54.5,58.2,55.55
Ambiente Clima,20.92,21.56,22.0
Oportunidade Aprendizado,32.98,25.4,21.64
Plano Carreira,28.4,30.77,32.55
Maturidade Dados Empresa,15.73,11.94,12.27
Qualidade Gestores,10.53,6.28,7.27
Reputacao Empresa,6.26,5.36,5.27


## Evolução da Importância dos Critérios de Escolha de Emprego

Este conjunto de gráficos permite observar a evolução temporal da importância atribuída pelos profissionais a diferentes critérios na escolha de emprego entre 2022 e 2024.

Pontos importantes para análise:

Tendências gerais:
Identificar se critérios como salário, benefícios, propósito da empresa, flexibilidade, ambiente, oportunidades de aprendizado, plano de carreira e maturidade de dados têm ganhado ou perdido relevância ao longo dos anos.

Critérios com maior variação:
Destacar aqueles que sofreram mudanças significativas na percepção dos profissionais, indicando mudanças nas prioridades e valores do mercado de trabalho.

Impacto do cenário econômico e tecnológico:
A valorização crescente da flexibilidade e do propósito da empresa, por exemplo, pode refletir transformações no modelo de trabalho e maior busca por alinhamento cultural.

Bases para decisões estratégicas:
Esses insights são essenciais para áreas de RH e gestão de talentos, auxiliando no desenvolvimento de políticas de atração e retenção mais alinhadas com as expectativas atuais do mercado.

In [147]:

# --- Código de manipulação de dados MODIFICADO ---
# 1. Calcular a porcentagem por ANO e por ARQUÉTIPO
# A principal mudança está aqui, no groupby
criterios_anual = df_financeiro.groupby(['ano_base', 'arquétipo_tamanho'])[critérios_cols].mean().mul(100).round(2)

# O resto da preparação continua igual
criterios_anual.columns = criterios_anual.columns.str.replace('criterio_escolha_', '').str.replace('_', ' ').str.title()
criterios_plot_df = criterios_anual.reset_index().melt(
    id_vars=['ano_base', 'arquétipo_tamanho'],
    var_name='criterio',
    value_name='porcentagem'
)
lista_desafios = sorted(criterios_plot_df['criterio'].unique())


# 4. Criar a grade de gráficos com Plotly Express (MODIFICADO)
fig = px.line(
    data_frame=criterios_plot_df,
    x='ano_base',
    y='porcentagem',
    facet_row='criterio',
    color='arquétipo_tamanho',      # << ADICIONADO: cria uma linha por arquétipo
    line_dash='arquétipo_tamanho',  # << ADICIONADO: diferencia o estilo da linha
    markers=True,
    category_orders={'criterio': lista_desafios},
    color_discrete_map={            # << ADICIONADO: define as cores
        'Grande Porte (Provável Banco)': '#854442',
        'Pequeno/Médio Porte (Provável Fintech)': '#b3cde0'
    },
    labels={'ano_base': 'Ano', 'porcentagem': 'Importância (%)'}
)

# 5. Ajustar títulos e layout (MODIFICADO)
fig.update_layout(
    title={
        'text': 'Evolução da Importância dos Critérios de Escolha (Bancos vs. Fintechs)',
        'y': 0.99, 'x': 0.5, 'font': {'size': 20}
    },
    legend_title='Arquétipo', # << ADICIONADO: título da legenda
    height=350 * len(lista_desafios),
    width=900
)

#  A legenda agora é útil, então não a removemos mais
fig.update_traces(line=dict(width=2.5))
fig.for_each_annotation(lambda a: a.update(text=a.text.split("=")[1]))
fig.update_xaxes(dtick=1)
fig.update_yaxes(rangemode='tozero', ticksuffix="%")


# Exibir o gráfico interativo
fig.show()

## Evolução da Formação Acadêmica por Arquétipo

Este script calcula e visualiza a distribuição percentual do nível de formação acadêmica dos profissionais do setor financeiro, segmentada por ano-base (2022 a 2024) e por arquétipo de empresa (bancos de grande porte vs fintechs de pequeno/médio porte). O intuito é acompanhar as tendências educacionais ao longo do tempo e identificar diferenças entre os tipos de organização.



In [148]:
# --- SEÇÃO ADICIONADA: Calcular a distribuição da formação acadêmica ---
# 1. Calcular a distribuição percentual do nível de ensino
formacao_dist = (df_financeiro.groupby(['ano_base', 'arquétipo_tamanho'])['nivel_ensino']
                     .value_counts(normalize=True)
                     .mul(100)
                     .round(2)
                     .rename('porcentagem')
                     .reset_index())
# --- FIM DA SEÇÃO ADICIONADA ---


# Obter a lista de arquétipos e iniciar o loop
arquétipos = sorted(formacao_dist['arquétipo_tamanho'].unique())

print("\nGerando um gráfico por arquétipo...")

for arquétipo in arquétipos:
    # Filtrar os dados para o arquétipo atual
    df_arq = formacao_dist[formacao_dist['arquétipo_tamanho'] == arquétipo]

    # Criar o gráfico de barras interativo
    fig = px.bar(
        data_frame=df_arq,
        x='ano_base',
        y='porcentagem',
        color='nivel_ensino',         # Equivalente ao 'hue'
        barmode='group',
        text='porcentagem',           # Adiciona os valores como texto nas barras
        color_discrete_sequence=px.colors.sequential.GnBu # Equivalente à palette 'GnBu'
    )

    # Melhorar os títulos e rótulos
    fig.update_layout(
        title={'text': f'Evolução da Formação Acadêmica: {arquétipo}', 'font': {'size': 16}, 'x': 0.5},
        xaxis_title="Ano",
        yaxis_title="Profissionais (%)",
        legend_title="Nível de Ensino",
        height=550, width=900
    )
    fig.update_traces(texttemplate='%{y:.1f}%', textposition='outside')
    fig.update_xaxes(dtick=1)
    fig.update_yaxes(ticksuffix='%')


    fig.show()


Gerando um gráfico por arquétipo...


# Distribuição de Senioridade por Arquétipo

O principal objetivo é compreender como a composição dos níveis hierárquicos (Júnior, Pleno, Sênior e Liderança) varia ao longo do tempo e entre dois grandes grupos: bancos de grande porte e fintechs de pequeno/médio porte. Essa análise é útil para mapear a estrutura organizacional, identificar tendências e direcionar políticas de gestão de talentos.



In [149]:
# Adicione este bloco ANTES do código do seu gráfico

# 1. Definir a ordem correta dos níveis de senioridade
ordem_senioridade = ['Júnior', 'Pleno', 'Sênior', 'Liderança']

# 2. Calcular a distribuição percentual da senioridade
senioridade_dist = (df_financeiro.groupby(['ano_base', 'arquétipo_tamanho'])['nivel_senioridade']
                     .value_counts(normalize=True)
                     .mul(100)
                     .round(2)
                     .rename('porcentagem')
                     .reset_index())


# 1. Defina sua paleta de cores em uma variável
minha_paleta = ['#b2d8d8', '#008080', '#004c4c', '#01497c']

# 2. Crie o gráfico com uma ÚNICA chamada da função px.bar
fig = px.bar(
    senioridade_dist,
    x='ano_base',
    y='porcentagem',
    color='nivel_senioridade',
    facet_col='arquétipo_tamanho',
    category_orders={'nivel_senioridade': ordem_senioridade},
    labels={
        'ano_base': 'Ano',
        'porcentagem': 'Profissionais (%)',
        'nivel_senioridade': 'Nível de Senioridade',
        'arquétipo_tamanho': 'Arquétipo de Empresa'
    },
    title='Distribuição de Senioridade por Arquétipo (2022-2024)',
    color_discrete_sequence=minha_paleta  # Use a variável com sua paleta aqui
)

# 3. Ajuste o layout e exiba o gráfico
fig.update_layout(
    legend_title_text='Nível de Senioridade',
    legend=dict(
        orientation='h',
        yanchor='bottom',
        y=1.02,
        xanchor='right',
        x=1
    ),
    bargap=0.2,
    height=500,
    # Renomeia os títulos dos subplots (facets)
    annotations=[a.update(text=a.text.split("=")[-1]) for a in fig.layout.annotations]
)

# Permite que o usuário possa clicar na legenda para esconder/mostrar categorias
fig.update_traces(hovertemplate='%{y:.1f}% de %{color} em %{x}')

fig.show()

## Técnicas de Data Science

Este código tem como objetivo analisar e visualizar a evolução do uso de diferentes técnicas de Data Science (Ciência de Dados) por profissionais atuantes na área, separando-os entre os arquétipos de empresas (bancos de grande porte e fintechs de pequeno/médio porte), no período de 2022 a 2024.



In [150]:
# Define the list of columns related to data science techniques
tecnicas_colunas = [
    'tecnica_ds_regressao',
    'tecnica_ds_redes_neurais_arvores',
    'tecnica_ds_sistemas_recomendacao',
    'tecnica_ds_metodos_bayesianos',
    'tecnica_ds_nlp',
    'tecnica_ds_metodos_estatisticos_classicos',
    'tecnica_ds_markov_hmm',
    'tecnica_ds_clusterizacao',
    'tecnica_ds_series_temporais',
    'tecnica_ds_reinforcement_learning',
    'tecnica_ds_deteccao_fraude',
    'tecnica_ds_visao_computacional',
    'tecnica_ds_deteccao_churn',
    'tecnica_ds_usa_llm' # Included in 2023 and 2024, handle potential NaNs
]


# 1. Filtrar para Cientistas de Dados
df_ds = df_financeiro[df_financeiro['cargo_atual'] == 'Cientista de Dados/Data Scientist'].copy()

# 2. Transformar os dados para o formato longo
tecnicas_melted = df_ds.melt(
    id_vars=['ano_base', 'arquétipo_tamanho'], value_vars=tecnicas_colunas,
    var_name='tecnica_col', value_name='usa_tecnica'
)

# 3. Calcular a porcentagem de uso
tecnicas_dist = (tecnicas_melted[tecnicas_melted['usa_tecnica'] == 1]
                   .groupby(['ano_base', 'arquétipo_tamanho', 'tecnica_col'])
                   .size().reset_index(name='total_usuarios'))
total_cientistas = df_ds.groupby(['ano_base', 'arquétipo_tamanho']).size().reset_index(name='total_cientistas_no_grupo')
tecnicas_plot_df = pd.merge(tecnicas_dist, total_cientistas, on=['ano_base', 'arquétipo_tamanho'])
tecnicas_plot_df['porcentagem'] = (tecnicas_plot_df['total_usuarios'] / tecnicas_plot_df['total_cientistas_no_grupo']) * 100

# 4. Mapear para nomes amigáveis
nomes_amigaveis = {
    'tecnica_ds_regressao': 'Regressão', 'tecnica_ds_redes_neurais_arvores': 'Redes Neurais/Árvores',
    'tecnica_ds_clusterizacao': 'Clusterização', 'tecnica_ds_series_temporais': 'Séries Temporais',
    'tecnica_ds_nlp': 'NLP', 'tecnica_ds_sistemas_recomendacao': 'Sistemas de Recomendação',
    'tecnica_ds_visao_computacional': 'Visão Computacional', 'tecnica_ds_metodos_estatisticos_classicos': 'Métodos Estatísticos Clássicos',
    'tecnica_ds_metodos_bayesianos': 'Métodos Bayesianos', 'tecnica_ds_markov_hmm': 'Markov/HMM',
    'tecnica_ds_reinforcement_learning': 'Reinforcement Learning', 'tecnica_ds_deteccao_fraude': 'Detecção Fraude',
    'tecnica_ds_deteccao_churn': 'Detecção Churn', 'tecnica_ds_usa_llm': 'Uso de LLMs'
}
tecnicas_plot_df['tecnica'] = tecnicas_plot_df['tecnica_col'].map(nomes_amigaveis)


# Obter a lista de técnicas e iniciar o loop
lista_tecnicas = sorted(tecnicas_plot_df['tecnica'].unique())
print("Gerando um gráfico por técnica...")

for tecnica in lista_tecnicas:
    df_tecnica = tecnicas_plot_df[tecnicas_plot_df['tecnica'] == tecnica]

    fig = px.line(
        data_frame=df_tecnica, x='ano_base', y='porcentagem',
        color='arquétipo_tamanho', line_dash='arquétipo_tamanho',
        markers=True,
        color_discrete_map={'Grande Porte (Provável Banco)': '#854442', 'Pequeno/Médio Porte (Provável Fintech)': '#b3cde0'}
    )

    fig.update_layout(
        title={'text': f'Evolução do Uso de: {tecnica}', 'font': {'size': 16}, 'x': 0.5},
        xaxis_title="Ano", yaxis_title="Cientistas de Dados que Utilizam (%)",
        legend_title="Arquétipo", height=500, width=800
    )
    fig.update_xaxes(dtick=1)
    fig.update_yaxes(rangemode='tozero', ticksuffix='%')

    nome_arquivo_seguro = tecnica.replace(' ', '_').replace('/', '_').lower()
    nome_arquivo = f'evolucao_tecnica_ds_{nome_arquivo_seguro}.png'

    fig.show()

Gerando um gráfico por técnica...


## Composição da Equipe de Dados em Bancos

Este código tem por finalidade analisar e comparar a composição das equipes de dados dentro dos dois arquétipos principais de empresas — bancos de grande porte e fintechs de pequeno/médio porte — ao longo do período de 2022 a 2024. Ele gera gráficos de barras empilhadas que ilustram a distribuição percentual dos diferentes cargos ou áreas de atuação dentro dessas equipes.



In [151]:
# Lista de colunas correspondentes aos cargos no time de dados
cargo_dados_colunas = [
    'cargo_dados_analytics_engineer',
    'cargo_dados_data_engineer',
    'cargo_dados_data_analyst',
    'cargo_dados_data_scientist',
    'cargo_dados_dba',
    'cargo_dados_analista_bi',
    'cargo_dados_arquiteto_dados',
    'cargo_dados_data_product_manager',
    'cargo_dados_business_analyst',
    'cargo_dados_ml_engineer' # Incluído em 2024, tratar possíveis NaNs
]

# Calcular a composição das equipes por ano e arquétipo
composicao_equipe = df_financeiro.groupby(['ano_base', 'arquétipo_tamanho'])[cargo_dados_colunas].mean().mul(100).round(2)

# Separar em dataframes para Bancos e Fintechs
df_bancos = composicao_equipe.loc[(slice(None), 'Grande Porte (Provável Banco)'), :]
df_fintechs = composicao_equipe.loc[(slice(None), 'Pequeno/Médio Porte (Provável Fintech)'), :]

# Remover o nível 'arquétipo_tamanho' do índice para facilitar o plot
df_bancos.index = df_bancos.index.get_level_values('ano_base')
df_fintechs.index = df_fintechs.index.get_level_values('ano_base')


print("DataFrames df_bancos e df_fintechs criados com sucesso.")
display(df_bancos.head())
display(df_fintechs.head())

DataFrames df_bancos e df_fintechs criados com sucesso.


Unnamed: 0_level_0,cargo_dados_analytics_engineer,cargo_dados_data_engineer,cargo_dados_data_analyst,cargo_dados_data_scientist,cargo_dados_dba,cargo_dados_analista_bi,cargo_dados_arquiteto_dados,cargo_dados_data_product_manager,cargo_dados_business_analyst,cargo_dados_ml_engineer
ano_base,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2022,46.67,71.67,68.33,88.33,35.0,46.67,41.67,31.67,53.33,
2023,48.81,80.95,69.05,84.52,29.76,47.62,41.67,35.71,45.24,
2024,54.7,82.91,70.09,84.62,41.03,60.68,44.44,38.46,62.39,64.96


Unnamed: 0_level_0,cargo_dados_analytics_engineer,cargo_dados_data_engineer,cargo_dados_data_analyst,cargo_dados_data_scientist,cargo_dados_dba,cargo_dados_analista_bi,cargo_dados_arquiteto_dados,cargo_dados_data_product_manager,cargo_dados_business_analyst,cargo_dados_ml_engineer
ano_base,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2022,26.67,70.0,58.33,68.33,11.67,43.33,25.0,15.0,35.0,
2023,35.48,67.74,66.13,51.61,16.13,56.45,27.42,16.13,25.81,
2024,31.75,61.9,61.9,47.62,19.05,42.86,19.05,12.7,30.16,19.05


In [152]:
# --- CORREÇÃO APLICADA AQUI ---
# Simplifica o índice dos DataFrames para conter apenas o ano.
# Isso corrige os rótulos do eixo X nos gráficos.
df_bancos.index = df_bancos.index.get_level_values('ano_base')
df_fintechs.index = df_fintechs.index.get_level_values('ano_base')
# ---------------------------------


# --- GRÁFICO 1: BANCOS (VERSÃO PLOTLY) ---

# 1. Preparar dados para Plotly (formato longo)
df_bancos_long = df_bancos.reset_index().melt(
    id_vars='ano_base', var_name='Área de Atuação', value_name='Distribuição de Cargos (%)'
)

# 2. Criar o gráfico
fig_bancos = px.bar(
    data_frame=df_bancos_long,
    x='ano_base',
    y='Distribuição de Cargos (%)',
    color='Área de Atuação',
    title='Composição da Equipe de Dados em Bancos',
    color_discrete_sequence=px.colors.sequential.Blues_r, # Equivalente a colormap='Blues_r'
    labels={'ano_base': 'Ano'}
)
fig_bancos.update_xaxes(dtick=1) # Garante ticks anuais
fig_bancos.update_layout(height=600, width=900)
fig_bancos.show()


# --- GRÁFICO 2: FINTECHS (VERSÃO PLOTLY) ---

# 1. Preparar dados para Plotly (formato longo)
df_fintechs_long = df_fintechs.reset_index().melt(
    id_vars='ano_base', var_name='Área de Atuação', value_name='Distribuição de Cargos (%)'
)

# 2. Criar o gráfico
fig_fintechs = px.bar(
    data_frame=df_fintechs_long,
    x='ano_base',
    y='Distribuição de Cargos (%)',
    color='Área de Atuação',
    title='Composição da Equipe de Dados em Fintechs',
    color_discrete_sequence=px.colors.sequential.Oranges_r, # Equivalente a colormap='Oranges_r'
    labels={'ano_base': 'Ano'}
)
fig_fintechs.update_xaxes(dtick=1)
fig_fintechs.update_layout(height=600, width=900)
fig_fintechs.show()

In [153]:
# --- O seu código de manipulação de dados permanece EXATAMENTE O MESMO ---
# Define the list of technology columns to analyze
tech_cols = [
    'cloud_usada_aws',
    'cloud_usada_gcp',
    'cloud_usada_azure',
    'banco_dados_usado_mysql',
    'banco_dados_usado_postgresql',
    'banco_dados_usado_sql_server',
    'banco_dados_usado_oracle',
    'banco_dados_usado_mongodb',
    'banco_dados_usado_bigquery',
    'banco_dados_usado_redshift',
    'banco_dados_usado_snowflake',
    'banco_dados_usado_databricks',
    'ferramenta_qualidade_great_expectations',
    'ferramenta_qualidade_dbt'
]

# 1. Calcular a adoção de tecnologias
tech_adoption = df_financeiro.groupby('arquétipo_tamanho')[tech_cols].mean().mul(100)

# 2. Preparar dados para o scatter plot
df_quadrante = tech_adoption.T
df_quadrante.columns = ['Adoção em Bancos (%)', 'Adoção em Fintechs (%)']
df_quadrante['label'] = df_quadrante.index.str.replace('cloud_usada_', '').str.replace('banco_dados_usado_', '').str.replace('ferramenta_qualidade_', '').str.upper()
# --- FIM DO CÓDIGO DE MANIPULAÇÃO DE DADOS ---


# 3. Criar o gráfico de dispersão com Plotly Express
fig = px.scatter(
    data_frame=df_quadrante,
    x='Adoção em Bancos (%)',
    y='Adoção em Fintechs (%)',
    text='label', # << Equivalente ao seu loop com plt.text para os pontos
    title='Quadrantes Estratégicos de Tecnologias'
)

# 4. Ajustar o tamanho dos marcadores e a posição do texto
fig.update_traces(
    marker=dict(size=15), # Define um tamanho fixo para os pontos
    textposition='top center' # Posiciona o rótulo acima do ponto
)

# 5. Calcular medianas e adicionar as linhas dos quadrantes
median_bancos = df_quadrante['Adoção em Bancos (%)'].median()
median_fintechs = df_quadrante['Adoção em Fintechs (%)'].median()

fig.add_vline(x=median_bancos, line_width=1, line_dash="dash", line_color="grey")
fig.add_hline(y=median_fintechs, line_width=1, line_dash="dash", line_color="grey")


# 6. Personalizar o layout e adicionar os textos dos quadrantes como anotações
fig.update_layout(
    xaxis_title='Predominância em Bancos (%)',
    yaxis_title='Predominância em Fintechs (%)',
    font=dict(size=12),
    height=800,
    width=800,
    # Força o gráfico a ser quadrado, essencial para quadrantes
    yaxis=dict(scaleanchor="x", scaleratio=1),
    # Adiciona os títulos dos quadrantes
    annotations=[
        dict(x=df_quadrante['Adoção em Bancos (%)'].max(), y=df_quadrante['Adoção em Fintechs (%)'].max(),
             xref="x", yref="y", text="<b>Commodities</b>", showarrow=False, xanchor='right', yanchor='top', font=dict(size=14, color='grey')),
        dict(x=df_quadrante['Adoção em Bancos (%)'].min(), y=df_quadrante['Adoção em Fintechs (%)'].max(),
             xref="x", yref="y", text="<b>Território Fintech</b>", showarrow=False, xanchor='left', yanchor='top', font=dict(size=14, color='grey')),
        dict(x=df_quadrante['Adoção em Bancos (%)'].max(), y=df_quadrante['Adoção em Fintechs (%)'].min(),
             xref="x", yref="y", text="<b>Território Banco</b>", showarrow=False, xanchor='right', yanchor='bottom', font=dict(size=14, color='grey')),
        # Quadrante inferior esquerdo (opcional, se quiser nomeá-lo)
        dict(x=df_quadrante['Adoção em Bancos (%)'].min(), y=df_quadrante['Adoção em Fintechs (%)'].min(),
             xref="x", yref="y", text="<b>Nicho/Emergente</b>", showarrow=False, xanchor='left', yanchor='bottom', font=dict(size=14, color='grey'))
    ]
)

# Exibir o gráfico interativo
fig.show()

In [154]:

# Lista das colunas de ferramentas que vamos analisar
tool_columns = [
    'ferramenta_bi_usada_powerbi',
    'ferramenta_bi_usada_looker',
    'ferramenta_qualidade_dbt',
    'etl_de_airflow',
    'banco_dados_usado_snowflake',
    'banco_dados_usado_databricks'
]

# Agrupar por ano e arquétipo e calcular a média (que é a porcentagem de uso)
adoption_tools = df_financeiro.groupby(['ano_base', 'arquétipo_tamanho'])[tool_columns].mean().mul(100).round(2)

print("\nTabela: Taxa de Adoção de Ferramentas-Chave (%)")
display(adoption_tools)


Tabela: Taxa de Adoção de Ferramentas-Chave (%)


Unnamed: 0_level_0,Unnamed: 1_level_0,ferramenta_bi_usada_powerbi,ferramenta_bi_usada_looker,ferramenta_qualidade_dbt,etl_de_airflow,banco_dados_usado_snowflake,banco_dados_usado_databricks
ano_base,arquétipo_tamanho,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2022,Grande Porte (Provável Banco),34.78,17.39,19.64,58.02,2.55,22.66
2022,Pequeno/Médio Porte (Provável Fintech),62.5,0.0,45.83,37.5,1.65,19.23
2023,Grande Porte (Provável Banco),51.8,22.48,,38.17,2.16,34.53
2023,Pequeno/Médio Porte (Provável Fintech),60.22,18.96,,53.12,3.72,25.28
2024,Grande Porte (Provável Banco),60.09,13.46,,33.71,3.15,51.18
2024,Pequeno/Médio Porte (Provável Fintech),56.33,21.63,,50.0,4.53,24.69


In [155]:
# Prepare the data for plotting by melting the dataframe
tools_plot_df = adoption_tools.reset_index().melt(
    id_vars=['ano_base', 'arquétipo_tamanho'],
    var_name='ferramenta_col',
    value_name='taxa_de_adocao'
)

# Clean up the tool names for the plot
tools_plot_df['ferramenta'] = tools_plot_df['ferramenta_col'].str.replace('ferramenta_bi_usada_', '').str.replace('ferramenta_qualidade_', '').str.replace('etl_de_', '').str.replace('banco_dados_usado_', '').str.title()


print("DataFrame 'tools_plot_df' created successfully. Sample:")
display(tools_plot_df.head())

DataFrame 'tools_plot_df' created successfully. Sample:


Unnamed: 0,ano_base,arquétipo_tamanho,ferramenta_col,taxa_de_adocao,ferramenta
0,2022,Grande Porte (Provável Banco),ferramenta_bi_usada_powerbi,34.78,Powerbi
1,2022,Pequeno/Médio Porte (Provável Fintech),ferramenta_bi_usada_powerbi,62.5,Powerbi
2,2023,Grande Porte (Provável Banco),ferramenta_bi_usada_powerbi,51.8,Powerbi
3,2023,Pequeno/Médio Porte (Provável Fintech),ferramenta_bi_usada_powerbi,60.22,Powerbi
4,2024,Grande Porte (Provável Banco),ferramenta_bi_usada_powerbi,60.09,Powerbi


In [156]:
# Obter a lista de ferramentas e iniciar o loop
lista_ferramentas = sorted(tools_plot_df['ferramenta'].unique())
print("Gerando um gráfico por ferramenta...")

for ferramenta in lista_ferramentas:
    df_ferramenta = tools_plot_df[tools_plot_df['ferramenta'] == ferramenta]

    fig = px.line(
        data_frame=df_ferramenta,
        x='ano_base',
        y='taxa_de_adocao',
        color='arquétipo_tamanho',      # Equivalente ao 'hue'
        line_dash='arquétipo_tamanho',  # Equivalente ao 'style'
        markers=True,
        color_discrete_map={'Grande Porte (Provável Banco)': '#854442', 'Pequeno/Médio Porte (Provável Fintech)': '#b3cde0'}
    )

    fig.update_layout(
        title={'text': f'Evolução na Adoção de: {ferramenta}', 'font': {'size': 16}, 'x': 0.5},
        xaxis_title="Ano",
        yaxis_title="Taxa de Adoção (%)",
        legend_title="Arquétipo",
        height=500, width=800
    )
    fig.update_xaxes(dtick=1)
    fig.update_yaxes(rangemode='tozero', ticksuffix='%')



    fig.show()

Gerando um gráfico por ferramenta...


In [157]:
# --- Código de manipulação de dados inalterado ---
adoption_languages = df_financeiro.groupby(['ano_base', 'arquétipo_tamanho'])[language_columns].mean().mul(100).round(2)
languages_plot_df = adoption_languages.reset_index().melt(
    id_vars=['ano_base', 'arquétipo_tamanho'],
    value_vars=adoption_languages.columns,
    var_name='linguagem',
    value_name='taxa_de_adocao'
)


# 3. Criar a grade de gráficos com Plotly Express (MODIFICADO)
fig = px.line(
    data_frame=languages_plot_df,
    x='ano_base',
    y='taxa_de_adocao',
    color='arquétipo_tamanho',
    line_dash='arquétipo_tamanho',
    facet_row='linguagem',         #
                                   #    O argumento facet_col_wrap foi removido.
    markers=True,
    color_discrete_map={'Grande Porte (Provável Banco)': '#854442', 'Pequeno/Médio Porte (Provável Fintech)': '#b3cde0'},
    labels={'taxa_de_adocao': 'Taxa de Adoção (%)', 'ano_base': 'Ano'}
)

# 4. Ajustar títulos e layout
fig.update_layout(
    title={
        'text': 'Evolução no Uso de Linguagens de Programação (2022-2024)',
        'y':0.99, 'x':0.5, 'font': {'size': 18}
    },
    legend_title="Arquétipo",
    height=350 * len(adoption_languages.columns), # Ajusta a altura dinamicamente
    width=900                                  # Largura ajustada para layout de coluna única
)

# Código para ajustar traços e anotações (inalterado)
fig.update_traces(line=dict(width=2.5))
fig.for_each_annotation(lambda a: a.update(text=a.text.split("=")[1]))
fig.update_xaxes(dtick=1)
fig.update_yaxes(rangemode='tozero', ticksuffix="%")

# Exibir o gráfico interativo
fig.show()


NameError: name 'language_columns' is not defined

In [158]:

# --- O seu código de manipulação de dados permanece EXATAMENTE O MESMO ---
# 1. Criar a coluna de localização
df_financeiro['localizacao'] = df_financeiro['uf_onde_mora'].apply(
    lambda x: 'São Paulo' if x == 'SP' else 'Outros Estados'
)

print("\nDistribuição de respondentes por localização:")
print(df_financeiro['localizacao'].value_counts())
# --- FIM DO CÓDIGO DE MANIPULAÇÃO DE DADOS ---


# 2. Criar o gráfico com Plotly Express
fig = px.box(
    data_frame=df_financeiro,
    x='nivel_senioridade',
    y='salario_numerico',
    color='localizacao',    # Equivalente ao 'hue'
    category_orders={       # Equivalente ao 'order'
        'nivel_senioridade': ['Júnior', 'Pleno', 'Sênior', 'Liderança']
    },
    color_discrete_sequence=px.colors.qualitative.Pastel1 # Equivalente à palette 'Pastel1'
)

# 3. Personalizar layout, títulos e eixos
fig.update_layout(
    title={
        'text': 'Distribuição Salarial: São Paulo vs. Outros Estados',
        'font': {'size': 16},
        'x': 0.5 # Centraliza o título
    },
    xaxis_title='Nível de Senioridade',
    yaxis_title='Salário (R$)',
    legend_title='Localização',
    height=600,
    width=1000
)

# Formata o eixo Y para exibir a moeda corretamente
fig.update_yaxes(tickprefix="R$ ", tickformat=",.0f")

# Exibir o gráfico interativo
print("\nExibindo o gráfico interativo...")
fig.show()



Distribuição de respondentes por localização:
localizacao
Outros Estados    1462
São Paulo         1288
Name: count, dtype: int64

Exibindo o gráfico interativo...


In [None]:

# 1. Criar a coluna de localização (assumindo que já existe do passo anterior)
df_financeiro['localizacao'] = df_financeiro['uf_onde_mora'].apply(
    lambda x: 'São Paulo' if x == 'SP' else 'Outros Estados'
)

# 2. Calcular a composição da equipe por localização
comp_equipe_local = df_financeiro.groupby('localizacao')['principal_atuacao_dados'].value_counts(normalize=True).mul(100).rename('porcentagem').reset_index()

# 3. Limpar o texto da coluna para mostrar apenas o nome da profissão
comp_equipe_local['principal_atuacao_dados'] = comp_equipe_local['principal_atuacao_dados'].str.split(':').str[0].str.strip('* ')
# --- FIM DO CÓDIGO DE MANIPULAÇÃO DE DADOS ---


# 4. Criar o gráfico com Plotly Express
fig = px.bar(
    data_frame=comp_equipe_local,
    y='principal_atuacao_dados',
    x='porcentagem',
    color='localizacao',
    barmode='group',             # Agrupa as barras lado a lado
    orientation='h',             # Define a orientação como horizontal
    text='porcentagem',          # Adiciona os valores como texto nas barras
    color_discrete_sequence=px.colors.qualitative.Pastel2 # Equivalente à palette 'Pastel2'
)

# 5. Personalizar layout, títulos e eixos
fig.update_layout(
    title={
        'text': 'Composição das Equipes de Dados: São Paulo vs. Outros Estados',
        'font': {'size': 16},
        'x': 0.5 # Centraliza o título
    },
    xaxis_title='Profissionais (%)',
    yaxis_title='Área de Atuação',
    legend_title='Localização',
    height=600,
    width=1100,
    margin=dict(l=200) # Aumenta a margem esquerda para os rótulos não serem cortados
)

# 6. Formatar o texto nas barras e ordenar o eixo Y
fig.update_traces(
    texttemplate='%{x:.1f}%', # Formato com uma casa decimal e '%'
    textposition='outside'    # Coloca o texto à direita da barra
)
# Ordena as categorias do eixo Y pela soma total (do maior para o menor) para melhor visualização
fig.update_yaxes(categoryorder='total ascending')


# Exibir o gráfico interativo

fig.show()


# Eixo 6 — A Geografia da Disputa por Talentos no Setor Financeiro

**Pergunta-chave Principal:**
Como a distribuição geográfica dos profissionais de dados no setor financeiro brasileiro evoluiu entre 2022 e 2024? Quais polos de talentos se consolidaram para além do eixo Rio-São Paulo, e de que forma a ascensão do trabalho remoto reconfigurou as estratégias de atração e retenção de talentos por parte de Bancos e Fintechs?

**Hipótese Geral:**

Nossa hipótese é que, embora o eixo Rio-São Paulo mantenha sua histórica relevância como centro financeiro, a consolidação do trabalho remoto pós-pandemia impulsionou uma significativa descentralização dos talentos de dados. Inicialmente, as Fintechs, mais ágeis e digitais, capitalizaram sobre essa tendência para atrair profissionais de diversas regiões do país com modelos de trabalho flexíveis, ganhando vantagem competitiva.

 A partir de 2023, os bancos tradicionais, ao perceberem a perda de talentos para essa concorrência distribuída, foram forçados a adaptar suas estratégias, adotando modelos híbridos ou totalmente remotos.

 Esse movimento resultou na formação e fortalecimento de novos polos de tecnologia e dados em cidades como Florianópolis, Recife, Belo Horizonte e Campinas, transformando a disputa por profissionais em uma competição de escala nacional, não mais restrita aos grandes centros urbanos.



In [None]:
import pandas as pd
import plotly.express as px
import requests

# --- Assumindo que df_financeiro já está carregado ---
# Remover linhas com UF nula
df_financeiro = df_financeiro.dropna(subset=['uf_onde_mora'])

# Garantir que as siglas estejam padronizadas
df_financeiro['uf_onde_mora'] = df_financeiro['uf_onde_mora'].str.upper().str.strip()

# Agrupar os dados por ano e estado para contagem
contagem_anual_uf = df_financeiro.groupby(['ano_base', 'uf_onde_mora']).size().reset_index(name='contagem')

# --- GeoJSON do Brasil por UF ---
url_geojson = 'https://raw.githubusercontent.com/fititnt/gis-dataset-brasil/master/uf/geojson/uf.json'
geojson_br = requests.get(url_geojson).json()

# Verificação opcional (ajuste conforme o nome da propriedade correta)
# print(geojson_br['features'][0]['properties'])

# Escala de cor fixa
min_val = contagem_anual_uf['contagem'].min()
max_val = contagem_anual_uf['contagem'].max()

fig = px.choropleth(
    contagem_anual_uf,
    geojson=geojson_br,
    locations='uf_onde_mora',          # Coluna com a sigla do estado
    featureidkey='properties.UF_05',   # <-- CORRIGIDO AQUI
    color='contagem',
    animation_frame='ano_base',
    animation_group='uf_onde_mora',
    color_continuous_scale='Reds',
    range_color=[min_val, max_val],
    scope='south america',
    title='Evolução da Concentração de Talentos por Estado',
    labels={'contagem': 'Nº de Profissionais', 'uf_onde_mora': 'Estado', 'ano_base': 'Ano'}
)

fig.update_geos(
    fitbounds="locations",
    visible=False
)

fig.update_layout(
    title_x=0.5,
    margin={"r":0, "t":40, "l":0, "b":0}
)

fig.show()


In [None]:
import pandas as pd
import plotly.express as px

print("Iniciando a análise da Abordagem 2: Salários por Região.")

# --- Garantir a coluna 'salario_numerico' ---
if 'salario_numerico' not in df_financeiro.columns:
    salary_map = {
        'Menos de R$ 1.000/mês': 1000,
        'de R$ 1.001/mês a R$ 2.000/mês': 1500,
        'de R$ 2.001/mês a R$ 3.000/mês': 2500,
        'de R$ 3.001/mês a R$ 4.000/mês': 3500,
        'de R$ 4.001/mês a R$ 6.000/mês': 5000,
        'de R$ 6.001/mês a R$ 8.000/mês': 7000,
        'de R$ 8.001/mês a R$ 12.000/mês': 10000,
        'de R$ 12.001/mês a R$ 16.000/mês': 14000,
        'de R$ 16.001/mês a R$ 20.000/mês': 18000,
        'de R$ 20.001/mês a R$ 25.000/mês': 22500,
        'de R$ 25.001/mês a R$ 30.000/mês': 27500,
        'de R$ 30.001/mês a R$ 40.000/mês': 35000,
        'Acima de R$ 40.001/mês': 45000
    }
    df_financeiro['salario_numerico'] = df_financeiro['faixa_salarial'].map(salary_map)

# --- Filtrar dados válidos ---
df_salario_regiao = df_financeiro.dropna(subset=['salario_numerico', 'regiao_onde_mora', 'arquétipo_tamanho']).copy()

# --- Ordenar regiões ---
ordem_regioes = ['Sudeste', 'Sul', 'Nordeste', 'Centro-oeste', 'Norte']
df_salario_regiao['regiao_onde_mora'] = pd.Categorical(
    df_salario_regiao['regiao_onde_mora'],
    categories=ordem_regioes,
    ordered=True
)

# --- Criar gráfico boxplot ---
fig = px.box(
    df_salario_regiao,
    x='regiao_onde_mora',
    y='salario_numerico',
    color='arquétipo_tamanho',
    labels={
        'regiao_onde_mora': 'Região do Brasil',
        'salario_numerico': 'Salário (R$)',
        'arquétipo_tamanho': 'Arquétipo'
    },
    title='Comparativo de Salário por Região: Bancos vs. Fintechs (2022-2024)',
    color_discrete_map={
        'Grande Porte (Provável Banco)': '#854442',
        'Pequeno/Médio Porte (Provável Fintech)': '#b3cde0'
    }
)

# --- Layout e estilo ---
fig.update_layout(
    title_x=0.5,
    xaxis_title='Região',
    yaxis_title='Faixa Salarial (R$)',
    boxmode='group'
)
fig.update_yaxes(tickprefix="R$ ", tickformat=",.0f")

# --- Exibir o gráfico ---
fig.show()


In [None]:

# 1. Preparar os dados para o diagrama
df_fluxo = df_financeiro.dropna(subset=['regiao_de_origem', 'regiao_onde_mora', 'arquétipo_tamanho']).copy()

# Agrupar por ano, origem, destino e arquétipo
fluxo_counts = df_fluxo.groupby(
    ['ano_base', 'regiao_de_origem', 'regiao_onde_mora', 'arquétipo_tamanho']
).size().reset_index(name='value')

# --- REMOVER FLUXOS INTERNOS (Origem == Destino) ---
fluxo_counts = fluxo_counts[fluxo_counts['regiao_de_origem'] != fluxo_counts['regiao_onde_mora']]

# 2. Criar rótulos para origem e destino
fluxo_counts['source_node'] = fluxo_counts['regiao_de_origem'] + ' (Origem)'
fluxo_counts['target_node'] = fluxo_counts['regiao_onde_mora'] + ' (Destino)'

# 3. Cores por arquétipo
color_map = {
    'Grande Porte (Provável Banco)': 'rgba(133, 68, 66, 0.7)',
    'Pequeno/Médio Porte (Provável Fintech)': 'rgba(179, 205, 224, 0.7)'
}
fluxo_counts['flow_color'] = fluxo_counts['arquétipo_tamanho'].map(color_map)

# 4. Geração dos gráficos por ano
anos_analise = sorted(fluxo_counts['ano_base'].dropna().unique())

for ano in anos_analise:
    print(f"--- Gerando Gráfico de Migração para o Ano: {ano} ---")

    df_ano = fluxo_counts[fluxo_counts['ano_base'] == ano]

    if df_ano.empty:
        print(f"⚠️ Não houve migração entre regiões registrada para o ano de {ano}.")
        continue

    # Listar todos os nós únicos (origem + destino)
    all_nodes_ano = pd.concat([df_ano['source_node'], df_ano['target_node']]).unique()
    node_map_ano = {node: i for i, node in enumerate(all_nodes_ano)}

    # Mapear os índices para origem e destino
    source_idx_ano = df_ano['source_node'].map(node_map_ano)
    target_idx_ano = df_ano['target_node'].map(node_map_ano)

    # Criar Sankey
    fig = go.Figure(data=[go.Sankey(
        node=dict(
            pad=15,
            thickness=20,
            line=dict(color="black", width=0.5),
            label=all_nodes_ano,
        ),
        link=dict(
            source=source_idx_ano,
            target=target_idx_ano,
            value=df_ano['value'],
            color=df_ano['flow_color']
        )
    )])

    fig.update_layout(
        title_text=f"Fluxo Migratório de Talentos (Inter-regional) - {ano}",
        font_size=12,
        height=700,
        title_x=0.5
    )

    fig.show()

In [163]:
import pandas as pd
import plotly.express as px

# Filtrar dados válidos
df_raca_estado = df_financeiro.dropna(subset=['cor_raca_etnia', 'uf_onde_mora']).copy()

# Manter apenas Branca, Preta e Parda
racas_desejadas = ['Branca', 'Preta', 'Parda', 'Amarela', 'Indígena']
df_raca_estado = df_raca_estado[df_raca_estado['cor_raca_etnia'].isin(racas_desejadas)]

# Contar número de pessoas por estado e raça
contagem = df_raca_estado.groupby(['uf_onde_mora', 'cor_raca_etnia']).size().reset_index(name='quantidade')

# Ordenar os estados pela sigla para melhor visualização
contagem['uf_onde_mora'] = pd.Categorical(contagem['uf_onde_mora'], ordered=True, categories=sorted(contagem['uf_onde_mora'].unique()))

# Criar gráfico de barras agrupadas
fig = px.bar(
    contagem,
    x='uf_onde_mora',
    y='quantidade',
    color='cor_raca_etnia',
    barmode='group',
    title='Distribuição de Pessoas por Cor/Raça nos Estados Brasileiros',
    labels={'uf_onde_mora': 'Estado', 'quantidade': 'Número de Pessoas', 'cor_raca': 'Cor/Raça'},
    color_discrete_map={
        'Branca': '#f0e442',
        'Preta': '#000000',
        'Parda': '#a6761d', # Added comma here
        'Amarela': '#ffffe0',
        'Indígena': '#808080'
    }
)

# Ajustar layout
fig.update_layout(
    title_x=0.5,
    xaxis_tickangle=-45,
    height=600
)

fig.show()