## **Introdução**

**Tema:** Diversidade na Análise de Dados: Um Olhar sobre Gênero e Raça<br><br>

A diversidade de gênero e raça é um tema cada vez mais relevante na análise de dados, pois reflete as desigualdades e oportunidades presentes em diferentes setores da sociedade. Este notebook tem como objetivo explorar a distribuição de gênero e raça na área de dados, investigando diversos aspectos como nível de cargo, faixa salarial, escolaridade, tempo de experiência e ocupação de cargos de gestão.<br><br>

De acordo com os dados de 2022 do Instituto Brasileiro de Geografia e Estatística (IBGE), a população brasileira é composta por aproximadamente 51,1% de mulheres e 48,9% de homens. Em termos raciais, 53,2% da população se declara negra (incluindo pretos e pardos), enquanto 47% se declara branca. No entanto, quando se trata da distribuição de oportunidades de carreira e acesso a cargos de liderança, grandes desigualdades ainda são observadas quando analisadas sob o recorte de gênero e raça:<br><br>

**Mulheres Negras:** Representam uma parcela significativa da população, mas têm menor representatividade em cargos de liderança e posições bem remuneradas.<br><br>

**Homens Brancos:** Apesar de serem uma parcela menor em termos demográficos, ainda dominam cargos de alto nível e apresentam maiores médias salariais.<br><br>

**Mulheres Brancas e Negras:** Continuam enfrentando barreiras para acessar cargos de gestão e posições de destaque, refletindo as disparidades históricas que persistem no ambiente de trabalho, embora as mulheres negras estejam ainda mais sub-representadas.<br><br>

Esta análise visa identificar e quantificar essas desigualdades, destacando como gênero e raça influenciam a progressão de carreira, a ocupação de cargos de liderança e o acesso a salários justos.<br><br>

Ao longo desta análise, utilizaremos gráficos para visualizar as disparidades entre diferentes grupos de gênero e raça, buscando evidências que possam fundamentar políticas de inclusão e equidade. O objetivo é compreender como as diferenças de gênero e raça se manifestam em cada aspecto da carreira, permitindo identificar áreas que precisam de intervenção para promover um ambiente mais justo e diverso na área de dados.


## Importando Pandas

In [42]:
import pandas as pd

## Abrindo arquivo CSV - 2022

In [None]:
df_2022 = pd.read_csv('2022.csv')
df_2022

**Verificando Tipos de dados**

In [None]:
df_2022.info()

**Verificando Nulos**

In [None]:
df_2022.isnull().sum()

**Verificando as dimensões do DataFrame**

In [None]:
df_2022.shape

## Abrindo arquivo CSV - 2023

In [None]:
df_2023 = pd.read_csv('2023.csv')
df_2023

**Verificando Tipos de dados**

In [None]:
df_2023.info()

**Verificando Nulos**

In [None]:
df_2023.isnull().sum()

**Verificando as dimensões do DataFrame**

In [None]:
df_2023.shape

## Juntando datasets

In [None]:
df_diversidade = pd.merge(df_2022, df_2023, how='outer')
df_diversidade

In [None]:
df_diversidade.shape

## Exportar Base

In [None]:
df_diversidade.to_csv('base_diversidade.csv', index=False)
df_diversidade

## Importando Bibliotecas

In [48]:
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
print(df_diversidade.columns)

## Visualizações

**Distribuição De Gênero E Raça Na Área de Dados**<br><br>
Este gráfico ilustra a distribuição percentual de gênero dentro de cada grupo racial, fornecendo uma visão clara da composição de gênero entre diferentes raças. A visualização ajuda a identificar a representatividade de homens e mulheres em cada grupo racial e pode ser usada para analisar padrões de diversidade e inclusão.<br><br>

**Análise:**

Os resultados mostram que há uma variação significativa na distribuição de gênero em diferentes grupos raciais. Homens brancos e pardos tendem a compor uma maior proporção nos grupos de maior representatividade, enquanto as mulheres, especialmente negras, estão sub-representadas em alguns grupos. Esta análise reforça a importância de políticas voltadas para a inclusão e equidade de gênero e raça, buscando garantir que todos os grupos tenham oportunidades iguais de participação e crescimento no mercado de trabalho. A falta de equilíbrio na distribuição de gênero em certos grupos pode sugerir barreiras estruturais que limitam o acesso de mulheres a determinadas áreas, evidenciando a necessidade de ações afirmativas.

In [None]:
# Criando uma tabela de contingência para contar as ocorrências de cada combinação
cont_table = pd.crosstab(df_diversidade['Como você se identifica'], df_diversidade['Gênero'], normalize='index') * 100

# Definindo as cores personalizadas
cores_personalizadas = ['#FA8072', '#FFDAB9',
                        '#66CDAA', '#B2E8D3',
                        '#FFA751', '#FFDEAF']

# Plotando o gráfico de barras empilhadas em percentual
plt.figure(figsize=(12, 8))
cont_table.plot(kind='bar', stacked=True, color=cores_personalizadas, figsize=(12, 8))
plt.title('Distribuição Percentual por Gênero e Raça')
plt.xlabel('Raça')
plt.ylabel('Percentual (%)')
plt.legend(title='Gênero', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.xticks(rotation=90)

plt.tight_layout()
plt.show()

**Gráfico de Faixa Salarial por Gênero e Raça**<br><br>
Este gráfico apresenta as faixas salariais dos participantes, categorizadas por gênero e raça. O objetivo é permitir uma visualização clara das possíveis diferenças nas distribuições salariais entre diferentes grupos, ressaltando a composição salarial em cada segmento.<br><br>

**Análise:**

Os resultados evidenciam desigualdades marcantes nas faixas salariais entre os grupos de gênero e raça. Nota-se que homens brancos tendem a ocupar as faixas salariais mais altas, enquanto mulheres negras e pardas são sub-representadas, especialmente nas faixas de maior remuneração. Essa discrepância sugere barreiras estruturais e possivelmente discriminação no acesso a melhores oportunidades e salários, especialmente para mulheres negras. Esse cenário reflete a necessidade urgente de ações voltadas à promoção da equidade salarial, garantindo que grupos historicamente marginalizados tenham as mesmas condições de ascensão e remuneração. A análise reforça a importância de políticas de diversidade e inclusão no mercado de trabalho, com o intuito de construir um ambiente mais justo, equitativo e representativo.

In [None]:
# Atualizar as faixas salariais
ordem_faixas_salariais = ['500 a 1500', '1501 a 5000', '5001 a 10000',
                          '10001 a 14000', '14001 a 18000', '18001 a 22500',
                          '22501 a 27500', '27501 a 35000', 'Acima de 35000']

df_diversidade['Faixa Salarial'] = pd.Categorical(df_diversidade['Faixa Salarial'], categories=ordem_faixas_salariais, ordered=True)

# Agrupar os dados e calcular a proporção de cada grupo por faixa salarial
grouped_data = df_diversidade.groupby(['Gênero', 'Como você se identifica', 'Faixa Salarial']).size().unstack().fillna(0)
proporcao_grouped_data = grouped_data.div(grouped_data.sum(axis=1), axis=0)

# Definir as cores personalizadas conforme solicitado
cores_personalizadas = ['#FA8072', '#FFDAB9',
                        '#66CDAA', '#B2E8D3',
                        '#FFA751', '#FFDEAF']

# Definir as labels personalizadas
labels_personalizadas = ['Masculino - Branca', 'Feminino - Branca',
                         'Masculino - Preta', 'Feminino - Preta',
                         'Masculino - Parda', 'Feminino - Parda']

# Criar o gráfico de proporção
plt.figure(figsize=(12, 8))
proporcao_grouped_data.T.plot(kind='bar', stacked=True, color=cores_personalizadas, figsize=(12, 8))

plt.title('Proporção das Faixas Salariais por Gênero e Raça', fontsize=16)
plt.xlabel('Faixa Salarial', fontsize=12)
plt.ylabel('Proporção (%)', fontsize=12)
plt.xticks(rotation=90)
plt.legend(labels=labels_personalizadas, title='Gênero e Raça')

plt.tight_layout()
plt.show()

**Nível de Cargo por Gênero e Raça**<br><br>
Nível de Cargo por Gênero e Raça
Este gráfico analisa a distribuição dos níveis de cargo (Júnior, Pleno, Sênior, e Não Declarou) por gênero e raça, fornecendo uma visão clara sobre como diferentes grupos estão posicionados em termos de progressão de carreira.<br><br>

**Análise:**

Ao observar os níveis de cargo por gênero e raça, podemos identificar tendências de segregação entre os grupos em relação a posições hierárquicas específicas. Por exemplo, se os resultados indicarem que homens brancos são a maioria nos cargos sêniores, enquanto mulheres pardas ou negras têm predominância nos cargos júnior, isso aponta para a existência de um obstáculo significativo na progressão de carreira para certos grupos. Essa análise destaca a importância de iniciativas que visem eliminar essas barreiras, como políticas de desenvolvimento profissional, programas de mentoria e estratégias específicas de inclusão para garantir que todos os grupos tenham as mesmas oportunidades de crescimento na carreira.

In [None]:
# Criando a coluna combinada Gênero e Raça
df_diversidade['Gênero_Raça'] = df_diversidade['Gênero'] + ' - ' + df_diversidade['Como você se identifica']

# Criando a figura e configurando o tamanho
plt.figure(figsize=(12, 7))

# Definindo as cores personalizadas
cores_personalizadas = ['#FA8072', '#FFDAB9',
                        '#66CDAA', '#B2E8D3',
                        '#FFA751', '#FFDEAF']

# Criando o gráfico countplot
sns.countplot(x='Nivel', hue='Gênero_Raça', data=df_diversidade, palette=cores_personalizadas, order=['Júnior', 'Pleno', 'Sênior', 'Não Declarou'])

plt.title('Nível de Cargo por Gênero e Raça', fontsize=16)
plt.xlabel('Nível de Cargo', fontsize=12)
plt.ylabel('Contagem', fontsize=12)
plt.legend(title='Gênero e Raça', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.xticks(rotation=90)

plt.tight_layout()
plt.show()

**Distribuição de Escolaridade por Gênero e Raça**<br><br>
Este gráfico visualiza a distribuição da escolaridade dos participantes, categorizada por gênero e raça. Ele permite uma análise detalhada da representatividade de diferentes grupos educacionais em função do gênero e raça, facilitando a identificação de padrões ou disparidades na educação entre esses grupos.<br><br>

**Análise:**

Os resultados revelam diferenças na distribuição de escolaridade entre os grupos de gênero e raça. Homens brancos e pardos tendem a estar mais presentes em níveis educacionais mais elevados, enquanto as mulheres negras e pardas estão mais concentradas em níveis de escolaridade mais baixos. Essa disparidade educacional pode refletir barreiras sistêmicas e desafios que certos grupos enfrentam no acesso a oportunidades educacionais. Tais diferenças reforçam a necessidade de políticas públicas e corporativas voltadas para a promoção da igualdade educacional e a inclusão de grupos historicamente marginalizados, garantindo que todos tenham acesso equitativo ao desenvolvimento educacional e profissional.

In [None]:
# Criando a coluna combinada Gênero e Raça
df_diversidade['Gênero_Raça'] = df_diversidade['Gênero'] + ' - ' + df_diversidade['Como você se identifica']

# Definindo as cores personalizadas
cores_personalizadas = ['#FA8072', '#FFDAB9',
                        '#66CDAA', '#B2E8D3',
                        '#FFA751', '#FFDEAF']

# Plotando o gráfico de contagem para Escolaridade
plt.figure(figsize=(12, 7))
sns.countplot(x='Escolaridade', hue='Gênero_Raça', data=df_diversidade, palette=cores_personalizadas)
plt.title('Distribuição de Escolaridade por Gênero e Raça')
plt.xlabel('Escolaridade')
plt.ylabel('Contagem')
plt.xticks(rotation=90)
plt.legend(title='Gênero e Raça', bbox_to_anchor=(1.05, 1), loc='upper left')

plt.tight_layout()
plt.show()

**Tempo de Experiência na Área de Dados por Gênero e Raça**<br><br>
Este gráfico apresenta a distribuição do tempo de experiência na área de dados, categorizada por gênero e raça. Ele oferece uma visão clara de como diferentes grupos se distribuem em termos de experiência profissional no setor de dados.<br><br>

**Análise:**

Os resultados mostram uma variação significativa no tempo de experiência entre os grupos de gênero e raça. Homens brancos e pardos tendem a ter mais tempo de experiência na área de dados, enquanto as mulheres negras e pardas aparecem mais frequentemente com menos anos de experiência. Essas diferenças podem refletir desigualdades no acesso a oportunidades de desenvolvimento profissional, especialmente para mulheres negras, que parecem encontrar barreiras para atingir maiores níveis de experiência. Esta análise ressalta a importância de iniciativas de inclusão e promoção de igualdade de oportunidades, para que todos os grupos possam desenvolver suas carreiras de forma equitativa e competitiva no setor de dados.

In [None]:
# Ordenando o tempo de experiência do menor para o maior
ordem_experiencia = ['Menos de 1 ano', '1 a 2 anos', '2 a 3 anos', '3 a 4 anos', '4 a 5 anos', 'Mais de 5 anos']

# Definindo as cores personalizadas
cores_personalizadas = cores_personalizadas = ['#FA8072', '#FFDAB9',
                        '#66CDAA', '#B2E8D3',
                        '#FFA751', '#FFDEAF']

# Plotando o gráfico de contagem para Tempo de Experiência
plt.figure(figsize=(12, 7))
sns.countplot(x='Tempo de experiência na área de dados', hue='Gênero_Raça', data=df_diversidade, palette=cores_personalizadas, order=ordem_experiencia)
plt.title('Tempo de Experiência na Área de Dados por Gênero e Raça')
plt.xlabel('Tempo de Experiência')
plt.ylabel('Contagem')
plt.xticks(rotation=90)
plt.legend(title='Gênero e Raça', bbox_to_anchor=(1.05, 1), loc='upper left')

plt.tight_layout()
plt.show()

**Análise Cruzada de Cargo como Gestor por Gênero e Raça**<br><br>
Este gráfico mostra a distribuição de ocupação de cargos de gestão entre os participantes, segmentada por gênero e raça. O objetivo é analisar a representatividade em posições de liderança.<br><br>

**Análise:**

Ao observar a distribuição de cargos de gestão por gênero e raça, podemos identificar se existem grupos desproporcionalmente sub-representados em posições de liderança. Se, por exemplo, homens brancos forem a maioria em cargos de gestão, enquanto mulheres negras têm uma representação significativamente menor, isso sugere uma barreira importante no acesso a posições de liderança. Essa análise é crucial para entender onde as desigualdades estão mais presentes e como políticas de diversidade e inclusão podem ajudar a promover uma maior equidade na ocupação de cargos de liderança, garantindo oportunidades iguais para todos os grupos.

In [None]:
plt.figure(figsize=(14, 8))
cores_personalizadas = cores_personalizadas = ['#FA8072', '#FFDAB9',
                        '#66CDAA', '#B2E8D3',
                        '#FFA751', '#FFDEAF']
sns.countplot(x='Cargo como Gestor', hue='Gênero_Raça', data=df_diversidade, palette=cores_personalizadas)
plt.title('Distribuição de Cargos de Gestão por Gênero e Raça')
plt.xlabel('Cargo como Gestor')
plt.ylabel('Contagem')
plt.legend(title='Gênero e Raça', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.xticks(rotation=90)
plt.show()

**Considerações Finais**<br><br>

As análises conduzidas revelam desigualdades significativas na carreira na área de dados, abrangendo aspectos como escolaridade, nível de cargo, tempo de experiência e faixa salarial. A combinação de gênero e raça demonstra claramente como esses fatores influenciam a sub-representação de grupos específicos em posições de destaque e no acesso a oportunidades de crescimento.<br><br>

Os gráficos mostram que homens brancos continuam a ocupar predominantemente cargos sêniores e de liderança, enquanto mulheres pardas e negras enfrentam barreiras significativas para progredir na carreira, receber salários justos e acumular experiência. A análise de faixa salarial evidencia que mulheres negras e pardas estão concentradas nas faixas salariais mais baixas, o que reflete um desafio estrutural para a ascensão dessas profissionais dentro do setor. Homens brancos e pardos, por outro lado, dominam as faixas mais altas, o que reforça a disparidade na distribuição de oportunidades e remuneração entre os grupos.<br><br>

Essas disparidades refletem a necessidade urgente de ações que promovam um ambiente mais inclusivo e equitativo.<br><br>

**Para mitigar essas desigualdades, algumas recomendações incluem:**<br><br>

**Programas de Mentoria e Desenvolvimento:** Implementar programas de mentoria direcionados a mulheres e minorias raciais, com foco em desenvolvimento de carreira e preparação para cargos de liderança.<br><br>

**Políticas de Equidade Salarial:** Adotar políticas de transparência salarial que assegurem uma remuneração justa e equitativa, independentemente de gênero ou raça, corrigindo as disparidades identificadas nas faixas salariais.<br><br>

**Promoção da Diversidade na Formação:** Incentivar a inclusão de mulheres e pessoas negras em cursos e formações relacionadas à tecnologia e análise de dados, por meio de bolsas de estudo e programas de incentivo.<br><br>

**Retenção e Valorização de Talentos:** Desenvolver estratégias que ajudem a reter talentos de grupos sub-representados, oferecendo oportunidades de crescimento profissional e reconhecimento no ambiente de trabalho.<br><br>

Promover a equidade e inclusão na área de dados não é apenas uma questão de justiça social, mas também de competitividade e inovação. Empresas que abraçam a diversidade tendem a ser mais criativas, eficientes e capazes de proporcionar um ambiente de trabalho mais produtivo e satisfatório. A análise das faixas salariais, em particular, reforça a urgência de ações concretas para corrigir as disparidades e construir um setor de tecnologia verdadeiramente inclusivo e representativo.