In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re

sns.set_style('whitegrid')

#### Input data

In [2]:
df = pd.read_csv('data/State_of_data_2022.csv')

#### Fix columns names

In [3]:
columns = []
for column in df.keys():
    columns.append(column)
    
# Use uma expressão regular para extrair o texto após a vírgula
pattern = r"'\s*,\s*'(.+?)'"

new_column_names = [re.search(pattern, col).group(1) for col in columns]
# Criar um dicionário mapeando os nomes antigos para os novos
old_column_names = df.columns.tolist()
column_mapping = dict(zip(old_column_names, new_column_names))

# Renomear as colunas do DataFrame
df.rename(columns=column_mapping, inplace=True)

#### separating by question

#### 3 Sobre os dados da Pesquisa
O questionário foi dividido em 8 partes, e dentro de cada uma das partes temos as perguntas e opções de escolha.

Parte 1 - Dados demográficos \
Parte 2 - Dados sobre carreira \
Parte 3 - Desafios dos gestores de times de dados\
Parte 4 - Conhecimentos na área de dados\
Parte 5 - Objetivos na área de dados\
Parte 6 - Conhecimentos em Engenharia de Dados/DE\
Parte 7 - Conhecimentos em Análise de Dados/DA\
Parte 8 - Conhecimentos em Ciências de Dados/DS\

Cada pergunta é dividida em Parte, Letra da Pergunta, Número da Opção escolhida
Exemplo: P3a_1 = Parte 3, pergunta (a), opção (1)

In [4]:
selected_question_1 = df.columns[1:15]
selected_question_2 = df.columns[2:51]
selected_question_3 = df.columns[52:89]
selected_question_4 = df.columns[90:189]
selected_question_5= df.columns[190:193]
selected_question_6= df.columns[194:252]
selected_question_7= df.columns[253:302]
selected_question_7= df.columns[303:352]

#### Quest 1

In [5]:
df_quest_1 = df[selected_question_1]
df_quest_1.head(3)

Unnamed: 0,Idade,Faixa idade,Genero,Cor/raca/etnia,PCD,experiencia_profissional_prejudicada,aspectos_prejudicados,vive_no_brasil,Estado onde mora,uf onde mora,Regiao onde mora,Mudou de Estado?,Regiao de origem,Nivel de Ensino
0,39.0,35-39,Masculino,Parda,Não,Não acredito que minha experiência profissiona...,,True,Distrito Federal (DF),DF,Centro-oeste,False,Sudeste,Pós-graduação
1,32.0,30-34,Masculino,Parda,Não,"Sim, acredito que a minha a experiência profis...",Aprovação em processos seletivos/entrevistas,True,Pará (PA),PA,Norte,True,,Graduação/Bacharelado
2,53.0,50-54,Masculino,Branca,Não,,,True,Distrito Federal (DF),DF,Centro-oeste,False,Sul,Pós-graduação


In [6]:
df_quest_1['PCD'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 4271 entries, 0 to 4270
Series name: PCD
Non-Null Count  Dtype 
--------------  ----- 
4271 non-null   object
dtypes: object(1)
memory usage: 33.5+ KB


In [7]:
df_quest_1['PCD_new'] = df_quest_1['PCD'].map({'Sim': 1, 'Não': 0, 'Prefiro não informar': 0})
df_quest_1 = df_quest_1.astype({'PCD_new':'int'})
df_quest_1['PCD_new'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 4271 entries, 0 to 4270
Series name: PCD_new
Non-Null Count  Dtype
--------------  -----
4271 non-null   int64
dtypes: int64(1)
memory usage: 33.5 KB


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_quest_1['PCD_new'] = df_quest_1['PCD'].map({'Sim': 1, 'Não': 0, 'Prefiro não informar': 0})


In [8]:
df_quest_1['Cor/raca/etnia'].unique()

array(['Parda', 'Branca', 'Amarela', 'Preta', 'Prefiro não informar',
       'Indígena', 'Outra'], dtype=object)

#### Quantidade de PCD por Cor/raca/etnia
Temos que aproximadamente 1% da amostra entre pretos, pardos e brancos são PCDs.

Pessoas Amarelas, Indígenas e outra\Não informar, não apresentam pessoas PCDs.

In [9]:
df_quest_1[["Cor/raca/etnia", "PCD_new"]].groupby(['Cor/raca/etnia']).mean().sort_values(by='PCD_new', ascending=False)

Unnamed: 0_level_0,PCD_new
Cor/raca/etnia,Unnamed: 1_level_1
Preta,0.017182
Parda,0.017078
Branca,0.011297
Amarela,0.0
Indígena,0.0
Outra,0.0
Prefiro não informar,0.0


In [10]:
df_quest_1['Genero'].unique()

array(['Masculino', 'Feminino', nan, 'Prefiro não informar'], dtype=object)

In [17]:
df_quest_1['Genero_new'] = df_quest_1['Genero'].map({'Masculino': 1, 'Feminino': 0, 'Prefiro não informar' : np.nan})
df_quest_1.head(5)

Unnamed: 0,Idade,Faixa idade,Genero,Cor/raca/etnia,PCD,experiencia_profissional_prejudicada,aspectos_prejudicados,vive_no_brasil,Estado onde mora,uf onde mora,Regiao onde mora,Mudou de Estado?,Regiao de origem,Nivel de Ensino,PCD_new,Genero_new
0,39.0,35-39,Masculino,Parda,Não,Não acredito que minha experiência profissiona...,,True,Distrito Federal (DF),DF,Centro-oeste,False,Sudeste,Pós-graduação,0,1.0
1,32.0,30-34,Masculino,Parda,Não,"Sim, acredito que a minha a experiência profis...",Aprovação em processos seletivos/entrevistas,True,Pará (PA),PA,Norte,True,,Graduação/Bacharelado,0,1.0
2,53.0,50-54,Masculino,Branca,Não,,,True,Distrito Federal (DF),DF,Centro-oeste,False,Sul,Pós-graduação,0,1.0
3,27.0,25-29,Masculino,Branca,Não,,,True,Minas Gerais (MG),MG,Sudeste,True,,Doutorado ou Phd,0,1.0
4,46.0,45-49,Feminino,Branca,Não,Não acredito que minha experiência profissiona...,,True,Pará (PA),PA,Norte,True,,Pós-graduação,0,0.0


In [13]:
df_quest_1["vive_no_brasil"].unique()

array([ True, False])

In [14]:
df_quest_1[["Cor/raca/etnia", "vive_no_brasil"]].groupby(['Cor/raca/etnia']).mean().sort_values(by='vive_no_brasil', ascending=False)

Unnamed: 0_level_0,vive_no_brasil
Cor/raca/etnia,Unnamed: 1_level_1
Branca,0.978863
Parda,0.976281
Preta,0.972509
Prefiro não informar,0.961538
Amarela,0.960938
Indígena,0.909091
Outra,0.882353


In [15]:
df_quest_1[["Cor/raca/etnia", "Genero_new"]].groupby(['Cor/raca/etnia']).mean().sort_values(by='Genero_new', ascending=False)

Unnamed: 0_level_0,Genero_new
Cor/raca/etnia,Unnamed: 1_level_1
Indígena,0.8
Branca,0.760965
Parda,0.742857
Prefiro não informar,0.73913
Preta,0.71777
Amarela,0.703125
Outra,0.6875


In [21]:
df_quest_1["Nivel de Ensino"].unique()

array(['Pós-graduação', 'Graduação/Bacharelado', 'Doutorado ou Phd',
       'Estudante de Graduação', 'Mestrado', 'Não tenho graduação formal',
       'Prefiro não informar'], dtype=object)

In [None]:
df