# Investigando o Perfil do Profissional de Dados do Brasil 

Esse *notebook* foi elaborado utilizando como referência uma pesquisa realizada pela comunidade *Data Hackers*. A pesquisa foi realizada online em Novembro de 2019.

O *dataset* teve que ser anonimizado ao fazer a remoção de alguns *outliers* que poderiam identificar algum entrevistado, portanto há alguns dados que foram coletados que não estão disponíveis ao público. Além disso, também por consequência da anonimização os estados com menor incidência de resposta, como estados das regiões Norte, Nordeste e Centro-Oeste terão apenas a região indicada no *Dataset* utilizdo.

Cada uma das colunas são identificadas com uma tupla, para que assim seja possível identificar quais colunas são pertencentes a determinadas perguntas. O primeiro identificador é a pergunta e, para várias respostas, o segundo identificador é em relação a alternativa que foi escolhida. As perguntas que foram feitas:

**Observação**: As peruntas que estiverem riscadas são as que foram transformadas/apagadas no processo de anonimização.

`Pergunta_1 (P1)` = Idade? [Mascarada]

`Pergunta_2 (P2)` = Gênero? [Mascarada]

`Pergunta_3 (P3)` = Atualmente você vive no Brasil?

`Pergunta_4 (P4)` = ~~Em que país você vive hoje?~~

`Pergunta_5 (P5)` = Em que estado você vive hoje? [Mascarada]

`Pergunta_6 (P6)` = Na questão anterior você disse que vive em _____ . Esse é seu estado de origem (onde nasceu ou se formou)?

`Pergunta_7 (P7)` = ~~Qual seu estado de origem?~~

`Pergunta_8 (P8)` = Qual seu nível de ensino? 

`Pergunta_9 (P9)` = ~~Qual sua área de formação?~~

`Pergunta_10 (P10)` = Qual sua situação atual de trabalho? 

`Pergunta_11 (P11)` = ~~A empresa em que você trabalha pertence a qual setor?~~

`Pergunta_12 (P12)` = A empresa em que você trabalha possui quantos funcionários atualmente?

`Pergunta_13 (P13)` = Você atua como gestor?

`Pergunta_14 (P14)` = ~~Qual das opções abaixo definem melhor seu cargo de trabalho atual como gestor?~~

`Pergunta_15 (P15)` = ~~Qual das opções abaixo definem melhor seu cargo de trabalho atual?~~

`Pergunta_16 (P16)` = Qual sua faixa salarial atual? [Mascarada]

`Pergunta_17 (P17)` = Quanto tempo de experiência na área de dados você tem?

`Pergunta_18 (P18)` = Quanto tempo de experiência na área de TI/Engenharia de Software você teve antes de começar a trabalhar na área de dados?

`Pergunta_19 (P19)` = Você se considera um profissional que atua na área de Data Science?

`Pergunta_20 (P20)` = Quais dos métodos listados abaixo você costuma utilizar no trabalho?

`Pergunta_21 (P21)` = Quais das linguagens de programação listadas abaixo você utiliza no trabalho?

`Pergunta_22 (P22)` = Entre as linguagens de programação listadas abaixo, qual é a que você mais utiliza no trabalho? [Mascarada]

`Pergunta_23 (P23)` = Quais das fontes de dados listadas você já analisou no trabalho?

`Pergunta_24 (P24)` = Entre as fontes de dados listadas, quais você utiliza na maior parte do tempo? Selecione no máximo duas opções que você mais utiliza.

`Pergunta_25 (P25)` = Quais das opções de Cloud listadas abaixo você utiliza no trabalho?

`Pergunta_26 (P26)` = Quais dos bancos de dados/fontes de dados listados abaixo você utiliza para consultar informações, e posteriormente analisar, no trabalho?

`Pergunta_27 (P27)` = Quais as Ferramentas de Business Intelligence você utiliza no trabalho?

`Pergunta_28 (P28)` = Quais as tecnologias são utilizadas como ferramenta de ETL no seu trabalho?

`Pergunta_29 (P29)` = Sua organização possui um Data Warehouse?

`Pergunta_30 (P30)` = Qual tecnologia utilizada como plataforma do Data Warehouse?

`Pergunta_31 (P31)` = Quais das iniciativas do Data Hackers que você já acessou/acompanhou?

`Pergunta_32 (P32)` = Entre as iniciativas do Data Hackers qual a sua preferida?

`Pergunta_33 (P33)` = De quais outras formas que você costuma se atualizar no mundo dos dados?

`Pergunta_34 (P34)` = Em quais dessas plataformas listadas abaixo você já iniciou/completou cursos na área de Data Science?

`Pergunta_35 (P35)` = Dentre as plataformas listadas abaixo qual foi a sua preferida para cursos de Data Science?

`Pergunta_36 (P36)` = Você deseja participar do sorteio?

Além dessas, algumas outras colunas foram derivadass:


`Derivado_1 (D1)` = Macrorregião em que mora

`Derivado_2 (D2)` = Macrorregião em que nasceu

`Derivado_3 (D3)` = Área de formação anonimizada

`Derivado_4 (D4)` = Setor de mercado anonimizado

`Derivado_5 (D5)` = Nível de gerência anonimizado

`Derivado_6 (D6)` = Cargo anonimizado

Esse projeto foi feito com base no notebook [Kaggle Pesquisa Data Hackers](https://www.kaggle.com/datahackers/pesquisa-data-hackers-2019?select=data_dictionary.txt) e [Análise Flai](https://github.com/gitflai/WorkshopDataScience2021/blob/main/Dia1/Analise_FLAI_o%20perfil_do_prof_de_dados.ipynb).


In [2]:
#importar bibliotecas necessárias
import numpy as np 
import pandas as pd
from pandas.api.types import CategoricalDtype
import matplotlib.pyplot as plt
from matplotlib_venn import venn3

In [3]:
#Lendo os dados 
df = pd.read_csv('/home/renata/Desktop/Cursos/projetos/Perfil do Profissional de Dados/datahackers-survey-2019-anonymous-responses.csv')

df.head()

Unnamed: 0,"('P0', 'id')","('P1', 'age')","('P2', 'gender')","('P3', 'living_in_brasil')","('P5', 'living_state')","('P6', 'born_or_graduated')","('P8', 'degreee_level')","('P10', 'job_situation')","('P12', 'workers_number')","('P13', 'manager')","('P16', 'salary_range')","('P17', 'time_experience_data_science')","('P18', 'time_experience_before')","('P19', 'is_data_science_professional')","('P20', 'linear_regression')","('P20', 'logistic_regression')","('P20', 'glms')","('P20', 'decision_tree')","('P20', 'random_forest')","('P20', 'neural_networks')","('P20', 'bayesian_inference')","('P20', 'ensemble')","('P20', 'svms')","('P20', 'cnns')","('P20', 'rnns')","('P20', 'hmms')","('P20', 'gans')","('P20', 'markov_chains')","('P20', 'nlp')","('P20', 'gradient_boosted_machines')","('P20', 'cluster_analysis')","('P20', 'survival_analysis')","('P20', 'longitudinal_data_analysis')","('P20', 'joint analysis')","('P20', 'no_listed_methods')","('P21', 'sql_')","('P21', 'r')","('P21', 'python')","('P21', 'c_c++_c#')","('P21', 'dotnet')",...,"('P30', 'microsoft_azure')","('P30', 'do_not_know')","('P30', 'other')","('P31', 'data_hackers_blog')","('P31', 'data_hackers_podcast')","('P31', 'weekly_newsletter')","('P31', 'slack_channel')","('P31', 'data_hackers_bootcamp')","('P31', 'do_not_know_data_hackers')","('P32', 'prefered_data_hackers_initiative')","('P33', 'telegram_groups')","('P33', 'whatsapp_groups')","('P33', 'youtube_channels')","('P33', 'other_brasilian_blogs')","('P33', 'other_slack_channels')","('P33', 'twitter')","('P33', 'abroad_blogs')","('P33', 'abroad_podcasts')","('P33', 'meetups_and_events')","('P33', 'only_data_hackers')","('P33', 'other')","('P34', 'udacity')","('P34', 'coursera')","('P34', 'udemy')","('P34', 'height')","('P34', 'edx')","('P34', 'data_camp')","('P34', 'data_quest')","('P34', 'kaggle_learn')","('P34', 'online_courses')","('P34', 'other')","('P35', 'data_science_plataforms_preference')","('P35', 'other')","('P36', 'draw_participation')","('D1', 'living_macroregion')","('D2', 'origin_macroregion')","('D3', 'anonymized_degree_area')","('D4', 'anonymized_market_sector')","('D5', 'anonymized_manager_level')","('D6', 'anonymized_role')"
0,v9otv8j9wdvjrv9otvwnn9owhzq54ktv,37.0,Masculino,1,Minas Gerais (MG),1.0,Estudante de Graduação,Empregado (CTL),de 1 a 5,0.0,de R$ 1.001/mês a R$ 2.000/mês,Não tenho experiência na área de dados,Não tive experiência na área de TI/Engenharia ...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,Ainda não conhecia o Data Hackers,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,Nunca fiz cursos online,,1.0,Região Sudeste,,Computação / Engenharia de Software / Sistemas...,Outras,,Outras
1,875ul998t0hqcv0871uptwf3oswcfv35,24.0,Feminino,1,São Paulo (SP),1.0,Estudante de Graduação,Empregado (CTL),Acima de 3000,0.0,de R$ 2.001/mês a R$ 3000/mês,Menos de 1 ano,Não tive experiência na área de TI/Engenharia ...,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0,1,0,0,...,0,0,0,0,0,0,0,0,1,Ainda não conhecia o Data Hackers,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,,Data Science Academy,0.0,Região Sudeste,,Computação / Engenharia de Software / Sistemas...,Educação,,Data Analyst/Analista de Dados
2,puscuk079vw1pusbb900pzw2xvpxtgdk,26.0,Masculino,1,São Paulo (SP),1.0,Graduação/Bacharelado,Empregado (CTL),Acima de 3000,0.0,de R$ 4.001/mês a R$ 6.000/mês,de 1 a 2 anos,de 6 a 10 anos,1,0,0,0,0,1,1,0,1,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,...,0,0,0,0,1,1,0,0,0,Newsletter Semanal,0,0,0,1,0,0,0,0,0,0,0,0,1,1,0,0,0,0,1,0,0,Udemy,,1.0,Região Sudeste,,Outras Engenharias,Indústria (Manufatura),,Outras
3,rmel8ewqpbffp2mnfbzermel8eqincov,21.0,Masculino,1,São Paulo (SP),0.0,Estudante de Graduação,Estagiário,de 11 a 50,0.0,de R$ 1.001/mês a R$ 2.000/mês,Menos de 1 ano,de 2 a 3 anos,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,0,0,...,0,0,0,0,0,0,0,0,1,Ainda não conhecia o Data Hackers,0,1,0,0,0,0,0,1,0,0,0,0,1,1,1,0,0,0,0,0,0,Alura,,1.0,Região Sudeste,Região Sudeste,Computação / Engenharia de Software / Sistemas...,Tecnologia/Fábrica de Software,,Business Intelligence/Analista de BI
4,pj9mgud4d6mdct1l7vq0pj9mgu78h6ju,27.0,Masculino,1,,1.0,Graduação/Bacharelado,Freelancer,de 6 a 10,1.0,de R$ 6.001/mês a R$ 8.000/mês,de 4 a 5 anos,de 4 a 5 anos,1,1,0,0,1,1,0,0,1,1,0,1,0,0,0,1,0,0,0,0,0,0,1,0,1,1,0,...,0,0,0,1,0,0,0,0,0,Blog/Medium do Data Hackers,0,0,0,0,0,0,0,0,0,0,1,1,1,1,0,0,0,0,0,0,0,Udemy,,1.0,,,Computação / Engenharia de Software / Sistemas...,Internet/Ecommerce,"C-level (CDO, CIO, CTO)",


## Preparação dos Dados

Modificações necessárias:

* Categorizar o tamanho das empresas entre pequena, média e grande, tomando como base o número de funcionários de cada uma;
* Agrupar as profissões com características semelhantes;
* Recategorizar o tempo de experiência;
* Estabelecer ordem para a variável escolaridade;
* Criar uma variável discreta de salário através do ponto médio das faixas salariais;
* Categorizar a variável idade;
* Renomear as variáveis mais utilizadas a fim de facilitar o acesso delas;
* Criar subconjuntos de dados de cada uma das profissões de interesse.

In [27]:
print('As profissões encontradas no Dataset original: ')
print(df["('D6', 'anonymized_role')"].value_counts())
print('\nA quantidade de funcionários das empresas no dataset original: ')
print(df["('P12', 'workers_number')"].value_counts())
print('\nO tempo de experiência de cada funcionário: ')
print(df["('P17', 'time_experience_data_science')"].value_counts())
print('\nNível de escolaridade dos funcionários:')
print(df["('P8', 'degreee_level')"].value_counts())
print('\nRange dos salários dos funcionários:')
print(df["('P16', 'salary_range')"].value_counts())

As profissões encontradas no Dataset original: 
Desenvolvedor ou Engenheiro de Software    225
Outras                                     220
Data Scientist/Cientista de Dados          167
Data Analyst/Analista de Dados             163
Business Intelligence/Analista de BI       150
Data Engineer/Engenheiro de Dados          130
Business Analyst/Analista de Negócios       72
Analista de Inteligência de Mercado         29
Engenheiro                                  26
Analista de Marketing                       19
Engenheiro de Machine Learning              15
DBA/Administrador de Banco de Dados         14
Estatístico                                 11
Economista                                  10
Name: ('D6', 'anonymized_role'), dtype: int64

A quantidade de funcionários das empresas no dataset original: 
Acima de 3000     393
de 101 a 500      333
de 11 a 50        204
de 501 a 1000     172
de 1001 a 3000    164
de 51 a 100       128
de 1 a 5           72
de 6 a 10          61
Name: (

In [37]:
#Agrupamento das profissões 
prof_map = {'Desenvolvedor ou Engenheiro de Software': 'Desenvolvedor/Engenheiro de Software',
            'Outras': 'Outras',
            'Data Scientist/Cientista de Dados': 'Cientista de Dados',
            'Data Analyst/Analista de Dados': 'Analista de Dados',
            'Business Intelligence/Analista de BI': 'Analista de BI',
            'Data Engineer/Engenheiro de Dados': 'Engenheiro de Dados',
            'Business Analyst/Analista de Negócios': 'Analista de BI',
            'Analista de Inteligência de Mercado': 'Analista de BI',
            'Engenheiro': 'Outras',
            'Analista de Marketing': 'Outras',
            'Engenheiro de Machine Learning': 'Cientista de Dados',
            'DBA/Administrador de Banco de Dados': 'Engenheiro de Dados',
            'Estatístico': 'Cientista de Dados',
            'Economista': 'Outras'}

df['profissao'] = df["('D6', 'anonymized_role')"].map(prof_map)

#Criando tamanho da empresa
tam_map = {'de 1 a 5': 'Pequena',
            'de 6 a 10': 'Pequena',
            'de 11 a 50': 'Pequena',
            'de 51 a 100': 'Pequena',
            'de 101 a 500': 'Média',
            'de 501 a 1000': 'Média',
            'de 1001 a 3000': 'Grande',
            'Acima de 3000': 'Grande'}

#Recategorizando experiência
temp_xp_ds = {
    'Menos de 1 ano': 'Até 1 ano',
    'Não tenho experiâcnia na área de dados': 'Até 1 ano',
    'de 1 a 2 anos': 'De 1 a 3 anos',
    'de 2 a 3 anos': 'De 1 a 3 anos',
    'de 4 a 5 anos': 'De 3 a 5 anos',
    'de 6 a 10 anos': 'Maior que 5',
    'Mais de 10 anos': 'Maior que 5'
}


#Ordeando escolaridade
esc_map = CategoricalDtype(
    ['Prefiro não informar', 'Não tenho graduação formal', 'Estudante de Graduação', 'Graduação/Bacharelado', 'Pós-graduação', 'Mestrado', 'Doutorado ou Phd'], ordered = True
)

#Discretizando salário
sala_map =  {'Menos de R$ 1.000/mês': 1000,
            'de R$ 1.001/mês a R$ 2.000/mês': 1500, 
            'de R$ 2.001/mês a R$ 3000/mês': 2500,
            'de R$ 3.001/mês a R$ 4.000/mês': 3500,
            'de R$ 4.001/mês a R$ 6.000/mês': 5000, 
            'de R$ 6.001/mês a R$ 8.000/mês': 7000,
            'de R$ 8.001/mês a R$ 12.000/mês': 10000,
            'de R$ 12.001/mês a R$ 16.000/mês': 14000,
            'de R$ 16.001/mês a R$ 20.000/mês': 18000,
            'de R$ 20.001/mês a R$ 25.000/mês': 22500, 
                    'Acima de R$ 25.001/mês': 25000}

#Discretizando a idade
cortes = [0, 24, 30, 40, 100]
nomes = ['[18,24]', '[25,30]', '[31,40]', '[41,50]']

#Criando um novo dataset com as informações de maior interesse
df['idade'] = pd.cut(df["('P1', 'age')"], bins = cortes, labels = nomes)
df['salario'] = df["('P16', 'salary_range')"].map(sala_map)
df['tamanho_da_empresa'] = df["('P12', 'workers_number')"].map(tam_map)
df['gestor'] = df["('P13', 'manager')"].map({0: 'não', 1: 'sim'})
df['se_considera_ds'] = df["('P19', 'is_data_science_professional')"].map({0: 'não', 1: 'sim'})
df['sexo'] = df["('P2', 'gender')"]
df['experiencia_ds'] = df["('P17', 'time_experience_data_science')"].map(temp_xp_ds)
df['tipo_de_trabalho'] = df["('P10', 'job_situation')"]
df['escolaridade'] = df["('P8', 'degreee_level')"].astype(esc_map)
df['area_de_formacao'] = df["('D3', 'anonymized_degree_area')"]
df['setor_de_mercado'] = df["('D4', 'anonymized_market_sector')"]
df['plataforma_favorita'] = df["('P35', 'data_science_plataforms_preference')"]

#Criando conjunto de dados convenientes através de filtros

#Profissões de dados
lista = ['Cientista de Dados', 'Analista de Dados', 'Analista de BI', 'Engenheiro de Dados']
pds = df[df['profissao'].isin(lista)]
cds = df[df['profissao'] == 'Cientista de Dados']
ads = df[df['profissao'] == 'Analista de Dados']
abi = df[df['profissao'] == 'Analista de BI']
eds = df[df['profissao'] == 'Engenheiro de Dados']

## Paleta de Cores

A paleta de cores criada tem como função padronizar as visualizações dos gráficos.

In [38]:
#Criando paleta de cores
cores = ['#080047','#110099','#3219FF','#197CFF','#6BAAFF','#6BDEFF','#A8ECFF']
cores1 = ['#197CFF']
cores2 = ['#080047','#197CFF']
cores3 = ['#080047','#197CFF','#A8ECFF']
cores4 = ['#080047','#3219FF','#6BAAFF','#A8ECFF']
cores_venn = ['#080047','#197CFF','#778899']