## Introdução

O mercado de dados é formado por profissionais que transitaram de carreira, não só porque os diferentes cargos que existem hoje em dia são recentes e em constante mutação como também não existem graduações específicas para esses cargos.

No entanto, dentro dessa transição existe um grande divisor de águas, quem já trabalhava no setor de tecnologia (TI), que é o setor onde os cargos de dados se inserem, e os demais.

Posto isto, se levanta a seguinte pergunta:

* É mais difícil migrar de área para quem não se formou em TI?

E consequentemente:

* Que diferenças existem entre esses dois grupos? (TI e restantes formações)

## Objetivo

Assim sendo, esta análise irá tentar responder a essas perguntas.

### Análise preliminar

Importando as bibliotecas e o dataset.

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import textwrap

#o desenvolvimento foi feito com os avisos ativos, para não gerar poluição são desligados na versão final
import warnings
warnings.filterwarnings('ignore')


HOME = %env HOME

dados = pd.read_csv(f'{HOME}/repos/state_data_2021/data/State of Data 2021 - Dataset - Pgina1.csv')

FileNotFoundError: [Errno 2] No such file or directory: '/home/oem/repos/state_data_2021/data/State of Data 2021 - Dataset - Pgina1.csv'

Visão geral do dataset

In [None]:
#mudando as configurações default para melhorar a visibilidade
pd.set_option('display.max_columns', 500)
pd.set_option('display.max_rows', 500)

dados.head()

Quantidade de colunas e respetivos tipos de variável

In [None]:
dados.shape

In [None]:
dados.info()

Colunas númericas

In [None]:
dados.describe()

Colunas categóricas

In [None]:
dados.describe(include=[object])

Preenchimento e variabilidade e tipos 

In [None]:
consistency = pd.DataFrame({'columns' : dados.columns,
                    'type': dados.dtypes,
                    'missing' : dados.isna().sum(),
                    'size' : dados.shape[0],
                    'unique': dados.nunique()})
consistency['percentage'] = round(consistency['missing'] / consistency['size'],2)
consistency

Acima a coluna ID que deveria ser única aparenta ter dados duplicados.

In [None]:
dados["('P0', 'id')"].value_counts()

Como se pode verificar acima alguns ids se repetem, vamos investigar se são linhas duplicadas para tratar antes de começar qualquer análise.

In [None]:
dados[dados.duplicated(keep=False)]

As linhas são de fato duplicadas então antes de qualquer análise iremos proceder à respetiva remoção.

In [None]:
dados.drop_duplicates().shape, dados.shape

In [None]:
dados.drop_duplicates(inplace=True)
dados.shape

In [None]:
consistency = pd.DataFrame({'columns' : dados.columns,
                    'type': dados.dtypes,
                    'missing' : dados.isna().sum(),
                    'size' : dados.shape[0],
                    'unique': dados.nunique()})
consistency['percentage'] = round(consistency['missing'] / consistency['size'],2)
consistency

Agora que as entradas duplicadas foram removidas podemos prosseguir.

## Análise

Como esta análise deriva da área de formação de quem respondeu, o primeiro passo é olharmos como está esta distribuição. 

In [None]:
dados["('P1_i ', 'Área de Formação')"].value_counts()

In [None]:
dados["('P1_i ', 'Área de Formação')"].value_counts(normalize=True)

In [None]:
colors= ["#6d83da"]
sns.set_theme()
sns.set_style("ticks")
#sns.set_palette(colors)

P1_i ="('P1_i ', 'Área de Formação')"
fig = plt.figure(figsize=(12, 10))
ax = sns.barplot(data=dados, 
            x=dados[P1_i].value_counts(normalize=True).values*100, 
            y=dados[P1_i].value_counts(normalize=True).index,
            palette = colors
            )

ax.set_title('Área de Formação [%]', fontdict={'fontsize': 20, 'fontweight': 'medium'})

ax.set(xlabel=None)


for c in ax.containers:
    ax.bar_label(c, fmt=f'%.2f', label_type='edge')


ax.set(xlabel=None,ylabel=None)
ax.tick_params(labelbottom=False, bottom=False)

ax.spines['left'].set_visible(False)
ax.set(xticklabels=[])
sns.despine(top=True, right=True, left=True, bottom=True)
plt.show()

In [None]:
P1_g_b = "('P1_g_b ', 'Regiao de origem')"

colors= ["#6d83da"]
sns.set_theme()
sns.set_style("ticks")
#sns.set_palette(colors)

P1_i ="('P1_i ', 'Área de Formação')"
fig = plt.figure(figsize=(12, 10))
ax = sns.barplot(data=dados, 
            x=dados[P1_g_b].value_counts(normalize=True).values*100, 
            y=dados[P1_g_b].value_counts(normalize=True).index,
            palette = colors
            )

ax.set_title('Região de Origem [%]', fontdict={'fontsize': 20, 'fontweight': 'medium'})

ax.set(xlabel=None)


for c in ax.containers:
    ax.bar_label(c, fmt=f'%.2f', label_type='edge')


ax.set(xlabel=None,ylabel=None)
ax.tick_params(labelbottom=False, bottom=False)

ax.spines['left'].set_visible(False)
ax.set(xticklabels=[])
sns.despine(top=True, right=True, left=True, bottom=True)
plt.show()

A formação em TI é de fato a predominante com 42% do total, seguida de outras engenharias com 23%.

Relativamente à distribuição por região a única que tem menor representação que a sua população respetiva é a região Norte que mesmo sendo [mais populosa](https://www.luis.blog.br/populacao-do-brasil-estados-e-regioes-dados-do-ibge.html) que o Centro-oeste aparece por último.

Para avançar na análise foi feito um pré levantamento, de forma empírica, das perguntas que nos podem ajudara responder às questões levantadas.
Se dividindo da seguinte forma:

Perguntas relevantes para o estudo

* ('P2_a ', 'Qual sua situação atual de trabalho?')
* ('P2_i ', 'Quanto tempo de experiência na área de dados você tem?')
* ('P2_j ', 'Quanto tempo de experiência na área de TI/Engenharia de Software você teve antes de começar a trabalhar na área de dados?')
* ('P4_a ', 'Atuacao')
* ('P4_d_n ', 'Não utilizo nenhuma linguagem')
* ('P5_b ', 'Qual oportunidade você está buscando?')
* ('P5_c ', 'Há quanto tempo você busca uma oportunidade na área de dados?')
* ('P5_d ', 'Como tem sido a busca por um emprego na área de dados?') 

Perguntas relevantes para segmentação

* ('P1_a_a ', 'Faixa idade')
* ('P1_b ', 'Genero')
* ('P1_g_b ', 'Regiao de origem') 	
* ('P2_f ', 'Cargo Atual') 	
* ('P2_g ', 'Nivel') 	
* ('P2_h ', 'Faixa salarial') 	

Somente para não gerar código muito verboso, iremos gerar variáveis com os nomes das perguntas

In [None]:
P2_a = "('P2_a ', 'Qual sua situação atual de trabalho?')"
P2_i = "('P2_i ', 'Quanto tempo de experiência na área de dados você tem?')"
P2_j = "('P2_j ', 'Quanto tempo de experiência na área de TI/Engenharia de Software você teve antes de começar a trabalhar na área de dados?')"
P4_a = "('P4_a ', 'Atuacao')"
P4_d_n = "('P4_d_n ', 'Não utilizo nenhuma linguagem')"
P5_b = "('P5_b ', 'Qual oportunidade você está buscando?')"
P5_c = "('P5_c ', 'Há quanto tempo você busca uma oportunidade na área de dados?')"
P5_d = "('P5_d ', 'Como tem sido a busca por um emprego na área de dados?')"

In [None]:
P1_a_a = "('P1_a_a ', 'Faixa idade')"
P1_b = "('P1_b ', 'Genero')"
P1_g_b = "('P1_g_b ', 'Regiao de origem')"
P2_f = "('P2_f ', 'Cargo Atual')"
P2_g = "('P2_g ', 'Nivel')"
P2_h = "('P2_h ', 'Faixa salarial')"

Para efeitos de estudo iremos dividir entre Computação / Engenharia de Software / Sistemas de Informação/ TI e as restantes formações.
Gerando datasets respetivos para cada um deles.

In [None]:
TI = dados.loc[dados.loc[:,"('P1_i ', 'Área de Formação')"] == 'Computação / Engenharia de Software / Sistemas de Informação/ TI']
resto = dados.loc[dados.loc[:,"('P1_i ', 'Área de Formação')"] != 'Computação / Engenharia de Software / Sistemas de Informação/ TI']
TI.shape, resto.shape

In [None]:
dados.shape[0] - resto.shape[0]

Como os totais são diferentes para efeitos comparativos iremos reduzir as categorias às porcentagens dos totais.
Sinalizando quando a volumetria dos respondentes for baixa.

### Situação atual de trabalho 

Todas as perguntas serão abordadas da mesma forma:
1. Listagem dos valores totais de cada grupo.
2. Construção do gráfico com os percentuais das categorias em cada grupo.
3. Análise do gráfico.
4. Derivações provenientes da análise no ponto 3.

In [None]:
#"('P2_a ', 'Qual sua situação atual de trabalho?')"
TI[P2_a].value_counts()

In [None]:
TI[P2_a].value_counts().sum()

In [None]:
resto[P2_a].value_counts()

In [None]:
resto[P2_a].value_counts().sum()

Só para exemplificar como a ordenação das categorias foi realizada mantemos o código abaixo usado para ordenar as categorias. Nas demais perguntas este código será omitido.

In [None]:
resto[P2_a].value_counts().index

In [None]:
#para manter as ordem das categorias nos gráficos em ambos datasets iremos criar uma variavél contendo a ordem desejada das mesmas.
labels_P2_a = ['Somente Estudante (graduação)',
               'Somente Estudante (pós-graduação)',
               'Trabalho na área Acadêmica/Pesquisador',
               'Estagiário',
               'Servidor Público',
    'Empregado (CLT)',
      'Empreendedor ou Empregado (CNPJ)',
               'Freelancer',
     'Vivo no Brasil e trabalho remoto para empresa de fora do Brasil (PJ)',
      'Vivo fora do Brasil e trabalho para empresa de fora do Brasil',
               'Desempregado, buscando recolocação',
               'Desempregado e não estou buscando recolocação',
               'Prefiro não informar'
]

In [None]:
fig, axes = plt.subplots(1, 2, sharex=True, figsize=(16,12))

top = 1.15
right = 1.1

colors= ["#6d83da",
"#a6af3f",
"#57398c",
"#60a755",
"#be6ec6",
"#45c097",
"#892863",
"#cd8233",
"#d56cad",
"#9d833c",
"#c24c6e",
"#a04534",
"#d3544b"]

sns.set_theme()
sns.set_style("ticks")
sns.set_palette(colors)



ax1 = sns.barplot(ax= axes[0],data=TI, x=TI[P2_a].value_counts(normalize=True).values*100,
                  y=TI[P2_a].value_counts(normalize=True).index,
                   order=labels_P2_a)

ax1.set_xlim(0, 80)
ax1.set(xlabel=None,ylabel=None)
ax1.set_title("Formação em TI",fontdict={'fontsize': 20})
vals = ax1.get_xticks()
ax1.set_xticklabels([str(int(val))+'%' for val in vals])



ax2 = sns.barplot(ax= axes[1],data=resto, x=resto[P2_a].value_counts(normalize=True).values*100,
                  y=resto[P2_a].value_counts(normalize=True).index,
                   order=labels_P2_a)

ax2.set_xlim(0, 80)
ax2.set(xlabel=None, ylabel=None)
ax2.set_title("Outras Áreas",fontdict={'fontsize': 20})
ax2.tick_params(labelleft=False, left=False)


for c in ax1.containers:
    ax1.bar_label(c, fmt=f'%.2f', label_type='edge')
    
for c in ax2.containers:
    ax2.bar_label(c, fmt=f'%.2f', label_type='edge')   
    
    

ax1.text(right, top, 'Situação atual de trabalho',
         horizontalalignment='center',
         verticalalignment='center',
         transform=ax1.transAxes,
         fontdict={'fontsize': 22})

    
sns.despine()
ax2.spines['left'].set_visible(False)
ax1.spines['left'].set_visible(False)
plt.show()

Podemos ver no gráfico que existem 3 grandes grupos: 
* estudantes/pesquisadores,
* trabalhadores por conta prórpria ou de outrém,
* e desempregados.

Aparenta existir uma diferença de distribuição destes grupos dentro de área de TI e nas demais formações. 
Vamos então agrupar para investigar essa diferença com mais detalhe, no entanto como a categoria 'Prefiro não informar' não nos dá nenhuma informação sobre o grupo a que pertence vamos excluir no agrupamento abaixo.

In [None]:
studyingTI = TI[(TI[P2_a]=='Somente Estudante (graduação)') 
                | (TI[P2_a]== 'Somente Estudante (pós-graduação)') 
                | (TI[P2_a]== 'Trabalho na área Acadêmica/Pesquisador')
               ].shape[0]/TI.shape[0]*100

print("Estudantes TI: "+str(round(studyingTI,2))+'%')

In [None]:
studyingResto = resto[(resto[P2_a]=='Somente Estudante (graduação)') 
                      | (resto[P2_a]== 'Somente Estudante (pós-graduação)') 
                      | (resto[P2_a]== 'Trabalho na área Acadêmica/Pesquisador')
                     ].shape[0]/resto.shape[0]*100

print("Estudantes Resto: "+str(round(studyingResto,2))+'%')

In [None]:
not_workingTI = TI[(TI[P2_a]=='Desempregado e não estou buscando recolocação') 
                   | (TI[P2_a]== 'Desempregado, buscando recolocação') 
                  ].shape[0]/TI.shape[0]*100

print("Desempregados TI: "+str(round(not_workingTI,2))+'%')

In [None]:
not_workingResto = resto[(resto[P2_a]=='Desempregado e não estou buscando recolocação') 
                         | (resto[P2_a]== 'Desempregado, buscando recolocação') 
                         ].shape[0]/TI.shape[0]*100

print("Desempregados Resto: "+str(round(not_workingResto,2))+'%')

In [None]:
#apenas para exclusão do grupo sem informação abaixo
TI_sem_informacao = TI[(TI[P2_a]== 'Prefiro não informar')].shape[0]/TI.shape[0]*100
resto_sem_informacao = resto[(resto[P2_a]== 'Prefiro não informar')].shape[0]/resto.shape[0]*100

In [None]:
print("Trabalhadores TI: "+str(round(100-(studyingTI+not_workingTI+TI_sem_informacao),2))+'%')
print("Não Trabalhadores TI: "+str(round(studyingTI+not_workingTI,2))+'%')
print("Sem informação TI: "+str(round(TI_sem_informacao,2))+'%'+'\n')

print("Trabalhadores Resto: "+str(round(100-(studyingResto+not_workingResto+TI_sem_informacao),2))+'%')
print("Não Trabalhadores Resto: "+str(round(studyingResto+not_workingResto,2))+'%')
print("Sem informação Resto: "+str(round(resto_sem_informacao,2))+'%'+'\n')

Como se percebe a maioria dos respondentes está trabalhando mas o percentual de não trabalhadores (estudantes + desempregados) é maior nas restantes formações.
E embora o percentual de estudantes apenas difira cerca de 1%, os desempregados diferem quase 7%.


O que é um indicativo que tem mais gente tentando migrar de área sem formação em TI, e também confirma o momento aquecido do mercado de TI , até porque é mais "difícil" estar desempregado num mercado aquecido.


## Tempo de experiência na área de dados

In [None]:
#('P2_i ', 'Quanto tempo de experiência na área de dados você tem?')
TI[P2_i].value_counts()

In [None]:
TI[P2_i].value_counts().sum()

In [None]:
resto[P2_i].value_counts()

In [None]:
resto[P2_i].value_counts().sum()

In [None]:
labels_P2_i = ["Não tenho experiência na área de dados",
            "Menos de 1 ano",
            "de 1 a 2 anos",
            "de 2 a 3 anos",
            "de 4 a 5 anos",
            "de 6 a 10 anos",
            "Mais de 10 anos"]

In [None]:
fig, axes = plt.subplots(1, 2, sharex=True, figsize=(16,8))

top = 1.15
right = 1.1


colors= ["#6778d0",
"#86a542",
"#9750a1",
"#50b47b",
"#b94a73",
"#c18739",
"#b84c3e"]

sns.set_theme()
sns.set_style("ticks")
sns.set_palette(colors)



ax1 = sns.barplot(ax= axes[0],data=TI, x=TI[P2_i].value_counts(normalize=True).values*100,
                  y=TI[P2_i].value_counts(normalize=True).index,
                   order=labels_P2_i)

ax1.set_xlim(0, 40)
ax1.set(xlabel=None,ylabel=None) 
ax1.set_title("Formação em TI",fontdict={'fontsize': 20})
vals = ax1.get_xticks()
ax1.set_xticklabels([str(int(val))+'%' for val in vals])



ax2 = sns.barplot(ax= axes[1],data=resto, x=resto[P2_i].value_counts(normalize=True).values*100,
                  y=resto[P2_i].value_counts(normalize=True).index,
                   order=labels_P2_i)

ax2.set_xlim(0, 40)
ax2.set(xlabel=None, ylabel=None)
ax2.set_title("Outras Áreas",fontdict={'fontsize': 20})
ax2.tick_params(labelleft=False, left=False)



for c in ax1.containers:
    ax1.bar_label(c, fmt=f'%.2f', label_type='edge')

for c in ax2.containers:
    ax2.bar_label(c, fmt=f'%.2f', label_type='edge')  
    
    

ax1.text(right, top, 'Tempo de experiência na área de dados',
        horizontalalignment='center',
        verticalalignment='center',
        transform=ax1.transAxes,
        fontdict={'fontsize': 22})


sns.despine()
ax2.spines['left'].set_visible(False)
ax1.spines['left'].set_visible(False)
plt.show()

Podemos verificar que existe uma concentração maior no tempo de experiência entre 0 e 3 anos de quem vem de outras áreas.
Enquanto que na formação em TI a distribuição de experiência é mais uniforme.


Isto nos dá vários indícios:
* Quem tem formação em TI conhece a área de dados há mais tempo.
* Antigamente a área de dados procurava mais formação em TI.
* E os casos de sucesso junto com o momento quente da área de dados impulsionaram mais mudanças de carreira.



Também é curioso observarmos que o subgrupo que não tem experiência na área de dados, que é maior em TI (5,77% vs 4,72%), é diferente do subgrupo de desempregados, que é de 3,02% em TI e 9,71% nas restantes áreas.


Esta diferença levanta a hipótese de que quem não vem na área de TI necessita mais experiência para se efetivar na área de dados.

Porém verificamos se o subgrupo dos desempregados tinha respondido à questão de tempo de experiência na área de dados para poder investigar essa diferença. Mas como podemos ver abaixo não existe essa informação.

In [None]:
not_workingTI = TI[(TI[P2_a]=='Desempregado e não estou buscando recolocação') 
                   | (TI[P2_a]== 'Desempregado, buscando recolocação') 
                  ]

not_workingResto = resto[(resto[P2_a]=='Desempregado e não estou buscando recolocação') 
                         | (resto[P2_a]== 'Desempregado, buscando recolocação') 
                         ]


not_workingResto[P2_i].value_counts(), not_workingTI[P2_i].value_counts()

In [None]:
dados[(dados[P2_a]=='Desempregado e não estou buscando recolocação') 
                   | (dados[P2_a]== 'Desempregado, buscando recolocação') 
                  ][P2_i].value_counts()

Se concluindo apenas que o percentual de pessoas tentando migrar de para a área de dados enquanto trabalham, na área de TI é ligeiramente superior (aproxidamente 1%) às demais áreas.

O que pode ser explicado pelo maior acesso à área de dados quando se está trabalhando na área de TI, seja porque a empresa já possui um setor de dados, ou simplesmente porque o networking de quem já está dentro do setor é mais efetivo.

## Tempo de experiência na área de TI/Engenharia de Software antes de começar a trabalhar 

In [None]:
#"('P2_j ', 'Quanto tempo de experiência na área de TI/Engenharia de Software você teve antes de começar a trabalhar na área de dados?')"
TI[P2_j].value_counts()

In [None]:
TI[P2_j].value_counts().sum()

In [None]:
resto[P2_j].value_counts()

In [None]:
resto[P2_j].value_counts().sum()

In [None]:
labels_P2_j = ['Não tive experiência na área de TI/Engenharia de Software antes de começar a trabalhar na área de dados',
               'Menos de 1 ano',
               'de 1 a 2 anos',
               'de 2 a 3 anos',
               'de 4 a 5 anos',
               'de 6 a 10 anos', 
               'Mais de 10 anos']

In [None]:
fig, axes = plt.subplots(1, 2, sharex=True, figsize=(16,8))

top = 1.15
right = 1.1


colors= ["#aaa23f",
"#654096",
"#56ae6c",
"#c060a7",
"#b85f36",
"#6f85dc",
"#b74560"]

sns.set_theme()
sns.set_style("ticks")
sns.set_palette(colors)



ax1 = sns.barplot(ax= axes[0],data=TI, x=TI[P2_j].value_counts(normalize=True).values*100,
                  y=TI[P2_j].value_counts(normalize=True).index,
                   order=labels_P2_j)

ax1.tick_params(axis='x',labelrotation=0)
ax1.set_xlim(0, 60)
ax1.set(xlabel=None,ylabel=None)
ax1.set_title("Formação em TI",fontdict={'fontsize': 20})
vals = ax1.get_xticks()
ax1.set_xticklabels([str(int(val))+'%' for val in vals]);
ax1.set_yticklabels([textwrap.fill(e, 20) for e in labels_P2_j])



ax2 = sns.barplot(ax= axes[1],data=resto, x=resto[P2_j].value_counts(normalize=True).values*100,
                  y=resto[P2_j].value_counts(normalize=True).index,
                   order=labels_P2_j)

ax2.tick_params(axis='x',labelrotation=0)
ax2.set_xlim(0, 60)
ax2.set(xlabel=None, ylabel=None)
ax2.set_title("Outras Áreas",fontdict={'fontsize': 20})
ax2.tick_params(labelleft=False, left=False)


for c in ax1.containers:
    ax1.bar_label(c, fmt=f'%.2f', label_type='edge')
    
for c in ax2.containers:
    ax2.bar_label(c, fmt=f'%.2f', label_type='edge')    


ax1.text(right, top, 'Experiência prévia com TI',
        horizontalalignment='center',
        verticalalignment='center',
        transform=ax1.transAxes,
        fontdict={'fontsize': 22})


sns.despine()
ax2.spines['left'].set_visible(False)
ax1.spines['left'].set_visible(False)
plt.show()

Aqui podemos ver que os formados em TI migram para a área de dados em qualquer nível de maturidade da sua carreira.
Levantando a hipótese que isso talvez seja explicado parcialmente pela restruturação de cargos que o setor de dados sofreu nos últimos anos, que com a maturidade entende melhor qual é o limite de um desenvolvedor e um engenheiro de dados por exemplo.

Curioso é também verificar que existe um percentual significativo de pessoas com outras formações que já tinha atuado dentro do setor de TI (43,62%). Constítuindo assim um grupo com dupla migração de carreira.

In [None]:
TI[TI[P2_j]=='Não tive experiência na área de TI/Engenharia de Software antes de começar a trabalhar na área de dados'][P2_i].value_counts(normalize=True)*100

In [None]:
resto[resto[P2_j]=='Não tive experiência na área de TI/Engenharia de Software antes de começar a trabalhar na área de dados'][P2_i].value_counts(normalize=True)*100

## Atuação 

In [None]:
#"('P4_a ', 'Atuacao')"
TI[P4_a].value_counts()

In [None]:
TI[P4_a].value_counts().sum()

In [None]:
resto[P4_a].value_counts()

In [None]:
resto[P4_a].value_counts().sum()

In [None]:
labels_P4_a =["Análise de Dados",
    "Ciência de Dados",
    "Engenharia de Dados",
      "Gestor",
       "Outra",
    "Buscando emprego na área de dados."
]

In [None]:
fig, axes = plt.subplots(1, 2, sharex=True, figsize=(16,8))

top = 1.15
right = 1.1


colors= ["#7f62b8",
"#6ca24d",
"#b84c7d",
"#46c19a",
"#b8533c",
"#bc9b3c"]

sns.set_theme()
sns.set_style("ticks")
sns.set_palette(colors)



ax1 = sns.barplot(ax= axes[0],data=TI, x=TI[P4_a].value_counts(normalize=True).values*100,
                  y=TI[P4_a].value_counts(normalize=True).index,
                   order=labels_P4_a)

ax1.tick_params(axis='x',labelrotation=0)
ax1.set_xlim(0, 40)
ax1.set(xlabel=None,ylabel=None)
ax1.set_title("Formação em TI",fontdict={'fontsize': 20})
vals = ax1.get_xticks()
ax1.set_xticklabels([str(int(val))+'%' for val in vals]);
ax1.set_yticklabels([textwrap.fill(e, 20) for e in labels_P4_a])



ax2 = sns.barplot(ax= axes[1],data=resto, x=resto[P4_a].value_counts(normalize=True).values*100,
                  y=resto[P4_a].value_counts(normalize=True).index,
                   order=labels_P4_a)

ax2.tick_params(axis='x',labelrotation=0)
ax2.set_xlim(0, 40)
ax2.set(xlabel=None, ylabel=None)
ax2.set_title("Outras Áreas",fontdict={'fontsize': 20})
ax2.tick_params(labelleft=False, left=False)



for c in ax1.containers:
    ax1.bar_label(c, fmt=f'%.2f', label_type='edge')

for c in ax2.containers:
    ax2.bar_label(c, fmt=f'%.2f', label_type='edge')    


ax1.text(right, top, 'Área de atuação',
        horizontalalignment='center',
        verticalalignment='center',
        transform=ax1.transAxes,
        fontdict={'fontsize': 24})


sns.despine()
ax2.spines['left'].set_visible(False)
ax1.spines['left'].set_visible(False)
plt.show()

Conseguimos ver claramente que o cargo de Analista de dados é predominante entre quem não teve formação em TI, enquanto que a Engenharia de dados assume maior peso para quem é formado em TI.

Talvez isto se explique a análise de dados requer maior conhecimento específico do negócio, que acaba sendo uma competência que favorece quem já teve mais exposição a diferentes áreas, enquanto que a Engenharia de dados requer um maior domínio de programação, que obviamente favorece quem tem formação em TI.



Mas aqui surge um subgrupo que pode nos ajudar a responder à nossa questão inicial (É mais difícil migrar de área para quem não se formou em TI?), o grupo que está buscando emprego na área de dados, que é maior (cerca de 5%) entre entres os não formados em TI.




Antes de avançarmos para a análise da próxima questão vamos olhar rapidamente para os números totais deste subgrupo.

In [None]:
print('Quantos estão buscando emprego na área de dados\n')
print('TI: '+str(TI[TI[P4_a]=="Buscando emprego na área de dados."].shape[0]))
print('Resto: '+str(resto[resto[P4_a]=="Buscando emprego na área de dados."].shape[0]))

In [None]:
print('Quantos '+ '\033[1m' + 'desempregados '+ '\033[0m'+'estão buscando emprego na área de dados\n')
print('TI: '+str(TI[TI[P2_a]=="Desempregado, buscando recolocação"].shape[0]))
print('Resto: '+str(resto[resto[P2_a]=="Desempregado, buscando recolocação"].shape[0]))

In [None]:
print('Quantos responderam à pergunta P5_c (ver abaixo)\n')
print('TI: '+str(TI[P5_c].value_counts().sum()))
print('Resto: '+str(resto[P5_c].value_counts().sum()))

In [None]:
print('Quantos '+ '\033[1m' + 'desempregados '+ '\033[0m'+'responderam à pergunta P5_c (ver abaixo)\n')
print('TI: '+str(TI[TI[P2_a]=="Desempregado, buscando recolocação"][P5_c].value_counts().sum()))
print('Resto: '+str(resto[resto[P2_a]=="Desempregado, buscando recolocação"][P5_c].value_counts().sum()))

In [None]:
print('Percentual de desempregados entre os que estão buscando emprego\n')
print('TI: '+str(round(31/73*100,2))+'%')
print('Resto: '+str(round(100/171*100,2))+'%')

In [None]:
print('Percentual de desempregados entre os que responderam à pergunta P5_c\n')
print('TI: '+str(round(19/39*100,2))+'%')
print('Resto: '+str(round(73/122*100,2))+'%')

Vemos que quem está empregado mas buscando uma oportunidade teve uma tendência em não responder sobre há quanto o está fazendo, gerando um pequeno viés entre empregados e desempregados, em particular na área de TI (aproxidamente 6% vs 1,5%).
 

In [None]:
print('Percentual de pessoas buscando emprego que responderam à pergunta P5_c\n')
print('TI: '+str(round(39/73*100,2))+'%')
print('Resto: '+str(round(122/171*100,2))+'%')

Confirmamos aqui que nem todas as pessoas buscando emprego responderam sobre há quanto tempo o estão fazendo.

Mas o mais crítico é o viés entre as os respondentes, mais pessoas (18%) das restantes formações responderam à pergunta.
Então temos que ter esse viés em consideração na análise pergunta seguinte.


## Há quanto tempo você busca uma oportunidade na área de dados?

In [None]:
#"('P5_c ', 'Há quanto tempo você busca uma oportunidade na área de dados?')"
TI[P5_c].value_counts()

In [None]:
TI[P5_c].value_counts().sum()

In [None]:
resto[P5_c].value_counts()

In [None]:
resto[P5_c].value_counts().sum()

In [None]:
TI.shape[0], resto.shape[0]

Aqui vale alertar que estamos olhando um subgrupo pequeno, quando comparado ao original (TI de 1092 para 39, resto de 1549 para 122) 3,57% e 7,87% para TI e os demais respetivamente.

Nesta pergunta vamos olhar também o subgrupo dos desempregados.

In [None]:
TI[TI[P2_a]=="Desempregado, buscando recolocação"][P5_c].value_counts()

In [None]:
TI[TI[P2_a]=="Desempregado, buscando recolocação"][P5_c].value_counts().sum()

In [None]:
resto[resto[P2_a]=="Desempregado, buscando recolocação"][P5_c].value_counts()

In [None]:
resto[resto[P2_a]=="Desempregado, buscando recolocação"][P5_c].value_counts().sum()

Para tentar o entender universo de quem respondeu a esta pergunta, assim como tentar descobrir as diferenças verificadas acima, vamos olhar a atividade atual destes respondentes.

In [None]:
TI[~TI[P5_c].isna()][P2_a].value_counts(normalize=True)

In [None]:
resto[~resto[P5_c].isna()][P2_a].value_counts(normalize=True)

A área de TI possui um grupo maior de estudantes, 17% a mais que as restantes áreas.

Enquanto que as demais áreas possuem mais desempregados (mais 11%), e mais acadêmicos (mais 6,5%).

In [None]:
labels_P5_c = ["0 - 6 meses",
               "7 meses - 1 ano",
               "1 ano - 2 anos"]

In [None]:
fig, axes = plt.subplots(1, 2, sharex=True, figsize=(16,8))

top = 1.15
right = 1.1


colors= ["#c76674",
"#9a9945",
"#8961b3"]

sns.set_theme()
sns.set_style("ticks")
sns.set_palette(colors)



ax1 = sns.barplot(ax= axes[0],data=TI, x=TI[P5_c].value_counts(normalize=True).values*100,
                  y=TI[P5_c].value_counts(normalize=True).index,
                   order=labels_P5_c)

ax1.set_xlim(0, 100)
ax1.set(xlabel=None,ylabel=None)
ax1.set_title("Formação em TI",fontdict={'fontsize': 20})
vals = ax1.get_xticks()
ax1.set_xticklabels([str(int(val))+'%' for val in vals])



ax2 = sns.barplot(ax= axes[1],data=resto, x=resto[P5_c].value_counts(normalize=True).values*100,
                  y=resto[P5_c].value_counts(normalize=True).index,
                   order=labels_P5_c)

ax2.set_xlim(0, 100)
ax2.set(xlabel=None, ylabel=None)
ax2.set_title("Outras Áreas",fontdict={'fontsize': 20})
ax2.tick_params(labelleft=False, left=False)



for c in ax1.containers:
    ax1.bar_label(c, fmt=f'%.2f', label_type='edge')
    
for c in ax2.containers:
    ax2.bar_label(c, fmt=f'%.2f', label_type='edge') 


ax1.text(right, top, 'Tempo buscando uma oportunidade na área de dados',
        horizontalalignment='center',
        verticalalignment='center',
        transform=ax1.transAxes,
        fontdict={'fontsize': 22})


sns.despine()
ax2.spines['left'].set_visible(False)
ax1.spines['left'].set_visible(False)
plt.show()

Verficamos que apenas existem respondentes procurando emprego há mais de um ano entre quem não é formado em TI. Embora lembrando que isso possa ser enviesado pelo subgrupo de desempregados como vimos acima.

In [None]:
fig, axes = plt.subplots(1, 2, sharex=True, figsize=(16,8))

top = 1.15
right = 1.1


colors= ["#c76674",
"#9a9945",
"#8961b3"]

sns.set_theme()
sns.set_style("ticks")
sns.set_palette(colors)



ax1 = sns.barplot(ax= axes[0],data=TI, x=TI[TI[P2_a]=="Desempregado, buscando recolocação"][P5_c].value_counts(normalize=True).values*100,
                  y=TI[TI[P2_a]=="Desempregado, buscando recolocação"][P5_c].value_counts(normalize=True).index,
                   order=labels_P5_c)

ax1.set_xlim(0, 100)
ax1.set(xlabel=None,ylabel=None)
ax1.set_title("Formação em TI",fontdict={'fontsize': 20})
vals = ax1.get_xticks()
ax1.set_xticklabels([str(int(val))+'%' for val in vals])



ax2 = sns.barplot(ax= axes[1],data=resto, x=resto[resto[P2_a]=="Desempregado, buscando recolocação"][P5_c].value_counts(normalize=True).values*100,
                  y=resto[resto[P2_a]=="Desempregado, buscando recolocação"][P5_c].value_counts(normalize=True).index,
                   order=labels_P5_c)

ax2.set_xlim(0, 100)
ax2.set(xlabel=None, ylabel=None)
ax2.set_title("Outras Áreas",fontdict={'fontsize': 20})
ax2.tick_params(labelleft=False, left=False)



for c in ax1.containers:
    ax1.bar_label(c, fmt=f'%.2f', label_type='edge')

for c in ax2.containers:
    ax2.bar_label(c, fmt=f'%.2f', label_type='edge') 


ax1.text(right, top, 'Tempo buscando uma oportunidade na área de dados',
        horizontalalignment='center',
        verticalalignment='center',
        transform=ax1.transAxes,
        fontdict={'fontsize': 22})


sns.despine()
ax2.spines['left'].set_visible(False)
ax1.spines['left'].set_visible(False)
plt.show()

No subgrupo de desempregados quem não é da área de TI está buscando emprego há mais tempo, tanto o grupo de 7 meses a 1 ano, como o grupo de 1 a 2 anos é maior.

## Como tem sido a busca por um emprego na área de dados?

In [None]:
#'P5_d ', 'Como tem sido a busca por um emprego na área de dados?'
TI[P5_d].value_counts()

In [None]:
TI[P5_d].value_counts().sum()

In [None]:
resto[P5_d].value_counts()

In [None]:
resto[P5_d].value_counts().sum()

In [None]:
labels_P5_d = [
    "Ainda não me candidatei a nenhuma vaga na área.",
    "Já me candidatei, mas nunca fui chamado para entrevistas.",
    "Já participei de 1 a 3 entrevistas, mas não fui contratado.",
    "Participei de mais de 3 entrevistas, mas não fui contratado.",
    "Estou prestando alguns processos e esperando a chegada das entrevistas"
]

In [None]:
fig, axes = plt.subplots(1, 2, sharex=True, figsize=(16,8))

top = 1.15
right = 1.1


colors= ["#7f62b8",
"#6ca24d",
"#b84c7d",
"#46c19a",
"#b8533c",
"#bc9b3c"]

sns.set_theme()
sns.set_style("ticks")
sns.set_palette(colors)


ax1 = sns.barplot(ax= axes[0],data=TI, 
                  x=np.append(TI[P5_d].value_counts(normalize=True).values*100,[0]),
                  y=np.append(TI[P5_d].value_counts(normalize=True).index,["Estou prestando alguns processos e esperando a chegada das entrevistas"]),
                order=labels_P5_d)

ax1.tick_params(axis='x',labelrotation=0)
ax1.set_xlim(0, 60)
ax1.set(xlabel=None,ylabel=None) 
ax1.set_title("Formação em TI",fontdict={'fontsize': 20})
vals = ax1.get_xticks()
ax1.set_xticklabels([str(int(val))+'%' for val in vals]);
ax1.set_yticklabels([textwrap.fill(e, 20) for e in labels_P5_d])



ax2 = sns.barplot(ax= axes[1],data=resto, x=resto[P5_d].value_counts(normalize=True).values*100,
                  y=resto[P5_d].value_counts(normalize=True).index,
                   order=labels_P5_d)

ax2.tick_params(axis='x',labelrotation=0)
ax2.set_xlim(0, 60)
ax2.set(xlabel=None, ylabel=None)
ax2.set_title("Outras Áreas",fontdict={'fontsize': 20})
ax2.tick_params(labelleft=False, left=False)



for c in ax1.containers:
    ax1.bar_label(c, fmt=f'%.2f', label_type='edge')
    
for c in ax2.containers:
    ax2.bar_label(c, fmt=f'%.2f', label_type='edge') 


ax1.text(right, top, 'Como tem sido a busca por um emprego na área de dados',
        horizontalalignment='center',
        verticalalignment='center',
        transform=ax1.transAxes,
        fontdict={'fontsize': 24})


sns.despine()
ax2.spines['left'].set_visible(False)
ax1.spines['left'].set_visible(False)
plt.show()

Vemos que temos mais pessoas não buscando ativamente (candidatando a vagas) dentro do grupo de TI, 8% a mais.

Assim como se observa que quem não é de TI está participando de mais entrevistas, tanto na categoria de 1 a 3 entrevistas como de mais de 3.

Isso pode nos indicar um grau de dificuldade maior para ser contratado entre os não formandos em TI, ou alternativamente que o grupo dos respondentes formados em TI está num estágio menos avançado da busca de emprego (vide primeiro ponto sobre a busca ativa).

## Qual oportunidade você está buscando?

In [None]:
#'P5_b ', 'Qual oportunidade você está buscando?'
TI[P5_b].value_counts()

In [None]:
TI[P5_b].value_counts().sum()

In [None]:
resto[P5_b].value_counts()

In [None]:
resto[P5_b].value_counts().sum()

In [None]:
labels_P5_b =["Ciência de Dados/Data Scientist",
    "Análise de Dados/Data Analyst",
              "Engenharia de Dados/Data Engineer",
             "Business Intelligence/BI",
              "Business Analyst",
              "Arquitetura de dados/Data Architecture"
]

In [None]:
fig, axes = plt.subplots(1, 2, sharex=True, figsize=(16,8))

top = 1.15
right = 1.1


colors= ["#7f62b8",
"#6ca24d",
"#b84c7d",
"#46c19a",
"#b8533c",
"#bc9b3c"]

sns.set_theme()
sns.set_style("ticks")
sns.set_palette(colors)


ax1 = sns.barplot(ax= axes[0],data=TI, x=np.append(TI[P5_b].value_counts(normalize=True).values*100,[0,0]),
                  y=np.append(TI[P5_b].value_counts(normalize=True).index,[ "Business Intelligence/BI",
              "Business Analyst"]),
                   order=labels_P5_b)

ax1.tick_params(axis='x',labelrotation=0)
ax1.set_xlim(0, 100)
ax1.set(xlabel=None,ylabel=None)
ax1.set_title("Formação em TI",fontdict={'fontsize': 20})
vals = ax1.get_xticks()
ax1.set_xticklabels([str(int(val))+'%' for val in vals])
ax1.set_yticklabels([textwrap.fill(e, 20) for e in labels_P5_b])



ax2 = sns.barplot(ax= axes[1],data=resto, x=np.append(resto[P5_b].value_counts(normalize=True).values*100,[0]),
                  y=np.append(resto[P5_b].value_counts(normalize=True).index,["Arquitetura de dados/Data Architecture"]),
                   order=labels_P5_b)

ax2.tick_params(axis='x',labelrotation=0)
ax2.set_xlim(0, 100)
ax2.set(xlabel=None, ylabel=None)
ax2.set_title("Outras Áreas",fontdict={'fontsize': 20})
ax2.tick_params(labelleft=False, left=False)



for c in ax1.containers:
    ax1.bar_label(c, fmt=f'%.2f', label_type='edge')

for c in ax2.containers:
    ax2.bar_label(c, fmt=f'%.2f', label_type='edge') 

    
ax1.text(right, top, 'Qual oportunidade você está buscando?',
        horizontalalignment='center',
        verticalalignment='center',
        transform=ax1.transAxes,
        fontdict={'fontsize': 24})

sns.despine()
ax2.spines['left'].set_visible(False)
ax1.spines['left'].set_visible(False)
plt.show()

Fiz uma simples pesquisa por vagas no linkedin, no dia 09/07/2022 usando as palavras:
* Data Scientist(DS),
* Data Engineer(DE),
* Data Analyst(DA).
com o filtro de mundial(M) e
* Cientista de dados
* Engenheiro de dados,
* Analista de dados
com o filtro de Brasil(BR) e obtive os seguintes resultados:
1. DS - 966.252 M, 15.229 BR
2. DE - 436.527 M, 2.033 BR
3. DA - 1.063.080 M, 16.336 BR
Embora apenas olhando a primeira página de resultados se observei que os resultados entre as pesquisas tinham sobreposição.
Ao olharmos o gráfico acima vemos que o que as pessoas buscam não está alinhado com o que mercado oferece, em particular com as vagas de DS.

O que se observa é que DS é igualmente o cargo mais desejado, e quem é formado em TI tem um viés maior para DE enquanto que quem vem de outras áreas tem um viés maior por DA.
Quem é de TI não tem interesse por BI, e quem vem de outras áreas não tem interesse por arquitetura de dados.

## Segmentação

### Idade

In [None]:
#"('P1_a_a ', 'Faixa idade')"
TI[P1_a_a].value_counts()

In [None]:
TI[P1_a_a].value_counts().sum()

In [None]:
resto[P1_a_a].value_counts()

In [None]:
resto[P1_a_a].value_counts().sum()

In [None]:
labels_P1_a_a = ["17-21",
                 "22-24",
                 "25-29",
                 "30-34",
                 "35-39",
                 "40-44",
                 "45-49",
                 "50-54",
                 "55+"
                ]

In [None]:
fig, axes = plt.subplots(1, 2, sharex=True, figsize=(16,8))

top = 1.15
bottom = -0.25
right = 1.1



colors = ["#ba496b",
          "#46c19a",
          "#9750a1",
          "#9ab440",
          "#6777cf",
          "#cd9337",
          "#5aa554",
          "#ba5738",
          "#968a3d"]


sns.set_palette(colors)
sns.set_style("ticks")



ax1 = sns.barplot(ax= axes[0],
                  x=(TI[P1_a_a].value_counts(normalize=True).values)*100, 
                    y=TI[P1_a_a].value_counts(normalize=True).index,
                 order=labels_P1_a_a)
                  
ax1.tick_params(axis='x',labelrotation=0)
ax1.set_xlim(0, 100)
ax1.set(xlabel=None,ylabel=None)
ax1.set_title("Formação em TI",fontdict={'fontsize': 20})
vals = ax1.get_xticks()
ax1.set_xticklabels([str(int(val))+'%' for val in vals])



ax2 = sns.barplot(ax= axes[1], x=(resto[P1_a_a].value_counts(normalize=True).values)*100,
                  y=resto[P1_a_a].value_counts(normalize=True).index,
                  order=labels_P1_a_a)

ax2.tick_params(axis='x',labelrotation=0)
ax2.set_xlim(0, 100)
ax2.set(xlabel=None, ylabel=None)
ax2.set_title("Outras Áreas",fontdict={'fontsize': 20})
ax2.tick_params(labelleft=False, left=False)



for c in ax1.containers:
    ax1.bar_label(c, fmt=f'%.2f', label_type='edge')

for c in ax2.containers:
    ax2.bar_label(c, fmt=f'%.2f', label_type='edge')  

    
ax1.text(right, top, 'Idade',
        horizontalalignment='center',
        verticalalignment='center',
        transform=ax1.transAxes,
        fontdict={'fontsize': 24})    
    

sns.set_palette(sns.color_palette(colors))
sns.despine()
ax2.spines['left'].set_visible(False)
ax1.spines['left'].set_visible(False)
plt.show()

### Gênero

In [None]:
#"('P1_b ', 'Genero')"
TI[P1_b].value_counts()

In [None]:
TI[P1_b].value_counts().sum()

In [None]:
resto[P1_b].value_counts()

In [None]:
resto[P1_b].value_counts().sum()

In [None]:
TI[P1_b].value_counts(normalize=True)

In [None]:
resto[P1_b].value_counts(normalize=True)

In [None]:
fig, axes = plt.subplots(1, 2, sharex=True, figsize=(16,8))

top = 1.15
bottom = -0.25
right = 1.1



colors = ["#bc5d41",
          "#84a955",
          "#965da7"]


sns.set_palette(colors)
sns.set_style("ticks")



ax1 = sns.barplot(ax= axes[0],
                  x=(TI[P1_b].value_counts(normalize=True).values)*100, 
                    y=TI[P1_b].value_counts(normalize=True).index,)
                  
ax1.tick_params(axis='x',labelrotation=0)
ax1.set_xlim(0, 100)
ax1.set(xlabel=None,ylabel=None)
ax1.set_title("Formação em TI",fontdict={'fontsize': 20})
vals = ax1.get_xticks()
ax1.set_xticklabels([str(int(val))+'%' for val in vals])



ax2 = sns.barplot(ax= axes[1], x=(resto[P1_b].value_counts(normalize=True).values)*100,
                  y=resto[P1_b].value_counts(normalize=True).index,
                  )

ax2.tick_params(axis='x',labelrotation=0)
ax2.set_xlim(0, 100)
ax2.set(xlabel=None, ylabel=None)
ax2.set_title("Outras Áreas",fontdict={'fontsize': 20})
ax2.tick_params(labelleft=False, left=False)



for c in ax1.containers:
    ax1.bar_label(c, fmt=f'%.2f', label_type='edge')

for c in ax2.containers:
    ax2.bar_label(c, fmt=f'%.2f', label_type='edge')  

    
ax1.text(right, top, 'Gênero',
        horizontalalignment='center',
        verticalalignment='center',
        transform=ax1.transAxes,
        fontdict={'fontsize': 24})    
    
ax1.text(right, bottom, 'Se identificaram como outro apenas 2 e 4 pessoas em TI e outras áreas respetivamente.',
         horizontalalignment='right',
         verticalalignment='center',
         transform=ax1.transAxes,
        fontdict={'fontsize': 12})

sns.set_palette(sns.color_palette(colors))
sns.despine()
ax2.spines['left'].set_visible(False)
ax1.spines['left'].set_visible(False)
plt.show()

Mais mulheres em  outras áreas.

### Região de Origem

In [None]:
TI[P1_g_b].value_counts()

In [None]:
TI[P1_g_b].value_counts().sum()

In [None]:
resto[P1_g_b].value_counts()

In [None]:
resto[P1_g_b].value_counts().sum()

In [None]:
dados[P1_g_b].value_counts()

In [None]:
labels_P1_g_b = ["Sudeste",
                 "Nordeste",
                 "Sul",
                 "Centro-oeste",
                 "Norte"]

In [None]:
fig, axes = plt.subplots(1, 2, sharex=True, figsize=(16,8))

top = 1.15
right = 1.1


colors= ["#677ad1",
"#6fac5d",
"#9750a1",
"#bc7d39",
"#b94663"]

sns.set_theme()
sns.set_style("ticks")
sns.set_palette(colors)



ax1 = sns.barplot(ax= axes[0],data=TI, x=TI[P1_g_b].value_counts(normalize=True).values*100,
                  y=TI[P1_g_b].value_counts(normalize=True).index,
                   order=labels_P1_g_b)

ax1.tick_params(axis='x',labelrotation=0)
ax1.set_xlim(0, 50)
ax1.set(xlabel=None,ylabel=None)
ax1.set_title("Formação em TI",fontdict={'fontsize': 20})

vals = ax1.get_xticks()
ax1.set_xticklabels([str(int(val))+'%' for val in vals])
ax1.set_yticklabels([textwrap.fill(e, 20) for e in labels_P1_g_b ])



ax2 = sns.barplot(ax= axes[1],data=resto, x=resto[P1_g_b].value_counts(normalize=True).values*100,
                  y=resto[P1_g_b].value_counts(normalize=True).index,
                   order=labels_P1_g_b)

ax2.tick_params(axis='x',labelrotation=0)
ax2.set_xlim(0, 50)
ax2.set(xlabel=None, ylabel=None)
ax2.set_title("Outras Áreas",fontdict={'fontsize': 20})
ax2.tick_params(labelleft=False, left=False)



for c in ax1.containers:
    ax1.bar_label(c, fmt=f'%.2f', label_type='edge')

for c in ax2.containers:
    ax2.bar_label(c, fmt=f'%.2f', label_type='edge') 

    
ax1.text(right, top, 'Região de origem',
        horizontalalignment='center',
        verticalalignment='center',
        transform=ax1.transAxes,
        fontdict={'fontsize': 24})  

sns.despine()
ax2.spines['left'].set_visible(False)
ax1.spines['left'].set_visible(False)
plt.show()

### Cargo Atual

In [None]:
#P2_f ', 'Cargo Atual')"
TI[P2_f].value_counts()

In [None]:
TI[P2_f].value_counts().sum()

In [None]:
resto[P2_f].value_counts()

In [None]:
resto[P2_f].value_counts().sum()

In [None]:
labels_P2_f = ['Cientista de Dados/Data Scientist', 'Analista de Dados/Data Analyst',
       'Analista de BI/BI Analyst/Analytics Engineer',
       'Engenheiro de Dados/Data Engineer', 'Outro',
       'Analista de Negócios/Business Analyst',
       'Outras Engenharias (não inclui dev)', 'Estatístico',
       'Engenheiro de Machine Learning/ML Engineer',
       'Analista de Inteligência de Mercado/Market Intelligence',
       'Desenvolvedor ou Engenheiro de Software', 'Analista Administrativo',
       'Analista de Marketing', 'Professor', 'Suporte Técnico',
       'Product Manager', 'Analista de Sistemas/Analista de TI', 'Técnico',
       'DBA/Administrador de Banco de Dados', 'Arquiteto de Dados',
       'Arquiteto de dados']

In [None]:
fig, axes = plt.subplots(1, 2, sharex=True, figsize=(16,18))

top = 1.15
right = 1.1


colors= ["#7a59a0",
"#64b546",
"#bb54c2",
"#b3b036",
"#6f66d7",
"#d89234",
"#6b89d2",
"#d95a30",
"#46aed7",
"#ce3b4a",
"#5abd7c",
"#d8468c",
"#497a3a",
"#d189cb",
"#4ab29c",
"#9e476b",
"#a8ac66",
"#de7c83",
"#806e28",
"#a35331",
"#d69566"]

sns.set_theme()
sns.set_style("ticks")
sns.set_palette(colors)



ax1 = sns.barplot(ax= axes[0],data=TI, x=TI[P2_f].value_counts(normalize=True).values*100,
                  y=TI[P2_f].value_counts(normalize=True).index,
                   order=labels_P2_f)

ax1.tick_params(axis='x',labelrotation=0)
ax1.set_xlim(0, 40)
ax1.set(xlabel=None,ylabel=None)
ax1.set_title("Formação em TI",fontdict={'fontsize': 20})

vals = ax1.get_xticks()
ax1.set_xticklabels([str(int(val))+'%' for val in vals])
ax1.set_yticklabels([textwrap.fill(e, 20) for e in labels_P2_f])



ax2 = sns.barplot(ax= axes[1],data=resto, x=resto[P2_f].value_counts(normalize=True).values*100,
                  y=resto[P2_f].value_counts(normalize=True).index,
                   order=labels_P2_f)

ax2.tick_params(axis='x',labelrotation=0)
ax2.set_xlim(0, 40)
ax2.set(xlabel=None, ylabel=None)
ax2.set_title("Outras Áreas",fontdict={'fontsize': 20})
ax2.tick_params(labelleft=False, left=False)



for c in ax1.containers:
    ax1.bar_label(c, fmt=f'%.2f', label_type='edge')

for c in ax2.containers:
    ax2.bar_label(c, fmt=f'%.2f', label_type='edge') 

    
ax1.text(right, top, 'Cargo Atual',
        horizontalalignment='center',
        verticalalignment='center',
        transform=ax1.transAxes,
        fontdict={'fontsize': 24})  

sns.despine()
ax2.spines['left'].set_visible(False)
ax1.spines['left'].set_visible(False)
plt.show()

Mais DS em não TI, Mais DE em TI. Arquitetura de dados não tratada

### Nível de senioridade

In [None]:
#"('P2_g ', 'Nivel')"
TI[P2_g].value_counts()

In [None]:
TI[P2_g].value_counts().sum()

In [None]:
resto[P2_g].value_counts()

In [None]:
resto[P2_g].value_counts().sum()

In [None]:
labels_P2_g = ["Sênior",
                 "Pleno",
                 "Júnior"
                ]

In [None]:
fig, axes = plt.subplots(1, 2, sharex=True, figsize=(16,8))

top = 1.15
right = 1.1


colors = ["#bc5d41",
          "#84a955",
          "#965da7"]

sns.set_theme()
sns.set_style("ticks")
sns.set_palette(colors)



ax1 = sns.barplot(ax= axes[0],data=TI, x=TI[P2_g].value_counts(normalize=True).values*100,
                  y=TI[P2_g].value_counts(normalize=True).index,
                   order=labels_P2_g)

ax1.tick_params(axis='x',labelrotation=0)
ax1.set_xlim(0, 50)
ax1.set(xlabel=None,ylabel=None)
ax1.set_title("Formação em TI",fontdict={'fontsize': 20})

vals = ax1.get_xticks()
ax1.set_xticklabels([str(int(val))+'%' for val in vals])
ax1.set_yticklabels([textwrap.fill(e, 20) for e in labels_P2_g])



ax2 = sns.barplot(ax= axes[1],data=resto, x=resto[P2_g].value_counts(normalize=True).values*100,
                  y=resto[P2_g].value_counts(normalize=True).index,
                   order=labels_P2_g)

ax2.tick_params(axis='x',labelrotation=0)
ax2.set_xlim(0, 50)
ax2.set(xlabel=None, ylabel=None)
ax2.set_title("Outras Áreas",fontdict={'fontsize': 20})
ax2.tick_params(labelleft=False, left=False)



for c in ax1.containers:
    ax1.bar_label(c, fmt=f'%.2f', label_type='edge')

for c in ax2.containers:
    ax2.bar_label(c, fmt=f'%.2f', label_type='edge') 

    
ax1.text(right, top, 'Nível de senioridade',
        horizontalalignment='center',
        verticalalignment='center',
        transform=ax1.transAxes,
        fontdict={'fontsize': 24})  

sns.despine()
ax2.spines['left'].set_visible(False)
ax1.spines['left'].set_visible(False)
plt.show()

Mais sêniores em TI.

### Faixa salarial

In [None]:
#"('P2_h ', 'Faixa salarial')"
TI[P2_h].value_counts()

In [None]:
TI[P2_h].value_counts().sum()

In [None]:
resto[P2_h].value_counts()

In [None]:
resto[P2_h].value_counts().sum()

In [None]:
labels_P2_h = ["Acima de R$ 40.001/mês",
               "de R$ 30.001/mês a R$ 40.000/mês",
               "de R$ 25.001/mês a R$ 30.000/mês",
               "de R$ 20.001/mês a R$ 25.000/mês",
               "de R$ 16.001/mês a R$ 20.000/mês",
               "de R$ 12.001/mês a R$ 16.000/mês",
               "de R$ 8.001/mês a R$ 12.000/mês",
               "de R$ 6.001/mês a R$ 8.000/mês",
               "de R$ 4.001/mês a R$ 6.000/mês",
               "de R$ 3.001/mês a R$ 4.000/mês",
               "de R$ 2.001/mês a R$ 3000/mês",
               "de R$ 1.001/mês a R$ 2.000/mês",
               "Menos de R$ 1.000/mês"
              ]

In [None]:
fig, axes = plt.subplots(1, 2, sharex=True, figsize=(16,8))

top = 1.15
right = 1.1


colors = ["#a68e3f",
          "#6971d7",
          "#91b23e",
          "#5c3686",
          "#58c07b",
          "#c26abb",
          "#609542",
          "#b94973",
          "#43c8ac",
          "#b94b45",
          "#6d8dd7",
          "#d19e34",
          "#bf6433"]

sns.set_theme()
sns.set_style("ticks")
sns.set_palette(colors)



ax1 = sns.barplot(ax= axes[0],data=TI, x=TI[P2_h].value_counts(normalize=True).values*100,
                  y=TI[P2_h].value_counts(normalize=True).index,
                   order=labels_P2_h)

ax1.tick_params(axis='x',labelrotation=0)
ax1.set_xlim(0, 50)
ax1.set(xlabel=None,ylabel=None)
ax1.set_title("Formação em TI",fontdict={'fontsize': 20})

vals = ax1.get_xticks()
ax1.set_xticklabels([str(int(val))+'%' for val in vals])
ax1.set_yticklabels([textwrap.fill(e, 20) for e in labels_P2_h])



ax2 = sns.barplot(ax= axes[1],data=resto, x=resto[P2_h].value_counts(normalize=True).values*100,
                  y=resto[P2_h].value_counts(normalize=True).index,
                   order=labels_P2_h)

ax2.tick_params(axis='x',labelrotation=0)
ax2.set_xlim(0, 50)
ax2.set(xlabel=None, ylabel=None)
ax2.set_title("Outras Áreas",fontdict={'fontsize': 20})
ax2.tick_params(labelleft=False, left=False)



for c in ax1.containers:
    ax1.bar_label(c, fmt=f'%.2f', label_type='edge')

for c in ax2.containers:
    ax2.bar_label(c, fmt=f'%.2f', label_type='edge') 

    
ax1.text(right, top, 'Faixal salarial',
        horizontalalignment='center',
        verticalalignment='center',
        transform=ax1.transAxes,
        fontdict={'fontsize': 24})  

sns.despine()
ax2.spines['left'].set_visible(False)
ax1.spines['left'].set_visible(False)
plt.show()

Tempo de experiência maior em TI, maior salário.

# Conclusão

zzzzzz