In [None]:
# importando bibliotecas 
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import seaborn as sns
import matplotlib.pyplot as plt
import squarify
pd.set_option('display.max.columns', 500)


import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

import warnings
warnings.filterwarnings('ignore')

In [None]:
# parâmetros dos gráficos
# tamanho da figura
plt.rcParams['figure.figsize'] = 8, 5
# fonte, eixos e outras configurações
plt.rcParams['font.family'] = 'sans-serif'
plt.rcParams['font.sans-serif'] = ['Arial']
plt.rcParams['font.size'] = 16
plt.rcParams['axes.linewidth'] = 1.1
plt.rcParams['axes.labelpad'] = 10.0
plt.rcParams.update({"figure.figsize" : (12.8,9.6),
                 "figure.subplot.left" : 0.177, "figure.subplot.right" : 0.946,
                 "figure.subplot.bottom" : 0.156, "figure.subplot.top" : 0.965,
                 "axes.autolimit_mode" : "round_numbers",
                 "xtick.major.size"     : 7,
                 "xtick.minor.size"     : 3.5,
                 "xtick.major.width"    : 1.1,
                 "xtick.minor.width"    : 1.1,
                 "xtick.major.pad"      : 5,
                 "ytick.major.size"     : 7,
                 "ytick.minor.size"     : 3.5,
                 "ytick.major.width"    : 1.1,
                 "ytick.minor.width"    : 1.1,
                 "ytick.major.pad"      : 5,
                 "lines.markersize" : 10,
                 "lines.markerfacecolor" : "none",
                 "lines.markeredgewidth"  : 0.8})

cores = ['#00876c',
          '#599e72',
          '#8eb47d',
          '#bfca8f',
          '#eee0a9',
          '#e9bd7f',
          '#e59761',
          '#df6d52',
          '#d43d51']

In [None]:
# funções utilizadas na análise dos dados
def buscador_colunas(parte_pesquisa, dataframe):
    '''
    parte_pesquisa = Código da parte a ser analisada da pesquisa. Exemplo: Parte 4 = P4
    dataframe = qual o dataframe que contém a pesquisa ou as perguntas a serem analisadas 
    '''
    perguntas = []
    for col in dataframe.columns:
        aux_col = col.split("(")
        if aux_col[1].startswith(parte_pesquisa):
            perguntas.append(col)
    return dataframe[perguntas]

def extrair_valores(df, posicao):
    '''
    retorna os valores relativos a determinada pergunta.
    df = conjunto de dados que contém a pergunta
    posicao = qual a posição do índice desejado.
    '''
    return df.iloc[posicao].sort_values(ascending=False).reset_index(drop=True).to_list()

def extrair_chaves(df, posicao):
    '''
    retorna as chaves relativas a determinada pergunta, ou seja, retorna a pergunta em si.
    df = qual o dataframe que contém a pergunta.
    posicao = qual a posição desejada, assim como na função de extrair_valores.
    '''
    keys = df.iloc[posicao].sort_values(ascending=False).keys().to_list()
    lista_provisoria = []
    for k in keys:
        c = k.split("'")
        lista_provisoria.append(c[3])
    return lista_provisoria

In [None]:
# caminhos para as pesquisas utilizadas nesse notebook
path_21 = "../input/state-of-data-2021/State of Data 2021 - Dataset - Pgina1.csv"
#path_19 = '../input/pesquisa-data-hackers-2019/datahackers-survey-2019-anonymous-responses.csv' # retirei os datasets pois estava dando problema no upload.
#path_kaggle_21 = '../input/kaggle-survey-2021/kaggle_survey_2021_responses.csv'

# criação dos DFs
df_21 = pd.read_csv(path_21)
#df_19 = pd.read_csv(path_19)
#kaggle_21 = pd.read_csv(path_kaggle_21)

df_21.head(1) # dando uma olhada no DF da pesquisa State of Data Brazil 2021

In [None]:
print(f'O conjunto de dados disponível tem o seguinte formato: \n\033[1mNúmero de entrevistados\033[0m: {df_21.shape[0]}. \n\033[1mNúmero de perguntas\033[0m: {df_21.shape[1]}.')

In [None]:
soma_cargos = df_21[["('P2_f ', 'Cargo Atual')"]].value_counts(normalize=True)[:4].sum()
principais_cargos = df_21[["('P2_f ', 'Cargo Atual')"]].value_counts(normalize=True).to_frame(name='% Entrevistados')
print(f'A soma dos \033[1mquatro cargos mais citados na pesquisa\033[0m correspondeu a \033[1m{soma_cargos*100:.2f}%.\033[0m')
print(f'\nA lista correspondeu a: \n\n{principais_cargos.iloc[:11]*100}')

In [None]:
# Melhorando a visualização das informações nos gráficos seguintes através da substituição dos nomes por outros mais simples.
df_21["('P2_f ', 'Cargo Atual')"].replace('Cientista de Dados/Data Scientist', 'Cientista de Dados - DC', inplace=True)
df_21["('P2_f ', 'Cargo Atual')"].replace('Analista de BI/BI Analyst/Analytics Engineer', 'Analista de BI - BI', inplace=True)
df_21["('P2_f ', 'Cargo Atual')"].replace('Analista de Dados/Data Analyst', 'Analista de Dados - DA', inplace=True)
df_21["('P2_f ', 'Cargo Atual')"].replace('Engenheiro de Dados/Data Engineer', 'Engenheirx de Dados - DE', inplace=True)

# gráficos de barras
fig, ax = plt.subplots(nrows=1, ncols=2)
plt.subplots_adjust(wspace=0.5)

bar1 = sns.countplot(y="('P2_f ', 'Cargo Atual')", data=df_21, order=df_21["('P2_f ', 'Cargo Atual')"].value_counts().index[:4], orient='h', ax=ax[0], palette='Set2')
bar2 = sns.countplot(y="('P2_g ', 'Nivel')", data=df_21, order=df_21["('P2_g ', 'Nivel')"].value_counts().index, ax=ax[1], orient='h', palette='Set2')

ax[0].title.set_text('Principais Cargos Mencionados')
ax[0].set_xlabel('Quantidade de Respostas')
ax[0].set_ylabel('Cargo Atual', fontsize=18)

for p in ax[0].patches:
    ax[0].annotate("%.0f" % p.get_width(), xy=(p.get_width(), p.get_y()+p.get_height()/2),
            xytext=(-100, 0), textcoords='offset points', ha="right", va="center")

ax[1].title.set_text('Nível de Especialidade')
ax[1].set_xlabel('Quantidade de Respostas')
ax[1].set_ylabel('Nível', fontsize=18)

for p in ax[1].patches:
    ax[1].annotate("%.0f" % p.get_width(), xy=(p.get_width(), p.get_y()+p.get_height()/2),
            xytext=(-100, 0), textcoords='offset points', ha="right", va="center")
plt.show()

In [None]:
df_grau = df_21.groupby("('P2_f ', 'Cargo Atual')")["('P2_g ', 'Nivel')"].value_counts().to_frame(name='Nº Entrevistados')

df_grau.loc[['Analista de Dados - DA', 'Analista de BI - BI', 'Cientista de Dados - DC', 'Engenheirx de Dados - DE']]

In [None]:
df_P4 = buscador_colunas("'P4", df_21)
df_P4.head()

In [None]:
df_analise_P4 = df_P4.groupby("('P4_a ', 'Atuacao')").sum()
df_analise_P4.loc[['Análise de Dados', 'Ciência de Dados', 'Engenharia de Dados']]

In [None]:
P4_b = buscador_colunas("'P4_b", df_analise_P4)
P4_b

In [None]:
valores_p4b = extrair_valores(P4_b, 2)
chaves_p4b = extrair_chaves(P4_b, 2)

sns.barplot(x=valores_p4b, y=chaves_p4b, orient='h', palette='Set2')

plt.title('Figura 2: Qual dessas fontes de dados você já utilizou ou processou no trabalho?', fontweight="bold")
plt.xlabel('Número de respostas positivas')
plt.show()

In [None]:
P4_d = buscador_colunas("'P4_d", df_analise_P4)
chaves_p4d = extrair_chaves(P4_d, 2)
valores_p4d = extrair_valores(P4_d, 2)

sns.barplot(x=valores_p4d, y=chaves_p4d, orient='h', palette='Set2')

plt.title('Figura 3: Quais das linguagens listadas abaixo você utiliza no trabalho?', fontweight="bold")
plt.xlabel('Número de respostas positivas')
plt.show()

In [None]:
P4_f = buscador_colunas("'P4_f", df_analise_P4)
chaves_p4f = extrair_chaves(P4_f, 2)
valores_p4f = extrair_valores(P4_f, 2)

sns.barplot(x=valores_p4f[:11], y=chaves_p4f[:11], orient='h', palette='Set2')

plt.title('Figura 4: Quais dos bancos de dados/fontes de dados listados abaixo você utiliza no trabalho?', fontweight="bold")
plt.xlabel('Número de respostas positivas')
plt.show()

In [None]:
P4_g = buscador_colunas("'P4_g", df_analise_P4)
chaves_p4g = extrair_chaves(P4_g, 2)
valores_p4g = extrair_valores(P4_g, 2)

sns.barplot(x=valores_p4g, y=chaves_p4g, orient='h', palette='Set2')

plt.title('Figura 5: Quais das opções de Cloud listadas abaixo você utiliza no trabalho?', fontweight="bold")
plt.xlabel('Número de respostas positivas')
plt.show()

In [None]:
P4_h = buscador_colunas("'P4_h", df_analise_P4)
chaves_p4h = extrair_chaves(P4_h, 2)
valores_p4h = extrair_valores(P4_h, 2)

sns.barplot(x=valores_p4h, y=chaves_p4h, orient='h', palette='Set2')

plt.title('Figura 6: Quais as Ferramentas de Business Intelligence você utiliza no trabalho?', fontweight="bold")
plt.xlabel('Número de respostas positivas')
plt.show()

## Outra pergunta que podemos fazer é: Houve alguma mudança no panorama de 2019 para cá? Para tanto, vamos comparar alguns dados importantes da pesquisa Data Hackers 2019 sobre o mercado de dados. 
### Essa pesquisa também está disponível no Kaggle!
##### <link>https://www.kaggle.com/datasets/datahackers/pesquisa-data-hackers-2019</link>
---
### Fazendo a mesma análise feita anteriormente, percebe-se que não houveram grandes mudanças de 2019 para cá. Apenas uma ou outra tecnologia ganhando ou perdendo algum destaque como pode ser observado na Tabela 1.

##### <center><b>Tabela 3</b> - Principais Fontes de Dados e Linguagens de programação utilizadas em 2019 pelos cientista de Dados.</center>

|Fonte de Dados|Utilização (%)||Linguagem Mais Utilizada|Utilização (%)|
|:-:|:-:||:-:|:-:|
|SQL|30,78||Python|37,71|
|Planilhas|27,59||SQL|31,63|
|NoSQL|17,30||R|16,06|

- Em 2019, SQL, Python, Análises em bancos de dados estruturados e análise de planilhas já eram as principais linguagens e fontes de dados utilizadas no mundo dos dados aqui no Brasil.

##### <center><b>Tabela 4</b> - Principais opções de computação em nuvem, bancos de dados e ferramentas de BI utilizadas em 2019 pelos cientista de Dados.</center>

|Cloud|Utilização (%)||Banco de Dados|Utilização (%)||Ferramenta de BI|Utilização(%)|
|:-:|:-:||:-:|:-:||:-:|:-:|
|AWS|41,89||PostgreSQL|15,21||PowerBI|23,39|
|Google Cloud Plataform|18,92||MySQL|12,90||Metabase|14,11|
|Azure|13,51||SQL_Server|11,52||Tableau|13,30|

- Percebe-se que as ferramentas praticamente não mudaram nesses 3 anos. 
- Destaque para a evolução do banco de dados S3, que em 2019 ocupava a quarta posição no ranking de utilização e em 2021 aparece em segundo lugar.

---

## E comparando-se com a pesquisa do Kaggle sobre o mercado de dados em 2021? 
###### <link>https://www.kaggle.com/competitions/kaggle-survey-2021</link>
- Essa pesquisa do Kaggle foi realizada entre 09/01/21 e 10/04/21.
- Foram tomadas 25.973 respostas sobre vários temas dos quais vamos destacar e relacionar alguns com o que foi estudado anteriormente.
    - Os resultados da pesquisa do Kaggle em relação aos temas aqui abordados são um reflexo do que já foi discutido, apresentando os mesmos padrões.

In [None]:
df_p8 = buscador_colunas("'P8", df_21)
df_p8

In [None]:
df_p8_final = df_p8.join(df_P4["('P4_a ', 'Atuacao')"])

df_p8_final['Nível'] = df_21["('P2_g ', 'Nivel')"]

df_analise_p8 = df_p8_final.groupby(["('P4_a ', 'Atuacao')", 'Nível']).sum()

df_p8_DC = df_analise_p8.loc['Ciência de Dados']
df_p8_DC

In [None]:
P8_a = buscador_colunas("'P8_a", df_p8_DC)
P8_a

In [None]:
# modificando os nomes das colunas para melhorar a visualização posterior dos dados
colunas_p8a = ['Estudos Ad-hoc', 'Coleta e Limpeza de Dados', 'Ligação entre os times de negócio', 'Desenvolvimento de modelos de ML', 'Manutenção de modelos de ML', 'Práticas de MLOps', 'Dashboards', 'Estatística Avançada', 'Infraestrutura de modelos']
P8_a.columns = colunas_p8a

In [None]:
fig, ax = plt.subplots(figsize=(25,10))
plt.axis('off')

squarify.plot(sizes=P8_a.iloc[0], label=P8_a.columns, pad=True, alpha=0.7, color=cores, text_kwargs={'fontsize': 14})

plt.title('Figura 7: Principais atividades de um Cientista de Dados Júnior', fontweight="bold")
plt.show()

In [None]:
P8_b = buscador_colunas("'P8_b", df_p8_DC)
P8_b

## Relacionados as atividades, estão os principais métodos e as principais técnicas utilizadas pelos cientistas de dados júnior para conclusão de suas atividades diárias.

In [None]:
colunas_p8b = ['Regressão', 'Classificação', 'Sistemas de Recomendação', 'Bayes', 'NLP', 'Estatística clássica', 'Markov ou HMMs', 'Clusterização', 'Séries Temporais', 'Aprendizado de Reforço', 'ML para Fraudes', 'Visão Computacional', 'Churn']
P8_b.columns = colunas_p8b

fig, ax = plt.subplots(figsize=(25,10))
plt.axis('off')

squarify.plot(sizes=P8_b.iloc[0], label=P8_b.columns, pad=True, alpha=0.7, color=cores, text_kwargs={'fontsize': 14})

plt.title('Figura 8: Principais Técnicas e Métodos utilizados por um Cientista de Dados Júnior', fontweight="bold")
plt.show()

In [None]:
P8_c = buscador_colunas("'P8_c", df_p8_DC)
P8_c

In [None]:
colunas_p8c = ['Ferramentas BI', 'Planilhas', 'Ambiente Dev,', 'Ambient Dev. Cloud', 'AutoML', 'ETL', 'Plataformas ML', 'Feature Store', 'Versionamento', 'Data Apps', 'Estatística Avançada', 'Outras']
P8_c.columns = colunas_p8c

fig, ax = plt.subplots(figsize=(25,10))
plt.axis('off')

squarify.plot(sizes=P8_c.iloc[0], label=P8_c.columns, pad=True, alpha=0.7, color=cores, text_kwargs={'fontsize': 14})

plt.title('Figura 9: Principais tecnologias utilizadas por um Cientista de Dados Júnior', fontweight="bold")
plt.show()