# EDA - Cenário dos Cientistas de Dados no Brasil

Este notebook realiza uma Análise Exploratória de Dados _(Exploratory Data Analysis - EDA)_ sobre o dataset [Data Hackers Survey 2019](https://www.kaggle.com/datahackers/pesquisa-data-hackers-2019). Um conjunto de dados que reúne mais de 1.700 respostas da pesquisa de mercado de Ciência de Dados feita pelo [Data Hackers](https://medium.com/data-hackers), no ano de 2019. Neste estudo veremos um conjunto de visualizações sobre os dados demográficos, observações sobre as verticais empresas e salários, tecnologias mais utilizadas no mercado de trabalho e, por fim, como se manter atualizado na área.   

**Disclaimer**. Neste notebook será explorado as três bibliotécas de visualização de dados mais famosas, `matplotlib`, `seaborn` e `plotly`. Contudo, o objetivo não é explorar suas possibilidades, mas apenas apresentar algumas visualizações iniciais. Cada seção utilizará um pacote especifico para desenvolver seus gráficos.   

> Conteúdo voltado para iniciantes na área de Aprendizado de Máquina e Ciência de Dados!

<a id='top'></a>

## Conteúdo

> **Nota**. Alguns códigos foram ocultados a fim de facilitar a leitura e dar destaque para os conteúdos mais importantes.

O notebook está organizado como segue:

- [Dados](#loading) - Carregamento e pré-processamento dos dados.
- [Estudo de Demografia](#demography) - Análises sobre os gêneros, localização, nível de ensino, bem como área de formação.
- [Estudo de Empresas](#job) - Análise sobre setores e faixa salarial dos cientistas de dados.
- [Estudo de Tecnologia](#tech) - Análise sobre as tecnologias mais utilizadas no mercado de trabalho.
- [Como se atualizar?](#study) - Análise sobre as formas de estudo e plataformas de ensino.

<a id='loading'></a>

---

# Dados

Esta seção reúne um conjunto de código para carregamento e pré-processamento sobre os dados.   
Além disso, uma visão inicial dos dados disponíveis neste dataset.

[Voltar para o Topo](#top)

## Importando os Dados

In [None]:
# pacote de processamento dos dados
import pandas as pd
import numpy as np

# pacote de visualização de dados
import seaborn as sns
import matplotlib as mpl
import matplotlib.pyplot as plt
import plotly.express as px

In [None]:
# definindo um layout dos gráficos
mpl.style.use('seaborn-whitegrid')
sns.set_theme(style="whitegrid")

## Carregamento os Dados

- Listando os arquivos disponíveis.
- Carregando a planilha num `pandas.DataFrame`.

In [None]:
import os

# repetir - para cada diretório
for dirname, _, filenames in os.walk('/kaggle/input'):
    # repetir - para cada arquivo
    for filename in filenames:
        # imprimir o nome
        print(os.path.join(dirname, filename))

In [None]:
# leitura do arquivo
file_name = '/kaggle/input/pesquisa-data-hackers-2019/datahackers-survey-2019-anonymous-responses.csv'
df = pd.read_csv(file_name)

# imprime as 3 primeiras linhas
df.head(3)

## Pré-Processamento dos Dados

- Selecionando as colunas de interesse.
- Selecionando as linhas de interesse.

### Colunas de Interesse

In [None]:
df.columns

Das 170 colunas, vamos selecionar apenas as colunas de interesse para a nossa análise.

In [None]:
# apenas as perguntas que queremos
wanted = ['P1', 'P2', 'P5', 'P7', 'P8', 'P9', 'P11', 'P16', 'P19', \
          'P21', 'P21', 'P22', 'P24', 'P25', 'P27', 'P33', 'P34', 'P35', \
          'D1', 'D2', 'D3', 'D4', 'D5', 'D6']

# busca pelas colunas que não possuem aquelas tags e as remove
not_wanted = []
for column in df.columns:
    if eval(column)[0] not in wanted:
        not_wanted.append(column)
df = df.drop(columns=not_wanted)

In [None]:
# imprime as 3 linhas aleatórias
df.sample(3)

Quantas colunas restaram?

In [None]:
len(df.columns)

### Linhas de Interesse

Removendo aqueles que não são cientistas de dados.

In [None]:
# quantos são cientistas e quantos não são?
df["('P19', 'is_data_science_professional')"].value_counts()

In [None]:
# filtrando aqueles que são cientistas de dados
df = df[df["('P19', 'is_data_science_professional')"] == 1]

In [None]:
print('linhas: %d\ncolunas: %d' % df.shape)

<a id='demography'></a>

---

# Estudo de Demografia 

Esta seção realiza uma análise sobre:

- Idade
- Gênero
- Estado de Residência
- Nível de Ensino
- Área de Formação

> As análises dessa seção utilizaram o pacote `matplotlib`. Este é o pacote mais completo e base para todos os demais pacotes visuais aqui apresentados. Contudo, ele é mais trabalhoso para manipular as visualizações.

[Voltar para o Topo](#top)

## Qual a idade dos Cientistas de Dados?

In [None]:
# histograma por idade
val = df["('P1', 'age')"].value_counts()
X = [int(key) for key in val.keys()]
Y = [val[key] for key in val.keys()]

In [None]:
# plot - gráfico de barras
plt.bar(X, Y)
plt.ylabel('Quantidade')
plt.xlabel('Idade')
plt.show()

## Quantos são homens, mulheres?

In [None]:
# histograma por gênero
val = df["('P2', 'gender')"].value_counts()
X = [key for key in val.keys()]
Y = [val[key] for key in val.keys()]

In [None]:
# plot - gráfico de pizza
plt.pie(Y, labels=X, autopct='%1.1f%%')
plt.show()

## Em que estado moram?

In [None]:
# histograma por estado
val = df["('P5', 'living_state')"].value_counts()
X = [key for key in val.keys()]
Y = [val[key] for key in val.keys()]

In [None]:
val

In [None]:
xT = range(len(Y))

# plot - gráfico de barras horizontal
plt.barh(xT, Y)
plt.yticks(xT, X)
plt.show()

## Qual são as suas escolaridades?

ou seja, nível de ensino.

In [None]:
# histograma por grau de escolaridade
val = df["('P8', 'degreee_level')"].value_counts()
X = [key for key in val.keys()]
Y = [val[key] for key in val.keys()]

In [None]:
val

In [None]:
xT = range(len(Y))

# plot - gráfico de barras horizontal
plt.barh(xT, Y)
plt.yticks(xT, X)
plt.show()

## Qual são as áreas de formação?

In [None]:
# histograma por área de formação
val = df["('D3', 'anonymized_degree_area')"].value_counts()
X = [key for key in val.keys()]
Y = [val[key] for key in val.keys()]

In [None]:
val

In [None]:
xT = range(len(Y))

# plot - gráfico de barras horizontal
plt.barh(xT, Y)
plt.yticks(xT, X)
plt.show()

## Qual é o área de formação por nível de escolaridade?

Neste caso, será um gráfico combinando valores.   
Este gráfico é só uma demonstração de como podemos personalizar nossas visualizações.

> Criaremo um gráfico em que:   
> Eixo Y - Formação   
> Eixo X - Nível de Ensino   
> Tamanho da bolinha é a quantidade de pessoas

In [None]:
# agrupando os valores
val = df.groupby("('D3', 'anonymized_degree_area')")["('P8', 'degreee_level')"].value_counts().unstack().fillna(0)

In [None]:
val

In [None]:
# recupera os valores, linha e coluna
degreee_level = val.index.tolist()
anonymized_degree_area = val.columns.tolist()

X = []
Y = []
area = []

# contagem por x e y
for i in range(len(degreee_level)):
    b = degreee_level[i]
    for j in range(len(anonymized_degree_area)):
        d = anonymized_degree_area[j]
        X.append(i)
        Y.append(j)
        area.append(val.loc[b][d] * 8)

In [None]:
xT = range(len(degreee_level))
yT = range(len(anonymized_degree_area))

# plot - gráfico de bolinhas, com área
plt.scatter(Y, X, s=area, alpha=0.5, color='blue')
plt.xticks(yT, anonymized_degree_area, rotation=35)
plt.yticks(xT, degreee_level)
plt.show()

<a id='job'></a>

---

# Estudo de Empresas 

- Vertical das Empresas
- Faixa Salárial

> As análises dessa seção utilizaram o pacote `seaborn`. Este pacote é focado em análises estátisticas, bem fácil de ser utilizado, e visualmente bem agradável. Contudo, não é possível personalizar totalmente que nem o `matplotlib`. De qualquer forma, `seaborn` é um excelente pacote e agiliza a produção de gráficos de uso comum.

[Voltar para o Topo](#top)

## Quais são as verticais da empresas que trabalham com Ciência de Dados?

In [None]:
# histograma de setor
val = df["('D4', 'anonymized_market_sector')"].value_counts()
val = pd.DataFrame(val).reset_index(drop=False)
val.columns = ['Setor', 'Quantidade']

In [None]:
val

In [None]:
sns.barplot(data=val, x='Quantidade', y='Setor')
plt.show()

## Qual é a faixa salárial dos Cientistas?

In [None]:
# histograma de setor
val = df["('P16', 'salary_range')"].value_counts()
val = pd.DataFrame(val).reset_index(drop=False)
val.columns = ['Range', 'Quantidade']

In [None]:
# reordena os indices
reorderlist = [8, 4, 5, 3, 0, 2, 1, 6, 7, 9, 10]
val = val.reindex(reorderlist)

In [None]:
val

In [None]:
sns.barplot(data=val, x='Quantidade', y='Range')
plt.show()

## Qual a faixa salário por setor?

- Neste caso, será um gráfico combinando valores.
- Apenas top seis segmentos.

> Excluindo-se Tecnologia.

In [None]:
# filtra para mostrar apenas alguns setores
filterval = ['Finanças ou Bancos', 'Varejo', 'Setor Público', 'Educação', 'Área da Saúde', 'Marketing']
val = df[df["('D4', 'anonymized_market_sector')"].isin(filterval)]

In [None]:
# agrupa os valores
val = val.groupby("('P16', 'salary_range')")["('D4', 'anonymized_market_sector')"].value_counts().unstack().fillna(0)

In [None]:
# reordena a lista
reorderlist = ['Menos de R$ 1.000/mês','de R$ 1.001/mês a R$ 2.000/mês', 'de R$ 2.001/mês a R$ 3000/mês',\
               'de R$ 3.001/mês a R$ 4.000/mês', 'de R$ 4.001/mês a R$ 6.000/mês', 'de R$ 6.001/mês a R$ 8.000/mês',\
               'de R$ 8.001/mês a R$ 12.000/mês', 'de R$ 12.001/mês a R$ 16.000/mês','de R$ 16.001/mês a R$ 20.000/mês',\
               'de R$ 20.001/mês a R$ 25.000/mês','Acima de R$ 25.001/mês']
val = val.reindex(reorderlist)

In [None]:
val

Abaixo tem _(ocultado)_ um código para normalizar os valores por coluna.   
Assim, a visualização trará a representatividade (%) para cada Setor.   

In [None]:
# normalizando os valores por coluna
from sklearn import preprocessing

min_max_scaler = preprocessing.MinMaxScaler()

x = val.values 
x_scaled = min_max_scaler.fit_transform(x)
val = pd.DataFrame(x_scaled, index=val.index, columns=val.columns)

In [None]:
ax = sns.heatmap(val, annot=True, fmt=".1f")
ax.set(xlabel='Setor', ylabel='Salário')
plt.show()

<a id='tech'></a>

---

# Estudo de Tecnologia 

Quais são as tecnologias mais utilizadas pelo cientistas de dados?

- Linguagens de Programação
    - Qual é a predileta?
- Tipos de dados
- _Cloud,_ ou Computação em Nuvem
- Ferramentas de _Business Intelligence_

> As análises dessa seção utilizaram o pacote `plotly`. Este pacote é focado em visualizações análiticas, bem fácil de ser utilizado, e possui gráficos interativos. Apresenta as mesmas limitações que o `seaborn`. Porém, este é o unico pacote, aqui apresentado, que trabalha com analytics - no qual é possível interagir com o gráfico. Além disso, possuí uma gama de visualizações bem robustas, e versão paga para gráficos mais interativos e específicos.

[Voltar para o Topo](#top)

* ## Quais são as linguagens mais utilizadas? 

In [None]:
columnsP21 = ["('P21', 'sql_')", "('P21', 'r')", "('P21', 'python')", "('P21', 'c_c++_c#')",
"('P21', 'dotnet')", "('P21', 'java')", "('P21', 'julia')", "('P21', 'sas_stata')", 
"('P21', 'visual_basic_vba')", "('P21', 'scala')", "('P21', 'matlab')", "('P21', 'php')",
"('P21', 'no_listed_languages')"]

In [None]:
val = df[columnsP21].sum().sort_values().to_dict()
X = [key for key in val.keys()]
Y = [val[key] for key in val.keys()]

In [None]:
X = ['Outro','Julia','Matlab','.NET','PHP','SAS/STATA','Scala','C/C++','VBA','Java','R','SQL','Python']

In [None]:
val = pd.DataFrame(data={'Linguagem':X, 'Qtde':Y})
val

In [None]:
# gráfico de barras
fig = px.bar(val, x='Linguagem', y='Qtde', text=Y)
fig.show()

In [None]:
# matplotlib

xT = range(len(Y))

# plot - gráfico de barras horizontal
plt.barh(xT, Y)
plt.ylabel('Tech')
plt.yticks(xT, X)
plt.show()

### Sobre Python, quantos usam e quantos não usam?

- Observando todos os cientistas de dados.

In [None]:
df["('P21', 'python')"].value_counts()

In [None]:
# seaborn
sns.histplot(data=df, x="('P21', 'python')", kde=True)
plt.show()

## Qual é a linguagem preferida?

In [None]:
val = df["('P22', 'most_used_proggraming_languages')"].value_counts()
X = [key for key in val.keys()]
Y = [val[key] for key in val.keys()]

In [None]:
val = pd.DataFrame(data={'Linguagem':X, 'Qtde':Y})
val

In [None]:
# gráfico de barras
fig = px.bar(val, x='Linguagem', y='Qtde', text=Y, color='Qtde')
fig.show()

In [None]:
# matplotlib
xT = range(len(Y))

# plot - gráfico de barras horizontal
plt.barh(xT, Y)
plt.yticks(xT, X)
plt.show()

## e sobre os Tipos de Dados?

In [None]:
columnsP24 = ["('P24', 'sql')", "('P24', 'nosql')", "('P24', 'imagens')",
"('P24', 'nlp')", "('P24', 'vídeos')", "('P24', 'planilhas')", "('P24', 'other')"]

In [None]:
val = df[columnsP24].sum().sort_values().to_dict()
X = [key for key in val.keys()]
Y = [val[key] for key in val.keys()]

In [None]:
X = ['Vídeos', 'Outro', 'Imagens', 'NLP', 'NoSQL', 'Planilhas', 'SQL']

In [None]:
val = pd.DataFrame(data={'Dados':X, 'Qtde':Y})
val

In [None]:
# gráfico de barras
fig = px.bar(val, x='Dados', y='Qtde', text=Y)
fig.show()

In [None]:
# matplotlib
xT = range(len(Y))

# plot - gráfico de barras horizontal
plt.barh(xT, Y)
plt.yticks(xT, X)
plt.show()

## Qual é a plataforma _Cloud_ mais utilizada?

In [None]:
columnsP25 = ["('P25', 'aws')", "('P25', 'gcp')",
"('P25', 'azure')", "('P25', 'ibm')", "('P25', 'on_premise_servers')",
"('P25', 'cloud_própria')", "('P25', 'other')"]

In [None]:
val = df[columnsP25].sum().sort_values().to_dict()
X = [key for key in val.keys()]
Y = [val[key] for key in val.keys()]

In [None]:
X = ['IBM', 'Outro', 'On Premises', 'Cloud Privada', 'Azure', 'GCP', 'AWS']

In [None]:
val = pd.DataFrame(data={'Cloud':X, 'Qtde':Y})
val

In [None]:
# gráfico de barras
fig = px.bar(val, x='Cloud', y='Qtde', text=Y, color='Cloud')
fig.show()

In [None]:
# matplotlib
xT = range(len(Y))

# plot - gráfico de barras horizontal
plt.bar(xT, Y)
plt.xticks(xT, X, rotation=35)
plt.show()

## Qual a ferramenta de Business Intelligence (BI)?

In [None]:
columnsP27 = ["('P27', 'microsoft_powerbi')", "('P27', 'qlik_view_qlik_sense')",
"('P27', 'tableau')", "('P27', 'metabase')", "('P27', 'superset')",
"('P27', 'redash')", "('P27', 'microstrategy')",
"('P27', 'ibm_analytics_cognos')", "('P27', 'sap_business_objects')",
"('P27', 'oracle_business_intelligence')", "('P27', 'birst')",
"('P27', 'looker')", "('P27', 'google_data_studio')",
"('P27', 'only_excel_gsheets')", "('P27', 'no_bi_tool_at_work')", "('P27', 'other')"]

In [None]:
val = df[columnsP27].sum().sort_values().to_dict()
X = [key for key in val.keys()]
Y = [val[key] for key in val.keys()]

In [None]:
X = ['Birst', 'Oracle BI',  'Looker', 'Superset', 'SAP',  'IBM Cognos', 'Redash', 'MicroStrategy','Outro', 'Qlink', 'Planilhas', 'Data Studio', 'Metabase', 'Nenhum', 'Tableau', 'Power BI']

In [None]:
val = pd.DataFrame(data={'BI':X, 'Qtde':Y})
val

In [None]:
# gráfico de barras
fig = px.bar(val, x='BI', y='Qtde', text=Y, color='Qtde')
fig.show()

In [None]:
xT = range(len(Y))

# plot - gráfico de barras horizontal
plt.barh(xT, Y)
plt.yticks(xT, X)
plt.show()

<a id='study'></a>

---

# Como se atualizar?

- Mídia social
- Plataformas de Ensino

[Voltar para o Topo](#top)

In [None]:
columnsP33 = ["('P33', 'whatsapp_groups')", "('P33', 'youtube_channels')",
"('P33', 'other_brasilian_blogs')", "('P33', 'other_slack_channels')",
"('P33', 'twitter')", "('P33', 'abroad_blogs')",
"('P33', 'abroad_podcasts')", "('P33', 'meetups_and_events')",
"('P33', 'only_data_hackers')", "('P33', 'other')"]

In [None]:
val = df[columnsP33].sum().sort_values().to_dict()
X = [key for key in val.keys()]
Y = [val[key] for key in val.keys()]

In [None]:
val

In [None]:
X = ['Slack', 'Data Hackers', 'Outro', 'Twitter', 'WhatsApp', 'EN Podcasts', 'BR Blogs', 'Eventos', 'EN Blogs', 'YouTube']

In [None]:
xT = range(len(Y))

# plot - gráfico de barras horizontal
plt.barh(xT, Y)
plt.yticks(xT, X)
plt.show()

## Qual a Plataforma de Ensino?

In [None]:
columnsP35 = ["('P34', 'udacity')", "('P34', 'coursera')", "('P34', 'udemy')",
"('P34', 'height')", "('P34', 'edx')", "('P34', 'data_camp')",
"('P34', 'data_quest')", "('P34', 'kaggle_learn')",
"('P34', 'online_courses')", "('P34', 'other')"]

In [None]:
val = df[columnsP35].sum().sort_values().to_dict()
X = [key for key in val.keys()]
Y = [val[key] for key in val.keys()]

In [None]:
val

In [None]:
X = ['DataQuest', 'Cursos Online', 'Outro', 'edX', 'Height', 'Kaggle', 'DataCamp', 'Udacity', 'Coursera', 'Udemy']

In [None]:
xT = range(len(Y))

# plot - gráfico de barras horizontal
plt.barh(xT, Y)
plt.yticks(xT, X)
plt.show()

---

**Fim**

Espero que tenha gostado, qualquer feedback - só mandar nos comentários ou me procurar!

[Voltar para o Topo](#top)