## **Capacitação de Visualiazação para a área de Dev**

### **Autora:**
- Erica Ferreira - [erica.ferreira@poli.ufrj.br](mailto:erica.ferreira@poli.ufrj.br)

### **Fontes**:

- [Paleta Seaborn](https://seaborn.pydata.org/tutorial/color_palettes.html)
- [Roda de Cores](https://coolors.co/palettes/trending)
- [Escolhendo o gráfico](https://www.data-to-viz.com/)
- [Documentação Matploltlib](https://matplotlib.org/)
- [Documentação Seaborn](https://seaborn.pydata.org/)
- [Livro de Visualização](https://clauswilke.com/dataviz/index.html)
- [Dataset Utilizado](https://www.kaggle.com/datasets/datahackers/state-of-data-2021)

<hr>

### Importando as Bibliotecas

### Lendo os dados

In [140]:
df = pd.read_csv('../data/State_of_Data_2021.csv')

  df = pd.read_csv('../data/State_of_Data_2021.csv')


### Processamento dos dados

In [141]:
# Vendo as colunas
df.columns

Index(['('P0', 'id')', '('P1_a ', 'Idade')', '('P1_a_a ', 'Faixa idade')',
       '('P1_b ', 'Genero')', '('P1_e ', 'Estado onde mora')',
       '('P1_e_a ', 'uf onde mora')', '('P1_e_b ', 'Regiao onde mora')',
       '('P1_g_b ', 'Regiao de origem')', '('P1_g_c ', 'Mudou de Estado?')',
       '('P1_h ', 'Nivel de Ensino')',
       ...
       '('P8_d_g ', 'Criando e dando manutenção em ETLs, DAGs e automações de pipelines de dados.')',
       '('P8_d_h ', 'Criando e gerenciando soluções de Feature Store e cultura de MLOps.')',
       '('P8_d_i ', 'Criando e mantendo a infra que meus modelos e soluções rodam (clusters, servidores, API, containers, etc.)')',
       '('P9_a ', 'Quais das iniciativas do Data Hackers que você já acessou/acompanhou?')',
       '('P9_a_a ', 'Blog/Medium do Data Hackers')',
       '('P9_a_b ', 'Podcast do Data Hackers')',
       '('P9_a_d ', 'Newsletter Semanal')', '('P9_a_e ', 'Canal do Slack')',
       '('P9_a_f ', 'Canal do Youtube do Data Hackers')',
     

In [142]:
# Formatando o nome das colunas
df.columns = [x.split(', ')[1].replace("'",'').replace(')','') for x in df.columns.tolist()]

In [143]:
# Colunas depois da formatação
df.columns

Index(['id', 'Idade', 'Faixa idade', 'Genero', 'Estado onde mora',
       'uf onde mora', 'Regiao onde mora', 'Regiao de origem',
       'Mudou de Estado?', 'Nivel de Ensino',
       ...
       'Criando e dando manutenção em ETLs',
       'Criando e gerenciando soluções de Feature Store e cultura de MLOps.',
       'Criando e mantendo a infra que meus modelos e soluções rodam (clusters',
       'Quais das iniciativas do Data Hackers que você já acessou/acompanhou?',
       'Blog/Medium do Data Hackers', 'Podcast do Data Hackers',
       'Newsletter Semanal', 'Canal do Slack',
       'Canal do Youtube do Data Hackers',
       'Ainda não conhecia o Data Hackers'],
      dtype='object', length=356)

In [144]:
# Agrupando por Faixa Salarial e Gênero
df_agrupado = (df.groupby(['Faixa salarial','Genero'])['id']
                .count()
                .reset_index()
              ).rename(columns = {'id':'Absoluto'})

df_agrupado.head()

Unnamed: 0,Faixa salarial,Genero,Absoluto
0,Acima de R$ 40.001/mês,Feminino,3
1,Acima de R$ 40.001/mês,Masculino,31
2,Menos de R$ 1.000/mês,Feminino,5
3,Menos de R$ 1.000/mês,Masculino,27
4,de R$ 1.001/mês a R$ 2.000/mês,Feminino,23


In [145]:
# Criando porcentagem de gênero por faixa salarial
for genero in df_agrupado['Genero'].unique().tolist():

    df_filtrado = df_agrupado[df_agrupado['Genero'] == genero]

    # Calcula a porcentagem de cada gênero por faixa salarial
    df_agrupado.loc[df_agrupado['Genero'] == genero,'Porcentagem'] = df_filtrado.Absoluto * 100 / df_filtrado.Absoluto.sum()

df_agrupado

Unnamed: 0,Faixa salarial,Genero,Absoluto,Porcentagem
0,Acima de R$ 40.001/mês,Feminino,3,0.688073
1,Acima de R$ 40.001/mês,Masculino,31,1.611227
2,Menos de R$ 1.000/mês,Feminino,5,1.146789
3,Menos de R$ 1.000/mês,Masculino,27,1.403326
4,de R$ 1.001/mês a R$ 2.000/mês,Feminino,23,5.275229
5,de R$ 1.001/mês a R$ 2.000/mês,Masculino,102,5.301455
6,de R$ 1.001/mês a R$ 2.000/mês,Outro,1,20.0
7,de R$ 12.001/mês a R$ 16.000/mês,Feminino,34,7.798165
8,de R$ 12.001/mês a R$ 16.000/mês,Masculino,229,11.902287
9,de R$ 16.001/mês a R$ 20.000/mês,Feminino,16,3.669725


In [146]:
# Salvando arquivo
df_agrupado.to_csv('../data/State_of_Data_2021_filtrado.csv')

### Visualização

#### .0 Lendo arquivo

#### .1 Direto da Caixa

Sem fazer nenhuma alteração no gráfico, será que fica bom?

Não ficou bom. Não dá para ler o eixo x, e agora?

#### .2 Mudando os valores do eixo Y
Os valores da faixa salarial estão dificultando a leitura, é muito texto, vamos diminuir isso.

#### .3 Mudando variável numérica

Será que ver o número absoluto de cada gênero é o melhor a se fazer? Será que a distribuição é parecida para fazer essa comparação?

Ficou melhor mas a coluna `Outro` está com muita diferença! É porque só temos 5 casos, como temos muito pouco, vamos tirar esses dados.

#### .4 Mudando os eixos

Poxa, ficou muito melhor! Mas o eixo y está fora de ordem, vamos ajeitar isso? Mas como?

Agora sim! Mas poxa, o nome desses eixos estão um pouco estranhos?`Faixa salarial` está em qual moeda? `Porcentagem` solta está estranho e não tem um título! Vamos mudar isso!

#### .5 Mudando Legenda

#### .6 Escolhendo as cores

#### .7 Salvando a imagem