In [None]:
# Importando Bibliotecas:
import numpy as np
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Carregando os Dados:
dadosRH = pd.read_csv('dadosRH.csv')

In [None]:
# Visualizar os primeiros registros:
dadosRH.head()

In [None]:
# Visualiza o total de Registros e Colunas da Tabela:
dadosRH.shape

In [None]:
# Conta os Registros Ausentes de cada Coluna da Tabela:
dadosRH.isnull().sum()

In [None]:
# Agrupa os Dados das Colunas de Acordo com as Categorias da Coluna informada e conta os Registros para cada Categoria:
dadosRH.groupby(['educacao']).count()

In [None]:
# Cria um Gráfico com a Contagem de Registros de cada Categoria da Coluna Informada:
sns.countplot(dadosRH['educacao'])

In [None]:
dadosRH.groupby(['aval_ano_anterior']).count()

In [None]:
sns.countplot(dadosRH['aval_ano_anterior'])

Métodos de Preenchimento de Valores Ausentes nos Registros das Colunas:

In [None]:
# Preenchendo os valores ausentes da coluna educação com a Moda:
dadosRH['educacao'].fillna(dadosRH['educacao'].mode()[0], inplace = True)

In [None]:
# Preenchendo os valores ausentes da coluna aval_ano_anterior com a Mediana:
dadosRH['aval_ano_anterior'].fillna(dadosRH['aval_ano_anterior'].median(), inplace = True)

In [None]:
# Agrupando pela coluna promovido:
dadosRH.groupby(['promovido']).count()

In [None]:
# Criando um gráfico com o agrupamento pela coluna promovido:
sns.countplot(dadosRH['promovido'])

Processo de Upsample para Balanceamento de Classes:

In [None]:
# 1 - Separar as Classe Majoritária da Classe Minoritária:
df_classe_majoritaria = dadosRH[dadosRH.promovido == 0] #Classe Majoritária
df_classe_minoritaria = dadosRH[dadosRH.promovido == 1] #Classe Minoritaria

In [None]:
# 2 - Aplicando a Upsample na Classe Minoritária:
from sklearn.utils import resample
df_classe_minoritaria_upsample = resample(df_classe_minoritaria,
                                          replace = True,
                                          n_samples = 50140,
                                          random_state = 150)

In [None]:
# 3 - Concatenar a Classe Majoritaria com a Classe Minoritaria Balanceada:
dadosRH_balanceados = pd.concat([df_classe_majoritaria, df_classe_minoritaria_upsample])

In [None]:
# 4 - Contar o nº de registros da coluna "promovido" para conferir:
dadosRH_balanceados.promovido.value_counts()

In [None]:
# Gráfico com os dados balanceados:
sns.countplot(dadosRH_balanceados['promovido'])

Salvando os Dados Balanceados em um Arquivo .csv:

In [None]:
# Salvando em arquivo .csv:
dadosRH_balanceados.to_csv('dadosRH_modificado.csv', #nome do novo arquivo
                           encoding = 'utf-8', # encoding do arquivo
                           index = False) #não carrega o indice do pandas

Carregando o Conjunto da Dados para criar os gráficos:

In [None]:
# Carregando o novo conjunto de dados - dadosRH_modificado:
dataset = pd.read_csv('dadosRH_modificado.csv')

In [None]:
# Conferir o carregamento do conjunto de dados:
dataset.head()

In [None]:
# Verificar se há registros ausentes nas colunas da tabela:
dadosRH.isnull().sum()

1 - Qual a Correlação entre os Atributos dos Funcionários: Mapa de Calor (heatmap)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
corr = dataset.corr() # calcula as correlações entre as variáveis as salva em uma variável
sns.heatmap(corr, # atribui a variável com a matriz de correlações ao Gráfico de Calor - heatmap
            cmap = "YlOrRd", # atribui um parâmetro ao mapa de cores
            linewidths = 0.1) # determina a espessura das linhas do gráfico
plt.title('Correlação entre os Atributos dos Funcionários', fontsize = 15) #inclui um título no gráfico
plt.show() # carrega e mostra o gráfico

2 - Qual o Tempo de Serviço da Maioria dos Funcionários: Gráfico de Distribuição (distplot)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
sns.distplot(dataset['tempo_servico'], #atribui a variável tempo_servico ao gráfico de distribuição - distplot
             color = 'green') #atribui uma cor ao gráfico
plt.title("Distribuição do Tempo de Serviço dos Funcionários", fontsize = 15) #inclui um título ao gráfico
#O atributo fontsize determina o tamanho da fonte
plt.xlabel("Tempo de Serviço em Anos", fontsize = 15) #atribui um label ao eixo x do gráfico
plt.ylabel("Total", fontsize = 15) #atribui um label ao eixo y do gráfico
plt.show() #carrega e exibe o gráfico

3 - Qual Avaliação do Ano Anterior foi mais Comum: Gráfico de Barras (plot.bar)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
bars = dataset['aval_ano_anterior'].value_counts().sort_values() #adiciona os valores a uma variável
# dataset['aval_ano_anterior] - identifica a variável e suas categorias
# value_counts() - conta o número de registros por categoria
# sort_values() - ordena as categorias pelo seu volume de registros
bars.plot.bar(color = 'blue', figsize = (10,5)) # cria o gráfico de barras adicionando o atributo à variável criada
plt.title("Distribuição da Avaliação do Ano Anterior dos Funcionários", fontsize = 15)
plt.xlabel("Avaliações", fontsize = 15)
plt.ylabel("Total", fontsize = 15)
plt.show()

In [None]:
# Filtro na Coluna aval_ano_anterior:
dataset['aval_ano_anterior'].value_counts()

In [None]:
# Ordenação nos valores contados - ordem crescente:
dataset['aval_ano_anterior'].value_counts().sort_values()

In [None]:
#Geração do Gráfico de Barras;
bars.plot.bar(color = 'blue', figsize = (10,5))

4 - Qual a Distribuição das Idades dos Funcionários: Gráfico de Distribuição (distplot)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
sns.distplot(dataset['idade'], color = 'red')
plt.title('Distribuição da Idade dos Funcionários', fontsize = 15)
plt.xlabel('Idade', fontsize = 15)
plt.ylabel('Total', fontsize = 15)
plt.show()

5 - Qual o número de treinamentos mais frequente: Gráfico de Violino (violinplot)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
sns.violinplot(dataset['numero_treinamentos'], color = 'red')
plt.title('Número de Treinamentos feitos pelos Funcionários', fontsize = 15)
plt.xlabel('Número de Treinamentos', fontsize = 15)
plt.ylabel('Frequência', fontsize = 15)
plt.show()

6 - Qual a Proporção dos funcionários por Canal de Recrutamento: Gráfico de Pizza (plt.pie)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

fatias = dataset['canal_recrutamento'].value_counts() #agrupa os dados da variável por suas categorias
#fatias = [55375, 42358, 2547]
labels = "Outro", "Outsourcing", "indicação" #vetor com as descrições das categorias da variável
colors = ['purple', 'lime', 'yellow'] #cores das fatias do gráfico de pizza
explode = [0, 0, 0] #vetor com a separação das fatias do gráfico de pizza

plt.pie(fatias, #vetor com os dados das fatias
        labels = labels, #rótulos das fatias
        colors = colors, #cores das fatias
        explode = explode, #separação entre as fatias
        shadow = True, #inclui um sombreamento no gráfico
        autopct = '%.2f%%') #formatação dos valores percentuais no gráfico

plt.title("Percentual de Funcionários por Canal de Recrutamento", fontsize = 15)
plt.axis('off') #desativa os eixos no gráfico
#plt.legend() #inclui uma legenda no gráfico
plt.show()

7 - Qual a Relação entre a Promoção e a Avaliação do Ano Anterior - Gráfico de Barras Empilhadas (plot)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# Pre-processamento dos dados:
data = pd.crosstab(dataset['aval_ano_anterior'], dataset['promovido']) #cria a tabela cruzando os dados das variáveis
dat = data.div(data.sum(1).astype(float), axis = 0) #divide os dados entre as categorias da variável categórica

# Criando o Gráfico:
dat.plot(kind = 'bar', #tipo do gráfico
         stacked = True, #ativa o empilhamento dos gráficos
         figsize = (16, 9), #tamanho da imagem do gráfico
         color = ['blue', 'magenta']) #cores das categorias no gráfico

plt.title('Relação entre Avaliação do Ano Anterior e a Promoção', fontsize = 15)
plt.xlabel('Avaliação do Ano Anterior', fontsize = 15)
plt.legend()
plt.show()