# <font color='blue'>Data Science Academy</font>
# <font color='blue'>Linguagem Python e Power BI Para Manipulação de Dados</font>

## <font color='blue'>Mini-Projeto 3</font>
## <font color='blue'>Dashboard de Recursos Humanos Com Power BI e Linguagem Python</font>

![title](mini-projeto3.png)

## Definição do Problema

A empresa ZuZa Inc coletou dados do ano anterior com diversos atributos de funcionários de todos os setores. O objetivo é estudar a relação desses atributos e o impacto na promoção dos funcionários. Esse trabalho de análise pode ser usado mais tarde para construir modelos de Machine Learning para prever se um colaborador será ou não promovido.

Essas são as perguntas que devem ser respondidas:

- Pergunta 1 - Qual a Correlação Entre os Atributos dos Funcionários?
- Pergunta 2 - Qual o Tempo de Serviço da Maioria dos Funcionários?
- Pergunta 3 - Qual Avaliação do Ano Anterior Foi Mais Comum?
- Pergunta 4 - Qual a Distribuição das Idades dos Funcionários?
- Pergunta 5 - Qual o Número de Treinamentos Mais Frequente?
- Pergunta 6 - Qual a Proporção dos Funcionários Por Canal de Recrutamento?
- Pergunta 7 - Qual a Relação Entre a Promoção e a Avaliação do Ano Anterior?

Seu trabalho é limpar e preparar os dados e então construir um dashboard no Power BI para apresentar seus resultados.

## Carregando e Instalando Pacotes

In [None]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

In [None]:
# Para atualizar um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install -U nome_pacote

# Para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou prompt de comando:
# !pip install nome_pacote==versão_desejada

# Depois de instalar ou atualizar o pacote, reinicie o jupyter notebook.

# Instala o pacote watermark. 
# Esse pacote é usado para gravar as versões de outros pacotes usados neste jupyter notebook.
!pip install -q -U watermark

In [None]:
# Imports
import numpy as np
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings("ignore", category=FutureWarning)

In [None]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Data Science Academy" --iversions

## Carregando os Dados

In [None]:
dadosRH = pd.read_csv('dadosRH.csv')

In [None]:
dadosRH.head()

In [None]:
dadosRH.shape

## Análise Exploratória, Limpeza e Transformação de Dados

Vamos manipular os dados e corrigir eventuais problemas.

In [None]:
dadosRH.isnull().sum()

In [None]:
dadosRH.groupby(['educacao']).count()

In [None]:
sns.countplot(dadosRH['educacao'])

In [None]:
dadosRH.groupby(['aval_ano_anterior']).count()

In [None]:
sns.countplot(dadosRH['aval_ano_anterior'])

Vamos aplicar imputação e preencher os valores ausentes.

In [None]:
dadosRH['educacao'].fillna(dadosRH['educacao'].mode()[0], inplace = True)

In [None]:
dadosRH['aval_ano_anterior'].fillna(dadosRH['aval_ano_anterior'].median(), inplace = True)

In [None]:
dadosRH.isnull().sum()

In [None]:
dadosRH.shape

In [None]:
dadosRH.groupby(['educacao']).count()

In [None]:
dadosRH.groupby(['aval_ano_anterior']).count()

Vamos verificar o balanceamento de classe na variável "promovido".

In [None]:
dadosRH.groupby(['promovido']).count()

In [None]:
sns.countplot(dadosRH['promovido'])

In [None]:
df_classe_majoritaria = dadosRH[dadosRH.promovido==0]
df_classe_minoritaria = dadosRH[dadosRH.promovido==1]

In [None]:
df_classe_majoritaria.shape

In [None]:
df_classe_minoritaria.shape

In [None]:
# Upsample da classe minoritária
from sklearn.utils import resample
df_classe_minoritaria_upsampled = resample(df_classe_minoritaria, 
                                           replace = True,     
                                           n_samples = 50140,   
                                           random_state = 150) 

In [None]:
dadosRH_balanceados = pd.concat([df_classe_majoritaria, df_classe_minoritaria_upsampled])

In [None]:
dadosRH_balanceados.promovido.value_counts()

In [None]:
dadosRH_balanceados.info()

In [None]:
sns.countplot(dadosRH_balanceados['promovido'])

Os dados estão balanceados. Vamos salvar o dataset com os dados manipulados.

In [None]:
dadosRH_balanceados.to_csv('dadosRH_modificado.csv', encoding = 'utf-8', index = False)

Agora carregamos os dados e seguimos com o trabalho de análise.

> A partir daqui executaremos também no Power BI.

In [None]:
dataset = pd.read_csv('dadosRH_modificado.csv')
dataset.head()

In [None]:
dataset.shape

### Pergunta 1 - Qual a Correlação Entre os Atributos dos Funcionários?

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
corr = dataset.corr()
sns.heatmap(corr, cmap = "YlOrRd", linewidths = 0.1)
plt.show()

### Pergunta 2 - Qual o Tempo de Serviço da Maioria dos Funcionários?

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
sns.distplot(dataset['tempo_servico'], color = 'green')
plt.title('Distribuição do Tempo de Serviço dos Funcionários', fontsize = 15)
plt.xlabel('Tempo de Serviço em Anos', fontsize = 15)
plt.ylabel('Total')
plt.show()

### Pergunta 3 - Qual Avaliação do Ano Anterior Foi Mais Comum?

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
dataset['aval_ano_anterior'].value_counts().sort_values().plot.bar(color = 'blue', figsize = (10, 5))
plt.title('Distribuição da Avaliação do Ano Anterior dos Funcionários', fontsize = 15)
plt.xlabel('Avaliações', fontsize = 15)
plt.ylabel('Total')
plt.show()

### Pergunta 4 - Qual a Distribuição das Idades dos Funcionários?

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
sns.distplot(dataset['idade'], color = 'magenta')
plt.title('Distribuição da Idade dos Funcionários', fontsize = 15)
plt.xlabel('Idade', fontsize = 15)
plt.ylabel('Total')
plt.show()

### Pergunta 5 - Qual o Número de Treinamentos Mais Frequente?

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
sns.violinplot(dataset['numero_treinamentos'], color = 'red')
plt.title('Número de Treinamentos Feitos Pelos Funcionários', fontsize = 15)
plt.xlabel('Número de Treinamentos', fontsize = 15)
plt.ylabel('Frequência')
plt.show()

### Pergunta 6 - Qual a Proporção dos Funcionários Por Canal de Recrutamento?

In [None]:
dataset['canal_recrutamento'].value_counts()

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
dataset['canal_recrutamento'].value_counts()
fatias = [55375, 42358, 2547]
labels = "Outro", "Outsourcing", "Indicação"
colors = ['purple', 'lime', 'yellow']
explode = [0, 0, 0]
plt.pie(fatias, labels = labels, colors = colors, explode = explode, shadow = True, autopct = "%.2f%%")
plt.title('Percentual de Funcionários Por Canal de Recrutamento', fontsize = 15)
plt.axis('off')
#plt.legend()
plt.show()

### Pergunta 7 - Qual a Relação Entre a Promoção e a Avaliação do Ano Anterior?

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
data = pd.crosstab(dataset['aval_ano_anterior'], dataset['promovido'])
data.div(data.sum(1).astype(float), axis = 0).plot(kind = 'bar', 
                                                   stacked = True, 
                                                   figsize = (16, 9), 
                                                   color = ['blue', 'magenta'])
plt.title('Relação Entre Avaliação do Ano Anterior e a Promoção', fontsize = 15)
plt.xlabel('Avaliação do Ano Anterior', fontsize = 15)
plt.legend()
plt.show()

# Fim