# Explore and Preprocess Data

## Import the necessary libraries

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import MinMaxScaler

## Import data

__HR_DS.csv__

| Attribute | Description | 
| --- | --- |
| Age | Age |
| Attrition | Employee leaving the company (0=no, 1=yes) |
| BusinessTravel | (1=No Travel, 2=Travel Frequently, 3=Travel Rarely) |
| DailyRate | Salary Level |
| Department | (1=HR, 2=R&D, 3=Sales) |
| DistanceFromHome | The distance from work to home |
| Education | Education |
| EducationField | (1=HR, 2=Life Sciences, 3=Marketing, 4=Medical Sciences, 5=Other, 6=Technical) |
| EmployeeCount | Employee Count |
| EmployeeNumber | Employee Id |
| EnvironmentSatisfaction | Satisfaction with the environment |
| Gender | (1=Female, 2=Male) |
| HourlyRate | Hourly Salary |
| JobInvolvement | Job Involvement |
| JobLevel | Level of job |
| JobRole | (1=HC Rep, 2= HR, 3=Lab Technician, 4=Manager, 5=Managing director, 6 = Research director, | 
|         |                          7= Research Scientist, 8=Sales executive, 9=Sales Representative) |
|JobSatisfaction | Satisfaction with the job |
| MaritalStatus | (1=Divorced, 2=Married, 3=Single) |
| MonthlyIncome | Monthly Salary |
| MonthlyRate | Monthly Rate |
| NumCompaniesWorked | Number of companies worked at |
| Over18 | (1=Yes, 2=No) |
| OverTime | (1=No, 2=Yes) |
| PercentSalaryHike | Percentage increase in Salary |
| PerformanceRating | Performance rating |
| RelationshipSatisfaction | Relations Satisfaction |
| StandardHours | Standard Hours |
| StockOptionLevel | Stock Options |
| TotalWorkingYears | Total years worked |
| TrainingTimesLastYear | Hours spent training |
| WorkLifeBalance | Time spent between work and outside |
| YearsAtCompany | Total number of years at the company |
| YearsInCurrentRole | Years in current role |
| YearsSinceLastPromotion | Last Promotion |
| YearsWithCurrManager | Years spent with current manager |

In [None]:
df = pd.read_csv('HR_DS.csv')
df.head()

## Set index based on employee ID

In [None]:
df.set_index('EmployeeNumber', inplace=True)
df.head()

- criar um index com base no número do empregado

## Identify and remove duplicate entries

In [None]:
df[df.duplicated()]

- não existem duplicados para remover

## Basic exloration

In [None]:
df.shape

- o nosso dataset tem 1470 linhas e 34 colunas

In [None]:
df.columns

In [None]:
df.head(3)

In [None]:
df.tail(3)

In [None]:
df.info()

- não temos variáveis com missing values
- existem 25 variáveis que são de tipo int e 9 do tipo object

## Statistical exploration

In [None]:
df.describe().T

- idade média 37 anos, mínimo 18 anos, 25% dos trabalhadores tem 30 anos; 50% tem 36, 75% tem 43 e a idade máxima é de 60 anos;
- o salário diário médio é de 803 euros, o mínimo diário é 102, 25% dos trabalhadores aufere 465 euros por dia, 50% aufere 802 euros, 75% recebe 1157 euros e o máximo diário é de 1499 euros;
- a distância média entre casa e trabalho é de 9 km, o valor mínimo é de 1 km, 25% dos trabalhadores vive a 2 km do trabalho, 50% a 7 km, 75% a 14 km e a distância máxima é de 29 km;
- a educação está em níveis (de 1 a 5), em que o valor médio é 3, 25% dos trabalhadores tem nível de educação 2, 50% tem nível 3 e 75% nível 4;
- a coluna EmplyeeCount não traz informação importante, uma vez que cada empregado é único, logo esta coluna tem o valor constante de 1;
- a variável EnvironmentSatisfaction mede a satisfação dos trabalhadores com o ambiente empresarial em níveis, de 1 a 4, o nível médio de satisfação é de 2.7, 25% dos trabalhadores diz ter nível 2 de satisfacção, 50% tem nível 3 e 75% nível 4;
- o vencimento médio por hora é de 66 euros, o valor mínimo é 30, 25% dos trabalhadores auferem 48 euros por hora, 50% recebe 66 euros, 75% 84 euros e o valor máximo é de 100 euros/hora;
- a variável JobInvolvement mede o envolvimento dos trabalhadores com a empresa em níveis de 1 a 4, o nível médio de envolvimento é de 2.7, 25% dos trabalhadores tem um nível médio de 2, 50% e 75% de 3;
- a variável JobLevel mede o nível das funções de cada trabalhador em 5 níveis, o nível médio é de 2, 25% dos trabalhadores tem nível 1, 50% nível 2 e 75% nível 3;
- a variável JobSatisfaction mede a satisfação dos trabalhadores com o trabalho em 4 níveis, o nível de satisfação médio é de 2.7, 25% dos trabalhadores tem nível 2, 50% nível 3 e 75% nível 4;
- o salário médio por mês, é de 6503 euros, o salário mínimo é de 1009 euros, 25% dos trabalhadores recebe 2911 euros/mês, 50% recebe 4919 euros/mês, 75% recebe 8379 euros/mês e o salário mensal máximo é de 19.999 euros;
- o número médio de empresas onde os trabalhadores estiveram anteriormente é 2.7, existem trabalhadores para os quais esta é a primeira experiência profissional, 25% dos trabalhadores estive anteriormente em 1 empresa, 50% esteve em 2, 75% em 4 e o valor máximo é de 9;
- em média o salário destes trabalhadores aumentou em 15%, a percentagem mínima de aumento foi de 11%, 25% dos trabalhadores viram os seus salários aumentar em 12%, 50% em 14%, 75% em 18% e a percentagem máxima de aumento salarial foi de 25;
- o rating médio/mínimo/percentil 25/50%/percentil 75 de performance é de 3 em 4;
- o nível médio de satisfação com os relacionamentos interpessoais é de 2.7, o mínimo é 1, 25% dos trabalhadores tem nível de satisfação de 2, 50% tem nível 3, 75% tem nível 4, que é o nível máximo;
- a variável StandardHours é irrelevante pois tem o valor constante de 80h, pelo que será eliminada;
- o nível médio de stock options é de 0.8, 50%/75% dos trabalhadores tem nível 1, 25% dos trabalhadores não tem stock options e o nível máximo é de 3;
- a média de anos trabalhados é de 11 , 25% dos trabalhadores trabalha há 6 anos, 50%  há 10 anos, 75%  há 15 anos e o valor máximo é de 40 anos e o mínimo de 0;
- a média de trainings recebidos no último ano é de 2h, o mínimo é 0h, 25% dos trabalhadores recebeu 2h de trainings, 50% recebeu 3h tal como 75% e o valor máximo é de 6h;
- o work life balance é medido em níveis de 1 a 4, em que o nível médio é de 2.7, o mínimo é 1, 25% dos trabalhadores aponta 2, 50%/75% fala em 3, mas há quem dê nível 4;
- em média os trabalhadores estão há 7 anos nesta empresa, o mínimo de anos é 0, 25% dos trabalhadores estão na empresa há 3 anos, 50% estão há 5, 75% estão há 9 anos e o valor máximo é de 40;
- em média os trabalhadores estão há 4 anos na mesma função, o mínimo é 0, 25% estão na mesma função há 2 anos, 50% há 3, 75% há 7 e no máximo há 18 anos;
- em média passaram 2 anos desde a última promoção, há quem o tenha sido há menos de 1 ano, como acontece com 25% dos trabalhadores, 50% foi promovida há 1 ano, 75% há 3 e há quem espere por uma nova promoção há 15 anos;
- o tempo médio com o actual manager é de 4 anos, o mínimo é de 0, 25% dos trabalahdores estão com o actual manager há 2 anos, 50% está há 3, 75% há 7 e há quem esteja a trabalhar para o actual manager há 17 anos.

**Questões:**

- Devemos confiar nos níveis das variáveis ordinais (nível de satisfação, nível de educação...)?;
- Quais as unidades de medida da distância ao trabalho e dos salary rates e income?
- O que significam os salary rates?
- a % de aumento salarial é calculada face ao valor mensal ou corresponde ao aumento total pelo tempo de trabalho na empresa?
- o que representa ao certa a variável StockOptionLevel?

In [None]:
df.describe(include=['O'])

- existem 2 valores possíveis para indicar se o empregado está sair da empresa ou não, 84% não está de saída, pelo que não é o valor mais comum, esta variável vai ter de ser transformada em int com valores de 0 para 'No' e 1 para 'Yes'
- existem 3 níveis de frequência relativamente a viagens em negócios, em que o mais comum é 'Travel_Rarely', partilhado por 71% dos trabalhadores, esta variável tem de ser transformada em int com valores de 1 para 'No_Travel', 2 para 'Travel_Frequently' e 3 para 'Travel_Rarely'
- existem 3 departamentos diferentes, em que o mais comum é 'Research & Development', no qual constam 65% dos trabalhadores, esta variável tem de ser transformada em int, de acordo com o seguinte padrão: 1 = Human Resources, 2 = Research & Development e 3 = Sales
- existem 6 campos de estudo diferentes, em que o mais comum é 'Life Sciences', com 41% dos trabalhadores, esta variável tem de ser transformada em int com base no seguinte padrão: 1 = Human Resources, 2 = Life Sciences, 3 = Marketing, 4 = Medical Sciences, 5 = Other e 6 = Technical
- 60% dos trabalhadores são homens, a variável 'Gender' pode ser alterada para int com recurso a dummy variables ou através do seguinte código: 1 = Female e 2 = Male
- existem 9 funções diferentes, em que a mais comum é 'Sales Executive' com 22% dos trabalhadores, esta variável tem de ser transformada em int de acordo com o seguinte padrão: 1 = Human Resources Rep, 2 = Human Resources, 3 = Lab Technician, 4 = Manager, 5 = Managing director, 6 = Research director, 7 = Research Scientist, 8 = Sales executive e 9 = Sales Representative
- existem 3 tipos de estados matrimoniais, em que 'Married' é o mais frequente, com 46% dos trabalhadores, esta variável tem de ser transformada em int com base no seguinte padrão: 1 = Divorced, 2 = Married e 3 = Single
- a variável 'Over18' é uma constante, uma vez que não existem trabalhadores com menos de 18 anos, pelo que deve ser removida
- 72% dos trabalhadores não faz horas extra, a variável 'OverTime' pode ser transformada em dummy variable ou usando o seguinte código: 1 = No e 2 = Yes

## Variáveis numéricas

In [None]:
df.skew()

Concerning the variables skewness, we can conclude the following:
- `Moderate skewness (between |0.5| and |1.0|)`: DistanceFromHome, JobInvolvement, PercentSalaryHike, StockOptionLevel, TrainingTimesLastYear, WorkLifeBalance, YearsInCurrentRole, YearsWithCurrManager
- `High skewness (higher than |1.0|)`: JobLevel, MonthlyIncome, NumCompaniesWorked, PerformanceRating, TotalWorkingYears, YearsAtCompany, YearsSinceLastPromotion

In [None]:
df[['DistanceFromHome', 'JobInvolvement', 'PercentSalaryHike', 'StockOptionLevel', 'TrainingTimesLastYear', 'WorkLifeBalance', 'YearsInCurrentRole', 'YearsWithCurrManager', 'JobLevel', 'MonthlyIncome', 'NumCompaniesWorked', 'PerformanceRating', 'TotalWorkingYears', 'YearsAtCompany', 'YearsSinceLastPromotion']].kurt()

- uma distribuição normal tem kurtosis = 3, logo valores > 3, podem representar a existência de outliers
- temos 2 variáveis nesta situação: 'YearsAtCompany' e 'YearsSinceLastPromotion'

## Variáveis categóricas

In [None]:
df['Attrition'].value_counts()

In [None]:
df['BusinessTravel'].value_counts()

In [None]:
df['Department'].value_counts()

In [None]:
df['EducationField'].value_counts()

In [None]:
df['Gender'].value_counts()

In [None]:
df['JobRole'].value_counts()

In [None]:
df['MaritalStatus'].value_counts()

In [None]:
df['Over18'].value_counts()

In [None]:
df['OverTime'].value_counts()

In [None]:
df.columns

## Visualizações

In [None]:
sns.histplot(df['MonthlyIncome'], color="g", bins = 10)

In [None]:
sns.scatterplot(x = 'TotalWorkingYears', y= 'MonthlyIncome', data = df)

In [None]:
figure = plt.figure(figsize=(12,8))
ax = plt.subplot(111) #  "111" means "1x1 grid, first subplot" and "234" means "2x3 grid, 4th subplot".
sns.scatterplot(x = 'TotalWorkingYears', y = 'MonthlyIncome', data = df, hue = 'Attrition')

# define the title using matplotlib.pyplot.title
plt.title('Income vs WorkingYears vs Attrition', fontsize= 16, color = 'blue')
# define the legend using matplotlib.pyplot.legend
plt.legend(loc = 'upper left', title = 'Attrition')
# define the label for x axis using matplotlib.pyplot.xlabel
plt.xlabel("WorkingYears")
ax.spines['right'].set_visible(False)
ax.spines['top'].set_visible(False)

In [None]:
figure = plt.figure(figsize=(12,8))
ax = plt.subplot(111) #  "111" means "1x1 grid, first subplot" and "234" means "2x3 grid, 4th subplot".
sns.scatterplot(x = 'TotalWorkingYears', y = 'MonthlyIncome', data = df, hue = 'JobLevel')

# define the title using matplotlib.pyplot.title
plt.title('Income vs WorkingYears vs JobLevel', fontsize= 16, color = 'blue')
# define the legend using matplotlib.pyplot.legend
plt.legend(loc = 'upper left', title = 'JobLevel')
# define the label for x axis using matplotlib.pyplot.xlabel
plt.xlabel("WorkingYears")
ax.spines['right'].set_visible(False)
ax.spines['top'].set_visible(False)

In [None]:
sns.scatterplot(x = 'JobSatisfaction', y= 'MonthlyIncome', data = df)