# **Dataset - HR Data MNC (Regressão)**

O objetivo do grupo ao analisar esse dataset é, por meio dos dados de Recursos Humanos de uma multinacional, descobrir qual o salário dos funcionários.

## **1. Inserção das bibliotecas e leitura dos arquivos**

Nessa etapa será feita a leitura do arquivo (dataset) a ser analisado pelo grupo, além da criação do dataframe.

#### Imports Python

In [None]:
import pandas as pd
import numpy as np

pd.set_option('display.max_columns', None) # Para mostrar todas as colunas no .describe()

#### Leitura do Dataset

In [None]:
df_salario = pd.read_csv('Salario/HR_Data_MNC_Data Science Lovers.csv', encoding='latin1')
df_final = df_salario # dataframe para utilizar em pré processamento e predições

In [None]:
df_salario.head()

## **2. Análise Exploratória dos Dados**

PLACEHOLDER

O grupo iniciou utilizando a função .info() do dataframe, para verificar contagem total de valores não nulos e o tipo de dado de cada coluna.

In [None]:
df_salario.info(show_counts=True)

In [None]:
df_salario.describe(include='all')

A primeira grande observação do grupo foi referente a coluna 'Unnamed: 0', a qual posuia a mesma função de um index. Portanto o grupo pretende removê-la durante o Pré Processamento (removida agora em um dataframe da EDA para evitar possíveis erros nesta etapa).

In [None]:
df_salario = df_salario.drop(columns='Unnamed: 0')

Após remoção, o grupo optou por checar a distribuição de funcionários por área nesse dataset.

In [None]:
import seaborn as sns
sns.histplot(data=df_salario, x="Department")

Dando segmento na EDA, o grupo optou por executar um conjunto de histogramas para visualizar a distribuição dos dados entre as diferentes features numéricas. É possível observar que a performance está perfeitamente distribuída, enquanto o salário apresenta uma distribuição ruim.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

df_salario.hist(bins=20, figsize=(15, 8), color='steelblue', edgecolor='black')
plt.suptitle('Distribuição das variáveis numéricas', fontsize=16)
plt.show()


Para entender a concentração dos dados mal distribuídos do salário, o grupo optou por realizar um boxplot, de forma a observar o percentual de valores discrepantes.

In [None]:
df_salario.boxplot(column='Salary_INR')

Após realização do boxplot, o grupo optou por reduzir o dataframe em 10% pra cima e 10% p baixo, de forma a tentar excluir o excesso de outliers. É possível ver que após a remoção os Outliers não são mais identificados. - *Eu (Leo) acho que 10% é muito, mas considerando a qtd de dados acho reasonable até. Mas quero checar o fabricio.*

In [None]:
q_alto = 0.93

limite_alto = df_salario['Salary_INR'].quantile(q_alto)

df_podado = df_salario[
    (df_salario['Salary_INR'] <= limite_alto)
]

df_podado.boxplot(column='Salary_INR')

Checar se fazemos algo ou não

In [None]:
sns.histplot(data=df_podado, x="Department")

In [None]:
df_corr = df_podado.copy()

In [None]:
df_corr['Work_Mode'].unique()

In [None]:
mapeamento_work_mode = {'Remote': 0, 'On-site': 1}
df_corr['WorkMode_Num'] = df_corr['Work_Mode'].map(mapeamento_work_mode)

In [None]:
mapeamento_status = {'Resigned': 0, 'Active': 1, 'Terminated': 2, 'Retired': 3}
df_corr['Status_Num'] = df_corr['Status'].map(mapeamento_status)

In [None]:
df_corr.corr(numeric_only=True).style.background_gradient(cmap= 'Blues')

Para complementar a análise de correlação, o grupo realizou um gráfico de disperção com todas as classes do dataset, para tentar observar de forma gráfica onde os valores se encontram e como se correlacionam entre diferentes classes (a linha foi comentada para reduzir o tempo de execução do programa. O resultado está na pasta Salario, arquivo DispersaoSalario.png).

In [None]:
df_splot = df_corr[['Performance_Rating', 'Experience_Years', 'Salary_INR',	'WorkMode_Num',	'Status_Num', 'Department']]
#sns.pairplot(df_splot, hue='Department', height=3.5, diag_kind='hist')

Seguindo com a EDA e com base nos resultados obtidos por meio do gráfico de dispersão, o grupo optou por realizar um histograma e o boxplot para enxergar a dispersão salarial com base nas áreas. É possível perceber que IT e Finance possuem os funcionários com a maior faixa salarial da empresa.

In [None]:
sns.histplot(data=df_splot, x="Salary_INR", hue="Department")