Olá, Kauan! Como você sabe, nossa empresa tem enfrentado alguns desafios relacionados à gestão de recursos humanos. Precisamos tomar decisões baseadas em dados para resolver esses problemas. Aqui estão algumas questões que gostaria que você analisasse utilizando nosso conjunto de dados de RH:

## Problema 1: Rotatividade de Funcionários

Temos observado uma alta taxa de rotatividade de funcionários em determinados departamentos. Gostaria que você investigasse os fatores que podem estar contribuindo para essa rotatividade, como:

- Departamentos com maior rotatividade
- Faixa etária dos funcionários que estão saindo
- Tempo de serviço dos funcionários que estão deixando a empresa
- Possíveis correlações com salários, benefícios ou outras variáveis

Sua análise nos ajudará a identificar as causas-raiz e a desenvolver estratégias para reter talentos.

## Problema 2: Desempenho e Produtividade

Alguns gerentes têm relatado preocupações sobre o desempenho e a produtividade de suas equipes. Gostaria que você explorasse os dados para identificar possíveis fatores que possam estar influenciando o desempenho, como:

- Relação entre horas extras e produtividade
- Impacto do treinamento e desenvolvimento na produtividade
- Correlação entre satisfação no trabalho e desempenho
- Diferenças de desempenho entre departamentos ou funções

Sua análise nos ajudará a tomar medidas para melhorar o desempenho e a produtividade de nossa força de trabalho.

## Problema 3: Diversidade e Inclusão

Estamos comprometidos em promover a diversidade e a inclusão em nossa empresa. Gostaria que você analisasse os dados para identificar possíveis lacunas ou áreas de melhoria, como:

- Representação de gênero, etnia e idade em diferentes níveis hierárquicos
- Diferenças salariais entre grupos demográficos
- Taxas de promoção e progressão na carreira para grupos sub-representados
- Percepções de inclusão e pertencimento com base em pesquisas de engajamento

Sua análise nos ajudará a desenvolver iniciativas e políticas para promover uma força de trabalho mais diversa e inclusiva.

Aguardo ansiosamente seus insights e recomendações baseados na análise dos dados. Não hesite em me procurar se precisar de mais informações ou recursos.

Atenciosamente

# 1.0 IMPORTS

In [26]:
import pandas as pd
import numpy  as np

## 1.1 Loading Data

In [27]:
df1 = pd.read_csv('HR_Analytics.csv')
df1.head()

Unnamed: 0,EmpID,Age,AgeGroup,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,RM297,18,18-25,Yes,Travel_Rarely,230,Research & Development,3,3,Life Sciences,...,3,80,0,0,2,3,0,0,0,0.0
1,RM302,18,18-25,No,Travel_Rarely,812,Sales,10,3,Medical,...,1,80,0,0,2,3,0,0,0,0.0
2,RM458,18,18-25,Yes,Travel_Frequently,1306,Sales,5,3,Marketing,...,4,80,0,0,3,3,0,0,0,0.0
3,RM728,18,18-25,No,Non-Travel,287,Research & Development,5,2,Life Sciences,...,4,80,0,0,2,3,0,0,0,0.0
4,RM829,18,18-25,Yes,Non-Travel,247,Research & Development,8,1,Medical,...,4,80,0,0,0,3,0,0,0,0.0


# 2.0 DATA DESCRIPTION

Q: What's mean columns?
<br>Q: How can I solve the problem 1?

A: I need mind map of hyphotesis for me create and solve my questions.

In [28]:
df2 = df1.copy()

## 2.1 Lowercase columns

In [29]:
df2.columns = [x.lower() for x in df2.columns] # columns lowercase letters

## 2.2 Data Dimension

In [30]:
print('Columns:', df2.shape[1])
print('Rows:', df2.shape[0])

Columns: 38
Rows: 1480


## 2.3 Data Types

To make changes I need understand my datas.

In [31]:
df2.dtypes

empid                        object
age                           int64
agegroup                     object
attrition                    object
businesstravel               object
dailyrate                     int64
department                   object
distancefromhome              int64
education                     int64
educationfield               object
employeecount                 int64
employeenumber                int64
environmentsatisfaction       int64
gender                       object
hourlyrate                    int64
jobinvolvement                int64
joblevel                      int64
jobrole                      object
jobsatisfaction               int64
maritalstatus                object
monthlyincome                 int64
salaryslab                   object
monthlyrate                   int64
numcompaniesworked            int64
over18                       object
overtime                     object
percentsalaryhike             int64
performancerating           

## 2.4 Check NA

In [32]:
df2.isnull().sum()

empid                        0
age                          0
agegroup                     0
attrition                    0
businesstravel               0
dailyrate                    0
department                   0
distancefromhome             0
education                    0
educationfield               0
employeecount                0
employeenumber               0
environmentsatisfaction      0
gender                       0
hourlyrate                   0
jobinvolvement               0
joblevel                     0
jobrole                      0
jobsatisfaction              0
maritalstatus                0
monthlyincome                0
salaryslab                   0
monthlyrate                  0
numcompaniesworked           0
over18                       0
overtime                     0
percentsalaryhike            0
performancerating            0
relationshipsatisfaction     0
standardhours                0
stockoptionlevel             0
totalworkingyears            0
training

I have just 57 nulls data. Then, I can just exclude it.

### 2.4.1 Exclude NULL

In [33]:
df2.yearswithcurrmanager.fillna(0, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df2.yearswithcurrmanager.fillna(0, inplace=True)


## 2.5 Change Types

In this project cycle I will opt for the quick response, in the next cycle after improving the result I will see what can be done in relation to this step.

# 3.0 Descriptive Statistical

In [34]:
df3 = df2.copy()

In [35]:
num_attrs = df3.select_dtypes(include=['int64', 'int32',  'float64'])
cat_attrs = df3.select_dtypes(exclude=['int32', 'int64', 'float64', 'datetime64[ns]'])

## 3.1 Numerical Attributes

In [36]:
ct1 = pd.DataFrame(num_attrs.apply(np.mean)).T
ct2 = pd.DataFrame(num_attrs.apply(np.median)).T

d1 = pd.DataFrame(num_attrs.apply(np.std)).T
d2 = pd.DataFrame(num_attrs.apply(min)).T
d3 = pd.DataFrame(num_attrs.apply(max)).T
d4 = pd.DataFrame(num_attrs.apply(lambda x: x.max() - x.min())).T
d5 = pd.DataFrame(num_attrs.apply(lambda x: x.skew())).T
d6 = pd.DataFrame(num_attrs.apply(lambda x: x.kurtosis())).T

m = pd.concat([d2,d3, d4, ct1, ct2, d1, d5, d6]).T.reset_index()
m.columns = ['attrs', 'min', 'max', 'range', 'mean', 'median', 'std', 'skew', 'kurtosis']
m

Unnamed: 0,attrs,min,max,range,mean,median,std,skew,kurtosis
0,age,18.0,60.0,42.0,36.917568,36.0,9.125475,0.414355,-0.405114
1,dailyrate,102.0,1499.0,1397.0,801.384459,800.0,402.990774,0.000246,-1.201903
2,distancefromhome,1.0,29.0,28.0,9.22027,7.0,8.128453,0.956145,-0.237142
3,education,1.0,5.0,4.0,2.910811,3.0,1.02345,-0.290327,-0.556773
4,employeecount,1.0,1.0,0.0,1.0,1.0,0.0,0.0,0.0
5,employeenumber,1.0,2068.0,2067.0,1031.860811,1027.5,605.750297,0.015234,-1.22439
6,environmentsatisfaction,1.0,4.0,3.0,2.724324,3.0,1.09221,-0.322294,-1.20155
7,hourlyrate,30.0,100.0,70.0,65.84527,66.0,20.321397,-0.031804,-1.195964
8,jobinvolvement,1.0,4.0,3.0,2.72973,3.0,0.712766,-0.48403,0.246918
9,joblevel,1.0,5.0,4.0,2.064865,2.0,1.105201,1.02299,0.397651


# 4.0 FEATURE ENGINEERING

create mind map of hyphotesis