# Importando as Bibliotecas

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import plotly
import seaborn as sns
import plotly.express as px

## Importando Dados

In [None]:
df = pd.read_csv('Human_Resources.csv')


In [None]:
df.columns

In [None]:
# dade Atrito Viagem de Negócios Salário Diário Departamento Distância de Casa Educação Campo de Educação Contagem de Empregados Número do Empregado ... Satisfação no Relacionamento Horas Padrão Nível de Opção de Ações Anos Totais de Trabalho Treinamentos no Último Ano Equilíbrio entre Trabalho e Vida Anos na Empresa Anos no Cargo Atual Anos Desde a Última Promoção Anos com o Atual Gerente

In [None]:
df.shape

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.sample()

In [None]:
df.dtypes

In [None]:
df.dtypes.value_counts()

In [None]:
df.info()

In [None]:
df.describe()

## Visualizando os dados

In [None]:
df.duplicated().sum()

In [None]:
df.isnull().sum()

In [None]:
sns.heatmap(df.isnull(), cbar = False);

In [None]:
df.hist(bins = 30, figsize =(20,20), color= 'blue');
# bins -> significa que será criado 30 faixas de distribuição no gráfico

In [None]:
# Plotar o gráfico usando Plotly Express para mostrar a distribuição das idades
fig = px.histogram(df, x='Age', title='Distribuição de Idades', labels={'Age': 'Idade', 'count': 'Contagem'})

# Exibir o gráfico
fig.show()

In [None]:
# Plotar o gráfico usando Plotly Express para mostrar a distribuição
fig = px.histogram(df, x='EducationField', title='Distribuição do Campo Educação', labels={'EducationField': 'Campo  Educação', 'count': 'Contagem'})

# Exibir o gráfico
fig.show()

In [None]:
# Plotar o gráfico usando Plotly Expresspara mostrar a distribuição  dos departamentos da empresa
fig = px.histogram(df, x='Department', title='Distribuição de Departamentos', labels={'Department': 'Departamento', 'count': 'Contagem'})

# Exibir o gráfico
fig.show()

In [None]:
# Plotar o gráfico de dispersão para mostrar a distribuição departamentos/função/idade
fig = px.scatter(df, x='Age', y='Department', color='EducationField',
                 title='Ocupação dos Departamentos por Função e Idade',
                 labels={'Age': 'Idade', 'Department': 'Departamento', 'EducationField': 'Campo de Educação'})

# Exibir o gráfico
fig.show()

In [None]:
# Calcular o número de ocupantes para cada combinação de Departamento, Educação e Idade
df['Occupants'] = df.groupby(['Department', 'EducationField', 'Age'])['Age'].transform('count')

# Plotar o gráfico de dispersão com o tamanho das bolhas representando o número de ocupantes
fig = px.scatter(df, x='Age', y='Department', color='EducationField', size='Occupants',
                 title='Ocupação dos Departamentos por Função, Idade e Número de Ocupantes',
                 labels={'Age': 'Idade', 'Department': 'Departamento', 'EducationField': 'Campo de Educação', 'Occupants': 'Número de Ocupantes'})

# Exibir o gráfico
fig.show()


In [None]:
fig = px.scatter(df, x='YearsAtCompany', y='YearsInCurrentRole',
                 title='Relação do Tempo na Empresa com o Tempo no Cargo',
                 labels={'YearsAtCompany': 'Anos na Empresa', 'YearsInCurrentRole': 'Anos no Cargo Atual'})

# Exibir o gráfico
fig.show()

In [None]:
df['Attrition'] = df['Attrition'].apply(lambda x: 1 if x == 'Yes' else 0)
# a coluna attrition receberá o valor da conversão para numeral de acordo com a função,a mesma diz que vai ser preenchido com '1' se for Yes, caso contrário receberá o valor de '0'


In [None]:
df['OverTime'] = df['OverTime'].apply(lambda x: 1 if x == 'Yes' else 0)
# a coluna receberá o valor da conversão para numeral de acordo com a função,a mesma diz que vai ser preenchido com '1' se for Yes, caso contrário receberá o valor de '0'


In [None]:
df['Over18'] = df['Over18'].apply(lambda x: 1 if x == 'Yes' else 0)
# a coluna receberá o valor da conversão para numeral de acordo com a função,a mesma diz que vai ser preenchido com '1' se for Yes, caso contrário receberá o valor de '0'

In [None]:
#Apagar valores / colunas não significativas para nossa análise já no 'df'

df.drop(['EmployeeCount','StandardHours','Over18','EmployeeNumber'], axis = 1, inplace=True)




In [None]:
df.hist(bins = 30, figsize =(20,20), color= 'blue');
# bins -> significa que será criado 30 faixas de distribuição no gráfico

In [None]:
plt.figure(figsize=[20,20])
plt.subplot(411)
sns.countplot(x = 'JobRole', hue = 'Attrition', data = df)
plt.subplot(412)
sns.countplot(x = 'MaritalStatus', hue = 'Attrition', data = df)
plt.subplot(413)
sns.countplot(x = 'JobInvolvement', hue = 'Attrition', data = df)
plt.subplot(414)
sns.countplot(x = 'JobLevel', hue = 'Attrition', data = df)

In [None]:
# verificar o nº de funcionários que saíram e ficaram na empresa no período analisado

sairam_df = df[df['Attrition'] ==1] # pessoas que saíram da empresa
ficaram_df = df[df['Attrition'] == 0] # pessoas que permaneceram na empresa

In [None]:
# Verificando o percentual de funcionários que saíram e permaneceram na empresa

print('Total = ', len(df))
print('Número de funcionários que saíram da empresa = ', len(sairam_df))
print('Porcentagem de funcionários que saíram da empresa = ', (len(sairam_df) / len(df)) * 100)
print('Número de funcionários que ficaram na empresa = ', len(ficaram_df))
print('Porcentagem de funcionários que ficaram na empresa = ', (len(ficaram_df) / len(df)) * 100)

In [None]:
sairam_df

In [None]:
# Analise estatística das pessoas que saíram da empresa

sairam_df.describe()

In [None]:
# Analise estatística das pessoas que ficaram da empresa

ficaram_df.describe()

In [None]:

import plotly.express as px

# Dados
labels = ['Saíram', 'Ficaram']
values = [len(sairam_df), len(ficaram_df)]

# Criar figura
fig = px.bar(x=labels, y=values, title='Distribuição de Funcionários que Saíram e Ficaram na Empresa', labels={'x': 'Status', 'y': 'Número de Funcionários'})

# Exibir gráfico
fig.show()


In [None]:
# Criar um gráfico de dispersão para mostrar a relação entre salário e número de pessoas que saíram
plt.figure(figsize=(10, 6))
plt.scatter(sairam_df['MonthlyIncome'], range(len(sairam_df)), color='blue', label='Funcionários que Saíram', alpha=0.7)
plt.xlabel('Salário Mensal')
plt.ylabel('Índice dos Funcionários que Saíram')
plt.title('Relação entre Salário e Número de Pessoas que Saíram')
plt.legend()
plt.show()

In [None]:
# Criar um gráfico de dispersão para mostrar a relação entre salário e número de pessoas que saíram
plt.figure(figsize=(10, 6))
plt.scatter(ficaram_df['MonthlyIncome'], range(len(ficaram_df)), color='blue', label='Funcionários que Ficaram', alpha=0.7)
plt.xlabel('Salário Mensal')
plt.ylabel('Índice dos Funcionários que Saíram')
plt.title('Relação entre Salário e Número de Pessoas que Ficaram')
plt.legend()
plt.show()

In [None]:
# Criar um gráfico de dispersão para mostrar a relação entre salário e número de pessoas que saíram
plt.figure(figsize=(10, 6))
plt.scatter(sairam_df['Age'], range(len(sairam_df)), color='blue', label='Funcionários que Saíram', alpha=0.7)
plt.xlabel('Idade Funcionários')
plt.ylabel('Índice dos Funcionários que Saíram')
plt.title('Relação entre Idade e Número de Pessoas que Saíram')
plt.legend()
plt.show()

In [None]:
# Criar um gráfico de dispersão para mostrar a relação entre salário e número de pessoas que saíram
plt.figure(figsize=(10, 6))
plt.scatter(ficaram_df['Age'], range(len(ficaram_df)), color='blue', label='Funcionários que Ficaram', alpha=0.7)
plt.xlabel('Idade Funcionários')
plt.ylabel('Índice dos Funcionários que Saíram')
plt.title('Relação entre Idade e Número de Pessoas que ficaram')
plt.legend()
plt.show()

In [None]:
# Criar um gráfico de dispersão para mostrar a relação entre salário e número de pessoas que saíram
plt.figure(figsize=(10, 6))
plt.scatter(sairam_df['JobSatisfaction'], range(len(sairam_df)), color='blue', label='Funcionários que Saíram', alpha=0.7)
plt.xlabel('Satisfação no trabalho')
plt.ylabel('Índice dos Funcionários que Saíram')
plt.title('Relação entre Satisfação no trabalho e Número de Pessoas que Saíram')
plt.legend()
plt.show()

In [None]:
# Criar um gráfico de dispersão para mostrar a relação entre salário e número de pessoas que saíram
plt.figure(figsize=(10, 6))
plt.scatter(ficaram_df['JobSatisfaction'], range(len(ficaram_df)), color='blue', label='Funcionários que Saíram', alpha=0.7)
plt.xlabel('Satisfação no trabalho')
plt.ylabel('Índice dos Funcionários que Ficaram')
plt.title('Relação entre Satisfação no trabalho e Número de Pessoas que Ficaram')
plt.legend()
plt.show()

In [None]:
# Calcular o número de "Occupants" que saíram por "Age"
idade_sairam= sairam_df.groupby('Age')['Occupants'].count()
idade_sairam

In [None]:
# Plotar um gráfico de barras para o número de "Occupants" que saíram por idade
plt.figure(figsize=(10, 6))
idade_sairam.plot(kind='bar', color='purple')
plt.title('Número de Funcionários que Saíram por Idade')
plt.xlabel('Idade')
plt.ylabel('Número de Funcionários que Saíram')
plt.show()

In [None]:
df_num = df.select_dtypes(include='number')

# Calcular as correlações
correlations = df_num.corr()

# Plotar o heatmap
f, ax = plt.subplots(figsize=(20, 20))
sns.heatmap(correlations, annot=True);
plt.show()

In [None]:
# Quanto mais perto de "1", mais forte é a correlação, entre '0,5' e "0,7" é considerada mediana, mais próximo de '0' é uma correlação fraca, e também há a correlação negativa ( qd não influencia muito )

# Selecionar apenas as colunas numéricas
df_num = df.select_dtypes(include='number')

# Calcular as correlações
correlations = df_num.corr()

# Mostrar a matriz de correlação
print(correlations)


In [None]:
# Comparativo dos funcionários de acordo com a faixa de idade e a proporção em relação à idade  que podem sair ou não da empresa

plt.figure(figsize=[25,12])
sns.countplot(x = 'Age', hue = 'Attrition', data= df);

In [None]:
# Criando subplots para analisar a probabnilidade de saída em relação ao tipo de emprego, estado civil, valor salarial

plt.figure(figsize=[20,20])
plt.subplot(411)# 4 linhas, 1 coluna, e nº/id do gráfico
sns.countplot(x = 'JobRole', hue = 'Attrition', data = df)
plt.subplot(412)
sns.countplot(x = 'MaritalStatus', hue = 'Attrition', data = df)
plt.subplot(413)
sns.countplot(x = 'JobInvolvement', hue = 'Attrition', data = df)
plt.subplot(414)
sns.countplot(x = 'JobLevel', hue = 'Attrition', data = df)

In [None]:
# Filtrar o DataFrame para incluir apenas linhas com 'Sales Representative' no 'Department'
sales_rep_df = sairam_df[sairam_df['Department'] == 'Sales Representative']

# Criar um gráfico de barras para a distribuição de idade dos Sales Representatives
plt.figure(figsize=(8, 6))
sns.histplot(sales_rep_df['Age'], bins=20, kde=True, color='green')
plt.title('Distribuição de Idade dos Sales Representatives')
plt.xlabel('Idade')
plt.ylabel('Frequência')
plt.show()

In [None]:
# KDE (Kernel Density Estimate)
# Distância da residência até a empresa
plt.figure(figsize=(12,7))
sns.kdeplot(sairam_df['DistanceFromHome'], label = 'Funcionários que saíram', shade = True, color = 'r')
sns.kdeplot(ficaram_df['DistanceFromHome'], label = 'Funcionários que ficaram', shade = True, color = 'b');

In [None]:
# Total de anos que a pessoa trabalha na empresa e sua proporção de saída ou não

plt.figure(figsize=(12,7))
sns.kdeplot(sairam_df['TotalWorkingYears'], label = 'Funcionários que saíram', shade = True, color = 'r')
sns.kdeplot(ficaram_df['TotalWorkingYears'], label = 'Funcionários que ficaram', shade = True, color = 'b');

In [None]:
# Verificar o que leva as pessoas a ficar ou sair da empresa em relação a distância e anos na empresa

In [None]:
plt.figure(figsize=(15, 10))
sns.boxplot(x = 'MonthlyIncome', y = 'Gender', data= df);

In [None]:
# Comaprativo da função com salário

plt.figure(figsize=(15, 10))
sns.boxplot(x = 'MonthlyIncome', y = 'JobRole', data= df);

In [None]:
df.info()

## Pré-processamento dos Dados

In [None]:
X_cat = []
X_num = []

for i in df.dtypes.index:
    if df.dtypes[i] == 'object':
       X_cat.append(i)
    else:
        X_num.append(i)


In [None]:
X_cat

In [None]:
X_cat = df[['BusinessTravel', 'Department', 'EducationField', 'Gender', 'JobRole', 'MaritalStatus']]
X_cat

In [None]:
# Transformar os dados em array
from sklearn.preprocessing import OneHotEncoder
onehotencoder = OneHotEncoder()
X_cat = onehotencoder.fit_transform(X_cat).toarray()

In [None]:
X_cat

In [None]:
X_cat = pd.DataFrame(X_cat)
type(X_cat)

In [None]:
X_cat

In [None]:
# Buscando valores únicos da coluna

df['BusinessTravel'].unique()

In [None]:
# Podemos visualizar cada coluna separadamente

df[df['BusinessTravel']== 'Travel_Rarely']

In [None]:
# Buscando os valores numéricos

X_num

In [None]:
X_num = df[['Age', 'DailyRate', 'DistanceFromHome',	'Education', 'EnvironmentSatisfaction', 'HourlyRate', 'JobInvolvement',	'JobLevel',	'JobSatisfaction',	'MonthlyIncome',	'MonthlyRate',	'NumCompaniesWorked',	'OverTime',	'PercentSalaryHike', 'PerformanceRating',	'RelationshipSatisfaction',	'StockOptionLevel',	'TotalWorkingYears'	,'TrainingTimesLastYear'	, 'WorkLifeBalance',	'YearsAtCompany'	,'YearsInCurrentRole', 'YearsSinceLastPromotion',	'YearsWithCurrManager']]
X_num

In [None]:
# Concatenando as variávies categóricas e numéricas, colocando uma coluna ao lado da outra

X_all = pd.concat([X_cat, X_num], axis = 1)
X_all

In [None]:
from sklearn.preprocessing import MinMaxScaler

# Separando colunas categóricas e numéricas
X_cat = X_all.select_dtypes(include='object')
X_num = X_all.select_dtypes(exclude='object')

# Convertendo os nomes das colunas numéricas para string
X_num.columns = X_num.columns.astype(str)

# Aplicando o MinMaxScaler nas colunas numéricas para padronizar/normalizar os dados e deixar na mesma escala
scaler = MinMaxScaler()
X_num_scaled = pd.DataFrame(scaler.fit_transform(X_num), columns=X_num.columns)

# Juntando os DataFrames novamente
X_scaled = pd.concat([X_cat, X_num_scaled], axis=1)

# Exibindo o resultado
print(X_scaled)


In [None]:
# Criando um df para o "Y"

y = df['Attrition']
y

In [None]:
# Criando a base de treino e teste

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size = 0.25)

In [None]:
X_train.shape, y_train # treino será feito com base em 1102 linhas e 50 colunas

In [None]:
X_test.shape, y_test # teste será feito com base em 368 linhas e 50 colunas

## Regressão Logística

In [None]:
# Usado para saída binárias, enquanto a regressaõ linear é usada para prever nºs

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
logistic = LogisticRegression()
logistic.fit(X_train, y_train)

In [None]:
y_pred = logistic.predict(X_test)
y_pred

In [None]:
y_test

In [None]:
from sklearn.metrics import accuracy_score

In [None]:
# Comaprando os valores previstos com a base de dados

accuracy_score(y_test, y_pred)

In [None]:
from sklearn.metrics import confusion_matrix

In [None]:
cm = confusion_matrix(y_test, y_pred)
cm

In [None]:
sns.heatmap(cm, annot=True);

In [None]:
# Precision que está correto, ou seja, acertou em 88% as pessoas que vão sair da empresa
23 / (23 + 3)

In [None]:
# Recall -> identifica o percentual de 34% de pessoas que vão sair da empresa
23 / (23 + 43)

In [None]:
from sklearn.metrics import precision_score, recall_score, f1_score, classification_report

In [None]:
precision_score(y_test, y_pred)

In [None]:
recall_score(y_test, y_pred)

In [None]:
f1_score(y_test, y_pred, average='macro')

In [None]:
print(classification_report(y_test, y_pred))

## Random forest

In [None]:
from sklearn.ensemble import RandomForestClassifier

forest = RandomForestClassifier()
forest.fit(X_train, y_train)

In [None]:
y_pred = forest.predict(X_test)

In [None]:
y_pred

In [None]:
accuracy_score(y_test, y_pred)

In [None]:
cm = confusion_matrix(y_pred, y_test)
cm

In [None]:
sns.heatmap(cm, annot=True);

In [None]:
print(classification_report(y_test, y_pred))

## Redes neurais

In [None]:
!pip install tensorflow


In [None]:
import tensorflow as tf

In [None]:
X_train.shape

In [None]:
(50 + 1) / 2

In [None]:
rede_neural = tf.keras.models.Sequential()
rede_neural.add(tf.keras.layers.Dense(units = 25, activation='relu', input_shape=(50,)))
rede_neural.add(tf.keras.layers.Dense(units = 25, activation = 'relu'))
rede_neural.add(tf.keras.layers.Dense(units = 25, activation = 'relu'))
rede_neural.add(tf.keras.layers.Dense(units = 1, activation = 'sigmoid'))

In [None]:
rede_neural.summary()

In [None]:
rede_neural.compile(optimizer='Adam', loss='binary_crossentropy', metrics = ['accuracy'])

In [None]:
rede_neural.fit(X_train, y_train, epochs=200)

In [None]:
y_pred = rede_neural.predict(X_test)
y_pred

In [None]:
y_pred = (y_pred >= 0.5)
y_pred

In [None]:
cm = confusion_matrix(y_test, y_pred)
cm

In [None]:
sns.heatmap(cm, annot=True);

In [None]:
print(classification_report(y_test, y_pred))

# Salvando

In [None]:
# Escolho a linha do funcionário, preencho com as variáveis cat e num e aplico

In [None]:
#import pickle

In [None]:
'''with open('variaveis_modelo.pkl', 'wb') as f:
  pickle.dump([scaler, onehotencoder, logistic], f)'''

In [None]:
'''with open('variaveis_modelo.pkl', 'rb') as f:
  min_max, encoder, model = pickle.load(f)'''

In [None]:
'''min_max, encoder, model'''

In [None]:
'''X_novo = df.iloc[0:1] # BUSCANDO O REGISTRO
X_novo'''

In [None]:
'''X_cat_novo = X_novo[['BusinessTravel', 'Department', 'EducationField', 'Gender', 'JobRole', 'MaritalStatus']]# LEMBRAR DE CITAR TODAS AS COLUNAS CATEGÓRICAS
X_cat_novo'''

In [None]:
#X_cat_novo = encoder.transform(X_cat_novo).toarray()

In [None]:
#X_cat_novo

In [None]:
'''X_cat_novo = pd.DataFrame(X_cat_novo)
X_cat_novo'''

In [None]:
'''X_numerical_novo = X_novo[['Age', 'DailyRate', 'DistanceFromHome',	'Education', 'EnvironmentSatisfaction', 'HourlyRate', 'JobInvolvement',	'JobLevel',	'JobSatisfaction',	'MonthlyIncome',	'MonthlyRate',	'NumCompaniesWorked',	'OverTime',	'PercentSalaryHike', 'PerformanceRating',	'RelationshipSatisfaction',	'StockOptionLevel',	'TotalWorkingYears'	,'TrainingTimesLastYear'	, 'WorkLifeBalance',	'YearsAtCompany'	,'YearsInCurrentRole', 'YearsSinceLastPromotion',	'YearsWithCurrManager']]
X_numerical_novo'''

In [None]:
'''X_all_novo = pd.concat([X_cat_novo, X_numerical_novo], axis = 1)
X_all_novo'''

In [None]:
'''X_novo = min_max.transform(X_all_novo)
X_novo'''

In [None]:
#model.predict(X_novo)

In [None]:
#model.predict_proba(X_novo)

In [None]:
#model.classes_