In [110]:
import pandas as pd 
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt 
import scipy.stats as stats

### Carregar DataFrame

In [111]:
df = pd.read_csv('data/conjunto_de_dados_de_funcionarios.csv')
df.head(5)

Unnamed: 0,Education,JoiningYear,City,PaymentTier,Age,Gender,EverBenched,ExperienceInCurrentDomain,LeaveOrNot
0,Bachelors,2017,Bangalore,3,34,Male,No,0,0
1,Bachelors,2013,Pune,1,28,Female,No,3,1
2,Bachelors,2014,New Delhi,3,38,Female,No,2,0
3,Masters,2016,Bangalore,3,27,Male,No,5,1
4,Masters,2017,Pune,3,24,Male,Yes,2,1


In [112]:
campos = df.columns
campos

Index(['Education', 'JoiningYear', 'City', 'PaymentTier', 'Age', 'Gender',
       'EverBenched', 'ExperienceInCurrentDomain', 'LeaveOrNot'],
      dtype='object')

### FUNCOES E VARIÁVEIS GLOBAIS

In [113]:
df_size = df.shape[0]

def prob(a , e, ocorrer=True) -> str:
    if not ocorrer:
        return '{:.2%}'.format(1 - (a/e))
    else: 
        return '{:.2%}'.format((a/e))

def prob_cond (AB, B):
  resultado = (AB / B)
  return ('{:.2%}'.format(resultado))

# Variável Education

### Separando DataFrames, um com funcionários na empresa, e outras com ex funcionários da empresa


In [114]:
#NÃO SAÍRAM DA EMPRESA
df_off = df.loc[df.LeaveOrNot == 0]

#SAÍRAM DA EMPRESA
df_on = df.loc[df.LeaveOrNot == 1]


### PROBABILIDADE DO FUNCIONÁRIO SAIR DA EMPRESA

In [115]:
prob(a=df_off.shape[0], e=df.shape[0])

'65.61%'

### PROBABILIDADE DO FUNCIONÁRIO NÃO SAIR DA EMPRESA


In [116]:
prob(a=df_off.shape[0], e=df.shape[0], ocorrer=False)

'34.39%'

In [117]:
#CONTAR QUANTOS VALORES ESTÃO DISPONÍVEIS NA COLUNA EDUCATION
df["Education"].value_counts()

Education
Bachelors    3601
Masters       873
PHD           179
Name: count, dtype: int64

In [118]:
#SEPARAR EM GRUPOS DE FORMAÇÃO
bachelors = df.loc[df.Education == 'Bachelors']
masters = df.loc[df.Education == 'Masters']
PHD = df.loc[df.Education == 'PHD']


In [119]:
#PROBABILIDADE FUNCIONARIO SER BACHAREL
p_bachelors = prob (len(bachelors), len(df))

#PROBABILIDADE FUNCIONARIO SER MESTRE
p_masters = prob (len(masters), len(df))

#PROBABILIDADE FUNCIONARIO SER PHD
p_PHD = prob (len(PHD), len(df))

print('Probabilidades')
print('Bacharel: {}. Mestre: {}. PHD: {}'.format(p_bachelors, p_masters, p_PHD))

Probabilidades
Bacharel: 77.39%. Mestre: 18.76%. PHD: 3.85%


## Variável City

In [120]:
# VErificando campos 
df['City'].unique()

array(['Bangalore', 'Pune', 'New Delhi'], dtype=object)

In [121]:
# Separando em dataFrames por cidade
df_bangalore = df[df.City == 'Bangalore']
df_pune = df[df.City == 'Pune']
df_new_delhi = df[df.City == 'New Delhi']

### Probabilidades 

In [122]:
1 # Probabilidade do funcionário ser de uma das cidades
2 # PROBALIDADE DO FUNCIONARIO SER CADA CIDADE SAIR DA EMPRESA (LeaveOrNot)
3 # PROBABILIDADE DO FUNCIONARIO DE CADA CIDADE SER HOMEM OU MULHER (Gender)
4 # PROBABILIDADE DO FUNCIONARIO DE CADA CIDADE TER UM NÍVEL DE PAGAMENTO 3 (PaymentTier)

4

In [123]:
1 # Probabilidade do funcionário ser de uma das cidades
'Bang: {}. Pune: {}. New Delhi: {}'.format(prob(df_bangalore.shape[0], df_size), prob(df_new_delhi.shape[0], df_size), prob(df_pune.shape[0], df_size))

'Bang: 47.88%. Pune: 24.87%. New Delhi: 27.25%'

In [124]:
2 # PROBALIDADE DO FUNCIONARIO SER CADA CIDADE SAIR DA EMPRESA (LeaveOrNot)

# Separando em dataFrames por cidade
df_bangalore_off = df_off[df_off.City == 'Bangalore']
df_pune_off = df_off[df_off.City == 'Pune']
df_new_delhi__off = df_off[df_off.City == 'New Delhi']


'Bang: {}. Pune: {}. New Delhi: {}'.format(prob_cond(df_bangalore_off.shape[0], df_size), prob_cond(df_new_delhi__off.shape[0], df_size), prob_cond(df_pune_off.shape[0], df_size))

'Bang: 35.10%. Pune: 17.00%. New Delhi: 13.52%'

In [133]:
3 # PROBABILIDADE DO FUNCIONARIO DE CADA CIDADE SER HOMEM OU MULHER (Gender)


df_bangalore_gender = df_bangalore[df_bangalore.Gender == 'Male']
df_pune_gender = df_pune[df_pune.Gender == 'Male']
df_new_delhi_gender = df_new_delhi[df_new_delhi.Gender == 'Male']

bang_prob_male = prob(df_bangalore_gender.shape[0], df_bangalore.shape[0])  
bang_prob_fame = prob(df_bangalore_gender.shape[0], df_bangalore.shape[0], ocorrer=False) 


'29.58%'

## Variável Gender

In [126]:
# VErificando campos 
df['Gender'].unique()

array(['Male', 'Female'], dtype=object)

In [127]:
# Separando em dataFrames por sexo
df_male = df[df.Gender == 'Male']
df_fame = df[df.Gender == 'Fame']


### Probabilidades 

In [128]:
1 # Probabilidade do funcionário ser de cada gênero
2 # PROBALIDADE DO FUNCIONARIO de CADA genero sair da empresa (LeaveOrNot)
3 # PROBABILIDADE DO FUNCIONARIO de cada genero ter um nível salarial 1, 2, 3 (PaymentTier)
4 # PROBABILIDADE DO FUNCIONARIO DE CADA GENERO TER ATÉ 30 ANOS (Age)

4