# DNC DATA EXPERTB

## Estatística e Python básicos - dinâmica 02

Nessa dinâmica vocês vão trabalhar com um dataset da área de Recursos Humanos, relacionado ao problema de absenteísmo.
Vocês devem fazer o download dos arquivos no seguinte endereço:

https://archive.ics.uci.edu/ml/machine-learning-databases/00445/Absenteeism_at_work_AAA.zip

Após descomprimir os arquivos, vocês abrirão o arquivo ‘Absenteeism_at_work.csv’ e usaram esses dados para apresentar soluções de como reduzir o absenteísmo para essa empresa.


## CARREGAMENTO DAS BIBLIOTECAS

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from statsmodels.graphics.mosaicplot import mosaic
%matplotlib widget

## ABERTURA DO DATASET

In [2]:
df = pd.read_csv('D:\\Samuel\\Documentos\\Python\\dncPython\\dinamica\\Datasets\\D02\\Absenteeism_at_work.csv', delimiter=';')

In [3]:
df.head()

Unnamed: 0,ID,Reason for absence,Month of absence,Day of the week,Seasons,Transportation expense,Distance from Residence to Work,Service time,Age,Work load Average/day,...,Disciplinary failure,Education,Son,Social drinker,Social smoker,Pet,Weight,Height,Body mass index,Absenteeism time in hours
0,11,26,7,3,1,289,36,13,33,239.554,...,0,1,2,1,0,1,90,172,30,4
1,36,0,7,3,1,118,13,18,50,239.554,...,1,1,1,1,0,0,98,178,31,0
2,3,23,7,4,1,179,51,18,38,239.554,...,0,1,0,1,0,0,89,170,31,2
3,7,7,7,5,1,279,5,14,39,239.554,...,0,1,2,1,1,0,68,168,24,4
4,11,23,7,5,1,289,36,13,33,239.554,...,0,1,2,1,0,1,90,172,30,2


In [4]:
# Renomear algumas colunas
df.rename(columns={'Reason for absence': 'reason', 'Month of absence': 'month', 'Day of the week' : 'weekDay', 'Distance from Residence to Work' : 'wordDist'}, inplace=True)

## SEPARAÇÃO DO DATASET EM VARIÁVEIS CONTÍNUAS E CATEGÓRICAS

Essa atividade é importante pois o tipo de variável vai direcionar o método de investigação. Aqui tem um detalhe: algumas variáveis se apresentam como numéricas (como ‘dia da semana’, por ex.) mas na verdade são fatores.
Por isso, a separação deverá ser ‘manual’. 

### Variáveis categóricas

In [5]:
# Mostrar os nomes de todas as colunas
list(df.columns)

['ID',
 'reason',
 'month',
 'weekDay',
 'Seasons',
 'Transportation expense',
 'wordDist',
 'Service time',
 'Age',
 'Work load Average/day ',
 'Hit target',
 'Disciplinary failure',
 'Education',
 'Son',
 'Social drinker',
 'Social smoker',
 'Pet',
 'Weight',
 'Height',
 'Body mass index',
 'Absenteeism time in hours']

In [6]:
# Separar variáveis categóricas
dfCat = df[['reason', 'month', 'weekDay', 'Seasons', 'Disciplinary failure', 'Education', 'Social drinker', 'Social smoker',]]

# Classifcar todas as variáveis como categóricas
dfCat = dfCat.astype('category')

dfCat.head()

Unnamed: 0,reason,month,weekDay,Seasons,Disciplinary failure,Education,Social drinker,Social smoker
0,26,7,3,1,0,1,1,0
1,0,7,3,1,1,1,1,0
2,23,7,4,1,0,1,1,0
3,7,7,5,1,0,1,1,1
4,23,7,5,1,0,1,1,0


### Variáveis contínuas

In [7]:
# Seleciona as variáveis do DF que NÃO SÃO as variáveis categóricas
dfNum = df[df.columns.difference(list(dfCat.columns))]

# Remove coluna da variáve sobre absenteísmo
dfNum = dfNum.drop(['Absenteeism time in hours', 'ID'], axis = 1)

dfNum.head()

Unnamed: 0,Age,Body mass index,Height,Hit target,Pet,Service time,Son,Transportation expense,Weight,Work load Average/day,wordDist
0,33,30,172,97,1,13,2,289,90,239.554,36
1,50,31,178,97,0,18,1,118,98,239.554,13
2,38,31,170,97,0,18,0,179,89,239.554,51
3,39,24,168,97,0,14,2,279,68,239.554,5
4,33,30,172,97,1,13,2,289,90,239.554,36


## ANÁLISE DA RESPOSTA

### Histograma

In [8]:
fig = plt.figure()

# Plota o histograma
plt.hist(df['Absenteeism time in hours'], bins = 20)

# Coloca título nos eixos
plt.title("Distribuição do absenteísmo", loc = 'left')

# Coloca nome nos eixos
plt.xlabel('Horas')
plt.ylabel('Frequência')

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Text(0, 0.5, 'Frequência')

A grande maioria dos dados é referente à valores de absenteísmo menor que 20 horas.

### Box Plot

In [9]:
fig = plt.figure()

plt.boxplot(df['Absenteeism time in hours'], showmeans = True)

plt.ylabel('Horas')

# Remove o valor do eixo x
plt.xticks([1], [''])

# Remove o tick do eixo x
plt.tick_params(axis = "x", which = "both", bottom = False, top = False)

plt.title('Absenteísmo em horas', loc = 'left')

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Text(0.0, 1.0, 'Absenteísmo em horas')

### Estatísticas descritivas

In [10]:
absDesc = df['Absenteeism time in hours'].describe(percentiles = [.5, .75, .80, .85, .90, .95])

absDesc = pd.DataFrame(absDesc)

absDesc = absDesc.transpose()

absDesc

Unnamed: 0,count,mean,std,min,50%,75%,80%,85%,90%,95%,max
Absenteeism time in hours,740.0,6.924324,13.330998,0.0,3.0,8.0,8.0,8.0,8.0,24.0,120.0


90% dos dados do absenteísmo são de valores menores que 8 horas e 95% são valores menores que 24 horas. Provavelmente as variáveis que afetam absenteísmos menores que 8 a 24 horas são diferentes daqueles que afetam valores maiores. Por isso, para facilitar a análise, uma variável que divide os valores em 3 grupos: 1 (baixo <= 8 horas), 2 (médio > 8 e <=24) e 3 (alto > 24) será criada.

### Separação da variável resposta em 3 grupos

In [11]:
# Definir os três valores

binLabelsNum = ['1', '2', '3']

binLabelsCat = ['baixo', 'médio', 'alto']

df['cutNum'] = pd.qcut(df['Absenteeism time in hours'],
                       q = [0, .9, .95, 1],
                       labels = binLabelsNum)

df['cutCat'] = pd.qcut(df['Absenteeism time in hours'],
                       q = [0, .9, .95, 1],
                       labels = binLabelsCat)

In [12]:
# Checar graficamente se o corte ficou certo

fig = plt.figure()

sns.boxplot(x = df['cutCat'], y = df['Absenteeism time in hours'])

plt.ylabel('')

plt.xlabel('')

plt.suptitle('Diferentes grupos de absenteísmo', fontsize = 18, fontweight = 'bold', x = 0.505)
plt.title('Horas', loc = 'left')

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Text(0.0, 1.0, 'Horas')

In [13]:
# Transformar cada categoria em label
df[df['cutCat'] == 'baixo'].index

Int64Index([  0,   1,   2,   3,   4,   5,   6,   7,   9,  10,
            ...
            727, 728, 731, 732, 733, 735, 736, 737, 738, 739],
           dtype='int64', length=677)

A separação ocorreu como desejado.

## ANÁLISE DAS VARIÁVELS CONTÍNUAS

Primeiro, gráficos de box plot serão feitos. Posteriormente, gráficos de densidade (uma variação dos gráficos de histograma) serão realizados. As variáveis que “separarem” melhor os três grupos de absenteísmo são candidatas a servirem de justificativa para criação de soluções.

### Gráficos de Box Plot

In [14]:
# Definir o tamanho da grade de gráficos
ncols = 4
nrows = int(np.ceil(len(dfNum.columns) / (1.0*ncols)))

In [15]:
fig, axes = plt.subplots(nrows = nrows, ncols = ncols, figsize=(12, 12))

counter = 0
for i in range(nrows):
    for j in range(ncols):

        ax = axes[i][j]
        
        # Plot when we have data
        if counter < len(dfNum.columns):

            g = sns.boxplot(ax = axes[i][j], x = df['cutCat'], y = np.float64(dfNum[dfNum.columns[counter]]))
            g.set(xticks = [])
            g.set(xticklabels=[])
            g.set(xlabel=None)
            g.set(title = dfNum.columns[counter])
  

        # Remove axis when we no longer have data
        else:
            ax.set_axis_off()

        counter += 1

plt.subplots_adjust(left=0.1,
                    bottom=0.1, 
                    right=0.9, 
                    top=0.9, 
                    wspace=0.8, 
                    hspace=0.1)

plt.show()

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Alguns pontos interessantes:

- Pessoas com menores índices de massa menores tendem a estar no grupo de absenteísmo “alto” – que pode estar relacionado à algum evento pontual, como acidente de trabalho. Será que seria interessante realizar alguma campanha sobre a importância de se alimentar melhor e praticar exercícios?
- Pessoas mais altas parecem ter maiores absenteísmos. Será que as condições de trabalho estão de acordo para todas as alturas? Seria interessante cruzar essa variável com o tipo de doença.
- Há uma diferença considerável para workload. Pessoas que estão no grupo de absenteísmo entre 8 e 24 horas tem workload consideravelmente maiores. Isso pode significar uma estafa ou cansaço passageiro, em que a pessoa retorna ao trabalho após descansar?
- Há uma diferença entre distância do trabalho: pessoas que moram mais longe tendem a ter maiores absenteísmos ‘curtos’. A empresa oferente algum tipo de fretado? O horário do fretado coincide com horários de pico de trânsitos?


### Gráficos de densidades

#### Baixo absenteísmo

In [16]:
# Definir o tamanho da grade de gráficos
ncols = 2
nrows = int(np.ceil(len(dfNum.columns) / (1.0*ncols)))

In [17]:
absLevel = 'baixo'

fig, axes = plt.subplots(nrows = nrows, ncols = ncols, figsize=(12, 12))

counter = 0

for i in range(nrows):
    for j in range(ncols):

        ax = axes[i][j]
        
        # Plot when we have data
        if counter < len(dfNum.columns):

            g = sns.kdeplot(ax = axes[i][j], 
                            x = np.float64(dfNum[dfNum.columns[counter]].iloc[df[df['cutCat'] == absLevel].index]), 
                            hue = df['cutCat'].iloc[df[df['cutCat'] == absLevel].index], 
                            legend = False)
            g.set(title = dfNum.columns[counter])
            
        # Remove axis when we no longer have data
        else:
            ax.set_axis_off()

        counter += 1

plt.subplots_adjust(left=0.1,
                    bottom=0.1, 
                    right=0.9, 
                    top=0.9, 
                    wspace=0.2, 
                    hspace=0.7)        

plt.show()

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

O absenteísmo até 8 horas acontece principalmente nas idades de 30 a 40 anos, para pessoas que tem bodymass entre 23 e 33, com 1,70 [m] de altura. Essas pessoas costumam atingir á partir de 90% das suas metas e possuem entre 5 a 20 anos de profissão. Geralmente não possuem pets e tem até 2 filhos. Costuma morar entre 10 e 30 quilômetros da empresa e gastam entre 100 a 300 reais de transporte.  

#### Médio absenteísmo

In [18]:
absLevel = 'médio'

fig, axes = plt.subplots(nrows = nrows, ncols = ncols, figsize=(12, 12))

counter = 0

for i in range(nrows):
    for j in range(ncols):

        ax = axes[i][j]
        
        # Plot when we have data
        if counter < len(dfNum.columns):

            g = sns.kdeplot(ax = axes[i][j], 
                            x = np.float64(dfNum[dfNum.columns[counter]].iloc[df[df['cutCat'] == absLevel].index]), 
                            hue = df['cutCat'].iloc[df[df['cutCat'] == absLevel].index], 
                            legend = False)
            g.set(title = dfNum.columns[counter])
            
        # Remove axis when we no longer have data
        else:
            ax.set_axis_off()

        counter += 1

plt.subplots_adjust(left=0.1,
                    bottom=0.1, 
                    right=0.9, 
                    top=0.9, 
                    wspace=0.2, 
                    hspace=0.5)        

plt.show()

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

O absenteísmo entre 8 e 24 horas difere do primeiro por pessoas que atingem geralmente 95% de suas metas. Essas pessoas geralmente têm miais de 10 anos de profissão (com um pico em 15). Seus work loads tendem a ser um pouco maiores.

#### Alto absenteísmo

In [19]:
absLevel = 'alto'

fig, axes = plt.subplots(nrows = nrows, ncols = ncols, figsize=(12, 12))

counter = 0

for i in range(nrows):
    for j in range(ncols):

        ax = axes[i][j]
        
        # Plot when we have data
        if counter < len(dfNum.columns):

            g = sns.kdeplot(ax = axes[i][j], 
                            x = np.float64(dfNum[dfNum.columns[counter]].iloc[df[df['cutCat'] == absLevel].index]), 
                            hue = df['cutCat'].iloc[df[df['cutCat'] == absLevel].index], 
                            legend = False)
            g.set(title = dfNum.columns[counter])
            
        # Remove axis when we no longer have data
        else:
            ax.set_axis_off()

        counter += 1

plt.subplots_adjust(left=0.1,
                    bottom=0.1, 
                    right=0.9, 
                    top=0.9, 
                    wspace=0.2, 
                    hspace=0.5)        

plt.show()

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

O absenteísmo acima de 24 horas difere de seus anteriores por ter um comprimento ainda maior de metas (acima de 95%) 

## ANÁLISE DAS VARIÁVEIS CATEGÓRICAS

Com a resposta transformada em uma variável categórica (com 3 níveis ordinais), a análise de relação não pode ser feita por correlação. Uma outra técnica, chamada de tabela de contingência, deve ser utilizada.

Essa técnica consiste em criar uma tabela bidimensional em que possui tantas linhas quantos os níveis da primeira variável e tantas colunas quanto os níveis das segunda variável.

### Tabela de contingência

In [20]:
# Trazer a variável de absenteísmo categórica para o dataset
dfCat['cutCat'] = df['cutCat']

In [21]:
# Exemplo com a variável 'Social drinker'
crossTab = pd.crosstab(dfCat['Social drinker'], dfCat['cutCat'])
crossTab

cutCat,baixo,médio,alto
Social drinker,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,303,9,8
1,374,26,20


A tabela acima informa que as pessoas classificadas com o nível ‘0’ na variável ‘Social drinker’ se ausentaram 303 vezes com duração até 8 horas, 9 vezes com duração entre 8 e 24 horas e 8 vezes com duração acima de 24 horas. 
Desse modo, é possível ver que não parece haver indícios de que o fato de ser social drinker afete tanto absenteísmos curtos, mas com certeza afeta os mais longos.

### Gráfico de mosaico

Para fazer uma análise gráfica de influência das outras variáveis categóricas o melhor gráfico a ser feito é ‘gráfico de mosaico’, da biblioteca statsmodel.

In [22]:
fig = plt.figure()

ax = fig.add_subplot(111)

# Crias os textos para cada categoria

labelizer=lambda k:{('0','baixo'):crossTab.iloc[0,0],
                    ('0','médio'):crossTab.iloc[0,1],
                    ('0','alto'):crossTab.iloc[0,2],
                    ('1','baixo'):crossTab.iloc[1,0],
                    ('1','médio'):crossTab.iloc[1,1],
                    ('1','alto'):crossTab.iloc[1,2]}[k]

mosaic(dfCat, 
       ['Social drinker', 'cutCat'], 
       ax = ax, 
       labelizer = labelizer)

ax.set_xlabel('Social drinker')

ax.set_ylabel('Absenteísmo')

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Text(0, 0.5, 'Absenteísmo')

### Tabelas de contingência para todas as variáveis

In [23]:
# Lista de todas as variáveis categóricas, com exceção da resposta
catList = list(dfCat.drop('cutCat', axis = 1).columns)

In [24]:
for i in range(len(catList)):
    print(pd.crosstab(dfCat[catList[i]], dfCat['cutCat']))

cutCat  baixo  médio  alto
reason                    
0          43      0     0
1          14      1     1
2           0      1     0
3           1      0     0
4           2      0     0
5           3      0     0
6           7      0     1
7          12      2     1
8           6      0     0
9           1      1     2
10         21      2     2
11         22      2     2
12          4      3     1
13         38     10     7
14         16      1     2
15          2      0     0
16          3      0     0
17          1      0     0
18         20      0     1
19         26      6     8
21          6      0     0
22         37      1     0
23        147      2     0
24          3      0     0
25         31      0     0
26         32      1     0
27         69      0     0
28        110      2     0
cutCat  baixo  médio  alto
month                     
0           3      0     0
1          47      2     1
2          70      2     0
3          75      8     4
4          46      5     2
5

Inicialmente, somente a variável “mês” parece não ter nenhum impacto em nenhum tipo de absenteísmo. Vamos analisar todas elas, deixando a variável ‘causa’ por último, por ser uma análise mais completa.

### Dia da semana

In [25]:
# Tabela de contingência
crossTab = pd.crosstab(dfCat['weekDay'], dfCat['cutCat'])
crossTab

cutCat,baixo,médio,alto
weekDay,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2,139,8,14
3,142,5,7
4,140,12,4
5,117,8,0
6,139,2,3


O dia da semana parece não afetar o absenteísmo de curta duração, mas para o de média o dia preferido é a quarta-feira (assim a pessoa pode também somar com o fim de semana). Para de grande duração (geralmente por afastamento), temos a segunda-feira (geralmente quando as licenças iniciam.

In [26]:
fig = plt.figure()

ax = fig.add_subplot(111)

# Crias os textos para cada categoria
mosaic(dfCat, 
       ['weekDay', 'cutCat'], 
       ax = ax)

ax.set_xlabel('Dia da semana')

ax.set_ylabel('Absenteísmo')

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Text(0, 0.5, 'Absenteísmo')

### Estações do ano

In [27]:
# Tabela de contingência
crossTab = pd.crosstab(dfCat['Seasons'], dfCat['cutCat'])
crossTab

cutCat,baixo,médio,alto
Seasons,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,158,5,7
2,178,9,5
3,161,15,7
4,180,6,9


Estações do ano apenas parecem alterar absenteísmos entre 8 e 24 horas no inverno, geralmente pelo acometimento de doenças respiratórias como gripes e resfriados.

### Faltas disciplinares

In [28]:
# Tabela de contingência
crossTab = pd.crosstab(dfCat['Disciplinary failure'], dfCat['cutCat'])
crossTab

cutCat,baixo,médio,alto
Disciplinary failure,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,637,35,28
1,40,0,0


Pessoas que tiveram faltas disciplinares estão relacionadas á absenteísmos curtos (geralmente advindos da própria falta, como suspensões, etc). O absenteísmo de curto prazo precisa ser analisado com cuidado, uma vez que há um desequilíbrio nos dados (há muito mais pessoas que não tiveram nenhuma falta administrativa).

### Educação

In [29]:
# Tabela de contingência
crossTab = pd.crosstab(dfCat['Education'], dfCat['cutCat'])
crossTab

cutCat,baixo,médio,alto
Education,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,557,28,26
2,43,2,1
3,73,5,1
4,4,0,0


Há uma predominância de todos os absenteísmos para pessoas que possuem apenas segundo grau completo. Porém, isso pode ser um resultado relacionado ao desequilíbrio na quantidade de dados. Há muito mais pessoas nesse dataset que possuem somente segundo grau completo.

### Consumo de alcool

In [30]:
# Tabela de contingência
crossTab = pd.crosstab(dfCat['Social drinker'], dfCat['cutCat'])
crossTab

cutCat,baixo,médio,alto
Social drinker,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,303,9,8
1,374,26,20


Pessoas que consomem álcool tendem a ter absenteísmos mais demorados.

In [31]:
# Tabela de contingência
crossTab = pd.crosstab(dfCat['Social smoker'], dfCat['cutCat'])
crossTab

cutCat,baixo,médio,alto
Social smoker,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,627,33,26
1,50,2,2


Aqui a análise é a mesma das outras variáveis que são desbalanceadas: a diferença acontece devido a esse desbalanço.

## CONCLUSÕES

Absenteísmo de curto prazo (até 8 horas):

- Pode estar relacionado à variável distância do trabalho. Uma solução pode ser criar políticas de home-office ou então disponibilizar um fretado para pessoas que mais distantes que 40 [km] da empresa.
- Está também levemente relacionado ao consumo de bebida alcoólica. Uma campanha de conscientização pode ajudar as pessoas.  

Absenteísmos de médio prazo

- Relacionado principalmente ao “workload” – talvez deva haver um re-balanceamento das atividades de pessoas que possuem um workload muito alto (acima de 300 / dia)

- A relação com o dia da semana é mais difícil de resolver, mas talvez possa-se criar algum tipo de incentivo para se evitar a quarta-feira.
 
- A relação com as estações do ano pode ser resolvida com um programa de vacinação para vírus da gripe / H1N1 no início do ano.

- Consumo de álcool e de cigarro podem ser amenizados com políticas de auxílio extensivo do time RH e saúde do trabalhador.
