# DNC DATA EXPERTB

## Estatística e Python básicos - dinâmica 02

Nessa dinâmica vocês vão trabalhar com um dataset da área de Recursos Humanos, relacionado ao problema de absenteísmo.
Vocês devem fazer o download dos arquivos no seguinte endereço:

https://archive.ics.uci.edu/ml/machine-learning-databases/00445/Absenteeism_at_work_AAA.zip

Após descomprimir os arquivos, vocês abrirão o arquivo ‘Absenteeism_at_work.csv’ e usaram esses dados para apresentar soluções de como reduzir o absenteísmo para essa empresa.


## CARREGAMENTO DAS BIBLIOTECAS

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib widget

## ABERTURA DO DATASET

In [2]:
df = pd.read_csv('D:\\Samuel\\Documentos\\Python\\dncPython\\dinamica\\Datasets\\D02\\Absenteeism_at_work.csv', delimiter=';')

In [3]:
df.head()

Unnamed: 0,ID,Reason for absence,Month of absence,Day of the week,Seasons,Transportation expense,Distance from Residence to Work,Service time,Age,Work load Average/day,...,Disciplinary failure,Education,Son,Social drinker,Social smoker,Pet,Weight,Height,Body mass index,Absenteeism time in hours
0,11,26,7,3,1,289,36,13,33,239.554,...,0,1,2,1,0,1,90,172,30,4
1,36,0,7,3,1,118,13,18,50,239.554,...,1,1,1,1,0,0,98,178,31,0
2,3,23,7,4,1,179,51,18,38,239.554,...,0,1,0,1,0,0,89,170,31,2
3,7,7,7,5,1,279,5,14,39,239.554,...,0,1,2,1,1,0,68,168,24,4
4,11,23,7,5,1,289,36,13,33,239.554,...,0,1,2,1,0,1,90,172,30,2


In [4]:
# Renomear algumas colunas
df.rename(columns={'Reason for absence': 'reason', 'Month of absence': 'month', 'Day of the week' : 'weekDay', 'Distance from Residence to Work' : 'wordDist'}, inplace=True)

## SEPARAÇÃO DO DATASET EM VARIÁVEIS CONTÍNUAS E CATEGÓRICAS

Essa atividade é importante pois o tipo de variável vai direcionar o método de investigação. Aqui tem um detalhe: algumas variáveis se apresentam como numéricas (como ‘dia da semana’, por ex.) mas na verdade são fatores.
Por isso, a separação deverá ser ‘manual’. 

### Variáveis categóricas

In [5]:
# Mostrar os nomes de todas as colunas
list(df.columns)

['ID',
 'reason',
 'month',
 'weekDay',
 'Seasons',
 'Transportation expense',
 'wordDist',
 'Service time',
 'Age',
 'Work load Average/day ',
 'Hit target',
 'Disciplinary failure',
 'Education',
 'Son',
 'Social drinker',
 'Social smoker',
 'Pet',
 'Weight',
 'Height',
 'Body mass index',
 'Absenteeism time in hours']

In [6]:
# Separar variáveis categóricas
dfCat = df[['reason', 'month', 'weekDay', 'Seasons', 'Disciplinary failure', 'Education', 'Social drinker', 'Social smoker',]]

# Classifcar todas as variáveis como categóricas
dfCat = dfCat.astype('category')

dfCat.head()

Unnamed: 0,reason,month,weekDay,Seasons,Disciplinary failure,Education,Social drinker,Social smoker
0,26,7,3,1,0,1,1,0
1,0,7,3,1,1,1,1,0
2,23,7,4,1,0,1,1,0
3,7,7,5,1,0,1,1,1
4,23,7,5,1,0,1,1,0


### Variáveis contínuas

In [7]:
# Seleciona as variáveis do DF que NÃO SÃO as variáveis categóricas
dfNum = df[df.columns.difference(list(dfCat.columns))]

# Remove coluna da variáve sobre absenteísmo
dfNum = dfNum.drop(['Absenteeism time in hours', 'ID'], axis = 1)

dfNum.head()

Unnamed: 0,Age,Body mass index,Height,Hit target,Pet,Service time,Son,Transportation expense,Weight,Work load Average/day,wordDist
0,33,30,172,97,1,13,2,289,90,239.554,36
1,50,31,178,97,0,18,1,118,98,239.554,13
2,38,31,170,97,0,18,0,179,89,239.554,51
3,39,24,168,97,0,14,2,279,68,239.554,5
4,33,30,172,97,1,13,2,289,90,239.554,36


## ANÁLISE GRÁFICA DA RESPOSTA

### Histograma

In [8]:
fig = plt.figure()

# Plota o histograma
plt.hist(df['Absenteeism time in hours'], bins = 20)

# Coloca título nos eixos
plt.title("Distribuição do absenteísmo", loc = 'left')

# Coloca nome nos eixos
plt.xlabel('Horas')
plt.ylabel('Frequência')

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Text(0, 0.5, 'Frequência')

A grande maioria dos dados é referente à valores de absenteísmo menor que 20 horas.

### Box Plot

In [9]:
fig = plt.figure()

plt.boxplot(df['Absenteeism time in hours'], showmeans = True)

plt.ylabel('Horas')

# Remove o valor do eixo x
plt.xticks([1], [''])

# Remove o tick do eixo x
plt.tick_params(axis = "x", which = "both", bottom = False, top = False)

plt.title('Absenteísmo em horas', loc = 'left')

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Text(0.0, 1.0, 'Absenteísmo em horas')

### Estatísticas descritivas

In [10]:
absDesc = df['Absenteeism time in hours'].describe(percentiles = [.5, .75, .80, .85, .90, .95])

absDesc = pd.DataFrame(absDesc)

absDesc = absDesc.transpose()

absDesc

Unnamed: 0,count,mean,std,min,50%,75%,80%,85%,90%,95%,max
Absenteeism time in hours,740.0,6.924324,13.330998,0.0,3.0,8.0,8.0,8.0,8.0,24.0,120.0


90% dos dados do absenteísmo são de valores menores que 8 horas e 95% são valores menores que 24 horas. Provavelmente as variáveis que afetam absenteísmos menores que 8 a 24 horas são diferentes daqueles que afetam valores maiores. Por isso, para facilitar a análise, uma variável que divide os valores em 3 grupos: 1 (baixo <= 8 horas), 2 (médio > 8 e <=24) e 3 (alto > 24) será criada.

### Separação da variável resposta em 3 grupos

In [11]:
# Definir os três valores

binLabelsNum = ['1', '2', '3']

binLabelsCat = ['baixo', 'médio', 'alto']

df['cutNum'] = pd.qcut(df['Absenteeism time in hours'],
                       q = [0, .9, .95, 1],
                       labels = binLabelsNum)

df['cutCat'] = pd.qcut(df['Absenteeism time in hours'],
                       q = [0, .9, .95, 1],
                       labels = binLabelsCat)

In [12]:
# Checar graficamente se o corte ficou certo

fig = plt.figure()

sns.boxplot(x = df['cutCat'], y = df['Absenteeism time in hours'])

plt.ylabel('')

plt.xlabel('')

plt.suptitle('Diferentes grupos de absenteísmo', fontsize = 18, fontweight = 'bold', x = 0.505)
plt.title('Horas', loc = 'left')

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Text(0.0, 1.0, 'Horas')

In [49]:
# Transformar cada categoria em label
df[df['cutCat'] == 'baixo'].index

Int64Index([  0,   1,   2,   3,   4,   5,   6,   7,   9,  10,
            ...
            727, 728, 731, 732, 733, 735, 736, 737, 738, 739],
           dtype='int64', length=677)

A separação ocorreu como desejado.

## ANÁLISE DAS VARIÁVELS CONTÍNUAS

Primeiro, gráficos de box plot serão feitos. Posteriormente, gráficos de densidade (uma variação dos gráficos de histograma) serão realizados. As variáveis que “separarem” melhor os três grupos de absenteísmo são candidatas a servirem de justificativa para criação de soluções.

### Gráficos de Box Plot

In [53]:
# Definir o tamanho da grade de gráficos
ncols = 4
nrows = int(np.ceil(len(dfNum.columns) / (1.0*ncols)))

In [54]:
fig, axes = plt.subplots(nrows = nrows, ncols = ncols, figsize=(12, 12))

counter = 0
for i in range(nrows):
    for j in range(ncols):

        ax = axes[i][j]
        
        # Plot when we have data
        if counter < len(dfNum.columns):

            g = sns.boxplot(ax = axes[i][j], x = df['cutCat'], y = np.float64(dfNum[dfNum.columns[counter]]))
            g.set(xticks = [])
            g.set(xticklabels=[])
            g.set(xlabel=None)
            g.set(title = dfNum.columns[counter])
  

        # Remove axis when we no longer have data
        else:
            ax.set_axis_off()

        counter += 1

plt.subplots_adjust(left=0.1,
                    bottom=0.1, 
                    right=0.9, 
                    top=0.9, 
                    wspace=0.8, 
                    hspace=0.1)

plt.show()

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Alguns pontos interessantes:

- Pessoas com menores índices de massa menores tendem a estar no grupo de absenteísmo “alto” – que pode estar relacionado à algum evento pontual, como acidente de trabalho. Será que seria interessante realizar alguma campanha sobre a importância de se alimentar melhor e praticar exercícios?
- Pessoas mais altas parecem ter maiores absenteísmos. Será que as condições de trabalho estão de acordo para todas as alturas? Seria interessante cruzar essa variável com o tipo de doença.
- Há uma diferença considerável para workload. Pessoas que estão no grupo de absenteísmo entre 8 e 24 horas tem workload consideravelmente maiores. Isso pode significar uma estafa ou cansaço passageiro, em que a pessoa retorna ao trabalho após descansar?
- Há uma diferença entre distância do trabalho: pessoas que moram mais longe tendem a ter maiores absenteísmos ‘curtos’. A empresa oferente algum tipo de fretado? O horário do fretado coincide com horários de pico de trânsitos?


### Gráficos de densidades

#### Baixo absenteísmo

In [58]:
# Definir o tamanho da grade de gráficos
ncols = 2
nrows = int(np.ceil(len(dfNum.columns) / (1.0*ncols)))

In [64]:
absLevel = 'baixo'

fig, axes = plt.subplots(nrows = nrows, ncols = ncols, figsize=(12, 12))

counter = 0

for i in range(nrows):
    for j in range(ncols):

        ax = axes[i][j]
        
        # Plot when we have data
        if counter < len(dfNum.columns):

            g = sns.kdeplot(ax = axes[i][j], 
                            x = np.float64(dfNum[dfNum.columns[counter]].iloc[df[df['cutCat'] == absLevel].index]), 
                            hue = df['cutCat'].iloc[df[df['cutCat'] == absLevel].index], 
                            legend = False)
            g.set(title = dfNum.columns[counter])
            
        # Remove axis when we no longer have data
        else:
            ax.set_axis_off()

        counter += 1

plt.subplots_adjust(left=0.1,
                    bottom=0.1, 
                    right=0.9, 
                    top=0.9, 
                    wspace=0.2, 
                    hspace=0.7)        

plt.show()

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

#### Médio absenteísmo

In [61]:
absLevel = 'médio'

fig, axes = plt.subplots(nrows = nrows, ncols = ncols, figsize=(12, 12))

counter = 0

for i in range(nrows):
    for j in range(ncols):

        ax = axes[i][j]
        
        # Plot when we have data
        if counter < len(dfNum.columns):

            g = sns.kdeplot(ax = axes[i][j], 
                            x = np.float64(dfNum[dfNum.columns[counter]].iloc[df[df['cutCat'] == absLevel].index]), 
                            hue = df['cutCat'].iloc[df[df['cutCat'] == absLevel].index], 
                            legend = False)
            g.set(title = dfNum.columns[counter])
            
        # Remove axis when we no longer have data
        else:
            ax.set_axis_off()

        counter += 1

plt.subplots_adjust(left=0.1,
                    bottom=0.1, 
                    right=0.9, 
                    top=0.9, 
                    wspace=0.2, 
                    hspace=0.5)        

plt.show()

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

#### Alto absenteísmo

In [63]:
absLevel = 'alto'

fig, axes = plt.subplots(nrows = nrows, ncols = ncols, figsize=(12, 12))

counter = 0

for i in range(nrows):
    for j in range(ncols):

        ax = axes[i][j]
        
        # Plot when we have data
        if counter < len(dfNum.columns):

            g = sns.kdeplot(ax = axes[i][j], 
                            x = np.float64(dfNum[dfNum.columns[counter]].iloc[df[df['cutCat'] == absLevel].index]), 
                            hue = df['cutCat'].iloc[df[df['cutCat'] == absLevel].index], 
                            legend = False)
            g.set(title = dfNum.columns[counter])
            
        # Remove axis when we no longer have data
        else:
            ax.set_axis_off()

        counter += 1

plt.subplots_adjust(left=0.1,
                    bottom=0.1, 
                    right=0.9, 
                    top=0.9, 
                    wspace=0.2, 
                    hspace=0.5)        

plt.show()

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Comentários...

## ANÁLISE DAS VARIÁVEIS CATEGÓRICAS