<h1 style="text-align:center;">Análise de Absentismo no Trabalho - Conjunto de Dados UCI</h1>




## Descrição do Problema

O problema do absentismo no local de trabalho é uma questão crítica que afeta a eficiência e o desempenho das organizações. O absentismo refere-se à ausência não planejada de funcionários do trabalho, que pode resultar em interrupções operacionais, queda na produtividade e custos adicionais para as empresas. Compreender as causas e os padrões de absentismo é fundamental para tomar medidas preventivas e melhorar o ambiente de trabalho.

## Objetivos da Análise

Este projeto tem como objetivo realizar uma análise abrangente do conjunto de dados "Absenteeism at Work" da UCI Machine Learning Repository. Os principais objetivos da análise são:

1. **Exploração de Dados**: Investigar a distribuição das variáveis e entender a estrutura do conjunto de dados.

2. **Identificação de Motivos de Absentismo**: Determinar os principais motivos ou categorias que contribuem para o absentismo no local de trabalho.

3. **Relações entre Variáveis**: Analisar como diferentes variáveis, como idade, tempo de serviço, e outros fatores, estão relacionadas ao absentismo.

4. **Possível Modelagem Preditiva**: Avaliar a possibilidade de construir modelos preditivos que estimem o absentismo com base nas informações disponíveis.

Ao alcançar esses objetivos, esperamos fornecer insights valiosos que ajudem a organização a tomar medidas para reduzir o absentismo no local de trabalho, melhorando assim a eficiência e a produtividade.



Aqui está uma descrição organizada das variáveis presentes no conjunto de dados "Absenteeism at Work":

1. **Individual Identification (ID)**: Este é um identificador único para cada indivíduo no conjunto de dados, permitindo a identificação exclusiva de cada registro.

2. **Reason for Absence (ICD)**: Esta variável representa o motivo da ausência do trabalhador e é codificada com base na Classificação Internacional de Doenças (ICD). Ela é estratificada em 21 categorias, abrangendo desde doenças infecciosas até fatores que afetam a saúde.

3. **Month of Absence**: Indica o mês em que a ausência ocorreu, permitindo a análise sazonal das ausências no local de trabalho.

4. **Day of the Week**: Representa o dia da semana em que a ausência ocorreu, com valores numéricos para cada dia (por exemplo, segunda-feira é 2).

5. **Seasons**: Categoriza as estações do ano, o que pode ser útil para entender as variações sazonais nas ausências (verão, outono, inverno, primavera).

6. **Transportation Expense**: Refere-se às despesas de transporte incorridas pelo funcionário para chegar ao local de trabalho.

7. **Distance from Residence to Work**: Indica a distância em quilômetros entre a residência do funcionário e o local de trabalho.

8. **Service Time**: Representa o tempo de serviço do funcionário na organização.

9. **Age**: Idade do funcionário.

10. **Workload Average/Day**: A carga de trabalho média por dia, que pode influenciar a saúde e o bem-estar do funcionário.

11. **Hit Target**: Indica se o funcionário atingiu suas metas de desempenho.

12. **Disciplinary Failure**: Uma variável binária que indica se houve alguma violação disciplinar (1 para sim, 0 para não).

13. **Education**: O nível de educação do funcionário, categorizado em diferentes graus (do ensino médio a pós-doutorado).

14. **Son**: O número de filhos do funcionário.

15. **Social Drinker**: Uma variável binária que indica se o funcionário é um bebedor social (1 para sim, 0 para não).

16. **Social Smoker**: Uma variável binária que indica se o funcionário é um fumante social (1 para sim, 0 para não).

17. **Pet**: O número de animais de estimação que o funcionário possui.

18. **Weight**: O peso do funcionário.

19. **Height**: A altura do funcionário.

20. **Body Mass Index (BMI)**: O índice de massa corporal do funcionário, calculado a partir do peso e altura.

21. **Absenteeism Time in Hours**: Esta é a variável alvo que representa o tempo de ausência do funcionário em horas. É o principal foco de análise neste projeto.

Essas variáveis fornecem uma visão abrangente das informações disponíveis no conjunto de dados "Absenteeism at Work" e podem ser exploradas para entender os padrões de absentismo no local de trabalho e suas causas.

Aqui está uma descrição organizada das ICDs (Códigos Internacionais de Doenças) e das categorias sem CID no conjunto de dados "Absenteeism at Work":

### Categorias de Absentismo Atestado por ICD (I a XXI)

As ICDs representam a razão médica pela qual um funcionário está ausente do trabalho e são estratificadas em 21 categorias:

I. **Certas Doenças Infecciosas e Parasitárias**: Inclui ausências devido a doenças infecciosas e parasitárias.

II. **Neoplasias (Câncer)**: Abrange ausências relacionadas a diagnóstico ou tratamento de câncer.

III. **Doenças do Sangue e dos Órgãos Hematopoéticos e Distúrbios Imunológicos**: Engloba ausências relacionadas a distúrbios sanguíneos e imunológicos.

IV. **Doenças Endócrinas, Nutricionais e Metabólicas**: Inclui ausências devido a distúrbios endócrinos, nutricionais e metabólicos.

V. **Transtornos Mentais e Comportamentais**: Refere-se a ausências relacionadas a problemas de saúde mental e comportamental.

VI. **Doenças do Sistema Nervoso**: Abrange ausências devido a doenças neurológicas.

VII. **Doenças dos Olhos e Anexos**: Inclui ausências relacionadas a problemas oculares.

VIII. **Doenças do Ouvido e Processo Mastoide**: Engloba ausências relacionadas a problemas de audição.

IX. **Doenças do Sistema Circulatório**: Refere-se a ausências devido a doenças cardíacas e vasculares.

X. **Doenças do Sistema Respiratório**: Abrange ausências relacionadas a problemas respiratórios.

XI. **Doenças do Sistema Digestivo**: Inclui ausências devido a problemas gastrointestinais.

XII. **Doenças da Pele e do Tecido Subcutâneo**: Engloba ausências relacionadas a condições dermatológicas.

XIII. **Doenças do Sistema Musculoesquelético e do Tecido Conjuntivo**: Refere-se a ausências relacionadas a problemas musculoesqueléticos.

XIV. **Doenças do Sistema Geniturinário**: Abrange ausências devido a problemas nos órgãos geniturinários.

XV. **Gravidez, Parto e Puerpério**: Inclui ausências relacionadas a eventos relacionados à gravidez e parto.

XVI. **Condições Originadas no Período Perinatal**: Engloba ausências relacionadas a condições de recém-nascidos.

XVII. **Malformações Congênitas, Deformidades e Anomalias Cromossômicas**: Refere-se a ausências devido a problemas congênitos.

XVIII. **Sintomas, Sinais e Achados Clínicos e de Laboratório Anormais, não Classificados em Outro Local**: Abrange ausências devido a achados médicos anormais.

XIX. **Lesões, Envenenamentos e Outras Consequências de Causas Externas**: Inclui ausências relacionadas a acidentes e envenenamentos.

XX. **Causas Externas de Morbidade e Mortalidade**: Engloba ausências devido a causas externas, como acidentes e ferimentos.

XXI. **Fatores que Influenciam o Estado de Saúde e Contato com Serviços de Saúde**: Refere-se a ausências relacionadas a fatores de saúde e consultas médicas.

### Categorias sem CID

Além das categorias de ICD, há 7 categorias adicionais sem CID:

22. **Seguimento ao Paciente**: Indica ausências relacionadas ao acompanhamento médico de um paciente.

23. **Consulta Médica**: Refere-se a ausências devido a consultas médicas.

24. **Doação de Sangue**: Abrange ausências relacionadas à doação de sangue.

25. **Exame de Laboratório**: Engloba ausências relacionadas a exames laboratoriais.

26. **Ausência Injustificada**: Indica ausências sem motivo justificado.

27. **Fisioterapia**: Refere-se a ausências relacionadas a sessões de fisioterapia.

28. **Consulta Odontológica**: Abrange ausências devido a consultas odontológicas.

Essas categorias permitem uma análise detalhada das razões para o absentismo no local de trabalho, cobrindo uma variedade de motivos médicos e não médicos.

### Leitura de dados

In [1]:
# Importando os pacotes para leitura e manipulação de dados 
import pandas as pd
import numpy as np

In [2]:
# Fazendo a leitura e averiguando se está tudo ok
df = pd.read_csv('Absenteeism_at_work.csv', sep = ';')
df.tail()

Unnamed: 0,ID,Reason for absence,Month of absence,Day of the week,Seasons,Transportation expense,Distance from Residence to Work,Service time,Age,Work load Average/day,...,Disciplinary failure,Education,Son,Social drinker,Social smoker,Pet,Weight,Height,Body mass index,Absenteeism time in hours
735,11,14,7,3,1,289,36,13,33,264.604,...,0,1,2,1,0,1,90,172,30,8
736,1,11,7,3,1,235,11,14,37,264.604,...,0,3,1,0,0,1,88,172,29,4
737,4,0,0,3,1,118,14,13,40,271.219,...,0,1,1,1,0,8,98,170,34,0
738,8,0,0,4,2,231,35,14,39,271.219,...,0,1,2,1,0,2,100,170,35,0
739,35,0,0,6,3,179,45,14,53,271.219,...,0,1,1,0,0,1,77,175,25,0


In [3]:
df.shape

(740, 21)

O número 740 é a quantidade de linhas (ou registros) no seu conjunto de dados. Isso indica que você tem 740 entradas ou observações no seu conjunto de dados.

O número 21 é a quantidade de colunas (ou variáveis) no seu conjunto de dados. Isso significa que você tem 21 diferentes variáveis (ou características) que foram medidas ou registradas para cada uma das 740 observações.

### Manipulação e limpeza de dados

In [3]:
# Verificando se há valores nulos 
df.isna().sum()

ID                                 0
Reason for absence                 0
Month of absence                   0
Day of the week                    0
Seasons                            0
Transportation expense             0
Distance from Residence to Work    0
Service time                       0
Age                                0
Work load Average/day              0
Hit target                         0
Disciplinary failure               0
Education                          0
Son                                0
Social drinker                     0
Social smoker                      0
Pet                                0
Weight                             0
Height                             0
Body mass index                    0
Absenteeism time in hours          0
dtype: int64

In [4]:
# Observando os tipos de dados
df.dtypes

ID                                   int64
Reason for absence                   int64
Month of absence                     int64
Day of the week                      int64
Seasons                              int64
Transportation expense               int64
Distance from Residence to Work      int64
Service time                         int64
Age                                  int64
Work load Average/day              float64
Hit target                           int64
Disciplinary failure                 int64
Education                            int64
Son                                  int64
Social drinker                       int64
Social smoker                        int64
Pet                                  int64
Weight                               int64
Height                               int64
Body mass index                      int64
Absenteeism time in hours            int64
dtype: object

In [6]:
df.describe()

Unnamed: 0,ID,Reason for absence,Month of absence,Day of the week,Seasons,Transportation expense,Distance from Residence to Work,Service time,Age,Work load Average/day,...,Disciplinary failure,Education,Son,Social drinker,Social smoker,Pet,Weight,Height,Body mass index,Absenteeism time in hours
count,740.0,740.0,740.0,740.0,740.0,740.0,740.0,740.0,740.0,740.0,...,740.0,740.0,740.0,740.0,740.0,740.0,740.0,740.0,740.0,740.0
mean,18.017568,19.216216,6.324324,3.914865,2.544595,221.32973,29.631081,12.554054,36.45,271.490235,...,0.054054,1.291892,1.018919,0.567568,0.072973,0.745946,79.035135,172.114865,26.677027,6.924324
std,11.021247,8.433406,3.436287,1.421675,1.111831,66.952223,14.836788,4.384873,6.478772,39.058116,...,0.226277,0.673238,1.098489,0.495749,0.260268,1.318258,12.883211,6.034995,4.285452,13.330998
min,1.0,0.0,0.0,2.0,1.0,118.0,5.0,1.0,27.0,205.917,...,0.0,1.0,0.0,0.0,0.0,0.0,56.0,163.0,19.0,0.0
25%,9.0,13.0,3.0,3.0,2.0,179.0,16.0,9.0,31.0,244.387,...,0.0,1.0,0.0,0.0,0.0,0.0,69.0,169.0,24.0,2.0
50%,18.0,23.0,6.0,4.0,3.0,225.0,26.0,13.0,37.0,264.249,...,0.0,1.0,1.0,1.0,0.0,0.0,83.0,170.0,25.0,3.0
75%,28.0,26.0,9.0,5.0,4.0,260.0,50.0,16.0,40.0,294.217,...,0.0,1.0,2.0,1.0,0.0,1.0,89.0,172.0,31.0,8.0
max,36.0,28.0,12.0,6.0,4.0,388.0,52.0,29.0,58.0,378.884,...,1.0,4.0,4.0,1.0,1.0,8.0,108.0,196.0,38.0,120.0


In [9]:
# Observando quantidade de valores unicos
df.nunique()

Reason for absence                 28
Month of absence                   13
Day of the week                     5
Seasons                             4
Transportation expense             24
Distance from Residence to Work    25
Service time                       18
Age                                22
Work load Average/day              38
Hit target                         13
Disciplinary failure                2
Education                           4
Son                                 5
Social drinker                      2
Social smoker                       2
Pet                                 6
Weight                             26
Height                             14
Body mass index                    17
Absenteeism time in hours          19
dtype: int64

In [8]:
df = df.drop('ID', axis= 1)

### Descritivo e exploração de dados