# TRATAMENTO DE DADOS

In [107]:
# %pip install pandas openpyxl matplotlib numpy

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_excel('faltas_treinamento_sujo.xlsx')
display(df.head(30))

Unnamed: 0,Nome,Departamento,Turno,Faltas,Dia_da_Semana_Ultima_Falta,Data_Ultima_Falta,Evadiu
0,Colaborador_001,Operações,Manhã,14,Quarta,18/01/2024,Sim
1,Colaborador_002,Operações,Manhã,1,Segunda,31/02/2024,Não
2,Colaborador_003,Vendas,Manhã,3,segunda,10/03/2024,Não
3,Colaborador_004,Marketing,manha,3,Segunda,21/01/2024,Não
4,Colaborador_005,RH,manha,1,Quarta,18/02/2024,Não
5,Colaborador_006,RH,manha,2,segunda,16/01/2024,Não
6,Colaborador_007,Marketing,Manhã,1,segunda,16/02/2024,Não
7,Colaborador_008,Operações,Manhã,11,Terça,11/01/2024,Sim
8,Colaborador_009,Financeiro,TARDE,2,segunda,21/01/2024,Não
9,Colaborador_010,TI,manha,2,segunda,18/03/2024,Não


### Parte 1: Tratamento básico

In [108]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 224 entries, 0 to 223
Data columns (total 7 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   Nome                        224 non-null    object
 1   Departamento                224 non-null    object
 2   Turno                       224 non-null    object
 3   Faltas                      224 non-null    int64 
 4   Dia_da_Semana_Ultima_Falta  224 non-null    object
 5   Data_Ultima_Falta           224 non-null    object
 6   Evadiu                      210 non-null    object
dtypes: int64(1), object(6)
memory usage: 12.4+ KB
None


In [109]:
# Correção de tipo de data
    # de 'object' para 'datetime64'
df['Data_Ultima_Falta'] = pd.to_datetime(df['Data_Ultima_Falta'], format='%d/%m/%Y', errors='coerce')
display(df, df.info())

# mostrando que datas são incorretas, ex: 31/02/2020 com NaT (Not a Time)
display(df[df['Data_Ultima_Falta'].isna()])

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 224 entries, 0 to 223
Data columns (total 7 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   Nome                        224 non-null    object        
 1   Departamento                224 non-null    object        
 2   Turno                       224 non-null    object        
 3   Faltas                      224 non-null    int64         
 4   Dia_da_Semana_Ultima_Falta  224 non-null    object        
 5   Data_Ultima_Falta           212 non-null    datetime64[ns]
 6   Evadiu                      210 non-null    object        
dtypes: datetime64[ns](1), int64(1), object(5)
memory usage: 12.4+ KB


Unnamed: 0,Nome,Departamento,Turno,Faltas,Dia_da_Semana_Ultima_Falta,Data_Ultima_Falta,Evadiu
0,Colaborador_001,Operações,Manhã,14,Quarta,2024-01-18,Sim
1,Colaborador_002,Operações,Manhã,1,Segunda,NaT,Não
2,Colaborador_003,Vendas,Manhã,3,segunda,2024-03-10,Não
3,Colaborador_004,Marketing,manha,3,Segunda,2024-01-21,Não
4,Colaborador_005,RH,manha,1,Quarta,2024-02-18,Não
...,...,...,...,...,...,...,...
219,Colaborador_056,Operações,Tarde,2,segunda,2024-01-05,Não
220,Colaborador_102,Vendas,manha,3,segunda,2024-02-15,Não
221,Colaborador_188,Vendas,Manhã,3,segunda,2024-02-04,
222,Colaborador_147,Marketing,Tarde,1,segunda,2024-02-02,Não


None

Unnamed: 0,Nome,Departamento,Turno,Faltas,Dia_da_Semana_Ultima_Falta,Data_Ultima_Falta,Evadiu
1,Colaborador_002,Operações,Manhã,1,Segunda,NaT,Não
59,Colaborador_060,RH,Tarde,1,Quarta,NaT,Não
84,Colaborador_085,Marketing,manha,1,Quinta,NaT,Não
85,Colaborador_086,RH,Tarde,3,segunda,NaT,
135,Colaborador_136,Marketing,Tarde,2,Quinta,NaT,Não
138,Colaborador_139,Marketing,Manhã,1,Quinta,NaT,Não
143,Colaborador_144,Marketing,Tarde,1,Segunda,NaT,Não
165,Colaborador_166,Marketing,TARDE,4,Quarta,NaT,Não
174,Colaborador_175,Financeiro,TARDE,0,Sexta,NaT,Não
188,Colaborador_189,RH,manha,1,Quarta,NaT,Não


In [110]:
# Normalizar 'Turnos' e 'Dias'

# Correção de acentuação em Turno = Manha >> Turno = Manhã
    # Visto que o banco de dados é todo em PT-BR
df['Turno'] = df['Turno'].str.strip().str.lower().str.title().replace({'Manha': 'Manhã'})

df['Dia_da_Semana_Ultima_Falta'] = df['Dia_da_Semana_Ultima_Falta'].str.strip().str.lower().str.title()

display(df)

Unnamed: 0,Nome,Departamento,Turno,Faltas,Dia_da_Semana_Ultima_Falta,Data_Ultima_Falta,Evadiu
0,Colaborador_001,Operações,Manhã,14,Quarta,2024-01-18,Sim
1,Colaborador_002,Operações,Manhã,1,Segunda,NaT,Não
2,Colaborador_003,Vendas,Manhã,3,Segunda,2024-03-10,Não
3,Colaborador_004,Marketing,Manhã,3,Segunda,2024-01-21,Não
4,Colaborador_005,RH,Manhã,1,Quarta,2024-02-18,Não
...,...,...,...,...,...,...,...
219,Colaborador_056,Operações,Tarde,2,Segunda,2024-01-05,Não
220,Colaborador_102,Vendas,Manhã,3,Segunda,2024-02-15,Não
221,Colaborador_188,Vendas,Manhã,3,Segunda,2024-02-04,
222,Colaborador_147,Marketing,Tarde,1,Segunda,2024-02-02,Não


### Parte 2: Remoção e Substituição

In [111]:
# remover registros duplicados

# assim mostra os valores e o Keep mostra ambas as duplicatas, não só a segunda repetição
display(df[df.duplicated(keep=False)])

df = df.drop_duplicates()

Unnamed: 0,Nome,Departamento,Turno,Faltas,Dia_da_Semana_Ultima_Falta,Data_Ultima_Falta,Evadiu
55,Colaborador_056,Operações,Tarde,2,Segunda,2024-01-05,Não
91,Colaborador_092,Vendas,Manhã,0,Quinta,2024-01-09,Não
101,Colaborador_102,Vendas,Manhã,3,Segunda,2024-02-15,Não
146,Colaborador_147,Marketing,Tarde,1,Segunda,2024-02-02,Não
187,Colaborador_188,Vendas,Manhã,3,Segunda,2024-02-04,
219,Colaborador_056,Operações,Tarde,2,Segunda,2024-01-05,Não
220,Colaborador_102,Vendas,Manhã,3,Segunda,2024-02-15,Não
221,Colaborador_188,Vendas,Manhã,3,Segunda,2024-02-04,
222,Colaborador_147,Marketing,Tarde,1,Segunda,2024-02-02,Não
223,Colaborador_092,Vendas,Manhã,0,Quinta,2024-01-09,Não


In [112]:
# preencher 'Evadiu' vazios por desconhecido

df['Evadiu'] = df['Evadiu'].fillna('Desconhecido')
display(df[80:90])

Unnamed: 0,Nome,Departamento,Turno,Faltas,Dia_da_Semana_Ultima_Falta,Data_Ultima_Falta,Evadiu
80,Colaborador_081,Marketing,Tarde,1,Quarta,2024-01-04,Não
81,Colaborador_082,Operações,Tarde,4,Quinta,2024-03-20,Não
82,Colaborador_083,Marketing,Manhã,5,Quinta,2024-02-29,Sim
83,Colaborador_084,RH,Tarde,2,Quinta,2024-02-18,Não
84,Colaborador_085,Marketing,Manhã,1,Quinta,NaT,Não
85,Colaborador_086,RH,Tarde,3,Segunda,NaT,Desconhecido
86,Colaborador_087,TI,Tarde,2,Sexta,2024-01-17,Não
87,Colaborador_088,Financeiro,Tarde,5,Quarta,2024-01-22,Sim
88,Colaborador_089,Operações,Manhã,5,Terça,2024-01-14,Sim
89,Colaborador_090,RH,Tarde,5,Segunda,2024-03-16,Sim


In [113]:
# substituir valores nulos da coluna Data_Ultima_Falta pela data mais comum.
df['Data_Ultima_Falta'] = df['Data_Ultima_Falta'].fillna(df['Data_Ultima_Falta'].mode()[0])
display(df[80:90])

Unnamed: 0,Nome,Departamento,Turno,Faltas,Dia_da_Semana_Ultima_Falta,Data_Ultima_Falta,Evadiu
80,Colaborador_081,Marketing,Tarde,1,Quarta,2024-01-04,Não
81,Colaborador_082,Operações,Tarde,4,Quinta,2024-03-20,Não
82,Colaborador_083,Marketing,Manhã,5,Quinta,2024-02-29,Sim
83,Colaborador_084,RH,Tarde,2,Quinta,2024-02-18,Não
84,Colaborador_085,Marketing,Manhã,1,Quinta,2024-03-20,Não
85,Colaborador_086,RH,Tarde,3,Segunda,2024-03-20,Desconhecido
86,Colaborador_087,TI,Tarde,2,Sexta,2024-01-17,Não
87,Colaborador_088,Financeiro,Tarde,5,Quarta,2024-01-22,Sim
88,Colaborador_089,Operações,Manhã,5,Terça,2024-01-14,Sim
89,Colaborador_090,RH,Tarde,5,Segunda,2024-03-16,Sim


### Parte 3: Correções e Detecção de Outliers

In [114]:
# Conversão 'Faltas' type=float para type=int
    # já era type=int anteriormente

# astype transforma tipo de dado
df['Faltas'] = df['Faltas'].astype(int)
display(df.info())

<class 'pandas.core.frame.DataFrame'>
Index: 219 entries, 0 to 218
Data columns (total 7 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   Nome                        219 non-null    object        
 1   Departamento                219 non-null    object        
 2   Turno                       219 non-null    object        
 3   Faltas                      219 non-null    int64         
 4   Dia_da_Semana_Ultima_Falta  219 non-null    object        
 5   Data_Ultima_Falta           219 non-null    datetime64[ns]
 6   Evadiu                      219 non-null    object        
dtypes: datetime64[ns](1), int64(1), object(5)
memory usage: 13.7+ KB


None

In [115]:
# Substituir outliers de faltas por np.nan e depois pela mediana.

# IQR (Intervalo Interquartil) é uma medida estatística de dispersão que representa os 50% centrais dos dados.
# Ele é calculado como: IQR = Q3 - Q1
# - Q1 (1º quartil) é o valor abaixo do qual estão os 25% menores valores.
# - Q3 (3º quartil) é o valor abaixo do qual estão os 75% menores valores.

# Os valores considerados normais estão entre Q1 e Q3 (ou seja, dentro do IQR).
# Já os valores que estão:
# - abaixo de Q1 - 1.5 * IQR, ou
# - acima de Q3 + 1.5 * IQR
# são considerados OUTLIERS (valores extremos que fogem do padrão dos dados).

import numpy as np

# calculo do intervalo interquantil
q1 = df['Faltas'].quantile(0.25)
q3 = df['Faltas'].quantile(0.75)
iqr = q3 - q1

# definição de limites min e max
limite_minimo = q1 - 1.5 * iqr
limite_maximo = q3 + 1.5 * iqr

# substituição de OUTLIERS por np.nan
    # .loc[condição, nome da coluna] = alteração
    # em PANDAS não se pode usar OR neste caso, deve se usar PIPE que é o " | "
df.loc[(df['Faltas'] < limite_minimo) | (df['Faltas'] > limite_maximo), 'Faltas'] = np.nan

# substituir NaN por mediana
df['Faltas'] = df['Faltas'].fillna(df['Faltas'].median())

In [116]:
# criar flag 'Faltas_Suspeitas' para 'Faltas' > 10
    # se a condição for atingida em um futuro caso, vai receber a flag = True

df['Faltas_Suspeitas'] = df['Faltas'] > 10
display(df[df['Faltas_Suspeitas'] == True])


Unnamed: 0,Nome,Departamento,Turno,Faltas,Dia_da_Semana_Ultima_Falta,Data_Ultima_Falta,Evadiu,Faltas_Suspeitas


# ANÁLISE DE DADOS

### Análise Descritiva Avançada

In [None]:
# Número total de evasões por departamento
