In [26]:
import pandas as pd
import numpy as np
df = pd.read_excel('faltas_treinamento_sujo.xlsx')

In [27]:
# Exercício 1 – Higienização Básica
# a) Verifique valores nulos e tipos incorretos.
print(df.isnull().sum())
print(df.dtypes)

Nome                           0
Departamento                   0
Turno                          0
Faltas                         0
Dia_da_Semana_Ultima_Falta     0
Data_Ultima_Falta              0
Evadiu                        14
dtype: int64
Nome                          object
Departamento                  object
Turno                         object
Faltas                         int64
Dia_da_Semana_Ultima_Falta    object
Data_Ultima_Falta             object
Evadiu                        object
dtype: object


In [28]:
# b) Corrija a coluna de datas inválidas.
df['Data_Ultima_Falta'] = pd.to_datetime(df['Data_Ultima_Falta'], dayfirst=True, errors='coerce')


In [29]:
# c) Normalize os nomes dos turnos e dias da semana.
df['Turno'] = df['Turno'].str.capitalize().str.strip()
df['Dia_da_Semana_Ultima_Falta'] = df['Dia_da_Semana_Ultima_Falta'].str.capitalize().str.strip()


In [30]:
# Exercício 2 – Remoção e Substituição
# a) Remova os registros duplicados.
df.drop_duplicates(inplace=True)

In [31]:
# b) Substitua os valores nulos da coluna Evadiu por “Desconhecido”.
df['Evadiu'] = df['Evadiu'].fillna('Desconhecido')

In [32]:
# c) Substitua os valores nulos da coluna Data_Ultima_Falta pela data mais comum.
data_mais_comum = df['Data_Ultima_Falta'].mode()[0]
df['Data_Ultima_Falta'] = df['Data_Ultima_Falta'].fillna(data_mais_comum)

In [33]:
# Exercício 3 – Correções e Detecção de Outliers
# a) Converta a coluna Faltas para tipo inteiro.
df['Faltas'] = pd.to_numeric(df['Faltas'], errors='coerce').fillna(0).astype(int)

In [34]:
# b) Substitua outliers de faltas por np.nan e depois pela mediana.
q1 = df['Faltas'].quantile(0.25)
q3 = df['Faltas'].quantile(0.75)
iqr = q3 - q1
limite_superior = q3 + 1.5 * iqr

In [35]:
# c) Crie um flag “Faltas_Suspeitas” para valores > 10.
df['Faltas_Suspeitas'] = df['Faltas'] > 10
df.loc[df['Faltas'] > limite_superior, 'Faltas'] = np.nan
df['Faltas'] = df['Faltas'].fillna(df['Faltas'].median())

In [36]:
# Supondo que 'df' já foi tratado conforme os exercícios anteriores
# Se ainda estiver com dados sujos, aplique os tratamentos primeiro.

# Exportar para Excel limpo
df_limpinho = df.copy()

# Ordenar por departamento e nome (opcional, para facilitar visualização)
df_limpinho.sort_values(by=['Departamento', 'Nome'], inplace=True)

# Salvar o arquivo Excel limpo
df_limpinho.to_excel('faltas_tratado_para_analise.xlsx', index=False)

print("Arquivo Excel limpo salvo como 'faltas_tratado_para_analise.xlsx'. Pronto para análise!")


Arquivo Excel limpo salvo como 'faltas_tratado_para_analise.xlsx'. Pronto para análise!
