In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('dataset_sintetico_sujo.csv')

In [None]:
df.head(4)

In [None]:
df.shape

In [None]:
df.sample(5, random_state=1)

In [None]:
df.info()

In [None]:
# conversão de tipo
df['data_admissao'] = pd.to_datetime(df['data_admissao'], errors='coerce')
df.dtypes

In [None]:
#verificando valores ausentes
df.isnull().sum()

In [None]:
df.duplicated().sum()

In [None]:
df[df.duplicated()]

In [None]:
# excluindo os valores duplicados
df = df.drop_duplicates()

In [None]:
cols = ['nome', 'cidade', 'estado_civil', 'cargo']

df.loc[:, cols] = df[cols].apply(
    lambda col: col.str.strip()
                   .str.lower()
                   .str.replace(r'\s+', ' ', regex=True)
)

In [None]:
df.head(3)

In [None]:
print('Percentual de atributos ausentes')
taxa_idade = df['idade'].isna().mean()
print(f'Idade: {taxa_idade:.2%}')
taxa_cidade = df['cidade'].isna().mean()
print(f'Cidade: {taxa_cidade:.2%}')
taxa_adm = df['data_admissao'].isna().mean()
print(f'data_admissao: {taxa_adm:.2%}')
taxa_sal = df['salario'].isna().mean()
print(f'salario: {taxa_sal:.2%}')
taxa_est = df['estado_civil'].isna().mean()
print(f'estado_civil: {taxa_est:.2%}')
taxa_cargo = df['cargo'].isna().mean()
print(f'cargo: {taxa_cargo:.2%}')
taxa_tel = df['telefone'].isna().mean()
print(f'Telefone: {taxa_tel:.2%}')

In [None]:
df = df.drop(columns='telefone')

In [None]:
df.head(2)

In [None]:
df['idade'] = df['idade'].fillna(df['idade'].median())

In [None]:
df['salario'] = df['salario'].fillna(df['salario'].median())

In [None]:
# criando a categoria desconhecido
df['estado_civil'] = df['estado_civil'].fillna('desconhecido')

In [None]:
# criando a categoria desconhecido
df['cargo'] = df['cargo'].fillna('desconhecido')

In [None]:
# criando a categoria cidade_desconhecida
df['cidade'] = df['cidade'].fillna('cidade_desconhecida')

In [None]:
# Se a idade for uma variável crítica, preecha com a mediana
# Se a idade não for uma variável crítica,

idade_negativa = df[df['idade']< 0]['idade'].count()
print(f'A quantidade de itens com idade negativa é: {idade_negativa}')

In [None]:
df[df['idade']< 0]

In [None]:
df[df['idade']< 15]['idade'].count()

In [None]:
df[df['idade']> 95]['idade'].count()

In [None]:
import numpy as np
# -- ajustando o atributo idade para um intervalo específico --
df['idade'] = df['idade'].mask(~df['idade'].between(15, 95), np.nan)
df['idade'] = df['idade'].fillna(df['idade'].median())

In [None]:
df.info()

In [None]:
# Desvantagens da imputação com a moda
# Pode inflar artificialmente a cidade mais comum, criando um viés.
# Não considera contexto (por exemplo, o usuário pode ser de outra região).
# Pode distorcer análises geográficas (ex.: distribuição por cidade).
df['cidade'].isnull().sum()

In [None]:
# criando a categoria cidade_desconhecida
df['cidade'] = df['cidade'].fillna('cidade_desconhecida')

In [None]:
# SE o atributo nome for ser utilizado para exibição = capitalizar
# Se ele é irelevante para a análise/modelo = não capitalizar

In [None]:
df = df.drop(columns='nome')

In [None]:
df.head(5)

In [None]:
# Expressão regular: só letras (maiúsculas/minúsculas), espaços e acentos
regex = r'^[A-Za-zÀ-ÖØ-öø-ÿ\s_]+$'

# Cria uma flag booleana para identificar valores inválidos
df["cidade_valida"] = df["cidade"].str.match(regex)

# Filtrar apenas os registros inválidos
cidades_invalidas = df[~df["cidade_valida"]]
cidades_invalidas

In [None]:
cidades_invalidas['cidade'].unique()

In [None]:
# Dicionário de substituição
# leetspek (números e símbolos substituem letras que têm aparência parecida)
substituicoes = {
    "0": "o",
    "1": "i",
    "3": "e",
    "4": "a",
    "5": "s",
    "7": "t",
    "9": "g"
}

In [None]:
 # Substituir caracteres incorretos
for errado, certo in substituicoes.items():
    df['cidade'] = df['cidade'].str.replace(errado, certo, regex=False)

# 3. Padronizar maiúsculas/minúsculas
df["cidade"] = df["cidade"].str.title()



In [None]:
df['cidade']

In [None]:
# Verificando se todos os valores de salário são do tipo float
df['salario'].apply(lambda x: isinstance(x, float)).all()
# True = todos são float

In [None]:
# Expressão regular: só letras (maiúsculas/minúsculas), espaços e acentos
regex = r'^[A-Za-zÀ-ÖØ-öø-ÿ\s]+$'

# Cria uma flag booleana para identificar valores inválidos
df["ec_valido"] = df["estado_civil"].str.match(regex)

# Filtrar apenas os registros inválidos
ec_invalido = df[~df["ec_valido"]]
ec_invalido

In [None]:
# Substituir caracteres incorretos
for errado, certo in substituicoes.items():
    df['estado_civil'] = df['estado_civil'].str.replace(errado, certo, regex=False)

# 3. Padronizar maiúsculas/minúsculas
df["estado_civil"] = df["estado_civil"].str.title()


In [None]:
df['estado_civil']

In [None]:
# Expressão regular: só letras (maiúsculas/minúsculas), espaços e acentos
regex = r'^[A-Za-zÀ-ÖØ-öø-ÿ\s]+$'

# Cria uma flag booleana para identificar valores inválidos
df["cargo_valido"] = df["cargo"].str.match(regex)

# Filtrar apenas os registros inválidos
cargo_invalido = df[~df["cargo_valido"]]
cargo_invalido

In [None]:
# Substituir caracteres incorretos
for errado, certo in substituicoes.items():
    df['cargo'] = df['cargo'].str.replace(errado, certo, regex=False)

# 3. Padronizar maiúsculas/minúsculas
df['cargo'] = df['cargo'].str.title()

In [None]:
df = df.drop(columns='cidade_valida')

In [None]:
df = df.drop(columns='ec_valido')

In [None]:
df = df.drop(columns='cargo_valido')

In [None]:
df.to_csv("dataset_limpo.csv", index=False, encoding="utf-8")

In [None]:
# Salvar no ambiente temporário
df.to_csv("dataset_limpo.csv", index=False, encoding="utf-8")

# Fazer download para o PC
from google.colab import files
files.download("dataset_limpo.csv")
