In [88]:
import pandas as pd
from IPython.display import Markdown

In [89]:
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', None)


df = pd.read_csv('dados_funcionarios.csv', index_col='id')
display(Markdown('#### **Primeiras 20 linhas da base de dados:**'))
display(df.head(20))

#### **Primeiras 20 linhas da base de dados:**

Unnamed: 0_level_0,nome_funcionario,salario,area_atuacao
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Fernanda Silva,8777.1,Financeiro
2,Rafael Silva,10193.11,Jurídico
3,Felipe Costa,14635.36,Marketing
4,Lucas Oliveira,14958.1,VENDAS
5,MARIANA LIMA,11419.77,
6,Ana Souza,3307.48,
7,felipe santos,12496.09,RH
8,Julia Lima,13334.83,TI
9,Julia Nascimento,10151.88,TI
10,,8927.13,Jurídico


Analisando rápidamente as primerias 20 linhas da base de dados, é possível ver que existem valores nulos, e além disso nas colunas `nome_funcionário` e `area_atuacao`, os dados não estão padronizados. Existem palavras escritas de jeito diferente.

In [90]:
# Análise mais detalhada
display(Markdown('**------------------- Informações gerais -------------------**'))
df.info()

display(Markdown('**------------------- Verificando valores nulos por coluna -------------------**'))
display(df.isnull().sum())
total_df = df.size
dados_nulos = df.isnull().sum().sum()
percent_nulos = (dados_nulos / total_df) * 100
print(f'Porcentagem de nulos na base de dados: {percent_nulos:.2f}%')

display(Markdown('**------------------- Verificando valores duplicados -------------------**'))
display(df.duplicated().sum())

display(Markdown('**------------------- Verificando erros nos valores numéricos -------------------**'))
df[df['salario'] < 0]


**------------------- Informações gerais -------------------**

<class 'pandas.core.frame.DataFrame'>
Index: 1200 entries, 1 to 1200
Data columns (total 3 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   nome_funcionario  1074 non-null   object 
 1   salario           1139 non-null   float64
 2   area_atuacao      1086 non-null   object 
dtypes: float64(1), object(2)
memory usage: 37.5+ KB


**------------------- Verificando valores nulos por coluna -------------------**

nome_funcionario    126
salario              61
area_atuacao        114
dtype: int64

Porcentagem de nulos na base de dados: 8.36%


**------------------- Verificando valores duplicados -------------------**

np.int64(0)

**------------------- Verificando erros nos valores numéricos -------------------**

Unnamed: 0_level_0,nome_funcionario,salario,area_atuacao
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
81,CARLOS NASCIMENTO,-3464.39,
87,RAFAEL SANTOS,-6163.98,Vendas
97,,-13075.3,
111,FELIPE NASCIMENTO,-8525.8,Vendas
144,JULIA ALMEIDA,-8761.87,
218,João Costa,-13123.33,Marketing
269,Fernanda Rodrigues,-4611.11,jurídico
305,João Souza,-7342.83,produção
351,,-12096.68,Financeiro
383,Felipe Costa,-12875.34,Produção


#### **Verificando mais detalhadamente sobre a base de dados, segue as primeiras conclusões:**
- Os dados já estão em suas devidas formatações, logo não é preciso fazer a mudança de tipos de dados
- Não há valores duplicados na base de dados
- Nas 3 colunas, existem valores nulos. No entando somando os valores nulos de todas as colunas, só existem 8% de dados faltantes, o que não tem um impácto grande no momento, porém, para futuras análise ou até mesmo para criação de modelos preditivos, é necessário fazer esse tratamento de valores nulos.
- Na coluna de salários, existem valores com números negativos, provavelmente erros de digitação

#### **Conclusão**
Para concluir e começar a fazer a pipeline de extração e tratamento dos dados, foi importante fazer essa análise antes, para melhor entendimento dos dados. Mesmo com pontos que trouxe no bloco anterior, irei fazer todos os tratamentos possíveis ( tratamento de valores nulos, duplicatas, formatação dos tipos de dados, padronização na escrita dos dados categóricos e tratamento na coluna numérica) para deixar as bases de dados o mais padronizadas possível.

Bonus: Realizando todas as unções feitas na pipeline...


In [91]:
# Tratamento de nulos
df['salario'] = pd.to_numeric(df['salario'].fillna('0'), errors='coerce')
df['area_atuacao'] = df['area_atuacao'].fillna('Não preenchido')
df['nome_funcionario'] = df['nome_funcionario'].fillna('Não preenchido')

# Tratamendo na coluna numérica
df['salario'] = df['salario'].apply(lambda x: x if x > 0 else x * (-1))

# Padronização dos dados categóricos
df['nome_funcionario'] = df['nome_funcionario'].apply(lambda x: str(x).strip().upper())
df['area_atuacao'] = df['area_atuacao'].apply(lambda x: str(x).strip().upper())

df

Unnamed: 0_level_0,nome_funcionario,salario,area_atuacao
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,FERNANDA SILVA,8777.10,FINANCEIRO
2,RAFAEL SILVA,10193.11,JURÍDICO
3,FELIPE COSTA,14635.36,MARKETING
4,LUCAS OLIVEIRA,14958.10,VENDAS
5,MARIANA LIMA,11419.77,NÃO PREENCHIDO
...,...,...,...
1196,JULIA LIMA,14116.33,TI
1197,AMANDA COSTA,7841.81,RH
1198,PAULA SANTOS,10650.81,TI
1199,LUCAS RODRIGUES,11881.88,VENDAS


O tratamento foi concluído com êxito. Poderei implementar na função de extração de dados.