# Objetivos: Preparação dos Dados

1. Seleção e Amostragem
2. Dados Ausentes




# Carregar base de dados e preparação

O primeiro ponto antes de começar a trabalhar com dados é importar algumas bibliotecas:

Começaremos importando a biblioteca pandas.

In [None]:
#Pandas: Utilizada para a preparação e operação dos dados em alta performance.
import pandas as pd


In [None]:
#Carregando os dados do CSV em um Dataframe Pandas
dados_funcionarios = pd.read_csv('Base de Dados Funcionários.csv',sep=';')

#ver número de linhas e colunas
dados_funcionarios.shape

In [None]:
#Visualizando as primeiras linhas do Dataframe
dados_funcionarios.head()

In [None]:
#ver tipos de variáveis
dados_funcionarios.dtypes

# 1. Seleção de dados

- Selecionando colunas importantes
- Filtrando por classes

## 1.1. Selecionando colunas importantes

Podemos selecionar nossos dados, removendo as variáveis que não são importantes.

In [None]:
#Excluir colunas desnecessárias para o estudo

dados_funcionarios = dados_funcionarios.drop(columns=['Funcionario','Meses'])
dados_funcionarios.head()

In [None]:
#Selecionar colunas importantes para o estudo

dados_funcionarios2 = dados_funcionarios[["Idade","Salario"]]
dados_funcionarios2.head()

In [None]:
dados_funcionarios[["Inst","Regiao"]].describe()

In [None]:
dados_funcionarios[["Idade","Salario"]].describe()

## 1.2. Filtrando por classes

Imagine que queremos analisar apenas os funcionários solteiros.

Para isso, precisamos selecionar (filtrar) apenas os registros com essa informação na coluna Estcivil.

In [None]:
filtro  = dados_funcionarios['Est.civil'] == 'solteiro'
dados_funcionarios_solteiros = dados_funcionarios[filtro]

dados_funcionarios_solteiros.shape

In [None]:
dados_funcionarios_solteiros.head(36)

# 2. Dados Ausentes



In [None]:
#Imprimindo o numero de dados faltantes em casa coluna da tabela:
dados_funcionarios.isnull().sum()

Identificando dados ausentes, precisamos utilizar estratégias para resolver essa questão. Precisaremos importar algumas bibliotecas:



*   numpy: Para trabalhar de forma eficaz com vetores e matrizes aĺém de facilitar alguns cálculos matemáticos
*   sklearn: Podemos tratar estes dados faltantes utilizando a classe SimpleImputer da biblioteca sklearn.impute


In [None]:
import numpy as np   # me referindo como "np"
from sklearn.impute import SimpleImputer

Vimos que para tratar dados faltantes temo 2 estratégias de acordo com a importância da variável e o impaco dos valores falantes:

- Imputação de Dados  (variável importante)
- Remoção de Dados  (variável não exerce influência no estudo)

Farei uma cópia da base "dados_funcionarios" para realizar algumas transformações:

In [None]:
# fazer desta forma a cópia (comando copy())

base_exemplo1 = dados_funcionarios.copy()
base_exemplo1.shape
base_exemplo1.head(36)

## 2.1. Imputação de Dados

Podemos utilizar estratégias como:
- estimativa de valores
- média, mediana, moda

No nosso exemplo, a variável com dados faltantes é Filhos (quantitativa).

In [None]:
imputer = SimpleImputer(missing_values=np.nan, strategy='median')

In [None]:
imputer.fit(base_exemplo1.iloc[:, 2:3])
base_exemplo1.sample(3)

In [None]:
base_exemplo1.iloc[:,2:3] = imputer.transform(base_exemplo1.iloc[:, 2:3])
base_exemplo1.head()

Se identificarmos que um valor ausente representa valor '0' para uma variável de contagem,  podemos atribuir o valor 0.

In [None]:
base_exemplo2 = dados_funcionarios.copy()

base_exemplo2['Filhos'] = base_exemplo2['Filhos'].fillna(0)
base_exemplo2.head()


In [None]:
#Podemos ainda preencher cada coluna com o valor que melhor satisfazer:
values = {'Filhos': 5}
base_exemplo1.fillna(value=values)

## 2.2. Remoção de Dados

Podemos utilizar estratégias como:
- Excluir linhas (poucas ocorrências)
- Excluir colunas (mais de 60% de dados faltante / variável pouco significativa)

In [None]:
base_exemplo3 = dados_funcionarios.copy()
print(base_exemplo3)

In [None]:
#Excluir todas as linhas com valores ausentes    axis = 0 (linhas) axis = 1 (colunas)
base_exemplo3.dropna(axis=0, inplace=True)
print(base_exemplo3)


In [None]:
base_exemplo3.shape

In [None]:

#Excluir coluna com valor ausente na nossa base original
dados_funcionarios.dropna(axis=1, inplace=True)
dados_funcionarios.head()

# Ao final, temos nossa base de dados tratada:

In [None]:
print(dados_funcionarios)