In [1]:
#Pandas: Utilizada para a preparação e operação dos dados em alta performance.
import pandas as pd

In [19]:
#Carregando os dados do CSV em um Dataframe Pandas
dados_funcionarios = pd.read_csv('Base de Dados Funcionários.csv',sep=',')

#ver número de linhas e colunas
dados_funcionarios.shape

(36, 8)

In [20]:
#Visualizando as primeiras linhas do Dataframe
dados_funcionarios.head()

Unnamed: 0,Funcionario,Est.civil,Inst,Filhos,Salario,Idade,Meses,Regiao
0,1,solteiro,1o Grau,,4.0,26,3,interior
1,2,casado,1o Grau,1.0,4.56,32,10,capital
2,3,casado,1o Grau,2.0,5.25,36,5,capital
3,4,solteiro,2o Grau,,5.73,20,10,outro
4,5,solteiro,1o Grau,,6.26,40,7,outro


In [21]:
#ver tipos de variáveis
dados_funcionarios.dtypes

Funcionario      int64
Est.civil       object
Inst            object
Filhos         float64
Salario        float64
Idade            int64
Meses            int64
Regiao          object
dtype: object

In [22]:
# Podemos selecionar nossos dados, removendo as variáveis que não são importantes.

#Excluir colunas desnecessárias para o estudo

# Nesse caso, funcionario é um identificador único, cujo não preciso. Já meses, é complemento de idade, exemplo: 32 anos e 10 meses.
# Como não precisamos desses dados, removemos.

dados_funcionarios = dados_funcionarios.drop(columns=['Funcionario','Meses'])
dados_funcionarios.head()

Unnamed: 0,Est.civil,Inst,Filhos,Salario,Idade,Regiao
0,solteiro,1o Grau,,4.0,26,interior
1,casado,1o Grau,1.0,4.56,32,capital
2,casado,1o Grau,2.0,5.25,36,capital
3,solteiro,2o Grau,,5.73,20,outro
4,solteiro,1o Grau,,6.26,40,outro


In [23]:
# Outra forma seria, em vez de alterar a base original e apagar,
# eu crio uma nova base com o que quero estudar.

#Selecionar colunas importantes para o estudo

dados_funcionarios2 = dados_funcionarios[["Idade","Salario"]]
dados_funcionarios2.head()

Unnamed: 0,Idade,Salario
0,26,4.0
1,32,4.56
2,36,5.25
3,20,5.73
4,40,6.26


In [24]:
# Describe com categoricos 

dados_funcionarios[["Inst","Regiao"]].describe()

# Top é a moda -> O valor que mais se repete na base
# freq é em relação com o top, ou seja, com o valor que mais se repete na base.

Unnamed: 0,Inst,Regiao
count,36,36
unique,3,3
top,2o Grau,outro
freq,18,13


In [25]:
# Describe com numericos 

dados_funcionarios[["Idade","Salario"]].describe()

Unnamed: 0,Idade,Salario
count,36.0,36.0
mean,34.583333,11.122222
std,6.737422,4.587458
min,20.0,4.0
25%,30.0,7.5525
50%,34.5,10.165
75%,40.0,14.06
max,48.0,23.3


In [26]:
# Imagine que queremos analisar apenas os funcionários solteiros.

# Para isso, precisamos selecionar (filtrar) apenas os registros com essa informação na coluna Estcivil.

# Forma de consulta por igualdade:
filtro  = dados_funcionarios['Est.civil'] == 'solteiro'

# Nova variável que recebe o filtro
dados_funcionarios_solteiros = dados_funcionarios[filtro]

# Isso feito acima foi somente uma seleção

dados_funcionarios_solteiros.shape

(16, 6)

In [27]:
dados_funcionarios_solteiros.head(36)

Unnamed: 0,Est.civil,Inst,Filhos,Salario,Idade,Regiao
0,solteiro,1o Grau,,4.0,26,interior
3,solteiro,2o Grau,,5.73,20,outro
4,solteiro,1o Grau,,6.26,40,outro
6,solteiro,1o Grau,,6.86,41,interior
7,solteiro,1o Grau,,7.39,43,capital
9,solteiro,2o Grau,,7.44,23,outro
11,solteiro,1o Grau,,8.46,27,capital
12,solteiro,2o Grau,,8.74,37,outro
15,solteiro,2o Grau,,9.35,38,outro
18,solteiro,Superior,,10.53,25,interior


In [28]:
#Imprimindo o numero de dados faltantes em casa coluna da tabela:
dados_funcionarios.isnull().sum()

Est.civil     0
Inst          0
Filhos       16
Salario       0
Idade         0
Regiao        0
dtype: int64

In [29]:
# Identificando dados ausentes, precisamos utilizar estratégias para resolver essa questão.
# Precisaremos importar algumas bibliotecas:

# numpy: Para trabalhar de forma eficaz com vetores e matrizes aĺém de 
# facilitar alguns cálculos matemáticos

# sklearn: Podemos tratar estes dados faltantes utilizando a classe SimpleImputer da biblioteca 
# sklearn.impute

import numpy as np   # me referindo como "np"
from sklearn.impute import SimpleImputer

In [None]:
# Vimos que para tratar dados faltantes temo 2 estratégias de acordo com a 
# importância da variável e o impaco dos valores falantes:

# Imputação de Dados (variável importante)
# Remoção de Dados (variável não exerce influência no estudo)

# Farei uma cópia da base "dados_funcionarios" para realizar algumas transformações:

In [30]:
# fazer desta forma a cópia (comando copy())

base_exemplo1 = dados_funcionarios.copy()
base_exemplo1.shape
base_exemplo1.head(36)

Unnamed: 0,Est.civil,Inst,Filhos,Salario,Idade,Regiao
0,solteiro,1o Grau,,4.0,26,interior
1,casado,1o Grau,1.0,4.56,32,capital
2,casado,1o Grau,2.0,5.25,36,capital
3,solteiro,2o Grau,,5.73,20,outro
4,solteiro,1o Grau,,6.26,40,outro
5,casado,1o Grau,0.0,6.66,28,interior
6,solteiro,1o Grau,,6.86,41,interior
7,solteiro,1o Grau,,7.39,43,capital
8,casado,2o Grau,1.0,7.59,34,capital
9,solteiro,2o Grau,,7.44,23,outro
