[![](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/brunomssmelo/Python_em_Auditoria/blob/master/01_Filtros.ipynb)

# **Análise de Dados aplicada à Auditoria com _Phyton_**

## **Técnicas de Auditoria Assistidas por Computador - TAACs**

### _Aplicação de Filtros_

</br> <h4> <img src="./imagens/aviso.png" alt="aviso" style="width:20px;" align="left"/> &nbsp;&nbsp; Este documento é uma adaptação para Python do <a href="https://colab.research.google.com/drive/1S1bRA4D5NTRNNFunnKpbQ0r_hS4NJt04?ts=5dcd9a23">notebook</a> originalmente codificado em R. </h4></br>

Ao se examinar um conjunto de dados é frequente a situação em que o auditor tem interesse em selecionar para exame apenas um subconjunto do mesmo, ou seja, selecionar os registros que atendam a determinados critérios por ele definidos.

Assim o auditor pode desejar selecionar para análise apenas os registros onde o valor das faturas, por exemplo, sejam superiores a determinado valor, ou faturas emitidas em um determinado período ou ainda registros relativos a funcionários de um determinado departamento de uma empresa.

Para a aplicação de filtros aos dados pode-se utilizar o método [`query()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html) de um objeto da classe [`DataFrame`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) definida na biblioteca [pandas](https://pandas.pydata.org/pandas-docs/stable/index.html).

#### _Exemplo_

Para ilustrar o uso de filtros usaremos o conjunto de dados `RH.csv` que contém informação relativa aos recursos humanos de uma empresa.


In [21]:
# Antes de prosseguirmos, deveremos carregar aa bibliotecas necessárias:
import numpy as np  #numpy
import pandas as pd #pandas

# A importação dos dados pode ser realizada com o método read_csv():
rh = pd.read_csv('./dados/RH.csv',  encoding='latin1', sep=';', decimal=',', na_values=' ')

# Podemos visualizar os registros iniciais dos dados importados com o método head():
rh.head()

Unnamed: 0,Sexo,Estado Civil,Anos de estudo,Formação,Tempo de empresa,Unidade,Departamento,Cargo,Salário,Bônus
0,Masculino,Casado,14.0,Sócio-econômicas,19.0,Curitiba,Produção,Assistente,16.67,28.02
1,Masculino,Viúvo,19.0,Sócio-econômicas,31.0,São Paulo,Vendas,Assistente,29.13,41.24
2,Feminino,Casado,18.0,Sócio-econômicas,28.0,Rio de Janeiro,Financeiro,Assi,21.8,16.88
3,Feminino,Casado,16.0,Sócio-econômicas,20.0,Rio de Janeiro,Vendas,Assistente,22.61,13.5
4,Masculino,Solteiro,15.0,Sócio-econômicas,15.0,Curitiba,Vendas,Auxiliar,16.67,8.44


Podemos obter um "quadro de informações gerais" dos dados importados para o DataFrame rh por meio de uma chamada ao método `info()`, que pode ser encarado como uma espécie de equivalente em pandas para a função `glimpse()` do pacote tibble do R:  

In [22]:
rh.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 10 columns):
Sexo                4998 non-null object
Estado Civil        4992 non-null object
Anos de estudo      4991 non-null float64
Formação            4990 non-null object
Tempo de empresa    4995 non-null float64
Unidade             4995 non-null object
Departamento        4990 non-null object
Cargo               4992 non-null object
Salário             4992 non-null float64
Bônus               4995 non-null float64
dtypes: float64(4), object(6)
memory usage: 390.8+ KB


Examinando as saídas acima podemos ver que a importação dos dados ocorreu sem problemas.

Supondo que se deseje selecionar apenas os registros relativos a funcionários do sexo feminino, pode-se fazer da seguinte forma:

1 - Preliminarmente deveremos examinar o conjunto de valores distintos que a variável `Sexo` assume. Isto pode ser realizado por meio do método `unique()` da coluna `Sexo`:
 

In [23]:
rh.Sexo.unique()

array(['Masculino', 'Feminino', 'Femi ', 'Masc ', nan], dtype=object)

O código acima nos mostra que a variável Sexo assume valores diferentes para o mesmo sexo. O sexo masculino assume os valores Masculino e Masc. Situação semelhante ocorre com os valores relativos ao sexo feminino.

2 - Assim, para realizarmos o filtro de forma correta precisaremos levar este fato em consideração (em outro momento veremos como corrigir os valores de uma variável):

In [24]:
rh.query('Sexo in ["Feminino", "Femi"]').head()

Unnamed: 0,Sexo,Estado Civil,Anos de estudo,Formação,Tempo de empresa,Unidade,Departamento,Cargo,Salário,Bônus
2,Feminino,Casado,18.0,Sócio-econômicas,28.0,Rio de Janeiro,Financeiro,Assi,21.8,16.88
3,Feminino,Casado,16.0,Sócio-econômicas,20.0,Rio de Janeiro,Vendas,Assistente,22.61,13.5
9,Feminino,Casado,12.0,Humanas,16.0,Rio de Janeiro,Produção,Assistente,5.78,16.68
10,Feminino,Solteiro,13.0,Humanas,20.0,Florianópolis,Produção,Auxiliar,1.08,11.72
12,Feminino,Casado,13.0,Exatas,23.0,Rio de Janeiro,Pessoal,Assistente,5.19,16.48


E se quiséssemos filtrar os registros relativos a funcionários do sexo masculino, da unidade do Rio de Janeiro, dos departamentos financeiro e de vendas e que possuam salário superior a R$70,00?

(**Nota:** para manter o foco na execução do filtro vamos desconsiderar erros nos valores das variáveis a exemplo do que vimos para a variável `Sexo`)

In [25]:
rh.query('Sexo == "Masculino" and Departamento in ["Financeiro", "Vendas"] and Salário > 70').head(10)


Unnamed: 0,Sexo,Estado Civil,Anos de estudo,Formação,Tempo de empresa,Unidade,Departamento,Cargo,Salário,Bônus
367,Masculino,Viúvo,22.0,Sócio-econômicas,50.0,Rio de Janeiro,Vendas,Vice-Presidente,77.47,49.48
387,Masculino,Casado,23.0,Sócio-econômicas,42.0,Rio de Janeiro,Vendas,Gerente,88.93,148.6
397,Masculino,Casado,19.0,Sócio-econômicas,45.0,Rio de Janeiro,Vendas,Vice-Presidente,88.93,110.26
408,Masculino,Casado,28.0,Sócio-econômicas,37.0,Rio de Janeiro,Vendas,Vice-Presidente,141.42,341.18
607,Masculino,Casado,22.0,Sócio-econômicas,36.0,Rio de Janeiro,Vendas,Gerente,92.97,127.32
760,Masculino,Casado,19.0,Sócio-econômicas,41.0,Rio de Janeiro,Vendas,Gerente,75.2,84.36
798,Masculino,Casado,21.0,Sócio-econômicas,39.0,Rio de Janeiro,Vendas,Gerente,81.65,103.02
1316,Masculino,Casado,23.0,Sócio-econômicas,39.0,Rio de Janeiro,Vendas,Vice-Presidente,79.31,192.14
1435,Masculino,Casado,22.0,Sócio-econômicas,37.0,Rio de Janeiro,Vendas,Vice-Presidente,99.77,176.88
1567,Masculino,Casado,22.0,Sócio-econômicas,35.0,Rio de Janeiro,Vendas,Gerente,75.2,90.74
