[![](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/brunomssmelo/Python_em_Auditoria/blob/master/02_Ordenacao.ipynb)

# **Análise de Dados aplicada à Auditoria com _Python_**

## **Técnicas de Auditoria Assistidas por Computador - TAACs**

### Ordenação de registros_

> Este documento é uma adaptação para Python do <a href="https://colab.research.google.com/drive/1mt06CCNe6_gwpL5ed1PXH300EkSTkO_J">notebook</a> originalmente codificado em R.

In [1]:
# Antes de prosseguirmos, deveremos carregar aa bibliotecas necessárias:
import pandas as pd #pandas

In [2]:
# A importação dos dados pode ser realizada com o método read_csv():
faturas = pd.read_csv('./dados/Invoices.csv',  encoding='latin1', sep=';', decimal=',', na_values=' ')

# Podemos visualizar os registros iniciais dos dados importados com o método head():
faturas.head()


Unnamed: 0,Date,InvoiceNo,CustomerNo,SalesPerson,ProductNo,UnitPrice,Quantity,Amount
0,09/07/2003,20000,10220,8,8,9.2,41,377.2
1,21/08/2003,20001,10491,4,48,14.0,30,420.0
2,27/08/2003,20002,10704,3,43,15.0,25,375.0
3,28/05/2003,20003,10430,5,54,24.0,22,528.0
4,06/12/2003,20004,10841,17,11,15.0,21,315.0


Podemos obter um "quadro de informações gerais" dos dados importados para o `DataFrame` `faturas` por meio de uma chamada ao método `info()`, que pode ser encarado como uma espécie de equivalente em pandas para a função `glimpse()` do pacote tibble do R:  

In [3]:
faturas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4999 entries, 0 to 4998
Data columns (total 8 columns):
Date           4999 non-null object
InvoiceNo      4999 non-null int64
CustomerNo     4999 non-null int64
SalesPerson    4999 non-null int64
ProductNo      4999 non-null int64
UnitPrice      4999 non-null float64
Quantity       4999 non-null int64
Amount         4999 non-null float64
dtypes: float64(2), int64(5), object(1)
memory usage: 312.6+ KB


<br>
A ordenação de um conjunto de dados com base nos valores de um determinado campo é uma tarefa comum quando se faz a análise de um conjunto de dados.

Normalmente o auditor busca, com este procedimento, identificar os maiores valores lançados, as maiores despesas, etc.

Para a execução desta técnica o `DataFrame` do Pandas dispõe do método `sort_values()`, cuja utilização será melhor apreendida com um exemplo. 

Utilizaremos o conjunto de dados `Invoices.csv` (já importado acima) para exemplificar sua utilização na ordenação do conjunto de dados com base nos valores das faturas emitidas, o que permitirá identificar as de maior valor.

<br>

## **Ordenação com base em uma coluna**

<br>

A ordenação dessa base de dados com base nos valores das faturas (campo `Amount`) pode ser feita de forma crescente ou decrescente com o uso do método `sort_values()` como ilustrado a seguir:

In [4]:
(faturas
    .sort_values(by='Amount') 
    .head(15))

Unnamed: 0,Date,InvoiceNo,CustomerNo,SalesPerson,ProductNo,UnitPrice,Quantity,Amount
477,21/06/2003,20478,10597,16,34,2.5,2,5.0
3025,14/03/2003,23026,10487,12,34,2.5,2,5.0
2565,08/01/2003,22566,10344,6,34,2.5,2,5.0
2692,25/03/2003,22693,10666,17,34,2.5,2,5.0
628,06/01/2003,20629,10304,25,53,6.0,1,6.0
493,27/12/2003,20494,10354,17,47,7.0,1,7.0
3720,13/10/2003,23721,10325,15,42,7.0,1,7.0
2371,22/08/2003,22372,10617,22,34,2.5,3,7.5
4361,01/06/2003,24362,10987,12,34,2.5,3,7.5
4144,20/09/2003,24145,10938,23,55,9.0,1,9.0


Como pode ser visto, os valores da coluna Amount estão ordenados de forma crescente.

A ordenação em forma decrescente pode ser feita da seguinte forma, por meio do  parâmetro `ascending`:

In [5]:
(faturas
    .sort_values(by='Amount', ascending=False) 
    .head(15))

Unnamed: 0,Date,InvoiceNo,CustomerNo,SalesPerson,ProductNo,UnitPrice,Quantity,Amount
4046,28/02/2003,24047,10073,22,60,263.5,51,13438.5
3183,24/04/2003,23184,10913,9,14,263.5,51,13438.5
251,11/07/2003,20252,10636,9,60,263.5,49,12911.5
1548,12/06/2003,21549,10181,12,14,263.5,49,12911.5
271,06/07/2003,20272,10934,15,60,263.5,48,12648.0
158,30/07/2003,20159,10894,2,60,263.5,47,12384.5
4283,05/05/2003,24284,10655,23,60,263.5,47,12384.5
1460,19/04/2003,21461,10473,23,14,263.5,46,12121.0
350,27/06/2003,20351,10208,10,60,263.5,46,12121.0
3210,06/05/2003,23211,10365,25,14,263.5,46,12121.0


<br>

## **Ordenação com base em duas colunas**

<br>

Caso nosso interesse fosse em ordenar a base de dados com base nas colunas `SalesPerson` (ordem crescente) e `Amount` (ordem decrescente), podemos fazer da seguinte forma:

In [6]:
faturas = (faturas
            .sort_values(['SalesPerson', 'Amount'], ascending=[True, False]))

faturas.head()

Unnamed: 0,Date,InvoiceNo,CustomerNo,SalesPerson,ProductNo,UnitPrice,Quantity,Amount
3502,18/02/2003,23503,10363,1,65,55.0,48,2640.0
2396,26/04/2003,22397,10974,1,73,49.3,39,1922.7
2515,04/10/2003,22516,10220,1,63,38.0,45,1710.0
2745,19/03/2003,22746,10084,1,25,36.0,47,1692.0
1021,21/01/2003,21022,10463,1,29,43.9,35,1536.5


In [7]:
faturas.tail()

Unnamed: 0,Date,InvoiceNo,CustomerNo,SalesPerson,ProductNo,UnitPrice,Quantity,Amount
2957,30/07/2003,22958,10858,26,64,9.0,5,45.0
3794,28/06/2003,23795,10256,26,1,14.0,2,28.0
963,16/11/2003,20964,10976,26,77,9.65,2,19.3
3579,30/05/2003,23580,10324,26,67,9.5,2,19.0
11,14/01/2003,20010,10439,99,38,7.45,28,208.6


O comportamento padrão do método `sort_values()` é a ordenação em forma crescente.
Para realizar a ordenação por mais de duas colunas, basta ir acrescentando os campos numa lista, seguidos (caso necessário) por outra lista informando se os respectivos campos devem ser ordenados de forma crescente (`True`) ou não (`False`).


<br>

---

![](./imagens/sua_vez_fundo_transp.png) **Agora é com você...**

---

**1** - Ordene o conjunto de dados em ordem decrescente pelo número da fatura (campo `InvoiceNo`).

**2** - Ordene o conjunto de dados por número do produto (coluna `ProducNo`) e preço unitário (coluna `UnitPrice`) ambos de forma decrescente.