[![](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/brunomssmelo/Python_em_Auditoria/blob/master/04_Sumarizacao.ipynb)

# **Análise de Dados aplicada à Auditoria com _Python_**

## **Técnicas de Auditoria Assistidas por Computador - TAACs**
### _Sumarização_

> Este documento é uma adaptação para Python do <a href="https://colab.research.google.com/drive/1EXDeAPLJTuRqShA0YVUMd3ytDLNa5m8M">notebook</a> originalmente codificado em R.

In [1]:
# Antes de prosseguirmos, deveremos carregar as bibliotecas necessárias:
import pandas as pd #pandas
import numpy as np #numpy

In [2]:
# A importação dos dados pode ser realizada com o método read_csv():
faturas = pd.read_csv('./dados/Invoices.csv',  encoding='latin1', sep=';', decimal=',', na_values=' ')

# Podemos visualizar os registros iniciais dos dados importados com o método head():
faturas.head()

Unnamed: 0,Date,InvoiceNo,CustomerNo,SalesPerson,ProductNo,UnitPrice,Quantity,Amount
0,09/07/2003,20000,10220,8,8,9.2,41,377.2
1,21/08/2003,20001,10491,4,48,14.0,30,420.0
2,27/08/2003,20002,10704,3,43,15.0,25,375.0
3,28/05/2003,20003,10430,5,54,24.0,22,528.0
4,06/12/2003,20004,10841,17,11,15.0,21,315.0


Podemos obter um "quadro de informações gerais" dos dados importados para o DataFrame `faturas` por meio 
de uma chamada ao método `info()`, que pode ser encarado como uma espécie de equivalente em pandas para 
a função `glimpse()` do pacote tibble do R:

In [3]:
faturas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4999 entries, 0 to 4998
Data columns (total 8 columns):
Date           4999 non-null object
InvoiceNo      4999 non-null int64
CustomerNo     4999 non-null int64
SalesPerson    4999 non-null int64
ProductNo      4999 non-null int64
UnitPrice      4999 non-null float64
Quantity       4999 non-null int64
Amount         4999 non-null float64
dtypes: float64(2), int64(5), object(1)
memory usage: 312.6+ KB


<br>

É relativamente frequente a situação em que o auditor deseja obter um resumo dos dados (valor mínimo, 
valor máximo, média, medianas, totais, etc.) com base nos registros correspondentes a subconjuntos dos 
dados em exame. 
Estes subconjuntos normalmente são definidos pelos valores assumidos por variáveis categóricas.

Vejamos um exemplo.

O conjunto de dados `Invoices.csv`, contém informações sobre o faturamento de uma empresa em todo o 
exercício de 2003. Dentre os campos existentes no conjunto de dados há o campo `Date`, que contém a 
data em que a nota fiscal foi emitida, a partir do qual podemos facilmente criar um novo campo na 
base de dados contendo o mês de emissão da NF.

Observe que este campo terá doze valores distintos ("`Jan`", "`Fev`", ..., "`Dez`") e cada mês define 
um subconjunto dos dados, para os quais podemos estar interessados em calcular a média, o total, o 
valor mínimo, o valor máximo, a mediana, etc. dos valores faturados (coluna `Amount`).

No caso específico do conjunto de dados `Invoices.csv`, pode ser de interesse do auditor verificar o 
faturamento médio em cada um dos doze meses do exercício financeiro ou qualquer outra medida resumo 
para cada mês.

A classe `DataFrame` do *pandas* dispõe dos métodos `groupby()` e `agg()` que, em conjunto, nos 
permitem realizar este procedimento. 

Os comandos a seguir ilustram como calcular algumas medidas resumos para o conjunto de dados 
`Invoices.csv` após criarmos uma nova coluna na base de dados para registrar o mês do faturamento. 

In [4]:
# Conversão da coluna Data para o formato de data
faturas = (faturas
            .assign(
                Date = lambda x: pd.to_datetime(x.Date, format="%d/%m/%Y"),
                Month = lambda x: x.Date.dt.month_name()))

faturas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4999 entries, 0 to 4998
Data columns (total 9 columns):
Date           4999 non-null datetime64[ns]
InvoiceNo      4999 non-null int64
CustomerNo     4999 non-null int64
SalesPerson    4999 non-null int64
ProductNo      4999 non-null int64
UnitPrice      4999 non-null float64
Quantity       4999 non-null int64
Amount         4999 non-null float64
Month          4999 non-null object
dtypes: datetime64[ns](1), float64(2), int64(5), object(1)
memory usage: 351.6+ KB


In [5]:
faturas.head()

Unnamed: 0,Date,InvoiceNo,CustomerNo,SalesPerson,ProductNo,UnitPrice,Quantity,Amount,Month
0,2003-07-09,20000,10220,8,8,9.2,41,377.2,July
1,2003-08-21,20001,10491,4,48,14.0,30,420.0,August
2,2003-08-27,20002,10704,3,43,15.0,25,375.0,August
3,2003-05-28,20003,10430,5,54,24.0,22,528.0,May
4,2003-12-06,20004,10841,17,11,15.0,21,315.0,December


O resultado mostra que a variável `Date` agora está no formato de data (*`datetime64[ns]`*). 
Além disso, foi criada uma nova coluna (`Month`) com o mês em que houve o faturamento.

Com isso já temos condições de calcular o faturamento médio mensal:

In [6]:
faturamento_medio = (faturas
                        .groupby('Month')
                        .agg(FatMedio = pd.NamedAgg(column='Amount', aggfunc=lambda x: round(np.mean(x), 2)))
                        .reset_index())

faturamento_medio.head()

Unnamed: 0,Month,FatMedio
0,April,853.59
1,August,743.66
2,December,783.24
3,February,850.29
4,January,771.87


Prontinho. Agora temos o faturamento médio mensal.

<br>

---

![](https://drive.google.com/uc?id=1wjlw2WzGTrBTGafmrvc1R-YFVrkt_oXC) **Agora é com você...**

---



<br>

**1** - Quantas faturas foram emitidas por mês?.

<br>

**2** - Qual o faturamento total em cada mês?.

<br>

**3** - Obtenha um novo conjunto de dados contendo o valor total faturado para cada cliente (`CustomerNo`) 

<br>

**4** Obtenha o valor vendido por cada vendedor (`SalesPerson`) em cada mês.