# Sumarização

É relativamente freqüente a situação em que o auditor deseja obter um resumo dos dados (valor mínimo, valor máximo, média, medianas, totais, etc.) com base nos registros correspondentes a subconjuntos dos dados em exame.  Estes subconjuntos normalmente são definidos pelos valores assumidos por variáveis categóricas.

Vejamos um exemplo.

O conjunto de dados `Invoices.csv`, contém informações sobre o faturamento de uma empresa em todo o exercício de 2003. Dentre os campos existentes no conjunto de dados há o campo `Date`, que contém a data em que a nota fiscal foi emitida, a partir do qual podemos facilmente criar um novo campo na base de dados contendo o mês de emissão da NF.

Observe que este campo terá doze valores distintos ("Jan", "Fev", ..., "Dez") e cada mês define um subconjunto dos dados, para os quais podemos estar interessados em calcular a média, o total , o valor mínimo, o valor máximo, a mediana, etc. dos valores faturados (coluna `Amount`).

No caso específico do conjunto de dados `Invoices.csv`, pode ser de interesse do auditor verificar o faturamento médio em cada um dos doze meses do exercício financeiro ou qualquer outra medida resumo para cada mês.

O R dispõe das funções **`tapply()`** e **`aggregate()`** que nos permitem realizar este procedimento. 

Os comandos a seguir ilustram como calcular algumas medidas resumos para o conjunto de dados `Invoices.csv` após criarmos uma nova coluna na base de dados para registrar o mês do faturamento. Utilizaremos inicialmente apenas a função `tapply()`. Posteriormente ilustraremos o uso das funções `by()` e `aggregate()`.

In [1]:
setwd('C:\\Users\\Marcos\\Documents\\GitHub\\Usando-R-em-Auditoria\\dados')
# Importação da base de dados
faturamento <- read.csv2("Invoices.csv")
# Conversão da coluna Data para o formato de data
faturamento$Date <- as.Date(faturamento$Date, "%d/%m/%Y")
# Criação da coluna Mes na base de dados
faturamento <- transform(faturamento, Mes = format(Date, "%b"))
# Ordenção dos fatores
faturamento$Mes <- ordered(faturamento$Mes,
                           levels=c("jan", "fev", "mar", "abr", "mai", "jun", "jul", "ago" ,"set", "out", "nov", "dez"))
head(faturamento)

Date,InvoiceNo,CustomerNo,SalesPerson,ProductNo,UnitPrice,Quantity,Amount,Mes
2003-07-09,20000,10220,8,8,9.2,41,377.2,jul
2003-08-21,20001,10491,4,48,14.0,30,420.0,ago
2003-08-27,20002,10704,3,43,15.0,25,375.0,ago
2003-05-28,20003,10430,5,54,24.0,22,528.0,mai
2003-12-06,20004,10841,17,11,15.0,21,315.0,dez
2003-05-24,20005,10777,1,5,12.5,50,625.0,mai


## Cálculo do faturamento médio mensal usando a função `tapply()`

In [2]:
# Faturamento médio mensal
with(faturamento,
     tapply(Amount, Mes, mean))

Resumo mensal:

In [3]:
with(faturamento,
     tapply(Amount, Mes, summary))

$jan
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    5.0   207.1   418.0   771.9   798.0 10800.0 

$fev
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    9.2   226.1   487.5   850.3   887.8 13440.0 

$mar
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    5.0   231.0   460.5   656.2   778.0 11330.0 

$abr
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   15.5   211.9   456.0   853.6   945.3 13440.0 

$mai
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   10.0   234.9   451.2   895.2   798.7 12380.0 

$jun
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    5.0   275.1   489.8   833.4   886.6 12910.0 

$jul
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   12.0   246.5   464.0   826.8   879.5 12910.0 

$ago
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    7.5   203.6   429.8   743.7   858.0  9222.0 

$set
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    9.0   181.5   419.2   724.8   821.0  7378.0 

$out
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    7.0   

Obs. A função **`with()`** é utilizada aqui apenas para evitarmos ter que escrever, `faturamento\$Amount`,e `faturamento\$Mes`, dentro da função `tapply()`. Preferimos usar a função `with()` à função `attach()` que tem a mesma finalidade.

## Cálculo do faturamento médio mensal usando a função `aggregate()`

In [11]:
aggregate(faturamento$Amount, list(Mes=faturamento$Mes), mean)

Mes,x
jan,771.8731
fev,850.2858
mar,656.2052
abr,853.5868
mai,895.1562
jun,833.3717
jul,826.8084
ago,743.6642
set,724.8036
out,735.2792


Resumo mensal:

In [16]:
print(aggregate(faturamento$Amount, list(Mes=faturamento$Mes), summary))

   Mes  x.Min. x.1st Qu. x.Median  x.Mean x.3rd Qu.  x.Max.
1  jan     5.0     207.1    418.0   771.9     798.0 10800.0
2  fev     9.2     226.1    487.5   850.3     887.8 13440.0
3  mar     5.0     231.0    460.5   656.2     778.0 11330.0
4  abr    15.5     211.9    456.0   853.6     945.3 13440.0
5  mai    10.0     234.9    451.2   895.2     798.7 12380.0
6  jun     5.0     275.1    489.8   833.4     886.6 12910.0
7  jul    12.0     246.5    464.0   826.8     879.5 12910.0
8  ago     7.5     203.6    429.8   743.7     858.0  9222.0
9  set     9.0     181.5    419.2   724.8     821.0  7378.0
10 out     7.0     203.3    424.0   735.3     779.5 10540.0
11 nov     9.5     231.0    456.0   764.7     836.0 12120.0
12 dez     7.0     220.2    462.5   783.2     821.0 11590.0


**Marcos F Silva**