# _Gaps_

Diversos documentos são emitidos seguindo uma numeração sequencial; o que permite um maior controle sobre os mesmos. Exemplos disso são a numeração sequencial das notas fiscais emitidas por uma empresa, dos cheques emitidos, das notas de empenhos, dos contratos celebrados, etc.

Um recurso muito útil e usualmente disponível nos softwares de auditoria de uso geral é a possibilidade de idenficar a existência de itens faltantes em um conjunto de dados, ou seja, verificar se existe algum *gap* (lacuna) na numeração sequencial.

Vamos ilustrar como fazer isso usando o conjunto de dados `Invoices.csv`.

A abordagem utilizada será descrita a seguir:

In [1]:
setwd('C:\\Users\\Marcos\\Documents\\GitHub\\Usando-R-em-Auditoria\\dados')
faturas <- read.csv2("Invoices.csv", as.is=TRUE)
head(faturas)

Date,InvoiceNo,CustomerNo,SalesPerson,ProductNo,UnitPrice,Quantity,Amount
09/07/2003,20000,10220,8,8,9.2,41,377.2
21/08/2003,20001,10491,4,48,14.0,30,420.0
27/08/2003,20002,10704,3,43,15.0,25,375.0
28/05/2003,20003,10430,5,54,24.0,22,528.0
06/12/2003,20004,10841,17,11,15.0,21,315.0
24/05/2003,20005,10777,1,5,12.5,50,625.0


O conjunto de dados será ordenado com base na numeração sequencial das faturas e cada elemento será subtraído do seu antecessor. Se não houver falha na numeração sequencial, espera-se obter como resultado um vetor contendo apenas 1. Onde o resultado for diferente de 1 haverá uma falha. Vejamos como fazer isso na prática.

**1.** - Ordenação do conjunto de dados com base no número das faturas

In [2]:
faturas <- faturas[order(faturas$InvoiceNo),]

**2.** - Cálculo das diferenças

In [3]:
diferencas <- diff(faturas$InvoiceNo)

**3.** - Identificação dos registros onde há gaps

In [4]:
which(diferencas != 1)

O resultado acima mostra que há problema entre os itens mostrados e seus sucessores, ou seja, entre os itens 11 e 12, 12 e 13 e entre os itens 23 e 24.

Agora é só inspecionar estes itens:

In [5]:
faturas[c(11,12, 13, 23, 24),]

Unnamed: 0,Date,InvoiceNo,CustomerNo,SalesPerson,ProductNo,UnitPrice,Quantity,Amount
11,14/01/2003,20010,10439,19,38,7.45,28,208.6
12,14/01/2003,20010,10439,99,38,7.45,28,208.6
13,29/08/2003,20012,10919,11,31,21.05,28,589.4
23,29/11/2003,20022,10355,15,12,46.0,12,552.0
24,17/01/2003,20024,10459,24,61,31.0,42,1302.0


A análise do quadro acime evidencia as seguintes situações: a fatura 20010 está duplicada, faltam as faturas 20011 e 20023.