# Duplicidade

A identificação de valores duplicados em um conjunto de dados é uma tarefa executada rotineiramente pelos auditores com o objetivo de identificar repetições indevidas de valores.

Para a execução deste procedimento, o R dispõe da função **`duplicated()`** que identifica os índices dos valores que são repetições de valores anteriores existentes no campo. Esta função também pode ser utilizada para identificar registros duplicados na base de dados.

Vamos ilustrar este procedimento utilizando o conjunto de dados `Invoices.csv`, objetivando encontrar números de faturas repetidas na base de dados.

In [1]:
setwd('C:\\Users\\Marcos\\Documents\\GitHub\\Usando-R-em-Auditoria\\dados')
faturamento <- read.csv2("Invoices.csv")
faturamento[duplicated(faturamento$InvoiceNo),]

Unnamed: 0,Date,InvoiceNo,CustomerNo,SalesPerson,ProductNo,UnitPrice,Quantity,Amount
12,14/01/2003,20010,10439,99,38,7.45,28,208.6


A saída acima indica que a fatura de número `20010` é repetida. Para identificarmos a fatura “original” podemos utilizar a função `subset()` conforme evidenciado a seguir:

In [2]:
subset(faturamento, InvoiceNo == 20010)

Unnamed: 0,Date,InvoiceNo,CustomerNo,SalesPerson,ProductNo,UnitPrice,Quantity,Amount
11,14/01/2003,20010,10439,19,38,7.45,28,208.6
12,14/01/2003,20010,10439,99,38,7.45,28,208.6


Um procedimento mais geral para selecionarmos na base de dados de uma só vez tanto os valores “originais” quanto as repetições será apresentado a seguir:

In [3]:
repetidos <- faturamento$InvoiceNo[duplicated(faturamento$InvoiceNo)]
repetidos

In [4]:
subset(faturamento, InvoiceNo %in% repetidos)

Unnamed: 0,Date,InvoiceNo,CustomerNo,SalesPerson,ProductNo,UnitPrice,Quantity,Amount
11,14/01/2003,20010,10439,19,38,7.45,28,208.6
12,14/01/2003,20010,10439,99,38,7.45,28,208.6


Neste exemplo existe apenas um valor repetido, mas caso houvesse mais, todos seriam listados.