# Estratificação

A estratificação consiste em classificar os registros de um arquivo de dados em estratos mutuamente exclusivos.  Em auditoria, esta classificação é feita usualmente com base em valores monetários. O procedimento consiste em se estabelecer faixas de valores e indicar, para cada registro, a que faixa de valor ele pertence.

Para ilustrar a execução deste procedimento, será utilizado o conjunto de dados `Invoices.csv`.

O primeiro passo para se definir os estratos consiste em se estabelecer as faixas de valores para a variável a ser utilizada na estratificação nas quais se deseja classificar os registros. Para isso, faz-se necessário conhecer os valores máximo e mínimo do conjunto de dados, o que pode ser feito facilmente com a função `range()`.

In [1]:
setwd('C:\\Users\\Marcos\\Documents\\GitHub\\Usando-R-em-Auditoria\\dados')
faturamento <- read.csv2("Invoices.csv")
head(faturamento)

Date,InvoiceNo,CustomerNo,SalesPerson,ProductNo,UnitPrice,Quantity,Amount
09/07/2003,20000,10220,8,8,9.2,41,377.2
21/08/2003,20001,10491,4,48,14.0,30,420.0
27/08/2003,20002,10704,3,43,15.0,25,375.0
28/05/2003,20003,10430,5,54,24.0,22,528.0
06/12/2003,20004,10841,17,11,15.0,21,315.0
24/05/2003,20005,10777,1,5,12.5,50,625.0


In [2]:
range(faturamento$Amount)

Considerando que os valores das faturas variam entre R\$ 5,00 e R\$ 13.438,5 e que desejamos estabelecer 3 estratos (baixos valores, valores medianos e altos valores) poderíamos ter os seguintes estratos:

**Estrato 1** - R\$ 5,00 a R\$1.000,00    
**Estrato 2** - R\$ 1.000,01 a R\$10.000,00   
**Estrato 3** - R\$ 10.000,01 a R\$ 13.438,50   

A definição da quantidade de estratos (3 neste exemplo) e da amplitude de cada faixa é uma escolha subjetiva do auditor.  Deve-se observar que as faixas de valores podem ou não ter a mesma amplitude.

Para realizar a classificação dos registros da base de dados em cada um dos estratos definidos utiliza-sa a função **`cut()`**, como exemplificado a seguir:

In [3]:
faturamento$Estratos <- cut(faturamento$Amount,
                            breaks=c(0.00, 1000.00, 10000.00, 13500.00),
                            labels=c("Baixo", "Medio", "Alto"))

head(faturamento)

Date,InvoiceNo,CustomerNo,SalesPerson,ProductNo,UnitPrice,Quantity,Amount,Estratos
09/07/2003,20000,10220,8,8,9.2,41,377.2,Baixo
21/08/2003,20001,10491,4,48,14.0,30,420.0,Baixo
27/08/2003,20002,10704,3,43,15.0,25,375.0,Baixo
28/05/2003,20003,10430,5,54,24.0,22,528.0,Baixo
06/12/2003,20004,10841,17,11,15.0,21,315.0,Baixo
24/05/2003,20005,10777,1,5,12.5,50,625.0,Baixo


Agora o conjunto de dados faturamento contém uma coluna (`Estratos`) que classifica cada registro em um dos 3 estratos definidos pelo auditor.

Feita a estratificação, pode-se agora calcular a quantidade de registros em cada estrato, o valor médio de cada estrato, a percentagem cada estrato representa do valor total, etc.  Este é o assunto do tópico **Sumarização**.

Para dividir a base de dados em `n` estratos de igual amplitude poderíamos utilizar o argumento `breaks=`. Supondo que quiséssemos dividir a base de dados em 10 estratos de mesma amplitude poderíamos fazer da seguinte forma:

In [4]:
faturamento$Estratos2 <- cut(faturamento$Amount, breaks=10, dig.lab=5)
head(faturamento)

Date,InvoiceNo,CustomerNo,SalesPerson,ProductNo,UnitPrice,Quantity,Amount,Estratos,Estratos2
09/07/2003,20000,10220,8,8,9.2,41,377.2,Baixo,"(-8.4335,1348.3]"
21/08/2003,20001,10491,4,48,14.0,30,420.0,Baixo,"(-8.4335,1348.3]"
27/08/2003,20002,10704,3,43,15.0,25,375.0,Baixo,"(-8.4335,1348.3]"
28/05/2003,20003,10430,5,54,24.0,22,528.0,Baixo,"(-8.4335,1348.3]"
06/12/2003,20004,10841,17,11,15.0,21,315.0,Baixo,"(-8.4335,1348.3]"
24/05/2003,20005,10777,1,5,12.5,50,625.0,Baixo,"(-8.4335,1348.3]"


Os estrados definidos podem ser consultados da seguinte forma:

In [5]:
levels(faturamento$Estratos2)

Observe que, como não foi fornececido nomes para os estratos, a exemplo do que foi feito anteriormente, a função `cut()` retorna os estratos no formato de intervalos abertos à esquerda e fechados à direita. O argumento `dig.lab=` foi utilizado para eviter que os limites dos intervalos fossem fornecidos em notação cientifica. Este argumento fornece a quantidade de dígitos a ser utilizada para elaborar os limites dos intervalos.

**Marcos F Silva**