## Escore Z na detecção de Outiliers

O termo Escore Z, valor Z ou simplesmente Z é uma medida estatística de um número em relação à média do grupo de números. Refere-se a pontos ao longo da base da curva normal padronizada. O ponto central da curva tem um valor Z de 0. Valores Z à direita de 0 são positivos e os valores de Z à esquerda são valores negativos. Um escore Z está acima da média se estiver à direita de 0 e abaixo da média se estiver à esquerda do 0 como ponto central. A distância da média é medida por desvios padrão. Se o escore Z for 0, é 0 o desvio padrão em relação a média, significando que o valor é igual à média.

O escore Z é calculado considerando a diferença entre o número e a média e depois dividindo a diferença obtida pelo desvio padrão.

## Z = (X – μ)/σ


X representa o número bruto. A média da população é representada por μ e o desvio padrão é o símbolo σ.

Um escore Z é padronizado. É irrelevante se você está comparando dólares canadenses, dólares americanos, euros ou libras. De fato, a unidade pode estar medindo altura, peso, níveis de escolaridade ou notas nos testes. O escore Z é sempre relativo à média que é o centro ou designada como zero. O escore Z informa muito sobre a distribuição dos números no seu conjunto de dados e pode destacar extremos.

Com o escore Z, a área sob a curva normal pode ser determinada utilizando-se de algum software ou olhando para as tabelas. Você pode pesquisar essas tabelas na Internet. Um exemplo está localizado em https://cursosextensao.usp.br/mod/resource/view.php?id=24361

Um escore Z de 1,50 indica que 43,32% da área sob a curva normal está localizada entre a média e o escore Z de 1,50. Quanta área sob a curva seria a pontuação Z entre –1,96 e +1,96? Como observamos os lados negativo e positivo da média, multiplicamos a área entre a média e Z por 2 (0,4750 * 2), resultando em 95%. Quanto maior o valor absoluto do escore Z, mais longe o número está da média ou do padrão. O auditor pode desejar examinar as transações que são extremos.

A teoria estatística afirma que, em 99,7% das vezes, o Escore Z estará entre –3,00 e +3,00. Estará entre –2,00 e +2,00 por 95% das vezes e 68% das vezes, entre –1,00 e +1,00.

Vamos analisar 2 datasets para ver o Escore Z em ação:

In [1]:
# Importando as bibliotecas necessárias para a análise.
import pandas as pd
import numpy as np 
from scipy import stats 
import statistics 

Primeiro vamos analisar um conjunto de dados contendo pagamentos. Analisaremos a coluna 'AMOUNT'(montante). Primeiro, veremos qual a média dessa coluna, depois veremos qual o desvio-padrão, e por último criaremos uma coluna 'Z_Score', contendo o escore Z de cada pagamento, o que vai nos permitir ter uma noção de quão longe cada valor está em relação a média, para que você possamos avaliar a magnitude da anomalia caso verifiquemos alguma.

In [2]:
# Importanto o conjunto de dados 'Payments'
dates = ['INVOICE_DATE_DATE','PAY_DATE_DATE']
pagamentos = pd.read_csv('Payments.csv', parse_dates=dates)
pagamentos.head() # Mostrando as 5 primeiros linhas do Dataset.

Unnamed: 0,POSTED_BY,SUPPNO,SUPPNAME,INVOICE_DATE_DATE,INVOICE_DATE_TIME,INVOICE,CHEQUE,PAY_DATE_DATE,PAY_DATE_TIME,PURCH_ORDE,AUTH,AMOUNT,MEMO
0,KSA,10500,AASMAN DESIGN INC,2011-12-29,00:00:00,81344,B52198,2011-03-05,00:00:00,100092100,CW,545.09,
1,MIA,10900,ACKLANDS - GRAINGER INC,2011-12-29,00:00:00,35222DUF,B52231,2011-03-15,00:00:00,100095400,BC,485.19,Sponsor - Women Labor Association
2,SOUB,11400,AG JOYERIA,2011-12-29,00:00:00,54655,C51006,2011-03-18,00:00:00,100095800,BC,227.62,Adjustments by the refinery
3,KSA,11810,DKNY INC.,2011-12-29,00:00:00,25G,B52194,2011-03-04,00:00:00,100091700,HMV,4839.92,Adjustments confirmed by the refinery
4,ERIC,12203,ANKE KRUSE ORGANICS INC,2011-12-29,00:00:00,AB 3265 M,C51021,2011-03-23,00:00:00,100097400,HMV,820.63,


In [3]:
# Calculando a média da coluna 'AMOUNT'
pagamentos.AMOUNT.mean()

20270.35329729729

In [4]:
# Calculando o desvio padrão da coluna 'AMOUNT'
np.std(pagamentos.AMOUNT)

26006.28833536601

In [5]:
# Criando a colua 'Z_Score' para a coluna 'AMOUNT' e colocando a coluna 'Z_Score' em ordem decrescente.
pagamentos['Z_Score'] = stats.zscore(pagamentos.AMOUNT, axis = 0)
pagamentos.sort_values('Z_Score', ascending= False).head(10) # Mostrando os 10 primeiros resultados

Unnamed: 0,POSTED_BY,SUPPNO,SUPPNAME,INVOICE_DATE_DATE,INVOICE_DATE_TIME,INVOICE,CHEQUE,PAY_DATE_DATE,PAY_DATE_TIME,PURCH_ORDE,AUTH,AMOUNT,MEMO,Z_Score
109,MIA,99999,PENNY CILLIN,2011-01-04,00:00:00,5750MCC,B52166,2011-02-24,00:00:00,100088900,HMV,97376.4,,2.9649
19,KSA,20535,JOHN PETERSON,2011-01-05,00:00:00,54976/10,B52117,2011-02-10,00:00:00,100084100,V.S.T,96166.49,,2.918376
35,MIA,20849,TIMEX INC.,2011-01-10,00:00:00,BUR1345-G,A52672,2011-02-10,00:00:00,100084900,HMV,94329.52,,2.847741
91,ERIC,92411,SAAN STORES LTD.,2011-01-08,00:00:00,10010 A,B52128,2011-02-14,00:00:00,100086700,HMV,86441.66,,2.544435
126,MIA,99999,POLLY GUNN,2011-01-07,00:00:00,97/1247/A,B52144,2011-02-17,00:00:00,100082400,BC,86117.39,,2.531966
70,CW,60600,MULTI-LINGUAL TEK INC.,2011-01-09,00:00:00,316/4/QPZ/1,B52123,2011-02-13,00:00:00,100081400,H.M.V.,85728.78,,2.517023
113,CW,99999,WANDA FARR,2011-01-06,00:00:00,9359 NL,B52139,2011-02-17,00:00:00,100085800,BC,83880.73,,2.445961
57,MIA,40205,LOCKSMITH SERVICES LTD,2011-01-16,00:00:00,WNZ28C,A52640,2011-01-31,00:00:00,100080200,BC,79571.88,,2.280276
137,MIA,99999,N RICH,2011-01-01,00:00:00,51505,B52146,2011-02-17,00:00:00,100086900,H.M.V.,79500.0,,2.277512
38,CW,21174,SWISS ARMY INC.,2011-01-15,00:00:00,566698T,A52650,2011-02-03,00:00:00,100086000,BC,79237.49,,2.267418


In [6]:
pagamentos.sort_values('Z_Score', ascending= False).tail(10) # Mostrando os 10 últimos resultados

Unnamed: 0,POSTED_BY,SUPPNO,SUPPNAME,INVOICE_DATE_DATE,INVOICE_DATE_TIME,INVOICE,CHEQUE,PAY_DATE_DATE,PAY_DATE_TIME,PURCH_ORDE,AUTH,AMOUNT,MEMO,Z_Score
73,KSA,61900,NORTHERN HOSPITAL SUPPLIES LTD,2011-12-29,00:00:00,L-1252/59,C51023,2011-03-25,00:00:00,100097600,V.S.T,59.9,,-0.777137
119,KSA,99999,P GREEN,2011-12-29,00:00:00,566727T,B52203,2011-03-07,00:00:00,100092600,BC,54.32,,-0.777352
68,MIA,60005,MSS LTD.,2011-01-15,00:00:00,14598,A52652,2011-02-03,00:00:00,100090000,HMV,50.63,,-0.777494
78,KSA,92211,RICARDO BAL,2011-12-29,00:00:00,LBQ-690-XY,B52232,2011-03-17,00:00:00,100095400,BC,45.34,,-0.777697
63,DES,40713,MACKENZIE PETROLEUM LTD.,2011-12-29,00:00:00,7899450,C51009,2011-03-21,00:00:00,100096100,BC,11.98,,-0.77898
181,MIA,99999,A MEADOW,2011-12-29,00:00:00,659823,B52229,2011-03-15,00:00:00,100095200,HMV,4.34,Petty cash,-0.779274
123,DES,99999,MICROCOMPUTERS,2011-12-29,00:00:00,IN 6462 97,C51015,2011-03-22,00:00:00,100096900,BC,0.0,,-0.77944
135,WJT,99999,A RAID,2011-12-29,00:00:00,WNZ36C,B52195,2011-03-04,00:00:00,100091800,CB,-695.5,Adjustments from refinery,-0.806184
173,MIA,99999,P GREEN,2011-12-29,00:00:00,232 A2Z,B52227,2011-03-13,00:00:00,100095000,WJT,-1198.0,Adjustments refinery,-0.825506
65,SOUB,40713,MACKENZIE PETROLEUM LTD.,2011-12-29,00:00:00,7899449,B52183,2011-03-01,00:00:00,100090600,HMV,-1994.67,Adjustments after refinery,-0.85614


Como podemos verificar, não houve nenhum caso que o Escore Z superou + 3.00 e nem - 3.00.

No próximo dataset, temos dados sobre faturas, nele faremos os mesmos procedimentos do dataset anterior, porém, veremos que temos valores de Escore Z bem elevados.

In [7]:
# Importando o dataset
faturas = pd.read_csv('Invoices.csv', sep =';')
faturas['Amount'] = faturas['Amount'].apply(lambda x: x.replace('$', '').replace(',', '.')).astype('float') # Transformando a
# coluna 'Amount' em uma coluna numérica.
faturas.head()

Unnamed: 0,Date,InvoiceNo,CustomerNo,SalesPerson,ProductNo,UnitPrice,Quantity,Amount
0,09/07/2003,20000,10220,8,8,920,41,377.2
1,21/08/2003,20001,10491,4,48,1400,30,420.0
2,27/08/2003,20002,10704,3,43,1500,25,375.0
3,28/05/2003,20003,10430,5,54,2400,22,528.0
4,06/12/2003,20004,10841,17,11,1500,21,315.0


In [8]:
# Calculando a média da coluna 'Amount'
faturas.Amount.mean()

785.5941268253656

In [9]:
# Calculando o desvio padrão da coluna 'Amount'
np.std(faturas.Amount)

1293.9044106281592

In [10]:
# Criando a colua 'Z_Score' para a coluna 'Amount' e colocando a coluna 'Z_Score' em ordem decrescente
faturas['Z_Score'] = stats.zscore(faturas.Amount, axis = 0)
faturas.sort_values('Z_Score', ascending= False).head(10) # Mostrando os 10 primeiros resultados

Unnamed: 0,Date,InvoiceNo,CustomerNo,SalesPerson,ProductNo,UnitPrice,Quantity,Amount,Z_Score
4046,28/02/2003,24047,10073,22,60,26350,51,13438.5,9.778857
3183,24/04/2003,23184,10913,9,14,26350,51,13438.5,9.778857
251,11/07/2003,20252,10636,9,60,26350,49,12911.5,9.371562
1548,12/06/2003,21549,10181,12,14,26350,49,12911.5,9.371562
271,06/07/2003,20272,10934,15,60,26350,48,12648.0,9.167915
158,30/07/2003,20159,10894,2,60,26350,47,12384.5,8.964268
4283,05/05/2003,24284,10655,23,60,26350,47,12384.5,8.964268
1460,19/04/2003,21461,10473,23,14,26350,46,12121.0,8.760621
350,27/06/2003,20351,10208,10,60,26350,46,12121.0,8.760621
3210,06/05/2003,23211,10365,25,14,26350,46,12121.0,8.760621


In [11]:
faturas.sort_values('Z_Score', ascending= False).tail(10) # Mostrando os 10 últimos resultados

Unnamed: 0,Date,InvoiceNo,CustomerNo,SalesPerson,ProductNo,UnitPrice,Quantity,Amount,Z_Score
4144,20/09/2003,24145,10938,23,55,900,1,9.0,-0.600194
4361,01/06/2003,24362,10987,12,34,250,3,7.5,-0.601354
2371,22/08/2003,22372,10617,22,34,250,3,7.5,-0.601354
3720,13/10/2003,23721,10325,15,42,700,1,7.0,-0.60174
493,27/12/2003,20494,10354,17,47,700,1,7.0,-0.60174
628,06/01/2003,20629,10304,25,53,600,1,6.0,-0.602513
3025,14/03/2003,23026,10487,12,34,250,2,5.0,-0.603286
2565,08/01/2003,22566,10344,6,34,250,2,5.0,-0.603286
2692,25/03/2003,22693,10666,17,34,250,2,5.0,-0.603286
477,21/06/2003,20478,10597,16,34,250,2,5.0,-0.603286


Nesse dataset, vemos que há vários pagamentos com Escore Z maior que 8, ou seja, demonstra uma grande variação com relação a média.
O auditor precisa julgar quantos *outiliers* devem ser examinados detalhadamente ou determinar um *cut-off* com relação ao Escore Z.