# Estatística Descritiva

O R dispõe de diversas funções para o cálculo de estatísticas descritivas, dentre as quais destacamos:

* `max()` - retorna o valor máximo de um campo   
* `min()` - retorna o valor mínimo de um campo    
* `mean()` - retorna a média de um campo   
* `median()` - retorna a mediana de um campo   
* `sd()` - retorna o desvio padrão de um campo   
* `var()` - retorna a variância de um campo   
* `sum()` - retorna a soma (total) de um campo   
* `length()` - retorna a quantidade de elementos em um campo   
* `range()` - retorne os valores mínimo e máximo de um campo   
* `quantile()` - retorna os quantis de um campo.   

Para ilustrar o uso dessas funções vamos usar o conjunto de dados `Invoices.csv`.

In [1]:
setwd('C:\\Users\\Marcos\\Documents\\GitHub\\Usando-R-em-Auditoria\\dados')
faturas <- read.csv2("Invoices.csv")
head(faturas)

Date,InvoiceNo,CustomerNo,SalesPerson,ProductNo,UnitPrice,Quantity,Amount
09/07/2003,20000,10220,8,8,9.2,41,377.2
21/08/2003,20001,10491,4,48,14.0,30,420.0
27/08/2003,20002,10704,3,43,15.0,25,375.0
28/05/2003,20003,10430,5,54,24.0,22,528.0
06/12/2003,20004,10841,17,11,15.0,21,315.0
24/05/2003,20005,10777,1,5,12.5,50,625.0


In [4]:
max(faturas$Amount)

In [5]:
min(faturas$Amount)

In [6]:
mean(faturas$Amount)

In [7]:
median(faturas$Amount)

In [8]:
sd(faturas$Amount)

In [9]:
var(faturas$Amount)

In [10]:
sum(faturas$Amount)

In [11]:
length(faturas$Amount)

In [12]:
range(faturas$Amount)

In [13]:
quantile(faturas$Amount, probs=c(.25, .50, .75))

In [14]:
quantile(faturas$Amount, probs=seq(0, 1, 0.1))

Como pode ser visto, as funções acima operam sobre apenas um campo da base de dados e retornam apenas uma estatística. Pode ser desejável que uma função retorne mais de uma estatística para o mesmo campo. Para essa finalidade existe a função `summary()` que retorna as seguintes estatísticas: mínimo, primeiro quartil, mediana, média, terceiro quartil e máximo. Exemplo:

In [15]:
summary(faturas$Amount)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    5.0   218.5   450.0   785.6   837.3 13440.0 

In [16]:
sapply(faturas, class)

O campo `Date` foi "lido" pelo R como se fosse  um fator.  Para converver este campo para a classe `Date`, podemos fazer:

In [19]:
faturas$Date <- as.Date(faturas$Date, "%d/%m/%Y")
str(faturas)

'data.frame':	4999 obs. of  8 variables:
 $ Date       : Date, format: "2003-07-09" "2003-08-21" ...
 $ InvoiceNo  : int  20000 20001 20002 20003 20004 20005 20006 20007 20008 20009 ...
 $ CustomerNo : int  10220 10491 10704 10430 10841 10777 10653 10413 10654 10300 ...
 $ SalesPerson: int  8 4 3 5 17 1 19 12 12 1 ...
 $ ProductNo  : int  8 48 43 54 11 5 58 61 4 10 ...
 $ UnitPrice  : num  9.2 14 15 24 15 12.5 24 31 34.8 49.3 ...
 $ Quantity   : int  41 30 25 22 21 50 2 51 21 5 ...
 $ Amount     : num  377 420 375 528 315 ...


Para obtermos estatísticas descritivas de todos os campos do conjunto de dados também é possível utilizar a função `summary()`.

In [18]:
summary(faturas)

      Date              InvoiceNo       CustomerNo     SalesPerson   
 Min.   :2003-01-01   Min.   :20000   Min.   :10000   Min.   : 1.00  
 1st Qu.:2003-04-05   1st Qu.:21251   1st Qu.:10276   1st Qu.: 7.00  
 Median :2003-07-07   Median :22500   Median :10515   Median :13.00  
 Mean   :2003-07-05   Mean   :22500   Mean   :10510   Mean   :13.54  
 3rd Qu.:2003-10-04   3rd Qu.:23750   3rd Qu.:10752   3rd Qu.:20.00  
 Max.   :2003-12-31   Max.   :24999   Max.   :11000   Max.   :99.00  
   ProductNo       UnitPrice         Quantity         Amount       
 Min.   : 1.00   Min.   :  2.50   Min.   : 1.00   Min.   :    5.0  
 1st Qu.:20.00   1st Qu.: 12.50   1st Qu.:14.00   1st Qu.:  218.5  
 Median :39.00   Median : 19.00   Median :26.00   Median :  450.0  
 Mean   :38.99   Mean   : 30.27   Mean   :26.16   Mean   :  785.6  
 3rd Qu.:58.00   3rd Qu.: 32.80   3rd Qu.:39.00   3rd Qu.:  837.3  
 Max.   :77.00   Max.   :263.50   Max.   :51.00   Max.   :13438.5  

**Marcos F Silva**