# Quartis, Percentis e Outliers

**Antes de definirmos quartis e percentis, é necessário conhecermos o conceito de separatrizes**

## Separatrizes

**Separatrizes** são valores que dividem a distribuição dos dados em um número de partes iguais. Como exemplo de separatriz, temos a mediada, que distribui os dados em duas partes iguais

![](./images/DetalheMediana.png)

## Quartis

**Sendo assim, quartis são separatrizes que distribuem o conjunto de dados ordenados em 4 partes iguais e portanto 3 quartis**

- O **primeiro quartil (Q1) ou quartil inferior** é o valor que delimita os 25% valores menores do conjunto em questão

    - (n+1)/4

- O **segundo quartil (Q2)** é o valor que delimita os 50% valores menores do conjunto em questão. Aqui vale ressaltar que o Q2 coincide com a mediana, separando o conjunto exatamente na metade

    - (n+1)/2

- O **terceiro quartil (Q3) ou quartil superior** é o valor que delimita os 75% valores menores do conjunto em questão

    - 3*(n+1)/4

### Exemplo

**Amostra**: { 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36 }

**Amostra Ordenada**: { 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49 }

**Quartis**
- Q1 = 15
- Q2 = 40
- Q3 = 43

## Percentis

**Seguindo a lógica explicada para quartis, os percentis são medidas que dividem a amostra ordenada dos dados em 100 partes**

- O primeiro percentil (P1) é equivalente a n/100, onde n é o número de dados da amostra

- O segundo percentil (P2) é equivalente a 2n/100, onde n é o número de dados da amostra

### Exemplo

**Amostra Ordenada:** {43, 54, 56, 61, 62, 66, 68, 69, 69, 70, 71, 72, 77, 78, 79, 85, 87, 88, 89, 93, 95, 96, 98, 99, 99}

Para acharmos o 90º percentil, devemos multiplicar por 90% o tamanho da nossa amostra:

                  0.9 * 25 = 22.5 => 23.0

Procurando o 23º dado na nossa amostra, verificamos que o valor é 98.

Para acharmos o 20º percentil, devemos multiplicar por 20% o tamanho da nossa amostra:

                 0.2 * 25 = 5
                 
Nesse caso, como o número encontrado não precisou ser arrendondado, encontraremos o percentil somando o 5º e o 6º dados da nossa amostra.

                  (62 + 66)/2 = 64

## Outliers

Um **outlier** é um dado que difere significativamente dos outros dados contidos na amostra. Um outlier pode existir por conta de algum erro no abastecimento dessa amostra de dados e pode indicar eventualmente algum erro experimental. Vale a pena ressaltar que outlier podem causar análises estatísticas deturpadas.

![image.png](attachment:image.png)

## Identificando outlier pela distância interquartil

### Distância Interquartil

É uma medida estatística de dispersão equivalente à diferença entre o quartil superior e o quartil inferior. Em outras palavras:

                            IQR = Q3 - Q1

**Uma regra que é utilizada para dizer se um dado da nossa amostra é outlier é verificar se ele é maior que Q3 + 1.5 * IQR ou menor que Q1 - 1.5 * IQR.**

![image.png](attachment:image.png)

### Exemplo

A distribuição abaixo mostra as pontuações de 19 aplicações de um teste para motoristas. Quantos outliers nós vemos?

![](outliers.png)

As 19 aplicações podem ser ordenadas em:

{ 5, 7, 10, 15, 19, 21, 21, 22, 22, 23, 23, 23, 23, 23, 24, 24, 24, 24, 25 }

**Qual é a mediana?**

23

**Qual é o primeiro quartil?**

19

**Qual é o terceiro quartil?**

24

**Qual é a distância interquartil?**

24 - 19 = 5

**Calculando 1.5 * IQR**

7.5

Q1 - 1.5 * IQR = 11.5

Q3 + 1.5 * IQR = 35.25

**Quantos outliers temos em nossa amostra?**

3 (5, 7, 10)

### Referências

1. https://pt.wikipedia.org/wiki/Quartil
2. http://leg.ufpr.br/~shimakur/CE055/node24.html
3. https://www.dummies.com/education/math/statistics/how-to-calculate-percentiles-in-statistics/
4. https://pt.wikipedia.org/wiki/Percentil
5. https://www.khanacademy.org/math/statistics-probability/summarizing-quantitative-data/box-whisker-plots/a/identifying-outliers-iqr-rule
6. https://en.wikipedia.org/wiki/Interquartile_range