# Estatística Geral

In [4]:
DATASET = [15, 5, 3, 8, 10, 2, 7, 11, 12] # Dados para uso em exercícios

## Distribuição de frequência


### Rol:

Organizar os dados em ordem crescente ou decrescente.

In [43]:
DATASET.sort() # Ordena os dados em ordem crescente
DATASET

[2, 3, 5, 7, 8, 10, 11, 12, 15]

In [44]:
DATASET.sort(reverse=True) # Ordena os dados em ordem decrescente
DATASET

[15, 12, 11, 10, 8, 7, 5, 3, 2]

### Amplitude Total da distribuição de Frequência:

É a diferença existente entre o maior e o menor valor observado da distribuição de frequência. É determinada por:

In [45]:
AT = max(DATASET) - min(DATASET) # Amplitude total = máximo - mínimo
AT

13

### Número de classes de uma distribuição de frequência (K):

São os subintervalos nos quais são contadas as observações da variável. O número de classes (K) é calculado a partir de várias formas, por simplicidade usaremos a raíz quadrada de n, com n sendo a quantidade de valores da amostra.

In [46]:
K = len(DATASET) ** (1/2) # Número de classes
K

3.0

### Intervalo de classe ou amplitude do intervalo de classe (Ac): 

É o comprimento da classe.
Obtém-se o intervalo de cada classe a partir da divisão de AT por K.

In [47]:
AC = (max(DATASET) - min(DATASET)) / (len(DATASET) ** (1/2)) # Amplitude do intervalo de classe
AC

4.333333333333333

## Medidas de tendência central


In [5]:
import numpy as np
from scipy import stats

In [6]:
ARRAY = np.array(DATASET)

### Média aritmética:

Seja x1; x2; : : : ; xn, dos quais representam n valores distintos da variável X, então a média aritmética de X, que denotaremos por MEDIA é dada pela soma de todos os valores de X divido pela quantidade de valores existentes n.

In [50]:
MEDIA = np.mean(ARRAY)
MEDIA

8.11111111111111

### Mediana:

Organizando os valores em ordem crescente de grandeza, a mediana é o elemento que ocupa a posição central, ou seja, existem números iguais de elementos antes e depois da mediana. Ou ainda, é o valor a baixo e acima do qual tem-se a metade dos dados.

In [51]:
MEDIANA = np.median(ARRAY)
MEDIANA

8.0

### Moda:

Em algumas situações, a distribuição das observações é tal que as frequências são maiores nos extremos. Nesses casos, a utilização apenas da média e da mediana é contraindicada, pois são valores pouco representativos do conjunto, assim, o uso da moda poderá então ser considerado.

A moda de um conjunto de observações é o valor de maior ocorrência dentro do conjunto.

In [52]:
MODA = stats.mode(ARRAY)
MODA

ModeResult(mode=array([2]), count=array([1]))

## Medidas de dispersão


In [2]:
import numpy as np
from scipy import stats

In [7]:
ARRAY = np.array(DATASET)

### Variância:

A variância mede a dispersão dos valores em torno da média. Ela é dada pela soma dos quadrados dos desvios em relação à média aritmética, dividida pelo número de graus de liberdade. De uma maneira geral, o número de graus de liberdade associados a uma estatística é o número de elementos da amostra, n, menos o número de parâmetros (medidas da população) já estimados. Existem n menos um desvios independentes.

In [55]:
VARIANCIA = np.var(ARRAY)
VARIANCIA

16.54320987654321

### Desvio padrão:

Como medida de dispersão, a variância tem a desvantagem de apresentar unidade de medida igual ao quadrado da unidade de medida dos dados. Assim, por exemplo, se os dados são medidos em metros, a variância é dada em metros ao quadrado. Para voltarmos à unidade de medida original, precisamos de uma outra medida de dispersão. Então, se define desvio padrão como a raiz quadrada positiva da variância.

In [56]:
DESVIO = np.std(ARRAY)
DESVIO

4.067334492827361

### Coenficiente de variação:

Frequentemente, se tem o interesse em comparar variabilidades de diferentes conjuntos de valores. A comparação se torna difícil em situações onde as médias são muito desiguais ou as unidades de medida são diferentes. Nesses casos, o CV é indicado por ser uma medida de dispersão relativa. Note que o CV é o desvio padrão expresso em percentagem da média. É uma medida adimensional.

In [57]:
CV = (np.var(ARRAY) / np.mean(ARRAY)) * 100
CV

203.95738203957384

### Score Z ou Score padronizado:

O objetivo de se calcular o escore z é expressar em unidades de desvio padrão quanto um determinado número está distante da média.
A importância dos escores z na estatística reside no fato de que eles permitem distinguir entre valores usuais e valores raros, ou incomuns. Consideramos usuais os valores cujos escores padronizados estão entre –2,00 e 2,00, e incomuns os valores com escore z inferior a –2,00 ou superior a 2,00

In [8]:
SZ = (5 - np.mean(ARRAY)) / np.std(ARRAY)
SZ

-0.7649017105914141

## Medidas de tendência não central


In [58]:
import numpy as np
from scipy import stats

In [59]:
ARRAY = np.array(DATASET)

### Quantis:

A designação de quantil encontra-se associada à ideia de que os quantis dividem a distribuição de frequência em quantidades iguais, isto é, com igual número de observações. Chamaremos genericamente ao quantil de ordem p, Qp, ao valor tal que 100p% dos elementos da amostra são <= Qp e os restantes 100(1 - p)% são >= Qp, para p entre (0 < p < 1).

In [60]:
QUANTIL = np.percentile(ARRAY, 50) # exemplo de cálculo do segundo quartil que é igual a mediana
QUANTIL

8.0

### Quartis:

São valores dados a partir do conjunto de observações ordenado em ordem crescente, que dividem a distribuição em quatro partes iguais.

In [61]:
Q1 = np.percentile(ARRAY, 25) # exemplo de cálculo do primeiro quartil
Q1

5.0

In [62]:
Q3 = np.percentile(ARRAY, 75) # exemplo de cálculo do terceiro quartil
Q3

11.0

### Intervalo interquartil:

É a diferença entre o terceiro e o primeiro interquartil, o que toma 50% dos dados em torno da mediana.

In [63]:
A = np.percentile(ARRAY, 75) - np.percentile(ARRAY, 25)
A

6.0

### Valores discrepantes (ouliers):

Para identificação de outliers devemos construir intervalos de valores a partir da amostra, para isso utilizaremos os quartis. Assim, teremos que calcular o intervalo interquatil (A).

Existem duas formas de outliers, os demominados outlier moderado e o outlier extremo, o seu calculo é dado por:

a) Outilier moderado
OIM = Q1 - 1,5 * A
OSM = Q3 + 1,5 * A

b) Outilier extremo
OIE = Q1 - 3 * A
OSE = Q3 + 3 * A

Os valores de outliers delimitam o linha de fim dos gráficos de boxplot, o que define os valores 'válidos' como >= OI e <=OS.

In [64]:
OIM = np.percentile(ARRAY, 25) - 1.5 * (np.percentile(ARRAY, 75) - np.percentile(ARRAY, 25))
OIM # Outlier inferior moderado

-4.0

In [65]:
OSM = np.percentile(ARRAY, 75) + 1.5 * (np.percentile(ARRAY, 75) - np.percentile(ARRAY, 25))
OSM # Outlier superior moderado

20.0

In [66]:
OIE = np.percentile(ARRAY, 25) - 3 * (np.percentile(ARRAY, 75) - np.percentile(ARRAY, 25))
OIE # Outlier inferior extremo

-13.0

In [67]:
OSE = np.percentile(ARRAY, 75) + 3 * (np.percentile(ARRAY, 75) - np.percentile(ARRAY, 25))
OSE # Outlier superior extremo

29.0