# Médidas de dispersão: Amplitude Total e diferença interquartil 

In [1]:
import pandas as pd
import numpy as np
import statistics
from scipy import stats
import math

In [2]:
dados = np.array([150,151,152,152,153,154,155,155,155,155,156,156,156,
                 157,158,158,160,160,160,160,160,160,161,161,161,161,162,
                 163,163,164,164,164,165,166,167,168,168,169,170,172])

In [3]:
amplitude = dados.max() - dados.min()
amplitude

22

In [4]:
q1 = np.quantile(dados, 0.25) # 25% da base de dados
q3 = np.quantile(dados, 0.75) # 75% da base de dados

q1, q3

(155.75, 164.0)

In [5]:
# Diferença interquartil

diferenca_interquartil = q3 - q1 
diferenca_interquartil

8.25

In [6]:
# Cálculo do outlier inferior

inferior = q1 - (1.5 * diferenca_interquartil)
inferior

143.375

Caso tiver dados menores que esse valor, já pode ser considerado como um outlier

In [7]:
# Cálculo do outlier superior

superior = q3 + (1.5 * diferenca_interquartil)
superior

176.375

Caso tiver dados maiores que esse valor, já pode ser considerado como um outlier

É importante ressaltar que nem sempre um valor acima ou abaixo desses calculados é um outlier, é necessário compreender o contexto dos dados. Pois, apesar de um outlier afetar um modelo de Machine Learning, é possível observar que alguns dados não são outliers e representam algumas situações. 

### Variância

In [8]:
dados_impar = np.array([150, 151, 152, 152, 153, 154, 155, 155, 155])

In [20]:
### 1. Cálculo manual da variância

# 1.1. Cálculo da média
media = dados_impar.sum() / len(dados_impar)

# 1.2. Cálculo do desvio
desvio = abs(dados_impar - media)

# 1.3. Desvio
desvio = desvio ** 2

# 1.4. Somatorio
soma_desvio = desvio.sum()

# 1.5. Dividir pela quantidade e calcular variancia
v = soma_desvio/len(dados_impar)
print(f"Valor da variância {v}")

desvio_padrao = math.sqrt(v)
print(f"Desvio padrão: {desvio_padrao}")

Valor da variância 3.111111111111111
Desvio padrão: 1.7638342073763937


In [40]:
# Criando uma função

def get_variancia_desvio_padrao_coeficiente(dataset):
    media = dataset.sum()/len(dataset)
    desvio = abs(dados_impar - media)
    desvio = desvio ** 2
    soma_desvio = desvio.sum()
    variancia = soma_desvio/len(dados_impar)
    desvio_padrao = math.sqrt(variancia)
    cv = (desvio_padrao/media) * 100
    
    return variancia, desvio_padrao, cv

In [41]:
# Testando

get_variancia_desvio_padrao_coeficiente(dados_impar)

(3.111111111111111, 1.7638342073763937, 1.1528328152786886)

In [39]:
# Trabalhando com as bibliotecas

np.var(dados_impar)

3.111111111111111

In [16]:
np.var(dados)

29.897499999999997

É possível perceber que, a variância está alta. Por definição, a variância determina o quão é distante da média, então, se a variância é um valor alto, é possível interpretar que os dados oscilam muito. 

Outro ponto é tomar cuidado, pois nem sempre a variância indica o real valor da distância dos valores, é possível notar por exemplo para esses dados que, isso não indica que a variância entre os números é exatamente 30 cm, pois o valor min e max tem a diferença de 20 que é a amplitude

In [18]:
# Outra forma de calcular como a variância se comporta

statistics.variance(dados)

30

In [19]:
# Utilizando scipy 

from scipy import ndimage 

ndimage.variance(dados)  

29.897499999999997

In [28]:
# Calculo do desvio padrao

np.std(dados_impar)

1.7638342073763937

In [30]:
np.std(dados)

5.4678606419695805

Observa aqui o seguinte, em média, as alturas da base de dados, estão variando em torno de 5.46 cm com relação a média. 

In [31]:
statistics.stdev(dados) # Outro método para calcular o desvio padrao

5.477225575051661

In [33]:
stats.tstd(dados, ddof=0) # Outro método para calcular o desvio padrao

5.4678606419695805

In [36]:
# Coeficiente de variação

cv = (desvio_padrao / media) * 100
print(f"O valor de coeficiente de variação é: {cv}")

O valor de coeficiente de variação é: 1.1528328152786886


In [43]:
# Coeficiente de variacao usando scipy 

stats.variation(dados_impar) * 100

1.1528328152786886

In [44]:
stats.variation(dados) * 100

3.416345293326823

Analise o seguinte, indica que em média a altura das pessoas variam em torno de 5.46 cm na base de dados e isso representa 3.41% da variação da base de dados. 

E para avaliar se isso é bom ou não, fazendo comparação com base de dados. Que possuem a mesma características. 