<a href="https://colab.research.google.com/github/ogabrielcustodio/medidasDeDispersao/blob/main/Medidas_de_Dispers%C3%A3o.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Medidas de Dispersão

As medidas de dispersão são medidas que medem a variação dos dados em relação a média. As medidas mais usadas são: variância, desvio padrão e coeficiente de variação.

## Variância

A variância é uma medida de dispersão que calcula a distância dos valores em relação à média. Como podemos lidar com dados populacionais ou amostrais, a variância se comporta de forma diferente nesses dois cenários, justamente para ajustar o efeito dos valores extremos. A principal diferença está na divisão realizada ao final da soma dos valores elevados ao quadrado. Na variância amostral, os valores são divididos pelo número da amostra menos um, enquanto na variância populacional, os valores são divididos pelo número total da população. É bom lembrar que, por considerar a média, a variância pode ser influenciada por valores extremos, tanto na variância populacional quanto na amostral, embora a variância amostral tenha um ajuste (divisão por n-1) para compensar o viés amostral.



In [1]:
numeros = [1,2,3,4,5]

In [2]:
def media(numeros):
    return sum(numeros)/len(numeros)

In [3]:
media(numeros)

3.0

A 1ª parte do cálculo da variância é retirar a média e diminuir cada valor pela média e somar o resultado de cada subtração, contudo esse resultado deve ser elevado a dois. Repare que nesse 1º exemplo não elevamos e o resultado foi zero, isso ocorre porque a substração dará valores negativos que se somados aos valores positivos irão zerar os  resultados.

In [4]:
(1-3) + (2-3) + (3-3) + (4-3) + (5-3)

0

A 1ª parte do cálculo da variância só que agora elevando os resultados de cada subtração ao quadrado, repare que o resultado foi maior que o resultado anterior onde não houve a elevação ao quadrado.

In [5]:
(1-3)**2 + (2-3)**2 + (3-3)**2 + (4-3)**2 + (5-3)**2

10

A 1ª parte do cálculo da variância é a distância dos valores em relação a média, essa distância é calculada a partir da subtração de cada valor pela média elevando cada valor ao quadrado.

## Função para calcular a variância amostral sem uso de biblioteca

In [6]:
def varianciaAmostral(numeros):
  mediaNumeros = media(numeros)
  tamanhoNumeros = len(numeros)

  variacoesQuadradas = []
  for observacao in numeros:
    diferencaValores = (observacao-mediaNumeros)**2
    variacoesQuadradas.append(diferencaValores)

    variancia = sum(variacoesQuadradas)/(tamanhoNumeros-1)
  return variancia

Na função acima alem de realizarmos a média com uso da função média que criamos anteriormente fizemos também o cálculo da variância para cada observação dentro da lista numeros, em seguida fizemos aquela 1ª parte que mencionamos anteriormente e adicionamos o resultado em uma nova lista para ao final somar todos os valores da lista e dividir pelo tamanho da lista menos  um.

In [7]:
varianciaAmostral(numeros)

2.5

## Calculando a variância usando a biblioteca Numpy

In [8]:
import numpy as np

Para calcularmos a variância usando o numpy basta acessar o método var e passar para ele por parâmetro o array, contudo vale lembrar que o 2º argumento deve ser passado somente em caso de variância amostral, isso porque sem ele será calculado a variância populacional.

In [9]:
np.var(numeros, ddof=1)

2.5

## Aplicando a documentação do Numpy sobre o método var()

Abaixo uma pequena aplicação do que é explicado na documentação do numpy em relação ao cálculo da variância em matrizes, além do uso do axis especificando eixo em que deve ser calculado a variância.

In [10]:
a = np.array([[1,2], [3,4]])

Nesse caso usando o método array estou criando uma matriz de duas colunas e duas linhas, a seguir veremos o cálculo da variância de toda a matriz e depois apenas das colunas. As variâncias a seguir são populacionais.

In [11]:
a

array([[1, 2],
       [3, 4]])

**Variância de toda a matriz**

In [12]:
np.var(a)

1.25

**Variância apenas das colunas**

In [13]:
np.var(a, axis=0)

array([1., 1.])

**Variância apenas das linhas**

In [14]:
np.var(a, axis=1)

array([0.25, 0.25])

**Exemplo de uma variância amostral apenas das colunas**

In [15]:
np.var(a, axis=0, ddof=1)

array([2., 2.])

## Calculando a variância usando a biblioteca Pandas

A diferença entre calcular a variância usando o pandas ou o numpy é que o pandas calcula a variância amostral sem precisar passar qualquer valor por argumento, basta que a coluna do dataframe a qual desejamos fazer a variância acesse o método var. Enquanto que no numpy o acesso ao método ocorre direto pela biblioteca e é preciso passar o objeto em estudo por parâmetro, assim como o ddof para especificar de que se trata de uma variância amostral.

In [16]:
import pandas as pd

In [18]:
df = pd.DataFrame(numeros)

In [19]:
df.var()

0    2.5
dtype: float64

## Desvio Padrão com pandas e numpy

A variância eleva os valores ao quadrado como vimos, isso altera a escala desses valores, para padronizar essa escala, usamos o desvio padrão que será a raiz quadrada da variância.

**Desvio Padrão com Numpy**

In [22]:
np.std(numeros, ddof=1)

1.5811388300841898

**Desvio Padrão com Pandas**

In [21]:
df.std()

0    1.581139
dtype: float64

**Observação:** vale lembrar que assim como na variância, o desvio padrão tem muda quando calculamos de forma amostral e de forma populacional. Por padrão o pandas já calcula o desvio padrão amostral, para mudar isso devemos zerar o ddof = 0, deste modo ele calculará o desvio padrão populacional. Também por padrão o numpy calcula o desvio padrão populacional e neste caso devemos dizer que ddof = 1 para que ele calcule o desvio padrão amostral.