# Medidas de centralidade

In [1]:
import numpy as np
import pandas as pd

## Média aritmética

É a soma de todos os resultados dividida pela quantidade de resultados.

X = x1 + x2 + x3 + ... xn / n

In [8]:
valores = np.array([10,20,30,40])

# Soma de todos os valores do array = 10 + 20 + 30 + 40
soma = valores.sum()

# Conta a quantidade de valores do array = 4
contagem = len(valores)

# Divide a soma pela quantidade de valores = 100 / 4
media = soma / contagem

# média = 25
media

25.0

In [9]:
# Claro que o numpy oferece uma função mais simples para o cálculo da média
valores.mean()

25.0

## Média ponderada

Na média ponderada, os valores possuem diferentes grandezas, ou seja tem diferentes importâncias ou aconteceram um número de vezes diferente durante a coleta de dados.

X = soma(Xi * fi) / N, onde N é igual a soma das grandezas (ou frequências)

In [29]:
dados = [[4,4],[5,6],[6,6],[7,4]]
grupoA = pd.DataFrame(dados, columns=['Idade', 'Frequência'])
grupoA

Unnamed: 0,Idade,Frequência
0,4,4
1,5,6
2,6,6
3,7,4


Para fazer o cálculo manual, temos:

> 
- X = (4 x 4) + (5 x 6) + (6 x 6) + (7 x 4) / (4 + 6 + 6 + 4)
- X = 16 + 30 + 36 + 28 / 20
- X = 110 / 20
- X = 5,5

In [32]:
# Aplicando na função average, apenas lançamos os valores, e depois suas grandezas (pesos) em weights
np.average(grupoA['Idade'], weights=grupoA['Frequência'])

5.5

## Mediana

A mediana de um conjunto de dados é o valor que ocupa a posição central, desde que estejam todos colocados em ordem crescente ou descrescente, ou seja, em um rol.

Dados os valores `5,8,4,6,7,3,4`

Precisamos ordená-los num rol: `3,4,4,5,6,7,8`

Se a quantidade de valores for **ímpar**, pegamos o valor do meio, se for **par**, somamos os dois valores centrais e dividimos por 2.

No exemplo temos 7 valores, ou seja, `Md=5` 

Agora vamos num rol com quantidade par: `0,4,5,6,7,7,8,10`

* `Md = 7+6 / 2 = 6,5` 

In [48]:
ex1 = np.array([5,8,4,6,7,3,4])
m_ex1 = np.median(ex1)

ex2 = np.array([0,4,5,6,7,7,8,10])
m_ex2 = np.median(ex2)

print('Mediana do exemplo 1 é %.2f e mediana do exemplo 2 é %.2f' % (m_ex1, m_ex2))

Mediana do exemplo 1 é 5.00 e mediana do exemplo 2 é 6.50


Vamos a mais um exemplo. Neste queremos saber como calcular a mediana dos alunos.

In [50]:
alturas = pd.read_csv('assets/alturas_frequencias.csv', delimiter=';')
alturas

Unnamed: 0,altura,frequencia,frequencia_acumulada
0,160,2,2
1,161,1,3
2,162,1,4
3,163,1,5
4,164,2,7
5,165,5,12
6,166,2,14
7,167,4,18
8,168,4,22
9,169,1,23


Como estes valores se repetem, consideramos as somas de suas frequências, no caso `50`. Sabemos que 50 é par, e precisamos pegar os valores das posições centrais `25` e `26`. Olhando para as frequências acumuladas, veremos que estes valores estão na linha da `altura 170`. Então:

`Md = 170 + 170 / 2 = 170`

In [54]:
alturas.median()

altura                  170.0
frequencia                2.0
frequencia_acumulada     30.0
dtype: float64

## Moda

Moda é o valor dos resultados de uma pesquisa que acontece com a maior frequência.

Xi | fi
--|--
5|3
6|5
7|11
8|10
9|5

Observando a tabela, vemos que `mo = 7`

In [82]:
# basta buscarmos a linha com o valor da maior frequência
alturas[alturas['frequencia'] == alturas['frequencia'].max()]

Unnamed: 0,altura,frequencia,frequencia_acumulada
10,170,7,30


# Medidas de dispersão

## Amplitude

É a diferença entre o maior e menor valor de uma série de dados. Vamos usar nossa base de alturas e verificar a amplitude:

In [88]:
alturas.describe() # aqui podemos ver o maior e menor valor

Unnamed: 0,altura,frequencia,frequencia_acumulada
count,21.0,21.0,21.0
mean,170.0,2.380952,26.190476
std,6.204837,1.627151,16.612101
min,160.0,1.0,2.0
25%,165.0,1.0,12.0
50%,170.0,2.0,30.0
75%,175.0,3.0,40.0
max,180.0,7.0,50.0


In [89]:
amp = alturas['altura'].max() - alturas['altura'].min()
amp

20

## Desvio médio

O desvio médio (Dm) é o afastamento de cada valor em relação a média.

Primeiro calculamos a média dos valores, e em seguida vamos subtrair cada valor pela média. A soma do resultados destes valores tem que dar zero. Numa segunda coluna, vamos ter o módulo de cada resultado, e também vamos somá-los.

Dado `med = 8`

X|Xi - med|modulo
-|-|-|
4|4 - 8 = -4|4
6|6 - 8 = -2|2
8|8 - 8 = 0|0
9|9 - 8 = 1|1
10|10 - 8 = 2|2
11|11 - 8 = 3|3
-|-|-|
|0|12

Depois de obtido o resultado, divimos pela quantidade de elementos. 
`Dm = 12 / 6 = 2`

In [91]:
lista = np.array([4,6,8,9,10,11])

# agora calculamos a media
media_lista = np.mean(lista)
media_lista

8.0

In [103]:
# Com esse formula fazemos a operação acima
dm = np.abs(lista - (media_lista)).sum() / len(lista)
print("O desvio médio é de %.2f" % dm)

O desvio médio é de 2.00


## Variância