# 1. Estatística Básica

In [7]:
import numpy as np
from scipy import stats

alturas = [1.62, 1.70, 1.72, 1.68, 1.70, 1.62, 1.70]

### Média

In [12]:
#Calculo da media
media = np.mean(alturas)
print(f'Média das alturas: {media:.2f}')

Média das alturas: 1.68


### Mediana

In [13]:
#Calculo da mediana
mediana = np.median(alturas)
print(f'Mediana das alturas: {mediana:.2f}')

Mediana das alturas: 1.70


### Moda

In [16]:
#Calculo da moda
moda = stats.mode(alturas)
print(f'A altura {moda[0][0]:.2f} é a moda e apareceu em {moda[1][0]} amostras.')

A altura 1.70 é a moda e apareceu em 3 amostras.


  moda = stats.mode(alturas)


Cuidado com a função mode do scipy. Para casos multimodias ela só retorna um valor. Para isso, podemos utilizar a função multimode da biblioteca statistics.

In [18]:
import statistics

alturas = [1.62, 1.70, 1.72, 1.68]
statistics.multimode(alturas)

[1.62, 1.7, 1.72, 1.68]

### Variância

Variância amostral
$$s^2 = \frac{\sum_{i=1}^{n}(x_i - \overline{x})^2}{n-1}$$ 

Variância populacional
$$\sigma^2 = \frac{\sum_{i=1}^{n}(x_i - \overline{x})^2}{n}$$ 

In [21]:
#Usando numpy: calcula a variancia populacional
alturas = [1.62, 1.70, 1.72, 1.68, 1.70, 1.62, 1.70]
np.var(alturas)

#Variancia Populacional
statistics.pvariance(alturas)

0.0014204081632653014

In [22]:
#Usando numpy: calcula a variancia amostral
np.var(alturas, ddof=1)

#Variância amostral dos dados
statistics.variance(alturas)

0.0016571428571428516

Além da variância, temos também o desvio padrão que é igual a raiz quadrada da variância e a amplitude que é a diferença entre o maior e o menor valor observado. Esta medida de variabilidade é fortemente influenciada por valores extremos nas observações, como outliers.

### Quartis

Vimos que a mediana é um valor que deixa metade dos dados abaixo dela e metade acima. Ela também é conhecida como o segundo quartil. Além dela, existem também o primeiro e o terceiro quartil, onde:

* $Q_1$ - 1º quartil (25º percentil) - 25% das observações são menores do que esse valor
* $Q_2$ - 2º quartil (50º percentil) - 50% das observações são menores do que esse valor
* $Q_3$ - 3º quartil (75º percentil) - 75% das observações são menores do que esse valor

In [40]:
import pandas as pd

df = pd.DataFrame(alturas, columns=['Altura'])
quartis = df.quantile([0.25, 0.5, 0.75], numeric_only=True).T
quartis

Unnamed: 0,0.25,0.50,0.75
Altura,1.65,1.7,1.7


Uma medida comum de variabilidade é a chamada amplitude interquartil (ou Interquartile Range), que é dada por
$$ IQR = Q_3 - Q_1$$

In [41]:
quartis[0.75] - quartis[0.25]

Altura    0.05
dtype: float64

In [42]:
q3 = df['Altura'].quantile(0.75)
q1 = df['Altura'].quantile(0.25)

q3 - q1

0.050000000000000044