In [2]:
import pandas as pd
import numpy as np
import scipy as sp
import matplotlib.pyplot as plt
import seaborn as sns

# Medidas Estatísticas

Nas aulas dessa semana nós trabalharemos com um conjunto de medidas que podem ser usadas para resumir informações sobre um conjunto de dados, nos fornecendo alguns _insigths_ que a visualização gráfica e as distribuições de frequência não nos dão.

De forma resumida, veremos, ao todo, quatro tipos de medidas:

* __medidas de posição__, que nos fornecem informações sobre a posições típicas dos dados, que podem nos dar descrições sobre a centralidade, sobre a formação de caudas nas distribuições e sobre concentrações de valores. São medidas de posição a média, a mediana, a moda, e os quantis;

* __medidas de dispersão__, que fornecem informações sobre a variação dos dados em torno de uma das medidas de centralidade, tipicamente média e mediana. São medidas de variação a variância e o desvio padrão;

* __medidas de forma__, que fornecem informações sobre e estrututura e o formato de uma distribuição de dados. São medidas de forma a assimetria e a curtose;

* __medidas de comparação__, que fornecem informações que permitem comparar duas ou mais variáveis a partir de medidas diretas ou indiretas de ponderação e/ou de relação. São medidas de comparação o coeficiente de variação, o escore padronizado e a correlação.

Vamos analisar a definição de cada uma dessas medidas e verificar como realizá-las da maneira mais direta usando o Python.

Para todos os exemplos apresentados e discutidos, nós consideraremos o já conhecido conjunto de dados do Morettin, carregado abaixo.

In [4]:
dados = pd.read_csv('Dados_moretin.csv', 
                    sep=';', decimal=',')
dados.head()

Unnamed: 0,Estado Civil,Grau de Instrução,N de Filhos,Salario (x Sal Min),Anos,Região de Procedência
0,solteiro,ensino fundamental,,4.0,26,interior
1,casado,ensino fundamental,1.0,4.56,32,capital
2,casado,ensino fundamental,2.0,5.25,36,capital
3,solteiro,ensino médio,,5.73,20,outra
4,solteiro,ensino fundamental,,6.26,40,outra


In [5]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36 entries, 0 to 35
Data columns (total 6 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Estado Civil           36 non-null     object 
 1   Grau de Instrução      36 non-null     object 
 2   N de Filhos            20 non-null     float64
 3   Salario (x Sal Min)    36 non-null     float64
 4   Anos                   36 non-null     int64  
 5   Região de Procedência  36 non-null     object 
dtypes: float64(2), int64(1), object(3)
memory usage: 1.8+ KB


## Medidas de posição

### Média 

Por definição, a média aritmética pode ser calculada somando-se todos os valores da variável e dividindo-os pelo número de entradas da variável.

$$
\bar{x} = \dfrac{x_1 + x_2 + x_3 \cdots + x_n}{n} = \sum_{i= 1}^{n} x_i 
$$

em que:

* $\bar{x}$ (lê-se x barra) é tipicamente usado para representar média;
* em geral, a média de um conjunto de dados tem a mesma unidade dos dados originais
* só existe média de dados quantitativos (não faz muito sentido somar masculino e feminino, não ao menos matematicamente)

A média aritmética, ou simplesmente média, é uma medida de centralidade, indicando o ponto de "equilíbrio" da distribuição de dados. Aqui entendemos ponto de equilíbrio como o centro de massa de uma gangorra, por exemplo, como indicado na imagem abaixo.

![](16_med.png)

Relembremos um pouco os conceitos de física. Se tivermos dois pesos iguais em cada um dos lados da gangorra, o ponto de equilíbrio dessa gangorra (em amarelo) deverá ficar exatamente no meio para que possamos ter equilíbrio entre as duas pontas. Se um dos pesos é aumentado, é intuitivo (e possivelmente muitos de vocês viram isso no ensino médio) que esse ponto de equilíbrio precisa se aproximar dessa carga maior, para que ela não penda para esse lado.

O importante aqui é diferenciarmos ponto médio de ponto de equilíbrio. O ponto de equilíbrio só será médio quando a distribuição de pesos for simétrica.

Essa mesma ideia embasa a definição que temos de média. 

Nossa intuição diária sempre nos leva a acreditar que a média é um valor central numa distribuição de dados. Porém, isso só acontecerá quando nós tivermos uma distribuição _simétrica_, isto é, uma distribuição que seja igualmente distribuída para os dois lados do ponto central. 

Se a distribuição tem uma concentração nos valores mais baixos, a média baixa junto. Se tem concentração nos valores mais altos, ela também aumenta. É isso que é mostrado na figura abaixo, com relação a quatro histogramas.

![](media1.png)

Note que o valor da média aritmética é um valor tal que, se substituı́ssemos todos os dados por ela, isto é, se todas as observações fossem iguais à média aritmética, a soma total seria igual à soma dos dados originais. Então, a média aritmética é uma forma de se distribuir o total observado pelos $n$ elementos, de modo que todos tenham o mesmo valor.

Para calcular a média usando Python, podemos recorrer, de forma bem simples, ao método `mean()`, do próprio Pandas, cuja documentação é disponível [aqui](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.mean.html).

![](media2.png)

Tomando como exemplo o cálculo da média para a variável __Anos__ do nosso conjunto de dados, basta fazermos

In [5]:
dados['Anos'].mean()

34.583333333333336

e obteremos a média de 34.58 anos (lembre-se que a unidade de medida se conserva).

Poderíamos também, ao invés de ter selecionado só uma variável, ter aplicado o método para o dataframe inteiro, obtendo

In [8]:
dados['Estado Civil'].unique()

array(['solteiro', 'casado'], dtype=object)

In [6]:
dados.mean()

N de Filhos             1.650000
Salario (x Sal Min)    11.122222
Anos                   34.583333
dtype: float64

que é a média para as variáveis que são numéricas. Note que, nesse caso, o próprio Pandas não faz o cálculo para as variáveis cujos valores são `string` (no caso do pandas, chamados de `object`). Dessa forma, precisamos estar atentos, fazendo a checagem da variável inicialmente, pois, se uma variável quantitativa tiver seus valores, por algum motivo, gravados como `string`, o Pandas não calculará a média!



### Mediana

A mediana é outra medida de centralidade, assim como a média. Porém, a mediana é o valor que divide o conjunto de dados ao meio, independente dele ser simétrico ou não.

Dessa forma, podemos entender o valor da mediana como o valor tal que 50% das observações da variável são menores que ele, e 50% são maiores que ele.

Sendo a mediana uma medida de posição, ela será sempre o valor em uma dada posição a depender, unicamente, da quantidade de valores do conjunto de dados, não sendo, dessa forma _calculada_, como no caso da média, mas localizada.

Para encontrar a mediana de um conjunto de dados, basta utilizarmos uma das seguintes regras, após o ordenamento dos valores:

$$
Q_2 = 
\begin{cases}
x_{\left(\frac{n+1}{2}\right)}, & \text{se } n \text{ é ímpar}\\[2mm]
\dfrac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2}+1\right)}}{2}, & \text{se } n \text{ é par}
\end{cases}
$$

Para entendermos melhor essas regras, vejamos um exemplo bem simples.

Considere os conjuntos de dados

In [8]:
A = [24, 25, 26, 26, 29, 29, 31, 35, 
     36, 37, 38, 42, 45, 51, 53]
len(A)

15

In [9]:
B = [24, 25, 26, 26, 29, 29, 31, 
     35, 36, 37, 38, 42, 45, 51]
len(B)

14

em que $A$ tem 15 elementos ($n_A = 15$) e $B$ tem 14 elementos ($n_B = 14$).

Primeiro passo é ordenar esses valores, para que depois possamos achar as posições referentes a mediana.

Assim, podemos fazer

In [10]:
A_ = sorted(A)
A_

[24, 25, 26, 26, 29, 29, 31, 35, 36, 37, 38, 42, 45, 51, 53]

In [11]:
B_ = sorted(B)
B_

[24, 25, 26, 26, 29, 29, 31, 35, 36, 37, 38, 42, 45, 51]

Como $n_A$ é ímpar, então a mediana estará na posição $\dfrac{n+1}{2} = 8$, ou seja, será o elemento $x_8$ do conjunto de dados ordenado. Assim, a mediana de $A$ é

In [12]:
Q_2 = A_[7]
Q_2

35

Já com relação ao conjunto $B$, como $n_B$ é par, então a mediana será a média entre os elementos das posições $\dfrac{n}{2} = 7$ e $\dfrac{n}{2} +1 = 8$ do conjunto de dados ordenado, ou seja, será $\dfrac{x_7 + x_8}{2}$. Dessa forma, para o conjunto $B$, temos

In [16]:
Q_2 = (B_[6] + B_[7])/2
Q_2

33.0

Note que, no caso do conjunto $A$, a mediana é um dos valores disponíveis no conjunto; porém, quando o número de elementos é par, como no caso de $B$, isso não ocorre, e a mediana é o valor entre os dois valores centrais da distribuição.

Obviamente, não precisaremos fazer o procedimento acima toda vez que desejarmos uma mediana de uma dada variável quantitativa. Assim como no caso da média, o Pandas nos fornece um método para isso: o `median`, cuja documentação pode ser acessada [aqui](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.median.html).

![](median1.png)

Aplicando ao nosso conjunto de dados, teríamos

In [18]:
dados.median()

N de Filhos             2.000
Salario (x Sal Min)    10.165
Anos                   34.500
dtype: float64

In [19]:
dados.mean()

N de Filhos             1.650000
Salario (x Sal Min)    11.122222
Anos                   34.583333
dtype: float64

### Moda

A moda de uma distribuição ou conjunto de dados é o valor que mais se repete nesse conjunto, ou seja, o valor mais frequente. 

Diferente da média e da mediana, a moda não é um valor que obrigatoriamente exista, e, quando existe, pode ter mais de um valor. Podemos ter distribuições amodais (todos os valores ocorrem o mesmo número de vezes), unimodais (uma moda), bimodais (duas modas), etc.

Para calcular a moda de uma distribuição usando o Pandas, basta usar o método `mode()`, cuja documentação pode ser encontrada [aqui](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.mode.html).

![](moda1.png)

Para nosso exemplo, podemos fazer

In [21]:
dados['N de Filhos'].mode()

0    2.0
dtype: float64

In [22]:
dados['N de Filhos'].value_counts()

2.0    7
1.0    5
0.0    4
3.0    3
5.0    1
Name: N de Filhos, dtype: int64

o que nos indica uma distribuição unimodal, isto é, com uma única moda; ou ainda

In [13]:
dados['Anos'].mode()

0     26
1     30
2     31
3     32
4     33
5     34
6     35
7     36
8     37
9     40
10    41
11    43
dtype: int64

In [14]:
dados['Anos'].value_counts()

34    2
37    2
31    2
32    2
33    2
35    2
36    2
30    2
26    2
40    2
41    2
43    2
29    1
28    1
25    1
23    1
27    1
48    1
46    1
38    1
39    1
42    1
44    1
20    1
Name: Anos, dtype: int64

que nos mostra uma distribuição multimodal, com 12 modas.

Podemos também aplicar ao dataframe inteiro

In [15]:
dados.mode(numeric_only=True)

Unnamed: 0,N de Filhos,Salario (x Sal Min),Anos
0,2.0,4.0,26.0
1,,4.56,30.0
2,,5.25,31.0
3,,5.73,32.0
4,,6.26,33.0
5,,6.66,34.0
6,,6.86,35.0
7,,7.39,36.0
8,,7.44,37.0
9,,7.59,40.0


In [29]:
dados['Salario (x Sal Min)'].mode()

0      4.00
1      4.56
2      5.25
3      5.73
4      6.26
5      6.66
6      6.86
7      7.39
8      7.44
9      7.59
10     8.12
11     8.46
12     8.74
13     8.95
14     9.13
15     9.35
16     9.77
17     9.80
18    10.53
19    10.76
20    11.06
21    11.59
22    12.00
23    12.79
24    13.23
25    13.60
26    13.85
27    14.69
28    14.71
29    15.99
30    16.22
31    16.61
32    17.26
33    18.75
34    19.40
35    23.30
dtype: float64

Notemos duas coisas importantes:

* usando a função para o dataframe inteiro, nós observamos os valores que são moda de cada uma das colunas; por exemplo, na coluna "N de Filhos" temos uma única moda, em "Anos", temos 12, mas em "Salario" temos 36 valores, o que indica que nenhum se repete mais que outro e, portanto, temos uma variável amodal, isto é, sem nenhuma moda;

* a moda é uma medida que também pode ser aplicada a variáveis categóricas, como pode ser visto.

## Medidas de Dispersão

O resumo de um conjunto de dados por uma única medida representativa de posição central esconde toda a informação sobre a variabilidade do conjunto de observações. Por exemplo, suponhamos que cinco grupos de alunos submeteram-se a um teste, obtendo-se as seguintes notas:



In [30]:
notas = pd.DataFrame([[3, 1, 5, 3, 3],[4, 3, 5, 5, 5],[5, 5, 5, 5, 5],[6, 7, 5, 7, 6],[7, 9, 5, np.nan, 6]],
                    columns = ['A', 'B', 'C', 'D', 'E'])
notas

Unnamed: 0,A,B,C,D,E
0,3,1,5,3.0,3
1,4,3,5,5.0,5
2,5,5,5,5.0,5
3,6,7,5,7.0,6
4,7,9,5,,6


Olhando as medidas de posição, vemos que

In [31]:
notas.mean()

A    5.0
B    5.0
C    5.0
D    5.0
E    5.0
dtype: float64

In [32]:
notas.median()

A    5.0
B    5.0
C    5.0
D    5.0
E    5.0
dtype: float64

Olhando somente para média e mediana, nossa conclusão seria de que todos os grupos tiveram o mesmo desempenho.

No entanto, observando as notas, não é difícil verificar que essa afirmação pode não ser muito verdadeira.

Essa tipo de situação pede que observemos, além das medidas de posição, mais especificamente de centralidade, também medidas de dispersão, que vão nos dar uma ideia de como e quanto os dados variam em torno da média (ou da mediana, mas aqui nos concentraremos da média).

Duas medidas, nesse caso são importantes para medir essa dispersão: a variância e o desvio padrão.

### Variância

A variância de um conjunto de dados é definida como

$$
\sigma^2 = \dfrac{(x_1 - \bar{x})^2 + (x_2 - \bar{x})^2 + \cdots + (x_n - \bar{x})^2}{n} = \dfrac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2
$$

indicando o desvio quadrático médio. Em outras palavras, o que a variância calcula é a média da distância de cada valor para a média, chamado de desvio médio. 

Por que elevar ao quadrado? Por que a soma de todos os desvios médios será sempre 0, por conta dos sinais. esse problema se resolve, quando somamos os quadrados desses desvios médios. E ao fazer a média desses desvios médios quadráticos, obtemos a variância.

Agora, sabendo que as medidas $x_i$ representam uma determinada grandeza (peso, altura, distância, etc.), temos que a média $\bar{x}$ é o valor médio dessa grandeza, com mesma unidade dela, o mesmo acontecendo com $(x_i - \bar{x})$. 

Ao elevarmos essas diferenças ao quadrado, passamos a ter a variância medida na unidade da grandeza ao quadrado, uma unidade que não tem interpretação fı́sica (o que significa $kg^2$?). Uma forma de se obter uma medida de dispersão com a mesma unidade dos dados, e portanto mais relacionável com alguma interpretação física, consiste em tomar a raiz quadrada da variância, denominada desvio padrão, tipicamente representado pela letra $\sigma$.

$$
\sigma = \sqrt{\sigma^2} = \sqrt{\dfrac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2}
$$

lembrando que $\sqrt{a^2 + b^2} \neq a + b = \sqrt{(a+b)^2}$.

Para calcular variância e desvio padrão usando o Pandas, nós podemos usar, respectivamente, os métodos `var()` e `std()`, cujas documentações podem ser encontradas [aqui](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.var.html) e [aqui](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.std.html).

![](var.png)

![](std2.png)

O maior destaque sobre ambas as funções é a presença do parâmetro `ddof`, referente aos graus de liberdade da variância e do desvio padrão, um conceito que não nos cabe discutir agora. Para nós, nesse momento, só existem dois casos a discutir:

* quando `ddof=0`, o que significa que o denominador do cálculo da variância (e, por conseguinte, do desvio padrão) será $n$. Nesse caso dizemos que estamos calculando a variância (ou desvio padrão) de uma população inteira, isto é, de todos os dados medidos ou observados de nossa variável, o que, nesse momento, é o nosso caso;

* quando `ddof=1` (valor _default_), o que significa que o denominador do cálculo da variância (e, por conseguinte, do desvio padrão) será $n -1$. Nesse caso dizemos que estamos calculando a variância (ou desvio padrão) de uma amostra da população, isto é, de um subconjunto de todos os dados medidos ou observados de nossa variável, situação com a qual trabalharemos mais adiante no curso, quando estivermos vendo distribuições amostrais e estimação de parâmetros em Inferência;

Para podermos pensar um pouco no significado das medidas de dispersão, e na importância de calculá-las, voltemos ao exemplo das notas dos grupos apresentado no início da sessão.

In [33]:
notas

Unnamed: 0,A,B,C,D,E
0,3,1,5,3.0,3
1,4,3,5,5.0,5
2,5,5,5,5.0,5
3,6,7,5,7.0,6
4,7,9,5,,6


Como havíamos feito antes, a média de cada grupo é

In [34]:
notas.mean()

A    5.0
B    5.0
C    5.0
D    5.0
E    5.0
dtype: float64

Já a variância será

In [35]:
notas.var(ddof=0)

A    2.0
B    8.0
C    0.0
D    2.0
E    1.2
dtype: float64

indicando que, apesar de todos terem a mesma média, a variação dos dados em torno da média é bastante diferente. Podemos ver, por exemplo, que como todas as notas do grupo C são iguais, a variância será 0, como é de se esperar. E que apesar de terem a mesma média, a variância do grupo B é 4x maior que a do grupo A.

Como falamos, a unidade observada pela variância está elevada ao quadrado. para termos uma variação dentro da mesma unidade dos dados (no caso de notas, em pontos), basta calcula o desvio padrão

In [36]:
notas.std(ddof=0)

A    1.414214
B    2.828427
C    0.000000
D    1.414214
E    1.095445
dtype: float64

Agora, de posse dessas medidas, podemos fazer diversas observações mais realistas sobre os dados, sem ficarmos presos nas limitações das medidas de centralidade.

O desvio padrão é bastante importante quando trabalhamos com estimação de parâmetros estatísticos, principalmente por uma propriedade que a distribuição gaussiana ou normal apresenta: 

![](std.png)

Trazendo isso para a variável `Anos` de nosso conjunto de dados principal, teríamos que, sendo

In [37]:
sigma = dados['Anos'].std(ddof=0)
media = dados['Anos'].mean()

68.2% das idades registradas estão entre $[a,b]$, sendo 

In [42]:
a = media - 2*sigma
a

21.296957688418814

In [43]:
b = media + 2*sigma
b

47.86970897824786

Vamos verificar se essa regra é válida para essa variável?

Vamos fazer uma contagem da quantidade de valores que caem nesse intervalo.

In [44]:
f = dados[(dados['Anos'] >= a) & (dados['Anos'] <= b)]
f.shape

(34, 6)

In [45]:
len(f)*100/len(dados)

94.44444444444444