# **Medidas-Resumo**

Características importantes de qualquer conjunto de dados

* Centro
* Variação
* Distribuição
* Valores atípicos

### 1. Medidas de Posição ou Localização 


* **Média** - Ponto de equilíbrio.
* **Mediana** - Centro dos dados.
* **Moda** - Ponto de concentração. /pontos com maior frequência
* **Quantis** - Caracterização da distribuição dos dados.

#### 1.1 Média

Seja $X_1$, . . . , $X_n$ uma amostra aleatória e $x_1$, . . . , $x_n$ os valores observados de cada $x$. 

A **média** amostral é definida como:

$$\overline{x}=\frac{\sum_{i=1}^{n}x_i}{n}$$

**Vantagens**

* Tem boas propriedades estatísticas.
* Facilidade de cálculo e compreensão.

**Desvantagens**

* Influenciada por valores atípicos.
* Bastante afetada por distribuições assimétricas.
* Só pode ser calculada para dados quantitativos.

#### 1.2 Mediana

Considere a amostra ordenada $x_{(1)}$, . . . ,$x_{(n)}$, ou seja,
$x_{(1)}$ = min($x_1$, . . . , $x_n$) e $x_{(n)}$ = max($x_1$, . . . , $x_n$).

Qual é a posição central dos dados?

* Se $n$ é ímpar, a posição central é $p = (n + 1)/2.$     
* Se $n$ é par, as posições centrais são $p = n/2$ e $p + 1 = n/2 + 1.$

A **mediana** é definida como

$$Md=
\begin{cases}
\dfrac{x_{(p)}+x_{(p+1)}}{2}, &\text{se n é par}\\
x_{(p)},&\text{se n é ímpar}\\
\end{cases}
$$

**Vantagens**

* Mais resistente a valores atípicos.
* Pouco afetada por distribuições assimétricas.

**Desvantagens**

* Menos conhecida que a média.
* Não tem boas propriedades estatísticas.

#### 1.3 Moda

A **moda** é o valor mais frequente da amostra.
Uma amostra pode ter uma moda, mais de uma moda, ou a moda
pode não existir.


**Vantagens**

* Não exige cálculo, apenas contagem.
* Pode ser determinada também para variáveis qualitativas.

**Desvantagens**

* Deixa sem representação todos os valores do conjunto de dados que não forem iguais a ela.
* Não tem boas propriedades estatísticas.

#### 1.4 Medidas de Assimetria

* **Distribuição simétrica**: média = mediana = moda
* **Distribuição assimétrica à direita**: moda < mediana < média
* **Distribuição assimétrica à esquerda**: média < mediana < moda

### Quando usar a média, mediana ou moda?

* **Média**: Maior eficiência quanto mais simétrica for a distribuição.
* **Mediana**: Mesmo com valores assimétricos em torno da média, ela será o centro da distribuição.
* **Moda**: Quando o interesse é conhecer o(s) valor(es) que aparece(m) com maior frequência.





#### 1.4 Quantis ou Separatrizes

Indicam limites para proporções de observações em um conjunto.

* **Quartis** - dividem o conjunto de dados em 4 partes iguais.
* **Decis** - dividem o conjunto de dados em 10 partes iguais.
* **Percentis** - dividem o conjunto de dados em 100 partes iguais.



### 2. Medidas de Dispersão 

Indicam o quanto os valores diferem entre si ou quanto eles se afastam da média.

* **Amplitude**
* **Desvio-padrão** 
* **Variância** 
* **Coeficiente de variação** 

#### 2.1 Amplitude

É representada por

$$A=x_{(n)}-x_{(1)}$$


**Desvantagens**


* Pouco precisa.
* Extremamente influenciada por valores discrepantes. 


#### 2.2 Variância amostral

$$s^2=\dfrac{\sum_{i=1}^{n}({x_i-\overline{x})}^2}{n-1}$$


**Vantagens**


* Facilidade de compreensão.
* Propriedades estatísticas importantes para inferência. 
* Considera o desvio = $(x_i-\overline{x})$, que mede o quanto cada valor desvia da média.

**Desvantagens**


* Calculada a partir da média, medida pouco resistente, ou seja, muito influenciada por valores atípicos.
* Interpretação difícil, pois o valor da variância é a unidade de medida da variável ao quadrado. Ou seja, se a variável y é a altura em $cm$ dos estudantes, então a variância será $cm^2$. 



#### 2.3 Desvio-padrão amostral

Surge para solucionar o problema de interpretação da variância. 

$$s=\sqrt{\dfrac{\sum_{i=1}^{n}(x_i-\overline{x})^2}{n-1}}$$

**Significado:** Variação média em torno da média aritmética.

#### 2.4 Coeficiente de Variação (CV)

O **coeficiente de variação** (amostral) é representado por

$$CV= 100 . \frac{s}{\overline{x}}$$

* Medida de variabilidade relativa à média.
* É uma medida adimensional, e geralmente apresentada na forma de porcentagem.
* Ideal para comparar a variabilidade de variáveis com unidades de medidas diferentes.

**Exemplo:**

1. Consideremos conjunto de valores referentes a produção diária de leite (em litros).

   * Raça 1: $\overline{x} = 25$ l, $s = 4,2$ l, $CV = 16,8\%$
   * Raça 2: $\overline{x} = 13$ l, $s = 3,4$ l, $CV = 26,2\%$

2. Consideremos conjunto de valores referentes a altura (em cm) e os pesos (em kg), de um grupo de estudantes.

   * Altura: $\overline{x} = 165$ cm, $s = 30$ cm, $CV = 18,2\%$
   * Peso: $\overline{x} = 58$ kg, $s = 9$ kg, $CV = 15,5\%$

Alguns autores consideram as seguintes regras:

   * **Baixa Dispersão:** $CV < 15\%$
   * **Média:** $15\% =< CV < 30\%$
   * **Alta:** $CV >= 30\%$

### 3. Medidas de Associação

Quando o interesse é avaliar o comportamento conjunto de duas variáveis.

* Qual o tipo de relacionamento entre elas?
* Qual a intensidade da relação?

**Exemplos:**

* Relação entre a altura dos pais (X) e altura dos filhos (Y).
* Relação entre renda familiar (X) e número de filhos (Y).

#### 3.1 Covariância
$$Cov(X,Y)=\sum_{i=1}^{n}{(x_i-\overline{x})(y_i-\overline{y})}$$

Representa o quanto X e Y estão variando em conjunto.

* **Covariância Positiva:** Relação entre X e Y na mesma direção.

* **Covariância Negativa:** Relação entre X e Y na direção contrária.

#### 3.2 Coeficiente de Correlação de Pearson
$$ r =\frac{Cov(X,Y)}{S_x S_y}$$

**O coeficiente de correlação varia entre -1 e 1.**

Deve ser calculado quando existe uma relação linear entre X e Y.

Interpretação:

* **r positivo** = correlação positiva ou direta entre X e Y
* **r negativo** = correlação negativa ou inversa entre X e Y

    * **Ausência de correlação (não implica em indepedência):** r = 0
    * **Fraca:** 0 < r =< 0,4
    * **Regular:** 0,4 < r =< 0,6
    * **Boa:** 0,6 < r =< 0,8
    * **Alta:** r > 0,8
    * **Perfeita:** r = 1
   
**Correlação** não implica em **Casualidade**

* O coeficiente de correlação não mede a relação causa e efeito entre as variáveis, mas essa relação pode está presente.
* **Exemplo:** forte relação positiva entre as vendas anuais de chicletes e a taxa de criminalidade nos EUA.

**Desvantagem**

* Por ser em função da média é altamente afetado por valores atípicos.

#### 3.3 Coeficiente de Correlação de Spearman
É igual ao Coeficiente de Pearson aplicado aos valores da ordem de duas variáveis.


$$r = \dfrac{\sum_{i=1}^{n}{(rx_i-r\overline{x})(ry_i-r\overline{y})}}{\sqrt{\sum_{i=1}^{n}(rx_i-r\overline{x})^2}\sqrt{\sum_{i=1}^{n}(ry_i-r\overline{y})^2}}$$

**Exemplo:** Se x = {7,2,5,9}, então rx = {3,1,2,4}. 

**Vantagens**

* Não é sensível a assimetria e nem a valores atípicos.
* Mede relações lineares e não-lineares.

**Desvantagem**

*  Quando temos muitas observações com a mesma ordem (Coeficiente de Correlação de Kendall).

### 4. Regra geral para escolha da medida mais adequada

* Qual o objetivo de análise?
* A medida é intuitiva e fácil de interpretar?
* Existem valores que possam afetá-la?
* A análise é meramente descritiva ou pretende-se fazer inferência?

## Prática Medidas-Resumo

In [1]:
import statistics
import numpy as np
import pandas as pd

### 1. Média

In [2]:
dados = [28, 12, 2.5, 4, 1]
dados_sem_outlier_1 = [ 12, 2.5, 4, 1]
dados_sem_outlier_2 = [2.5, 4, 1]

![1-2.png](attachment:1-2.png)

![2-2.PNG](attachment:2-2.PNG)

In [3]:
dados_mean = statistics.mean(dados)
mean_sem_outlier_1 = statistics.mean(dados_sem_outlier_1)
mean_sem_outlier_2 = statistics.mean(dados_sem_outlier_2)

print('Média: \n', dados_mean)
print('Média sem Outlier 1: \n', round(mean_sem_outlier_1,2) )
print('Média sem Outlier 2: \n', round(mean_sem_outlier_2,2) )

Média: 
 9.5
Média sem Outlier 1: 
 4.88
Média sem Outlier 2: 
 2.5


In [4]:
dados_med = statistics.median(dados)
med_sem_outlier_1 = statistics.median(dados_sem_outlier_1)
med_sem_outlier_2 = statistics.median(dados_sem_outlier_2)

print('Mediana: \n', dados_med)
print('Mediana sem Outlier 1: \n', med_sem_outlier_1)
print('Mediana sem Outlier 2: \n', med_sem_outlier_2)

Mediana: 
 4
Mediana sem Outlier 1: 
 3.25
Mediana sem Outlier 2: 
 2.5


### 2. Variância

In [5]:
# populacional coloca o p
var_dados = round(statistics.variance(dados),2)
var_dados_sem_outlier_1 = round(statistics.variance(dados_sem_outlier_1),2)
var_dados_sem_outlier_2 = round(statistics.variance(dados_sem_outlier_2),2)

print('Variância: \n',var_dados)
print('Variância sem Outlier 1: \n', var_dados_sem_outlier_1)
print('Variância sem Outlier 2: \n', var_dados_sem_outlier_2)

Variância: 
 125.0
Variância sem Outlier 1: 
 24.06
Variância sem Outlier 2: 
 2.25


In [18]:
var_dados_pop = round(statistics.pvariance(dados),2)
print('Variância: \n',var_dados_pop)

Variância: 
 100.0


In [6]:
# populacional coloca o p
std_dados = round(statistics.stdev(dados),2)
std_dados_sem_outlier_1 = round(statistics.stdev(dados_sem_outlier_1),2)
std_dados_sem_outlier_2 = round(statistics.stdev(dados_sem_outlier_2),2)

print('Desvio Padrão: \n',std_dados)
print('Desvio Padrão sem Outlier: \n', std_dados_sem_outlier_1)
print('Desvio Padrão sem Outlier: \n', std_dados_sem_outlier_2)

Desvio Padrão: 
 11.18
Desvio Padrão sem Outlier: 
 4.91
Desvio Padrão sem Outlier: 
 1.5


In [None]:
dados = [28, 12, 2.5, 4, 1]
dados_sem_outlier_1 = [ 12, 2.5, 4, 1]
dados_sem_outlier_2 = [2.5, 4, 1] #Em média, cada elemento desse conjunto está se distanciando da média em 1,5 unidades.

In [20]:
statistics.mean(dados_sem_outlier_2)

2.5

### 3. Moda

In [7]:
u = [2, 3, 2, 8, 12]

moda_1 = statistics.mode(u)
moda_2 = statistics.multimode(u)

print('Moda_1: \n',moda_1)
print('Moda_2: \n', moda_2)

Moda_1: 
 2
Moda_2: 
 [2]


In [22]:
v = [1, 1, 2, 3, 2, 8, 12, 12]

moda_1 = statistics.mode(v)
moda_2 = statistics.multimode(v)

print('Moda_1: \n',moda_1)
print('Moda_2: \n', moda_2)

Moda_1: 
 1
Moda_2: 
 [1, 2, 12]


### 4. Quantis

In [26]:
x = [-5.0, -1.1, 0.1, 2.0, 8.0, 12.8, 21.0, 25.8, 41.0]

di = statistics.quantiles(x, n=10, method='inclusive')
qi = statistics.quantiles(x, n=4, method='inclusive')


print('Decis: \n', di)
print('Quartis: \n', qi)

Decis: 
 [-1.8800000000000001, -0.38, 0.86, 3.2, 8.0, 11.84, 17.72, 22.919999999999998, 28.839999999999996]
Quartis: 
 [0.1, 8.0, 21.0]


### 5. Matriz de Covariância

In [10]:
x = list(range(-10, 11))
y = [0, 2, 2, 2, 2, 3, 3, 6, 7, 4, 7, 6, 6, 9, 4, 5, 5, 10, 11, 12, 14]
x_, y_ = np.array(x), np.array(y)
x__, y__ = pd.Series(x_), pd.Series(y_)

In [11]:
cov_matrix = np.cov(x_, y_)
cov_matrix

array([[38.5       , 19.95      ],
       [19.95      , 13.91428571]])

In [12]:
#Elementos da matriz

var_x = cov_matrix[0, 0]
var_y = cov_matrix[1, 1]
cov_xy = cov_matrix[0, 1]
#cov_xy = cov_matrix[1, 0]

print('Variância de x: \n', var_x)
print('Variância de y: \n', round(var_y,2))
print('Covariância de x e y: \n', cov_xy)

Variância de x: 
 38.5
Variância de y: 
 13.91
Covariância de x e y: 
 19.95


In [13]:
#Dados em série

cov_xy_1 = x__.cov(y__)
cov_xy_2 = y__.cov(x__)

print('Covariância de x e y: \n', cov_xy_1)
print('Covariância de x e y: \n', cov_xy_2)

Covariância de x e y: 
 19.95
Covariância de x e y: 
 19.95


### 6. Matriz de Correlação

In [14]:
corr_matrix = np.corrcoef(x_, y_)
corr_matrix

array([[1.        , 0.86195001],
       [0.86195001, 1.        ]])

In [15]:
#Elementos da matriz

r = corr_matrix[0, 1]
#r = corr_matrix[1, 0]

print('Correlação entre x e y: \n', round(r,2))

Correlação entre x e y: 
 0.86


In [16]:
#Dados em série

r_1 = x__.corr(y__)
r_2 = y__.corr(x__)

print('Correlação entre x e y: \n', round(r_1,2))
print('Correlação entre x e y: \n', round(r_2,2))

Correlação entre x e y: 
 0.86
Correlação entre x e y: 
 0.86


### 7. Coeficiente de Variação

Deseja-se analisar a idade (anos) e altura (metros) de um grupo de pessoas de uma determinada região. Suponha que o interesse seja verficar a característica mais homogênea, ou seja, a variável que possui menor dispersão em torno da média.

**Idade das pessoas:** Média = 41,6 e Desvio Padrão = 0,82

**Altura das pessoas:** Média = 1,67 e Desvio Padrão = 0,2

In [17]:
CV_idade = (0.82/41.6) * 100
CV_altura = (0.2/1.67) * 100

print(f'Coeficiente de Variação da idade:: {CV_idade:.1f}'"%")
print(f'Coeficiente de Variação da altura:: {CV_altura:.1f}'"%")

Coeficiente de Variação da idade:: 2.0%
Coeficiente de Variação da altura:: 12.0%
