# Bibliotecas

**Medida de Variação**
* amplitude
* variância e desvio padrão
* desvio médio
* coeficiente de variação
* medidas quantílicas
* box-plot

# Considerações iniciais
* O conceito de variação é um conceito que necessita de um referencial..
* Uma variação é grande ou pequena quando avaliada em relação a alguma medida.
* Uma medida muito usada para se avaliar a variação de um conjunto de dados é a média dos dados
* Se diz que há uma grande variação acima ou abaixo da média, adota-se a média como referencial.

## Exemplo

Considere os conjuntos de dados 

In [None]:
#codigo

In [None]:
Os  três conjuntos de dados possuem mesma média, mas diferentes aplitudes totais. 

In [None]:
#codigo

Comparando três conjuntos de dados:

* Comparação usando a média: x = 6 para os três conjuntos de dados.
* Analisando somente a média concluiremos que os três conjuntos são iguais.
* Analisando a variabilidade dos dados baseados na amplitude total, concluiremos que:
  * O primeiro tem maior variabilidade
  * O segundo tem uma variabilidade intermediária
  * O terceiro tem a menor variabilidade

# Variância e Desvio Padrão

A variância é uma média dos desvios (ao quadrado) dos valores de uma amostra em relação a média da amostra.  

Se $(x_1,\cdots, x_n)$ é uma amostra, a variância da amostra é calculado por:

\begin{equation}
s^2=\dfrac{\sum_{i=1}^{n}(x_i-\overline{x})^2}{n-1}
\end{equation}

em que $\overline{x}$ é a média amostral, dada por: 
\begin{equation}
\overline{x}=\dfrac{\sum_{i=1}^{n}x_i}{n}
\end{equation}

O desvio padrão é dado pela raíz quadrada da variância: 

\begin{equation}
s=\sqrt{\dfrac{\sum_{i=1}^{n}(x_i-\overline{x})^2}{n-1}}
\end{equation}

## Exemplo 
Os dados $x=[0,2,3,5,5]$ possuem variância dada por: 

\begin{equation}
s^2=\dfrac{(0-5)^2+(2-5)^2+(3-5)^2+(5-5)^2+(5-5)^2}{5-1}=4.5
\end{equation}

O desvio padrão é a raíz quadrada da variância $s=2.121$. 

## Exemplo 
Amostra aleatória com reposição em $\{0,...,10\}$

* Aplicação das fórmulas por meio do Python (Cálculos usando Python e usando funções do Python)

In [None]:
#codigo

* Utilizando funções do Python

In [None]:
#codigo

## Exemplo
Usando R para conjunto de dados com mais elementos e várias colunas de interesse. 

* Note que há valores chamados "NA" que precisam ser removidos. 
* O cálculo manual pode ser executado identicamente aos itens anteriores. 
* Abaixo o foco é o uso das funções do Python. 

In [None]:
#codigo

Os resultados são as médias, as variâncias e os desvios, respectivamente, de cada uma das colunas de dados de *airquality*. 

In [None]:
#codigo

Abaixo estão o histograma, o polígono de frequências e uma curva normal com média e variância calculadas com base nos dados . 

In [None]:
#codigo

# Frequências agrupadas sem intervalos de classe

Em uma distribuição de frequências sem intervalos de classes, a fórmula do desvio é reduzida para: 

\begin{equation}
s=\sqrt{\dfrac{\sum_{i=1}^{n}f_i(x_i-\overline{x})^2}{n-1}}
\end{equation}

em que $\overline{x}$ é a média amostral, dada por: 
\begin{equation}
\overline{x}=\dfrac{\sum_{i=1}^{n}f_i\cdot x_i}{n}
\end{equation}

* Note que é idêntica a fórmula para dados não agrupados em frequências. A expressão tem objetivo de simplificar. 
* Ao usar o R, os dados não precisam ser agrupados em frequências ou tabelas de distribuição se o objetivo for apenas o cálculo. 

## Exemplo (manual)
Variância e desvio de $x=[1, 1, 3, 3]$

      Exercício
  
## Exemplo (Cálculos manuais com Python )
50 amostras em $\{0,1,\cdots,10\}$ com reposição.

A seguir $diff=x_i-\overline(x)$ e $diff2=f_i\cdot (x_i-\overline(x))^2$

In [None]:
#codigo

* Usando diretamente o Python, temos: 

In [None]:
#codigo

# Frequências agrupadas com intervalos de classe

Em uma distribuição de frequências com intervalos de classes, a fórmula é reduzida para: 
\begin{equation}
s=\sqrt{\dfrac{\sum_{i=1}^{n}f_i(x_i-\overline{x})^2}{n-1}}
\end{equation}

em que $\overline{x}$ é a média amostral, dada por: 
\begin{equation}
\overline{x}=\dfrac{\sum_{i=1}^{n}f_ix_i}{n}
\end{equation}

e $x_i$ é o ponto médio das classes. 

## Exemplo (Manual)
Considere a tabela abaixo:

| classes|$f_i$|$pm_i$|
|--|--|--|
| [0,2)    |  3| 1 |
| [0,4) |   5  |3 |
| [0,6) | 4 | 5|

A variância é calculada diretamente pela aplicação da fórmula. Veja os cálculos a seguir:

\begin{equation}
s^2=\dfrac{\sum_{i=1}^3f_i\cdot(pm_i-\overline{x})^2}{\sum_{i=1}^{3}f_i-1}=\dfrac{3\cdot (1-\overline{x})^2+5\cdot (3-\overline{x})^2+4\cdot (5-\overline{x})^2}{3+5+4 -1}
\end{equation}

A média $\overline{x}$ precisa ser calculada para que o exercício possa ser finalizado. 

A forma com que os dados são apresentados não permite usar o Python diretamente, pois não há condições de recuperar os dados que deram origem à tabela acima. 

## Exemplo
Considere os dados a seguir, apresentados na fomra de tabela de distribuição de frequências e intervalos de classes. Calcule o desvio padrão. 

In [None]:
#codigo

# Variância e desvio padrão populacional

A fórmula é diferente quando a população é considerada. 

\begin{equation}
\sigma^2=\dfrac{\sum_{i=1}^N(x_i-\mu)^2}{N}
\end{equation}

Evidentemente, o desvio padrão vai ser alterado para 

\begin{equation}
\sigma=\sqrt{\dfrac{\sum_{i=1}^N(x_i-\mu)^2}{N}}
\end{equation}

* A distribuição de frequências sem intervalo de classe segue as mesmas ideias já apresentadas.
* Como os cálculos são aproximados para a  distribuição de frequências com intervalos de classe, consideramos que a variância populacional não é adequada.

# Discussão adicional 

## Propriedades do desvio padrão

* O desvio padrão é uma medida de variação de todos os valores a partir da média.
* O valor do desvio padrão s é usualmente positivo, só será zero se todos os valores forem iguais e nunca será negativo.
* Maiores valores de s indicam maior variação.
* O valor do desvio padrão pode crescer muito com a inclusão de um ou mais outliers (valores extremos)
* A unidade do desvio padrão (e.g. min, cm, mm, hora,Kg, etc.) é a mesma dos dados.

## Interpretação

* A interpretação do desvio padrão se baseia na regra de que em uma distribuição normal, aproximadamente 95% dos valores se localiza entre a média amostral ± dois desvios padrões.  Veja a figura a seguir para mais detalhes:



![Interpretação do desvio padrão](https://upload.wikimedia.org/wikipedia/commons/a/a9/Empirical_Rule.PNG)


## Exemplo
Suponha que a  a taxa de pulsação de mulheres (batimentos por minuto) tem uma média de  76 batimentos por minuto e um desvio padrão 12.5 batimentos por minuto.

* Importância: Este resultado pode ser usado para identificar uma pulsação não usual (ou algum distúrbio de saúde).

* É usual uma mulher com uma taxa de pulsação de 110 ?

  Usando os resultados chega-se que 95% das mulheres devem apresentar pulsação entre a média e dois desvios.
    * Pulsação usual mínima = 76 − 2 × 12.5 = 51
    * Pulsação usual máxima = 76 + 2 × 12.5 = 101
* Conclusão: a pulsação de 110 não é usual e possível problema de saúde deve ser investigado.

* Parece ser comum substituir a média e o desvio pelos respectivos média amostral e desvio amostral. E em seguida utilizar a regra (empírica) para as avaliações de valores amostrais médios e com desvio padrão estimados pela amostra.

## Exemplo
Escores de QI tem uma distribuição na forma de sino com média amostral de x = 100 e desvio padrão amostral igual a s = 15 . Determine a faixa de escores de QI de 95% das pessoas avaliadas.

        exercício 
        
# Variações em diferentes populações 

Definição: O coeficiente de variação (CV) para um conjunto de dados amostrais ou populacionais não-negativo, expresso como um percentual, descreve o desvio padrão relativo à média e é dado por: 

Podemos calcular o <!--  desvio padrão --> coeficiente de variação de cada amostra por:
\begin{equation}
cv=\dfrac{s}{\overline{x}}\times 100
\end{equation}

Podemos calcular o  <!--  desvio padrão --> coeficiente de variação de cada população por:
\begin{equation}
cv=\dfrac{\sigma}{\overline{x}}\times 100
\end{equation}

Importância: comparar duas ou mais amostras/populações com diferentes escalas de medidas. 

## Exemplo
Considere os dados referentes a alturas e pesos de Homens encontramos as seguintes estatísticas amostrais.

* Altura 68.34in e 3.02in (média e desvio de altura)
* Peso 172.55lb  e 26.33lb (média e desvio de peso)

* Qual das duas amostras possui maior variabilidade ?

    * Calcule o coeficiente de variação de cada variação.
          
            
          Altura: CV = 4.42% , Peso: CV = 15,26%

# Medidas de posição relativa

* Esta medida pode ser usada para comparar valores em diferentes conjuntos de dados. Ou para a comparação de valores dentro do mesmo conjunto de dados.

* O conceito utilizado para estabelecer uma medida de posição relativa de algum valor observado é o Escore z que corresponde ao número de desvios padrões que se situa determinada observação x.


Definição: O escore z corresponde ao número de desvios padrões que se situa determinada observação x . Encontra-se o escore z (ou escore padronizado), convertendo-se um valor para uma escala padronizada, como se segue:

* Amostral: $z=\dfrac{x-\overline{x}}{s}$
* Populacional: $z=\dfrac{x-\mu}{\sigma}$


## Exemplo
Considere um corredor e um nadador. Qual deles é o melhor atleta em relação ao respectivo grupo ? 
* Corredor: $\overline{x}_{grupo}=16seg/100m$ e $s_{grupo}=3seg/100m$
* Nadador: $\overline{x}_{grupo}=60seg/100m$ e $s_{grupo}=5seg/100m$

O corredor faz um tempo de $12seg/100m$ em um corrida, enquanto que o nadador faz um tempo de $60 seg/100m$ em uma prova. Qual deles fez um melhor tempo em relação ao respectivo grupo? 

O corredor tem score-z $z_1=\dfrac{12-16}{3}=-\dfrac{4}{3}=-1.33$ enquanto que o nadador tem score-z $z_2=\dfrac{50-60}{5}=-\dfrac{10}{5}=-2.0$


## Características do Escore z
* Valores comuns: −2 ≤ z ≤ 2 .
* Valores não-usuais: z ≤ −2 ou z ≥ 2
* Escore positivos ( z > 0 ) indicam valores acima da média.
* Escore negativos ( z < 0 ) idicam valores abaixo da média.
* O escore z pode ser usado para avaliar um valor específico da variável dentro da amostra (ou da população).

## Exercício
Com uma altura de 75 in(190,5cm) Lyndon Johnson foi o presidente mais alto dos EUA no ultimo século. Com uma altura de 85 in (215,9cm) Shaquille O’Neal é o jogador mais alto do time de basquete Miami Heat. Quem é relativamente mais alto: Lyndon Johnson entre os presidentes do século passado ou Shaquille O’Neal entre os jogadores do time de basquete Miami Heat? Os presidentes do século passado têm uma altura média de 71,5 in e um desvio padrão de 2,1 in. Os jogadores de basquete do Miami Heat têm uma altura média de 80,0 in e desvio padrão de 3,3 in.

# Medidas separatrizes

Sabemos que a mediana divide os dados em duas partes iguais: 50% abaixo da mediana e 50% acima da mediana.

* Questão: Podemos determinar o valor que separa 10% dos dados ? E 37% dos dados ?

Esse valor é o percentil e denotado por $P_k$, em que $k$ representa a quantidade (em %) dos valores desejados. 

Aqui vamos usar o R para ajudar nos cálculos e focar em outras questões. A função *qnorm* executa os cálculos. Veja os exemplos a seguir:


## Exemplo
Qual o valor que separa os dados em 25, 50 e  75 por cento dos dados para uma amostra x=[1,2,3,5,10,15,17]. 

In [None]:
#codigo

Note que as probabilidades devem ser informadas (valores entre 0 e 1)

A função acima é chamada quantil. Quanto os valores são múltiplos de 100, os valores retornados são percentis ($P_i$). Quando os valores são múltiplos de 25, os valores retornados são os quartis ($Q_i$). Finalmente, quando os valores são múltiplos de 10, os valores retornados são os decis ($D_i$). 

* $P_i$: $i=1,2,\cdots, 100$
* $Q_i$: $i=1,2,3,4$
* $D_i$: $i=1,2,\cdots,9,10$

# Intervalos e estatísticas

Outras estatísticas que podem ser calculadas com os quartis e percentis são:

* Intervalo interquartil (ou IIQ): é a diferença entre o terceiro e o primeiro quartis. 

$$IIQ = Q_3 − Q_1 =P_{75}-P_{25}$$

## Definição (Box-Plot)
É uma representação gráfica feita para um conjunto de dados que trás na representação: 

* os três quartis da amostra ($Q_1$ o quartil 25%, $Q_2$ o quartil 50% (ou mediana) e $Q_3$ o quartil 75%). A representação gráfica destas estatística é feita assim:
* uma caixa é delimitada por $Q_1$ e $Q_3$
*  As cercas do diagrama
    * $CI=Q_1-1.5\cdot IIQ$
    * $CS=Q_3+1.5\cdot IIQ$ 

A representação gráfica destas estatística é feita assim:

In [None]:
#codigo

## Relação Box-plot e curva normal


![Relação Box-plot e curva normal](https://upload.wikimedia.org/wikipedia/commons/thumb/1/1a/Boxplot_vs_PDF.svg/800px-Boxplot_vs_PDF.svg.png)

## Exemplo 
Com o auxílio do Python, vários box-plots podem ser executados. 

In [None]:
#codigo

# Atividades

## Exercício
Considere os dados de *airquality* e calcule as medidas de tendêncial central, desvio-padrão. 

### Exercício (Manual e Python)
Considere os dados de *mtcars*. Calcule as medidas de tendência central, desvio padrão para as três primeiras colunas. Apresente os resultado sem uma tabela. 

Nota: Um exemplo de tabela


| Tables   |      Are      |  Cool |
|----------|:-------------:|------:|
| col 1 is |  left-aligned | $1600 |
| col 2 is |    centered   |   $12 |
| col 3 is | right-aligned |    $1 |


# Avaliação Geral (Auto-avaliação Parcial)


## Exemplo: 
Suponha que a  a taxa de pulsação de mulheres (batimentos por minuto) tem uma média de  70 batimentos por minuto e um desvio padrão 7.5 batimentos por minuto.

* É usual uma mulher com uma taxa de pulsação de 101 ? Use intervalo de 95%
* Qual o intervalo de pulsação que engloba 99.8% dos dados ?

## Exercício 
Considere os dados de *mtcars*. Calcule as medidas de tendência central, desvio padrão para as três primeiras colunas. Calcule os coeficientes de variação e os respectivos scores-z para as médias das variáveis.  Apresente os resultado sem uma tabela. 
  * Qual delas é mais homogenea basedo no coeficiente de variação? 
  * Qual delas possui a maior média relativa ao respectivo conjunto de dados ?

## Exercício
Considerando os dados de *airquality*, determine os valores dos quartis e apresente os valores necessários para construir o box-plot. 
  * Use o Python e construa os respectivos box-plots. 
  
# Referências

* Mario Triola, Elementary Statistics: Updates for the latest technology, Pearson-Education, ed.09, 2004.
* Notas de aula Prof. Marinho, Curso Estatística Descritiva, Universidade de São Paulo, 2015. 

* Bussab W.O., Morettin P.A., Estatística Básica, Saraiva, Sao Paulo, 9ed, 2017. 