# Estatística básica

In [None]:
########################
#Bibliotecas necessárias
########################

#Pandas
import pandas as pd
import math

## Revisão

### Pandas
Uma Series é uma estrutura de dados presente na biblioteca Pandas, que trata de agrupar dados, de maneira que cada um deles possa ser acessado por um índice.

Uma Series possui diversos métodos, que podem ser utilizados para extrair informações do conjunto de dados.

|Método|objetivo|
|------|--------|
|`.min()`|obtém o menor valor|
|`.max()`|obtém o maior valor|
|`.mean()`|obtém a média|
|`.sort_values()`|obtém os valores ordenados|

**Exemplo**  

```python
valores = pd.series([6,5,3,6,8,1,9,9,3,2,1,0,1])
print('Valores:', valores)
print('Menor:', valores.min())
print('Maior:', valores.max())
print('Média:', valores.mean())
print('Valores ordenados:', list(valores.sort_values()))
```

## Estatística básica

A Estatística é a ciência que consiste em coletar, organizar, analisar e interpretar dados para que decisões sejam tomadas.

### Estatística descritiva

De acordo com (LARSON, FARBER, 2004):  
- Estatística descritiva:
> A estatística **descritiva** é o ramo que trata da organização, do resumo e da apresentação dos dados.
- Estatística inferencial:
> A estatística **inferencial** é o ramo que trata de tirar conclusões sobre uma população a partir de uma amostra. A ferramenta básica no estudo da estatística inferencial é a **probabilidade**.

## Tipos de dados

Os dados se classificam em dados **qualitativos** ou **quantitativos**. Um dado qualitativo consiste em atributos, classificações ou registros **não-numéricos**. Já os quantitativos consistem em **medidas** ou contagens numéricas (LARSON, FARBER, 2004).

**Exemplo**  

|Nome    |Altura|Idade|Sexo|
|--------|------|-----|----|
|Maria   |175   |21   |f   |
|José    |182   |30   |m   |
|Eduarda |160   |41   |f   |
|Sergio  |156   |30   |m   |
|Julia   |180   |24   |f   |
|Baltazar|158   |23   |m   |
|Sofia   |175   |29   |f   |

- Qualitativos:
    - Nome
    - Sexo
- Quantitativos:
    - Altura
    - Idade

## Medidas de tendência central

### Média
A média é um valor utilizado para representar um determinado conjunto de dados.

A média de determinado conjunto de dados é a soma de todas os seus valores, dividida pela quantidade de valores. A letra grega $\mu$ é comumente utilizada para representar a média.
$$
\mu = \frac{\sum\limits_{i=0}^{n-1}{x_i}}{n}
$$
onde:
- $\mu$: média dos valores
- $n$: número de valores
- $x_i$ valor na i-ésima posição
- $\sum\limits_{i=0}^{n-1}{x_i}$: soma dos valores de $x$, onde $i$ varia de 0 a $n-1$

**Exemplo**  

Considere que `x` é um conjunto de dados, e `m` a sua média.
```python
x = pd.Series([7,2,1,25,1,3]) #Valores
m = x.sum()/x.count() #média, com a soma dos valores dividida pela quantidade
print('Média: ', m)
```

Uma Series, assim como os métodos `.sum()` e `.count()`, possui também o método `.mean()`, que calcula a média do conjunto de dados.
**Exemplo**  

```python
x = pd.Series([1,1,2,7,8]) #Valores
m = x.mean()
print('Média: ', m)
```

### Mediana
Para determinadas situações, a média pode não ser uma boa representação de conjuntos de dados.

**Exemplo**  

```python
y = pd.Series([1,2,3,1,2,3,10000,1,2,3])
print('Média: ', y.mean)
```


No caso do conjunto `y`, que é composto por diversos valores pequenos e um valor muito alto, quando comparado com eles. A média do conjunto (`1001.8`) é um valor que difere muito dos dados.

Desta forma, a **mediana** é o valor que está exatamente no meio do conjunto de dados. Para isto, é necessário que o conjunto de dados esteja ordenado. Caso o conjunto de dados tenha uma quantidade ímpar, a mediana é o valor central. Caso a quantidade seja par, a mediana é a média dos dois valores centrais.

As Series possuem o método `.median()`, que retorna o valor da mediana do conjunto.

**Exemplo**  

```python
y = pd.Series([1,2,3,1,2,3,10000,1,2,3])
print('Mediana:',y.median())
```

## Medidas de dispersão
Muitas vezes, apenas a média ou a mediana (medidas de tendência central) de um conjunto de dados não fornecem informações suficientes sobre ele. Desta forma, outras métricas são utilizadas, como apresentado a seguir. Tais medidas consistem em identificar **quanto** os dados estão distribuídos pelo conjunto.

**Atividade**  

Qual a média dos dois conjuntos de dados A e B abaixo?
```python
cjA = pd.Series([49,49,49,50,51,51,51])
cjB = pd.Series([1,1,1,50,99,99,99])
```

In [None]:
cjA = pd.Series([49,49,49,50,51,51,51])
cjB = pd.Series([1,1,1,50,99,99,99])

Como observado, ambos os conjuntos A e B possuem a mesma média, mesmo sendo conjuntos bastante distintos. Desta forma, as medidas de variação observam o quanto os dados **variam** em relação ao conjunto como um todo.

Para os conceitos a seguir sobre medidas de variação, considere o conjunto de dados `alturas`, que correspondem à altura de um grupo de pessoas, medida em centímetros.

```python
alturas = pd.Series([175, 182, 160, 156, 180, 158, 175])
```

### Amplitude

A **amplitude** de um conjunto de dados é a diferença entre o maior e menor valores do conjunto.

**Exemplo**  

```python
amp = alturas.max() - alturas.min()
print('Amplitude: ', amp)
```

No exemplo, a **amplitude** corresponde à diferença de altura entre a pessoa mais alta e a mais baixa do grupo, que é de 26 centímetros.

### Desvio

O **desvio** de um valor $x$ em determinado conjunto é a diferença entre o valor $x$ e a média do conjunto.

$$
d_x = x - \mu
$$

onde:
- $x$: valor do conjunto de dados
- $d_x$: desvio do valor x
- $\mu$: média do conjunto de dados

**Exemplo**  

Qual é o valor do desvio `d` da pessoa que tem sua altura armazenada na posição 1 do conjunto de alturas (182 centímetros)?
```python
x = alturas[1]
m = alturas.mean()
d =  x - m
print('Desvio: ', round(d,1)) #Arredondando em 1 casa decimal
```


### Variância
Caso desejássemos calcular qual é o valor médio do desvio de todas as pessoas do conjunto, como poderia ser procedido?

Vamos calcular a média dos desvios. Para calcular essa média, precisamos obter a soma de todos os desvios, e então dividí-los pela quantidade de elementos, certo? Errado. Observe:
```python
#Calculando o desvio
desvios = alturas - alturas.mean() #operação realizada sobre todos os valores da series
#Mostra os valores, já arredondando com uma casa decimal
print('Desvios: ', list(round(desvios,1))) #Mostra os desvios, arredondando para 1 casa decimal
print('Soma dos desvios:', round(desvios.sum(),1))
```

Ou seja, a soma dos desvios é 0. Desta forma, não é possível calcula a média dos desvios, visto que zero dividido por qualquer número é zero.

Desta forma, a **variância** objetiva representar o que não é possível representar pela média dos desvios. Esta medida consiste em calcula o quanto os valores diferem da média do conjunto.  

A variância é representada pela letra grega *sigma* ao quadrado ($\sigma^2$).

Para calcular a variância, faz-se a soma dos **quadrados dos desvios** :  

$$
\sigma^2 = \frac{\sum\limits_{i=0}^{n-1}{d_i^2}}{n} = \frac{\sum\limits_{i=0}^{n-1}{(x_i- \mu)^2}}{n}
$$
onde:
- $\sigma^2$: variância
- $d_i$: desvio, igual a $d_i - \mu$
- $n$: número de elementos


**Exemplo**

```python
m = alturas.mean()
print('Alturas    :', list(alturas))
print('Média      :', m)

#Calcula desvios
desvios = alturas - m
print('Desvios    :', list(round(desvios,1))) #1 casa decimal

#Calcula desvios ao quadrado
desviosQuad = desvios**2
print('desviosQuad:', list(round(desviosQuad,1))) #1 casa decimal

#Calcula variância
var = desviosQuad.sum()/desviosQuad.count() #variância
print('Variância  :', round(var,2)) #2 casas decimais
```

É possível calcular a variância de uma Series usando o método `.var()`. Por padrão, a variância de uma series calcula desconsiderando um elemento do conjunto (um *grau de liberdade*). Para obter a variância como estamos calculando é necessário informar o parâmetro `ddof=0`, ou seja, considerar todos os elementos do conjunto.

**Exemplo**

```python
var = alturas.var(ddof=0) #variância
print('Variância:', round(var,2)) #arredondando em 2 casas decimais
```

### Desvio padrão
A variância eleva o desvio ao quadrado. O **desvio padrão** consiste em colocar os dados na mesma escala original. Desta forma, o desvio padrão é a **raiz quadrada da variância**.

O desvio padrão é representado pela letra grega $\sigma$ (*sigma*).
$$
\sigma = \sqrt{\sigma^2} = \sqrt{\frac{\sum\limits_{i=0}^{n-1}{d_i^2}}{n}}
$$

**Exemplo**

```python
#Desvio padrão
var = alturas.var(ddof=0) #variância
dp = math.sqrt(var) #raiz quadrada da variância
print(f'Desvio padrão: {dp:0.2f}')#2 casas decimais
```


As Series possuem o método `.std()` (acrônimo de *standard deviation*) para calcular o desvio padrão. Assim como na variância, é necessário informar os *graus de liberdade*, ou seja, quantos elementos devem ser desconsiderados. No nosso caso, para considerar todos os elementos (0 graus de liberdade) o parâmetro deve ser `ddof=0`.

**Exemplo**

```python
dp = alturas.std(ddof=0) #desvio padrão
print(f'Desvio padrão: {dp:0.2f}')#2 casas decimais
```

Desta forma, entende-se que o desvio padrão é quanto os valores do conjunto estão perto da média do conjunto. Um conjunto com desvio padrão baixo indica que os valores estão mais perto da média do conjunto, enquanto que um desvio padrão alto indica que os valores estão mais afastados da média.

**Atividade**

Retornando aos conjuntos A e B:
```python
cjA = pd.Series([49,49,49,50,51,51,51])
cjB = pd.Series([1,1,1,50,99,99,99])
```
- Qual a média entre os conjuntos? (já foi calculado anteriormente)
- Qual o desvio padrão de cada conjunto?
    - Qual a relação do desvio padrão com os dados do conjunto?
    - Em qual conjunto os dados estão mais distantes da média? A ou B? 

## Referências

[Larson, R. Farber, B. Estatística Aplicada. 4.ed. São Paulo: Pearson, 2010.](https://plataforma.bvirtual.com.br/Leitor/Publicacao/1242/pdf/17?code=uf41RbVY0KRUTqVSy8ZkDfrIynwKU/7WlWkTiuzQ80rimcX0BPrl4YlRFDwfh/CAJap2mr8WYHpuFbtdynL4mQ==) (Link para a biblioteca virtual)  


### Outros materiais