# Medidas de posição ou localização


- *Média*: boas propriedades estatísticas. (média aritmética, média aparada, média ponderada, média geométrica, média harmônica).
- *Mediana*: medida resistente a dados atípicos.
- *Moda*: valor mais frequente.
- *Quantis*: caracterização da distribuição dos dados.

## Média

Em geral, não é possível calcular a média populacional de uma variável, $\mu$. Usa-se então um estimador, por exemplo a média
amostral, ou seja, a média que será obtida de uma amostra (representativa) da população (estimativa). Vamos estabelecer que $X_{1}, ..., X_{n}$ é uma amostra aleatória e $x_{1}, ..., x_{n}$ os dados observados dessa amostra. As medidas aqui apresentadas são amostrais e são obtidas a partir de $x_{1}, ..., x_{n}$. A média (amostral observada) é definida como:

$$\bar{x} = \frac{\sum \limits _{i=1} ^{n} x_{i}}{n}$$

**Vantagens da média**
- É uma medida conhecida.
- Tem boas propriedades estatísticas.
- Facilidade de cálculo.

**Desvantagens da média**
- É muito influenciada por valores atípicos (outliers).
- Bastante afetada por distribuições assimétricas.
- Só pode ser calculada para dados quantitativos.
- Nem sempre pode ser calculada.

In [3]:
from matplotlib import pyplot as plt
import pandas as pd

In [4]:
df = pd.read_csv('../data/dados_banco.csv', sep=',')
df.head()

Unnamed: 0,Cliente,Sexo,Idade,Empresa,Salario,Saldo_cc,Saldo_poupança,Saldo_investimento,Devedor_cartao,Inadimplente
0,75928,M,32,Privada,5719.0,933.79,0.0,0.0,6023.68,0
1,52921,F,28,Privada,5064.0,628.37,0.0,0.0,1578.24,0
2,8387,F,24,Autônomo,4739.0,889.18,0.0,0.0,2578.7,0
3,54522,M,30,Pública,5215.0,1141.47,0.0,0.0,4348.96,0
4,45397,M,30,Autônomo,5215.56,520.7,0.0,0.0,1516.78,1


In [19]:
df['Idade'].mean()

31.8019

In [20]:
df.groupby('Empresa')['Idade'].mean()

Empresa
Autônomo    29.163787
Privada     32.867115
Pública     30.706531
Name: Idade, dtype: float64

## Mediana

Considere agora os dados ordenados $x_{(1)}, ..., x_{(n)}$, isto é, $$x_{(1)} = min(x_{1}, ..., x_{n})$$ $$x_{(n)} = max(x_{1}, ..., x_{n})$$ **Qual é a posição central dos dados?**

Se $n$ é ímpar, a posição central é $c = \frac{(n + 1)}{2}$.

Se $n$ é par, as posições centrais são $c = \frac{n}{2}$ e $c + 1 = \frac{n}{2} + 1$.

A **mediana** é definida como:
$$
    Md= 
\begin{cases}
    x_{(c)},                    & \text{se } n \text{ é ímpar} \\
    \frac{x_{(c)} + x_{(c+1)}}{2}, & \text{se } n \text{ é par}
\end{cases}
$$

**Vantagens da mediana**
- Mais resistente a valores atípicos.
- Pouco afetada por distribuições assimétricas.
- Pode ser obtida para variáveis qualitativas ordinais. Exemplo:
`[ruim, ruim, ruim, ruim, bom, bom]`. Mediana: `ruim`.

**Desvantagens da mediana**
- Menos conhecida que a média.
- Não tem boas propriedades estatísticas.

In [21]:
df['Idade'].median()

32.0

In [22]:
df.groupby('Empresa')['Idade'].median()

Empresa
Autônomo    29.0
Privada     33.0
Pública     31.0
Name: Idade, dtype: float64

## Moda

A moda é o valor mais frequente da amostra. Uma amostra pode ter uma moda, mais de uma moda, ou a moda pode não existir. Exemplos:
- `[1, 2, 2, 3, 4]`. Moda: `[2]`
- `[1, 2, 2, 3, 3, 4]`. Moda: `[2, 3]`
- `[1, 2, 3, 4]`. Moda: Não existe

In [29]:
from scipy import stats

stats.mode(df['Idade'])

ModeResult(mode=32, count=1343)

## Quantis

Um quantil é o valor que provoca uma divisão conveniente nos
valores ordenados.
- O quantil de 10%, $q_{10}$, divide os dados de tal forma que 10% dos menores valores sejam menores que ele.
- O quantil de 50%, $q_{50}$ é a mediana.
- Os quartis $Q_{1}$, $Q_{2}$ e $Q_{3}$ dividem os dados em porções de 25%.
- Os decis dividem os dados em porções de 10%, $d_{\alpha}$.
- Os percentis dividem os dados em porções de 1%, $p_{\alpha}$.

In [31]:
df.describe()

Unnamed: 0,Cliente,Idade,Salario,Saldo_cc,Saldo_poupança,Saldo_investimento,Devedor_cartao,Inadimplente
count,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,49897.9777,31.8019,5482.880238,773.441611,2224.517679,1476.939508,2737.210731,0.2461
std,28829.815505,2.931913,393.779438,246.932963,5668.740769,3920.049185,1994.877093,0.430759
min,6.0,21.0,4325.72,-280.67,0.0,0.0,0.0,0.0
25%,25067.0,30.0,5207.54,599.425,0.0,0.0,1186.8075,0.0
50%,49836.0,32.0,5498.78,766.0,0.0,0.0,2692.935,0.0
75%,74699.25,34.0,5738.22,941.47,0.0,0.0,4058.565,0.0
max,99993.0,50.0,8582.0,2007.26,23336.42,21810.52,12312.22,1.0
