# Guia Conceitual: **Mediana** (median)

## Origem do Conceito de Mediana

A palavra "mediana" deriva do latim `medianus`, que significa **do meio** ou **central**. O conceito de mediana tem raízes na história da estatística, onde se tornou uma ferramenta crucial para descrever a tendência central de um conjunto de dados. A mediana é frequentemente utilizada em áreas como economia, ciências sociais e saúde, onde a compreensão das distribuições de dados é essencial.

## História

**Pierre Simon Laplace**  
A ideia de **mediana** aparece no `século XIII` no Talmude e mais tarde no livro *Certaine Errors in Navigation*, na seção sobre determinação da localização com bússola. O livro foi escrito pelo matemático **Edward Wright** em `1599`, que achou que o valor era o mais provável de ser o correto em uma série de observações.

Em `1757`, **Ruđer Bošković** desenvolve um método de regressão baseado no espaço $L_1$ e implicitamente na **mediana**. Em `1774`, **Pierre Simon Laplace** sugere o uso da **mediana** como o estimador padrão do valor da média de uma distribuição posteriori: o critério foi minimizar a magnitude esperada do erro 

$$
|\alpha - \alpha^*|,
$$ 

em que $\alpha^*$ é a estimativa e $\alpha$ é o valor real. O método de **Laplace** foi amplamente rejeitado por 150 anos em favor do método dos **mínimos quadrados** de **Carl Friedrich Gauss** e de **Adrien-Marie Legendre**, o qual minimiza 

$$
(\alpha - \alpha^*)^2
$$ 

para obter a média. A distribuição, tanto da média da amostra, quanto da mediana da amostra, foi determinada por **Laplace** no início dos anos `1800`.

Em `1843`, **Antoine Augustin Cournot** foi o primeiro matemático a usar o termo **mediana** para o valor que divide a distribuição de probabilidade em duas metades iguais. **Gustav Fechner** usou o termo **mediana** para fenômenos sociológicos e psicológicos. Mediana tinha sido usada anteriormente apenas na astronomia e em áreas correlatas. Embora tenha sido usada anteriormente por **Laplace**, **Fechner** popularizou a **mediana** na análise formal de dados.

Em `1881`, **Francis Galton** usou o termo **mediana** em Inglês depois de usar os termos *middle-most value* em `1869` e *medium* em `1880`.


A mediana é especialmente valorizada por sua robustez em relação a valores extremos, tornando-a uma medida confiável em diversas aplicações.

### Definição

> A **mediana** de um conjunto de dados é o valor que separa os dados em duas partes iguais, onde 50% dos valores estão abaixo dela e 50% estão acima. 

Em outras palavras, a mediana é o ponto central de um conjunto de dados quando estes são organizados em ordem crescente.

Não existe uma notação padrão amplamente aceita para a mediana, mas alguns autores representam a mediana de uma variável $x$ como $med(x)$, x͂, como $μ1/2$, ou como $M$. Em qualquer um desses casos, o uso desses ou de outros símbolos para a mediana precisa ser explicitamente definido quando eles são introduzidos.

A **mediana** pode ser usada como uma medida de localização quando se atribui importância reduzida a valores extremos, normalmente porque uma distribuição é distorcida, valores extremos não são conhecidos ou valores discrepantes não são confiáveis, ou seja, podem ser erros de medição ou transcrição.

Por exemplo, considere o multiset

$$1, 2, 2, 2, 3, 14.$$

A **mediana** é 2 neste caso, assim como a **moda**, e pode ser vista como uma indicação melhor do centro do que a **média aritmética** de 4, que é maior do que todos os valores, exceto um. No entanto, a relação empírica amplamente citada de que a **média** é deslocada "mais para a cauda" de uma distribuição do que a **mediana** geralmente não é verdadeira. No máximo, pode-se dizer que as duas estatísticas não podem estar "muito distantes"; ver § **Desigualdade** relacionando médias e medianas abaixo.

![imagem](https://upload.wikimedia.org/wikipedia/commons/thumb/d/de/Comparison_mean_median_mode.svg/512px-Comparison_mean_median_mode.svg.png)

Como uma **mediana** é baseada nos dados médios de um conjunto, não é necessário saber o valor dos resultados extremos para calculá-la. Por exemplo, em um teste de psicologia que investiga o tempo necessário para resolver um problema, se um pequeno número de pessoas não conseguiu resolver o problema no tempo determinado, uma **mediana** ainda pode ser calculada.

Como a **mediana** é simples de entender e fácil de calcular, ao mesmo tempo em que é uma aproximação robusta da **média**, a **mediana** é uma estatística resumida popular em **estatística descritiva**. Nesse contexto, existem várias opções para uma medida de variabilidade: o **intervalo**, o **intervalo interquartil**, o **desvio absoluto médio** e o **desvio absoluto mediano**.

Para fins práticos, diferentes medidas de **localização** e **dispersão** são frequentemente comparadas com base em quão bem os valores populacionais correspondentes podem ser estimados a partir de uma amostra de dados. A **mediana**, estimada usando a **mediana da amostra**, tem boas propriedades nesse aspecto. Embora geralmente não seja ideal se uma determinada distribuição populacional for assumida, suas propriedades são sempre razoavelmente boas. Por exemplo, uma comparação da **eficiência** dos estimadores candidatos mostra que a **média da amostra** é estatisticamente mais eficiente quando - e somente quando - os dados não são contaminados por dados de distribuições de cauda pesada ou de misturas de distribuições. [ citação necessária ] Mesmo assim, a **mediana** tem uma eficiência de 64% em comparação com a **média de variância mínima** (para grandes amostras normais), o que significa que a variância da **mediana** será ~ 50% maior que a variância da **média**.


### Cálculo da Mediana

O cálculo da mediana varia dependendo se o número de observações é ímpar ou par.

1. **Conjunto com número ímpar de observações**: 
   - Quando há um número ímpar de valores, a mediana é o valor do meio.
   - Se os valores são representados como $x_1, x_2, \ldots, x_n$ em ordem crescente, a mediana é dada por:
   $$
   \text{Mediana} = x_{\left(\frac{n + 1}{2}\right)}
   $$

2. **Conjunto com número par de observações**: 
   - Quando há um número par de valores, a mediana é a média dos dois valores centrais.
   - Se $n$ é o número total de valores, a mediana é dada por:
   $$
   \text{Mediana} = \frac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2} + 1\right)}}{2}
   $$

### Exemplo Prático

Suponha que você tenha os seguintes valores representando as idades de 7 pessoas:

$$
\{25, 30, 35, 40, 45, 50, 55\}
$$

Como há um número ímpar de observações, a mediana é o valor central:

$$
\text{Mediana} = 40
$$

Agora, considere um conjunto com um número par de valores:

$$
\{20, 22, 24, 26\}
$$

A mediana será a média dos dois valores centrais:

$$
\text{Mediana} = \frac{22 + 24}{2} = 23
$$

## Propriedades da Mediana

1. **Robustez**: A mediana não é influenciada por valores extremos. Isso significa que um valor muito alto ou muito baixo não distorcerá a mediana, ao contrário da média aritmética.
2. **Separação de Dados**: A mediana divide um conjunto de dados em duas partes iguais, sendo uma medida útil para compreender a distribuição dos dados.
3. **Uso em Distribuições Assimétricas**: A mediana é frequentemente preferida em distribuições assimétricas, pois fornece uma representação mais precisa do centro dos dados.

## Limitações da Mediana

Embora a mediana seja uma medida robusta, ela também possui limitações:

- **Menos Informativa**: A mediana não leva em conta a magnitude dos valores em um conjunto de dados, ao contrário da média, que considera todos os valores.
- **Dificuldade em Cálculos**: Para conjuntos de dados muito grandes ou complexos, calcular a mediana pode ser menos prático do que calcular a média.

## Contraste com Média Aritmética

A mediana é frequentemente contrastada com a média aritmética. Enquanto a média considera todos os valores e pode ser afetada por outliers, a mediana é uma medida mais robusta que representa o ponto central dos dados. Por exemplo, considere os seguintes dados:

- Conjunto A: $1, 2, 3, 4, 5$  
  - Média: 3  
  - Mediana: 3  

- Conjunto B: $1, 2, 3, 4, 100$  
  - Média: 22  
  - Mediana: 3  

Neste exemplo, a média do Conjunto B é distorcida pelo outlier (100), enquanto a mediana permanece a mesma.

## Conclusão

A mediana é uma medida estatística central e robusta, útil para resumir conjuntos de dados. Sua capacidade de ignorar valores extremos a torna especialmente valiosa em análises estatísticas. Ao interpretar a mediana, é importante considerar o contexto dos dados e sua distribuição, garantindo uma compreensão adequada da tendência central.


In [None]:
# Gerar dados aleatórios
data = randn(1000)  # 1000 valores aleatórios da distribuição normal

# Calcular a mediana
mediana = median(data)

# Criar o histograma
histogram(data, bins=30, alpha=0.6, legend=false,
          title="Histograma com Mediana",
          xlabel="Valores",
          ylabel="Frequência",
          color=:blue)

# Adicionar linha da mediana
vline!([mediana], color=:red, label="Mediana", linewidth=2)

# Exibir a mediana no gráfico
annotate!([(mediana, 50, text("Mediana: $mediana", :red))])