# <b>Estatística Descritiva

In [38]:
# Conjunto de dados
amostra = [71, 73, 73, 74, 74, 75, 76, 77, 77, 79, 81, 83]

## <b><i>Medidas de Tendencia Central
### Média
A média aritmética (ou simplesmente média) de um conjunto de $n$ valores $x_1, x_2, \ldots, x_n$ é calculada pela fórmula:

$
\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i
$

Onde:
- $\bar{x}$ é a média;
- $n$ é o número total de elementos;
- $x_i$ representa cada um dos elementos do conjunto.

In [39]:
def media(conjunto_de_dados):
    """Calcula a média aritimética de um conjunto de dados"""
    n = len(conjunto_de_dados)
    soma_dos_dados = 0
    for i in conjunto_de_dados:
        soma_dos_dados += i
        mean = soma_dos_dados / n
    return mean

print(media(amostra))

76.08333333333333


### Mediana
A mediana é o valor central de um conjunto de dados ordenados. Se os dados estiverem organizados em ordem crescente:

- Se o número de elementos $n$ for ímpar, a mediana é o valor que ocupa a posição central:
  
  $$
  \text{Mediana} = x_{\left( \frac{n+1}{2} \right)}
  $$

- Se o número de elementos $n$ for par, a mediana é a média dos dois valores centrais:
  
  $$
  \text{Mediana} = \frac{ x_{\left( \frac{n}{2} \right)} + x_{\left( \frac{n}{2} + 1 \right)} }{2}
  $$

Onde $ x_{(i)} $ representa o $ i $-ésimo valor após ordenar os dados.

In [40]:
def mediana(conjunto_de_dados):
    """Calcula a mediana de um conjunto de dados"""
    n = len(conjunto_de_dados)
    x = n // 2
    if n % 2 == 0:
        return (conjunto_de_dados[x - 1] + conjunto_de_dados[x]) / 2
    else:
        return conjunto_de_dados[x - 1]

print(mediana(amostra))

75.5


### Moda
A moda é o valor que ocorre com maior frequência em um conjunto de dados.

- Um conjunto pode ter:
  - Uma única moda (unimodal),
  - Duas modas (bimodal),
  - Mais de duas modas (multimodal),
  - Ou nenhuma moda (quando todos os valores ocorrem com a mesma frequência).

Seja o conjunto de dados $ x_1, x_2, \ldots, x_n $, a moda é o valor $ x $ tal que:

$$
\text{Moda} = \operatorname{arg\,max}_{x_i} \, f(x_i)
$$

Onde $ f(x_i) $ representa a frequência do valor $ x_i $ no conjunto de dados.

## <b><i>Medidas de Posição Relativa
### Quartis
Os quartis dividem um conjunto de dados ordenados em quatro partes iguais. Eles são usados para descrever a dispersão e a distribuição dos dados.

- $Q_1$ (primeiro quartil) é o valor que separa os 25% menores dados do restante (25ª percentil).
- $Q_2$ (segundo quartil) é a mediana, que separa os 50% menores dos 50% maiores dados (50ª percentil).
- $Q_3$ (terceiro quartil) é o valor que separa os 75% menores dados dos 25% maiores (75ª percentil).

A fórmula para calcular a posição do quartil em um conjunto de $n$ elementos ordenados é:

$$
Q_k = x_{\left( \frac{k(n+1)}{4} \right)}
$$

Onde:
- $Q_k$ representa o $k$-ésimo quartil (com $k = 1, 2, 3$),
- $x_{(i)}$ é o $i$-ésimo valor da amostra ordenada,
- A posição pode ser interpolada caso não resulte em um número inteiro.

### Decis
Os decis dividem um conjunto de dados ordenados em dez partes iguais. Eles são usados para descrever a posição relativa de um valor dentro do conjunto de dados.

- Existem nove decis principais: $D_1, D_2, \ldots, D_9$.
- Por exemplo, $D_1$ separa os 10% menores dados dos 90% restantes, enquanto $D_5$ equivale à mediana (50ª percentil), e $D_9$ separa os 90% menores dos 10% maiores.

A fórmula para calcular a posição de um decil em um conjunto com $n$ elementos é:

$$
D_k = x_{\left( \frac{k(n+1)}{10} \right)}
$$

Onde:
- $D_k$ representa o $k$-ésimo decil (com $k = 1, 2, \ldots, 9$),
- $x_{(i)}$ é o $i$-ésimo valor dos dados ordenados,
- A posição pode ser interpolada se o resultado for fracionário.

### Percentis
Os percentis dividem um conjunto de dados ordenados em cem partes iguais. Eles são muito usados para indicar a posição relativa de um valor dentro do conjunto de dados.

- Existem 99 percentis principais: $P_1, P_2, \ldots, P_{99}$.
- Por exemplo:
  - $P_{25}$ corresponde ao primeiro quartil ($Q_1$),
  - $P_{50}$ corresponde à mediana ($Q_2$),
  - $P_{75}$ corresponde ao terceiro quartil ($Q_3$).

A fórmula para calcular a posição de um percentil em um conjunto com $n$ elementos é:

$$
P_k = x_{\left( \frac{k(n+1)}{100} \right)}
$$

Onde:
- $P_k$ representa o $k$-ésimo percentil (com $k = 1, 2, \ldots, 99$),
- $x_{(i)}$ é o $i$-ésimo valor dos dados ordenados,
- A posição pode ser interpolada caso o índice não seja inteiro.

In [41]:
def percentil(conjunto_de_dados, k):
    """
    Calcula o k-ésimo percentil de um conjunto de dados.

    Parâmetros:
    - conjunto_de_dados: lista ou array com os dados (não necessariamente ordenados)
    - k: valor do percentil desejado (entre 0 e 100)

    Retorna:
    - p_k: valor no conjunto de dados que representa o k-ésimo percentil
    """
    dados = sorted(conjunto_de_dados)
    n = len(dados)
    l = (k / 100) * n

    if l == int(l):
        l = int(l)
        p_k = (dados[l - 1] + dados[l]) / 2
    else:
        l = int(l) + 1
        p_k = dados[l - 1]

    return p_k

print(percentil(amostra, 20))

73


### Escore-z
O escore-z (ou valor z) é uma medida de padronização que indica **quantos desvios padrão** um valor está acima ou abaixo da média do conjunto de dados.

Ele é útil para comparar valores de diferentes distribuições ou detectar outliers.

A fórmula do escore-z é:

$$
z = \frac{x - \mu}{\sigma}
$$

Onde:
- $z$ é o escore padronizado do valor $x$,
- $\mu$ é a média do conjunto de dados,
- $\sigma$ é o desvio padrão populacional.

Se estiver usando amostras (e não a população inteira), substitui-se $\sigma$ pelo desvio padrão amostral $s$:

$$
z = \frac{x - \bar{x}}{s}
$$

In [42]:
def escore_z(conjunto_de_dados, x):
    """
    Calcula o escore-z (z-score) de um valor em relação a um conjunto de dados.
    
    Parâmetros:
    - conjunto_de_dados: lista de valores (população ou amostra)
    - x: valor cuja padronização será calculada
    
    Retorna:
    - z: escore-z do valor x, indicando quantos desvios padrão ele está da média
    """
    n = len(conjunto_de_dados)
    # Média
    soma_dos_dados = 0
    for i in conjunto_de_dados:
        soma_dos_dados += i
        mean = soma_dos_dados / n
    # Desvio Padrão
    somatorio = 0
    for i in conjunto_de_dados:
        somatorio = ((i - mean) ** 2) + somatorio
        s = (somatorio / n) ** 0.5
    # Escore Z
    z = (x - mean) / s
    return z

print(escore_z(amostra, 83))

2.0476669026895125


In [43]:
def z_invertido(conjunto_de_dados, z):
    """
    Calcula o valor original (x) em um conjunto de dados a partir do escore-z (z-score).

    Parâmetros:
    - conjunto_de_dados: lista de dados numéricos (população ou amostra)
    - z: escore-z conhecido

    Retorna:
    - x: valor correspondente ao escore-z fornecido
    """
    n = len(conjunto_de_dados)
    # Média
    soma_dos_dados = 0
    for i in conjunto_de_dados:
        soma_dos_dados += i
        mean = soma_dos_dados / n
    # Desvio Padrão
    somatorio = 0
    for i in conjunto_de_dados:
        somatorio = ((i - mean) ** 2) + somatorio
        s = (somatorio / n) ** 0.5
    # Escore Z Invertido
    x = (z * s) + mean
    return x

print(z_invertido(amostra, -0.5))

74.39441931670738


## <b><i>Medidas de Dispersão
### Amplitude
A amplitude é uma medida de dispersão que representa a diferença entre o maior e o menor valor de um conjunto de dados.

Ela mostra o intervalo total dos dados, sendo útil para ter uma noção básica da variação.

A fórmula da amplitude é:

$$
\text{Amplitude} = x_{\text{máx}} - x_{\text{mín}}
$$

Onde:
- $x_{\text{máx}}$ é o maior valor do conjunto de dados,
- $x_{\text{mín}}$ é o menor valor do conjunto de dados.

In [44]:
# Cálculo da Amplitude
amplitude = amostra[-1] - amostra[0]
print(amplitude)

12


### Variância
A variância é uma medida de dispersão que indica o quanto os valores de um conjunto de dados se afastam da média. Ela é calculada como a média dos quadrados dos desvios em relação à média.

### Variância populacional:

$$
\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2
$$

Onde:
- $\sigma^2$ é a variância populacional,
- $x_i$ são os valores do conjunto de dados,
- $\mu$ é a média populacional,
- $N$ é o número total de elementos da população.

### Variância amostral:

$$
s^2 = \frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \bar{x})^2
$$

Onde:
- $s^2$ é a variância amostral,
- $\bar{x}$ é a média amostral,
- $n$ é o número de elementos da amostra.

A variância é expressa em **unidades elevadas ao quadrado**, por isso é comum usar o **desvio padrão** para facilitar a interpretação.

In [45]:
def variancia(conjunto_de_dados):
    """Função para Variância"""
    n = len(conjunto_de_dados) - 1
    # Média
    soma_dos_dados = 0
    for i in conjunto_de_dados:
        soma_dos_dados += i
        mean = soma_dos_dados / n
    # Desvio Padrão
    somatorio = 0
    for i in conjunto_de_dados:
        somatorio = ((i - mean) ** 2) + somatorio
    s_2 = (somatorio / n)
    return s_2

print(f" = {variancia(amostra)}")

 = 64.63636363636364


### Desvio Padrão
O desvio padrão é a medida de dispersão mais utilizada na estatística. Ele indica o quanto, em média, os valores de um conjunto de dados se afastam da média.

É calculado como a **raiz quadrada da variância**, permitindo que seja expresso na **mesma unidade dos dados**.

### Desvio padrão populacional:

$$
\sigma = \sqrt{ \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2 }
$$

Onde:
- $\sigma$ é o desvio padrão populacional,
- $x_i$ são os valores do conjunto,
- $\mu$ é a média populacional,
- $N$ é o número total de elementos da população.

### Desvio padrão amostral:

$$
s = \sqrt{ \frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \bar{x})^2 }
$$

Onde:
- $s$ é o desvio padrão amostral,
- $\bar{x}$ é a média da amostra,
- $n$ é o número de elementos da amostra.

O desvio padrão ajuda a entender a **variabilidade dos dados**: quanto maior o desvio, mais dispersos estão os valores.

In [46]:
def desvio_padrao(conjunto_de_dados):
    """Função para Desvio Padrão"""
    n = len(conjunto_de_dados) - 1
    # Média
    soma_dos_dados = 0
    for i in conjunto_de_dados:
        soma_dos_dados += i
    mean = soma_dos_dados / n
    # Desvio Padrão
    somatorio = 0
    for i in conjunto_de_dados:
        somatorio = ((i - mean) ** 2) + somatorio
    s = (somatorio / n) ** 0.5
    return s

print(f" = {desvio_padrao(amostra)}")

 = 8.039674348900187


### Coeficiente de Variação
O coeficiente de variação (CV) é uma medida **relativa de dispersão**, que expressa o desvio padrão em relação à média, geralmente em forma de **percentual**.

Ele é útil para **comparar a variabilidade** entre conjuntos de dados com unidades ou escalas diferentes.

A fórmula do coeficiente de variação é:

### Para população:

$$
CV = \frac{\sigma}{\mu} \times 100\%
$$

### Para amostra:

$$
CV = \frac{s}{\bar{x}} \times 100\%
$$

Onde:
- $CV$ é o coeficiente de variação,
- $\sigma$ é o desvio padrão populacional,
- $\mu$ é a média populacional,
- $s$ é o desvio padrão amostral,
- $\bar{x}$ é a média amostral.

**Interpretação**:
- Quanto maior o $CV$, maior a variabilidade em relação à média.
- Um $CV$ muito alto pode indicar instabilidade nos dados.

In [47]:
def coeficiente_variacao(conjunto_de_dados):
    """Função para Coeficiente de Variação"""
    n = len(conjunto_de_dados) - 1
    # Média
    soma_dos_dados = 0
    for i in conjunto_de_dados:
        soma_dos_dados += i
    mean = soma_dos_dados / n
    # Desvio Padrão
    somatorio = 0
    for i in conjunto_de_dados:
        somatorio = ((i - mean) ** 2) + somatorio
    s = (somatorio / n) ** 0.5
    # Coeficiente de Variação
    cv = (s / mean) * 100
    return cv

print(coeficiente_variacao(amostra))

9.68635463722914


### Distância Interquartílica
A distância interquartílica (DIQ) é uma medida de dispersão que indica a amplitude da parte central dos dados, ou seja, a diferença entre o terceiro quartil ($Q_3$) e o primeiro quartil ($Q_1$).

Ela é útil para entender a variação dos 50% centrais dos dados e é menos sensível a valores extremos (outliers) do que a amplitude total.

A fórmula da distância interquartílica é:

$$
\text{DIQ} = Q_3 - Q_1
$$

Onde:
- $Q_1$ é o primeiro quartil (25º percentil),
- $Q_3$ é o terceiro quartil (75º percentil).

In [48]:
def iqr(conjunto_de_dados):
    """Função para Distância Interquartílica / IQR - Interquartile Range"""
    n = len(conjunto_de_dados)
    # 1° Quartil
    q_1 = (25 / 100) * n
    if q_1 == int(q_1):
        q_1 = int(q_1)
        quartil_1 = (conjunto_de_dados[q_1 - 1] + conjunto_de_dados[q_1]) / 2
    else:
        q_1 = int(q_1) + 1
        quartil_1 = conjunto_de_dados[q_1 - 1]
    # 3° Quartil
    q_3 = (75 / 100) * n
    if q_3 == int(q_3):
        q_3 = int(q_3)
        quartil_3 = (conjunto_de_dados[q_3 - 1] + conjunto_de_dados[q_3]) / 2
    else:
        q_3 = int(q_3) + 1
        quartil_3 = conjunto_de_dados[q_3 - 1]

    diq = quartil_3 - quartil_1
    return diq

print(iqr(amostra))

4.5


### Regra do **1,5 × DIQ**
Após calcular a distância interquartílica (DIQ), é comum utilizar a regra do **1,5 × DIQ** para identificar valores discrepantes (outliers).

Os limites para detectar esses valores são definidos como:

$$
\begin{cases}
\text{Limite inferior} = Q_1 - 1{,}5 \times \text{DIQ} \\
\text{Limite superior} = Q_3 + 1{,}5 \times \text{DIQ}
\end{cases}
$$

Onde:
- $Q_1$ é o primeiro quartil,
- $Q_3$ é o terceiro quartil,
- $\text{DIQ} = Q_3 - Q_1$ é a distância interquartílica.

Valores abaixo do limite inferior ou acima do limite superior são considerados **outliers** ou **valores discrepantes**.

In [49]:
def outliers(conjunto_de_dados):
    """Função para Regra do 1,5 × DIQ"""
    n = len(conjunto_de_dados)
    # 1° Quartil
    q_1 = (25 / 100) * n
    if q_1 == int(q_1):
        q_1 = int(q_1)
        quartil_1 = (conjunto_de_dados[q_1 - 1] + conjunto_de_dados[q_1]) / 2
    else:
        q_1 = int(q_1) + 1
        quartil_1 = conjunto_de_dados[q_1 - 1]
    # 3° Quartil
    q_3 = (75 / 100) * n
    if q_3 == int(q_3):
        q_3 = int(q_3)
        quartil_3 = (conjunto_de_dados[q_3 - 1] + conjunto_de_dados[q_3]) / 2
    else:
        q_3 = int(q_3) + 1
        quartil_3 = conjunto_de_dados[q_3 - 1]
    # IQR
    diq = quartil_3 - quartil_1
    # Valores Discrepantes
    limite_inferior = quartil_1 - 1.5 * diq
    limite_superior = quartil_3 + 1.5 * diq
    return limite_inferior, limite_superior

print(outliers(amostra))

(66.75, 84.75)
