# Estatística Básica

## Definições básicas

**População** é o conjunto de elementos que têm pelo menos uma característica em comum.

**Amostra** é um subconjunto de elementos representativos de uma população.

**Variável** é a característica de um elemento que vai ser observada, medida ou contada nos elementos da população ou da amostra e que pode variar de elemento para elemento.

- **quantitativa:** variáveis numéricas que expressam uma quantidade.
    - **discreta:** número inteiro ou pertencente a um conjunto finito enumerável;
    - **contínua:** números em intervalos da reta real, resultantes de mensurações.
    
- **qualitativa:** variáveis cujos valores determinam atributos ou qualidades.
    - **nominal:** não apresentam ordem natural de ocorrência dos valores;
    - **ordinal:** os valores apresentam uma ordem natural de ocorrência.

In [6]:
lista_de_idades = [12, 13, 21, 8, 9, 20] #variável quantitativa discreta

In [7]:
lista_de_alturas = [1.75, 1.60, 1.82, 1.9] #variável quantitativa contínua

In [9]:
lista_de_cursos = [
    'Sistemas de Informação',
    'Engenharia de Software',
    'Jornalismo',
    'Medicina'
] # variável categórica nominal (não há uma ordem natural entre os valores)

In [10]:
lista_de_tamanhos = [
    'Extra pequeno',
    'Pequeno',
    'Médio',
    'Grande',
    'Extra grande'
] # variável categórica ordinal (há uma ordem natural entre os valores)

## Distribuição de frequência

### Distribuição de frequência pontual (sem perda de informação)

**Amplitude total:** é a diferença entre o maior e o menor elemento de um conjunto. 
$$AT = x_{max} - x_{min}$$

**Frequência relativa:** $f_i = \frac{F_i}{n}$, onde n é o tamanho da amostra e $F_i$ é a frequência absoluta, ou seja, o número de vezes que o valor aparece na amostra. A soma total de $f_i$ resulta em 1.

**Frequência relativa em percentual:** $f_{i\%} = \frac{F_i}{n} \cdot 100$. A soma total de $f_{i\%}$ resulta em 100%.

In [11]:
def amplitude_total(lista):
    return max(lista) - min(lista)

In [13]:
def frequencia_relativa(lista, elemento):
    count  = 0
    for n in lista:
        if n == elemento:
            count += 1
    return count / len(lista)

In [14]:
def frequencia_relativa_por_cem(lista, elemento):
    return frequencia_relativa(lista, elemento) * 100

## Medidas descritivas

**Média aritmética:** seja $(x_1, x_2, \dots, x_n)$ um conjunto de dados. A média aritmética é dada por: 

$\mu = \frac{\sum\limits_{i=0}^{N}x_i}{N}$, ou $\bar{X} = \frac{\sum\limits_{i=0}^{n}x_i}{n}$

, para uma população ou uma amostra, respectivamente. 

*Características da média aritmética:*
- depente de todas as observações;
- é única em um conjunto de dados e nem sempre tem existência real;
- é afetada por valores extremos;
- sofre com alteração em qualquer valor do conjunto de dados;
- a soma dos desvios é sempre zero: $\sum(x_i - \bar{X}) = 0$.

**Moda:** é o valor que apresenta maior frequência da variável dentre os valores observados.
$$M_o = l_i + \frac{h \cdot (F_i - F_{i-1})}{(F_i - F_{i-1}) + (F_i - F_i+1)}$$, onde:

- $i$ é a ordem da classe modal;
- $l_i$ é o limite inferior da classe modal;
- $h$ é a amplitude da classe modal;
- $F_i$ é a frequência absoluta da classe modal;
- $F_{i-1}$ é a frequência absoluta da classe anterior à modal; e
- $F_{i+1}$ é a frequência absoluta da classe posterior à modal.

**Mediana:** é o valor que ocupa a posição central de um conjunto de observações. Ordenando-se os valores, a quantidade de elementos com inferiores à mediana é igual à quantidade de elementos superiores à mediana.

In [27]:
def media(lista):
    soma = 0
    for i in lista:
        soma += i
    return soma / len(lista)

In [29]:
def moda(lista):
    moda_count = {}
    mais_frequente = None
    frequencia = 0
    for i in lista:
        if i in moda_count:
            moda_count[i] += 1
        else:
            moda_count[i] = 1
        if moda_count[i] > frequencia:
                mais_frequente = i
                frequencia = moda_count[i]
    return mais_frequente

In [26]:
def mediana(lista):
    lista_ordenada = sorted(lista)
    n = len(lista_ordenada)
    meio = n // 2
    if len(lista_ordenada) % 2 == 0:
        return (lista_ordenada[meio] + lista_ordenada[meio-1]) / 2
    else:
        return lista_ordenada[meio]

## Medidas Separatrizes

As medidas separatrizes são valores que ocupam posições no conjunto de dados, dividindo-o em partes iguais.

### Quartis
- **1º quartil ($Q_1$):** 25% dos dados são valores menores ou iguais ao valor do primeiro quartil. (Posição = $0.25(n+1)$)
- **2º quartil ($Q_2 = M_d$):** 50% dos dados são valores menores ou iguais ao valor do primeiro quartil. (Posição = $0.5(n+1)$)
- **3º quartil ($Q_3$):** 75% dos dados são valores menores ou iguais ao valor do primeiro quartil. (Posição = $0.75(n+1)$)


In [76]:
# Calculando os quartis de uma lista de valores quantitativos
lista_de_valores = [2, 1, 3, 4, 5, 1, 1, 7, 1, 3, 8, 9, 2, 3, 4]
# Passo 1: ordenar a lista
lista_ordenada = sorted(lista_de_valores)

In [77]:
lista_ordenada

[1, 1, 1, 1, 2, 2, 3, 3, 3, 4, 4, 5, 7, 8, 9]

In [78]:
q1 = media(lista_ordenada[int(0.25 * len(lista_ordenada))-1 : int(0.25 * len(lista_ordenada))+1])
q2 = media(lista_ordenada[int(0.5 * len(lista_ordenada))-1 : int(0.5 * len(lista_ordenada))+1])
q3 = media(lista_ordenada[int(0.75 * len(lista_ordenada))-1 : int(0.75 * len(lista_ordenada))+1])

In [82]:
print(f'Q1 = {q1}, Q2 = {q2}, Q3 = {q3}')

Q1 = 1.0, Q2 = 3.0, Q3 = 4.5


## Medidas de dispersão

- **Amplitude total:** é a diferença entre o maior e o menor valores do conjunto.
$$AT = X_{max} - X_{min}$$

- **Amplitude interquartílica:** é a diferença entre o terceiro e o primeiro quartis. É mais estável que a amplitude total porque desconsidera os valores extremos. $$d_q = Q_3 - Q_1$$

- **Desvio médio:** a diferença entre cada valor observado e a média é denominada desvio e é dada por $(x_i - \mu)$. A soma total dos desvios é sempre igual a zero. Para evitar isto, utiliza-se o somatório dos módulos das diferenças. Assim, o desvio médio é dado pela equação $$d_m = \frac{\sum\limits_{i=0}^{N}|x_i - \mu|}{N}$$

- **Variância e Desvio padrão:** o desvio médio, apesar de fazer sentido, não costuma ser utilizado. A variância, no entanto, considera o quadrado dos desvios em relação à média e é amplamente utilizada.

$$\sigma^2 = \frac{\sum\limits_{i=0}^{N}{(x_i - \mu)}^2}{N}$$

O desvio padrão é obtido através da raiz quadrada da variância:

$$\sigma = \sqrt{\frac{\sum\limits_{i=0}^{N}{(x_i - \mu)}^2}{N}}$$

In [85]:
def desvio_medio(lista):
    m = media(lista)
    soma_desvios = 0
    for x in lista:
        soma_desvios += abs(x - m)
    return soma_desvios / len(lista)

In [87]:
def variancia(lista):
    m = media(lista)
    soma_desvios = 0
    for x in lista:
        soma_desvios += pow(x - m, 2)
    return soma_desvios / len(lista)

In [88]:
import math
def desvio_padrao(lista):
    return math.sqrt(variancia(lista))