# Distribuição de Frequêcia

### Teoria

Uma distribuição de frequência é uma forma de organizar e resumir dados, mostrando a frequência (ou seja, quantas vezes) com que cada valor ou intervalo de valores aparece em um conjunto de dados.

Imagine que você tem uma lista de notas de alunos em uma prova. Em vez de olhar para todas as notas individualmente, uma distribuição de frequência te ajudaria a ver rapidamente:

* Quantos alunos tiraram cada nota específica **negrito** (por exemplo, 5 alunos tiraram 7, 3 alunos tiraram 8, etc.).

* Q**uantos alunos caíram em determinados intervalos de notas** (por exemplo, 10 alunos tiraram entre 0 e 5, 15 alunos tiraram entre 6 e 10).

Ela é fundamental para entender a estrutura e o padrão dos seus dados, identificando valores comuns, incomuns, a dispersão dos dados e possíveis tendências. Pode ser apresentada em tabelas, gráficos de barras (histogramas) ou gráficos de pizza.


<br>

#### **Conjunto de dados para exemplo**

![conjunto de dados](https://github.com/AdrianoR85/Estatistica-para-Machine-Learning/blob/d12a9c994867a57eeff1916243f57bd381ffb786/assets/distribbui%C3%A7ao_de_frequencia.png?raw=true)


#### **Teminologias**:

* **Classe:** Intervalos de variação da variável é resentados simbolicamente por **"i"**.

* **Limite de classe:** É o limite inferior (l) e superio (L) da   classe.
  - Exemplo: l = 150 e L = 158

* **Amplitude de um intervalo de classe (hi):**  é a diferença entre o limite superior e o limite inferior de uma classe em uma distribuição de frequência agrupada.
  - hi = Li - li ➡️ (154 - 150 = 4).

* **Amplitude total da distribuição (AT):** é a diferença entre o maior e o menor valor de um conjunto de dados:
  - AT = L<sub>max</sub> - L<sub>min</sub> ➡️ (173 - 150 = 23)

* **Amplitude amostral:** é diferença entre o valor máximo e o valor mínimo observados em um conjunto de dados amostrais (AA).
  - AA = X<sub>max</sub> - X<sub>min</sub> ➡️ (173 - 150 = 23)

* **Ponto médio de uma classe:**  é o valor que representa o centro de um determinado intervalo de classe em uma distribuição de frequência agrupada.
  - Xi = (Li + li) / 2 ➡️ (158 + 154) / 2 = 156cm

* **Frequência:** é o número de vezes que um determinado valor aparece em um conjunto de dados.
Existem diferentes tipos de frequência:

  - **Frequência Absoluta (fi):** É o número puro de ocorrências de um valor ou de uma classe.
    - f<sub>1</sub> = 5

  - **Frequência Relativa (fr):** É a proporção de ocorrências de um valor ou classe em relação ao total de observações. Geralmente é expressa como uma porcentagem ou um decimal.
    - fr = (fi / Total de Observações) * 100 ➡️ (5 / 40) * 100 =  12,5

  - **Frequência Acumulada (Fi):** É a soma das frequências de um valor ou classe com as frequências de todos os valores ou lasses anteriores. Ela mostra quantas observações estão abaixo ou são iguais a um determinado valor/classe.
   
  - **Frequência Relativa Acumulada (Fr):** É a soma das frequências relativas de um valor ou classe com as frequências relativas de todos os valores ou classes anteriores. Mostra a porcentagem acumulada de observações até aquele ponto.

### **Determinar o número de classes**
A formar mais utilizada para determinar o número de classe é a utilização da Fórmula de *Sturges*

```
k = 1 + 3.33 * log(n)

1 + 3.33 * log(40)
1 + 3.33 * 1.6
k = 6.28
```

#### *Onde*:

* **k** é o número de classes (o resultado deve ser arredondado para o número inteiro mais próximo).
* **n** é o número total de observações (o tamanho da sua amostra ou população de dados).
* **log** é o logaritmo na base 10.

#### **Determinar a amplitude do intervalo de classe**
```
h = AA / k

h = (173 - 150) / 6
h = 23 / 6
h = 4 -> (3,83) sempre arrendodar para cima

```

## Ordenação

## Número de classes

## Amplitude do intervalo

## Construção da distribuição de frequência

## Distribuição de frequência e histograma com numpy e matplotlib