In [49]:
import pandas as pd
import numpy as np

# Tabelas

Um dos primeiros passos para analisar um arquivo de dados, especialmente quando o número de observações for grande, é a distribuição de frequência de cada variável.

* Uma distribuição de frequência é uma tabela que mostra categorias, valores ou intervalos de valores de acordo com as ocorrências.

## Distribuição de frequência

Tabela 1 - Distribuição de frequência do provedor usado pelo visitante do site

Provedor  |  Frequência |  Porcentagem  (Frequência Relativa)
--------- | ----------- | ------------
     A    |       10    |     25,0      
     B    |       17    |     42,5      
     C    |       7     |     17,5    
     D    |       6     |     15,0                    
     Total|       40    |     100,0  


In [None]:
tab1 = pd.DataFrame([["A", 10, 25.0], ["B", 17, 42.5], ["C", 7, 17.5], ["D", 6, 15.0], ["Total", 40, 100.00]], columns=["Provedor", "Frequência", "Porcentagem"])

tab1


## Distribuição de frequência acumulada

Tabela 2 - Distribuição de frequência do número de defeitos encontrados em escalas no final da linha de produção
Aplicado normalmente em variaveis categorias, podendo ser aplicado tambem à variaveis do tipo numerica ordinal.

Nº Defeitos Encontrados  | Frequência | Porcentagem | Frêquencia Acumulada | Porcentagem Acumulada 
:------------------------|:----------:|:-----------:|:--------------------:|:---------------------:
0                        |    13      |      27,1   |         13           |         27,1
1                        |    15      |      31,3   |         28           |         58,4
2                        |    10      |      20,8   |         38           |         79,2
3                        |    7       |      14,6   |         45           |         93,8
4                        |    2       |      4,2    |         47           |         98
7                        |    1       |      2,1    |         48           |         100
**Total**                |    48      |      100,0  |                      |


In [16]:
tab2 = pd.DataFrame([[0, 13, 27.1, 13, 27.1], [1, 15, 31.3, 28, 58.4], [2, 10, 20.8, 38, 79.2], [3, 7, 14.6, 45, 93.8], [4, 2, 4.2, 47, 98], [7, 1, 2.1, 48, 100], ["Total", 48, 100.0, "", ""]], columns=["Nº Defeitos", "Frequência", "Porcentagem", "Frequencia Acumulada", "Porcentagem Acumulada"])
tab2

Unnamed: 0,Nº Defeitos,Frequência,Porcentagem,Frequencia Acumulada,Porcentagem Acumulada
0,0,13,27.1,13.0,27.1
1,1,15,31.3,28.0,58.4
2,2,10,20.8,38.0,79.2
3,3,7,14.6,45.0,93.8
4,4,2,4.2,47.0,98.0
5,7,1,2.1,48.0,100.0
6,Total,48,100.0,,


## Distribuição de frequência por intervalo
Exemplo 1: Os dados, a seguir, representam o tempo (em segundos) que operadores gastam para montar um equipamento na linha de produção de uma empresa:

```python
itens = [4.7, 4.9, 5.1, 5.4, 5.7, 6.0, 6.3, 6.8, 7.3, 8.9,
         4.8, 4.9, 5.2, 5.5, 5.7, 6.2, 6.4, 6.9, 8.2, 9.1,
         4.8, 5.0, 5.3, 5.6, 5.7, 6.2, 6.5, 7.0, 8.2, 9.9, 
         4.9, 5.0, 5.4, 5.6, 5.9, 6.2, 6.7, 7.1, 8.3, 14.1,
         4.9, 5.0, 5.4, 5.7, 6.0, 6.3, 6.8, 7.3, 8.4, 15.2]
```

A Regra de Sturges é uma das regras mais utilizadas na Estatística para consutrução de uma tabela de frequência por intervalos. Isso porque a fórmula de Sturges nos fornece uma quantidade adqueda de classes para os mais variados tamanhos de amostras.

A regra de Sturges envolve os seguintes passos:

* Cálculo da amplitude: $\mathrm{A = max - min}$
* Cálculo do número de intervalos ou classes da tabela: $\mathrm{k=1+3,22.log \ n}$
* Cálculo da amplitude dos intervalos: $\mathrm{A_k = \frac{A}{K}}$

$\mathrm{A = 15,2 - 4,7 = 10,5}$

$\mathrm{K = 1 + 3,322 . log \ 50 => 1 + 3,322 . 1,699 = 6,644}$ 

$\mathrm{A_k = 10,5 / 6 = 1,75}$

Nesse caso vamos escolher 6 classes, cada classe deverá ter uma amplitude de 1,8 segundos, seguimos o mesmo número de casas decimais dos dados da amostra.

Tempo      |  Frequência  | Porcentagem | Fre. Acumulada | Porc. Acumulada
:---------:|:------------:|:-----------:|:--------------:|:---------------:
4,7 a 6,5  |      32      |      64,0   |     32         |   64,0
6,5 a 8,3  |      11      |      22,0   |     43         |   86,0
8,3 a 10,1 |      5       |      10,0   |     48         |   96,0         
10,1 a 11,9|      0       |       0,0   |     48         |   96,0
11,9 a 13,7|      0       |       0,0   |     48         |   96,0
13,7 a 15,5|      2       |       4,0   |     50         |  100,0
-----------|--------------|-------------|----------------|------------------
Total      |     50       |      100,0  |      -         |       -  

In [134]:
# gerando os valores da tabela
itens = np.array([4.7, 4.9, 5.1, 5.4, 5.7, 6.0, 6.3, 6.8, 7.3, 8.9,
         4.8, 4.9, 5.2, 5.5, 5.7, 6.2, 6.4, 6.9, 8.2, 9.1,
         4.8, 5.0, 5.3, 5.6, 5.7, 6.2, 6.5, 7.0, 8.2, 9.9, 
         4.9, 5.0, 5.4, 5.6, 5.9, 6.2, 6.7, 7.1, 8.3, 14.1,
         4.9, 5.0, 5.4, 5.7, 6.0, 6.3, 6.8, 7.3, 8.4, 15.2])
# ordenando os itens
itens.sort()

# Obtendo as variaveis para calculo da distribuição
menor = np.round(itens.min(), 1)
maior = np.round(itens.max(), 1)

# Calculando os indices para montagem da tabela
n = len(itens)
a = maior - menor
k = (1 + 3.322 * np.log10(n)) // 1
ak = np.round(a / k, 1)

# Definindo as frequencias
frequencias = np.array([])

valor = menor
while valor < itens.max():
    nvalor = np.round(valor + ak, 1)
    frequencias = np.append(frequencias, f'{valor}|--{nvalor}')
    valor = nvalor

# Pesquisando os registros com base nas frequencias definidas
freq_abs = pd.cut(itens, len(frequencias), labels=frequencias)

# Montando o dataframe
df = pd.DataFrame(freq_abs.value_counts(), columns=["Frequência"])
df.reset_index(inplace=True)
df.rename(columns={"index": "Tempo"}, inplace=True)
df["Percentual"] = df["Frequência"] / n * 100
df["Frequência Acumulada"] = df["Frequência"].cumsum()
df["Percentual Acumulado"] = df["Percentual"].cumsum()
df






frenquencias capturadas:  [4.7|--6.5, 4.7|--6.5, 4.7|--6.5, 4.7|--6.5, 4.7|--6.5, ..., 8.3|--10.1, 8.3|--10.1, 8.3|--10.1, 13.7|--15.5, 13.7|--15.5]
Length: 50
Categories (6, object): [4.7|--6.5 < 6.5|--8.3 < 8.3|--10.1 < 10.1|--11.9 < 11.9|--13.7 < 13.7|--15.5]



Unnamed: 0,Tempo,Frequência,Percentual,Frequência Acumulada,Percentual Acumulado
0,4.7|--6.5,32,64.0,32,64.0
1,6.5|--8.3,11,22.0,43,86.0
2,8.3|--10.1,5,10.0,48,96.0
3,10.1|--11.9,0,0.0,48,96.0
4,11.9|--13.7,0,0.0,48,96.0
5,13.7|--15.5,2,4.0,50,100.0
