

---

---
# Tabelas de distribuição de frequências 

Este notebook constrói a tabela de distribuição de frequências absoluta, acumulada e relativa dos valores de uma variável.

A construção é feita de duas maneiras diferentes:



1.   Manualmente usando arrays e listas (**"raiz!"**)

2.   Utilizando funções da biblioteca [Numpy](https://numpy.org/) (**mais prático!**)

*Observação: outras formas de implementação são possíves, como, por exemplo, utilizando as funções da própria biblioteca [Pandas](https://pandas.pydata.org/) ([pandas.dataframe.hist](https://https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.hist.html), [pandas.cut](https://pandas.DataFrame.hist), etc.)*




---

---







## Conjunto de dados

- Fonte: https://www.kaggle.com/uciml/pima-indians-diabetes-database
- Proprietários originais: National Institute of Diabetes and Digestive and Kidney Diseases
- Doadores da base de dados: Vincent Sigillito (vgs@aplcen.apl.jhu.edu), 
Research Center, RMI Group Leader, Applied Physics Laboratory, The Johns Hopkins University (1990)

Detalhes sobre o conjunto de dados:

1. Número de instâncias: 768

2. Número de atributos: 8 (mais classe target)

3. Atributos: (todos com valor numérico)
   1. Número de vezes que engravidou (*Pregnancies*)
   2. Concentração de glicose plasmática a 2 horas em um teste de tolerância à glicose oral (*Glucose*)
   3. Pressão arterial diastólica (mm Hg) (*BloodPressure*)
   4. Espessura da dobra da pele do tríceps (mm) (*SkinThickness*)
   5. Insulina sérica de 2 horas (mu U / ml) (*Insulin*)
   6. Índice de massa corporal (peso em kg / (altura em m) ^ 2) (*BMI*)
   7. Função de pedigree de diabetes (*DiabetesPedigreeFunction*)
   8. Idade (anos) (*Age*)
   
4. Variável target (classe): 0 ou 1 (valor de classe 1 é interpretado como "teste positivo para diabetes")

   Classe Valor Número de instâncias
   - 500 => 0
   - 268 => 1

 

## Clona repositório de dados da disciplina hospedado no GitHUb

In [None]:
!git clone "https://github.com/malegopc/DSBD"

## Leitura dos dados

Vamos começar importando o arquivo CSV "bruto" usando o Pandas.

In [48]:
import pandas as pd
# lê arquivo de dados, atribue NaN para dados faltantes
diabetes = pd.read_csv('DSBD/Datasets/Indians_Diabetes/diabetes.csv', na_values=['?'])
# imprime as 10 primeiras linhas do dataframe
diabetes # mostra as 5 primeiras linhas e as 5 últimas do dataframe

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.340,27,0
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1


## Tamanho do conjunto de dados (n)


In [49]:
n = len(diabetes)
print(n)

768


## Variável escolhida para analisar frequências de seus valores

A variável escolhida do conjunto de dados é a variável "Age" (idade). Copiamos os seus valores para um [array numpy](https://numpy.org/doc/stable/reference/arrays.html).

In [50]:
import numpy as np
dados = diabetes['Age'].values # copiando os valores da coluna 'Age'
print(type(dados))
print(dados)

<class 'numpy.ndarray'>
[50 31 32 21 33 30 26 29 53 54 30 34 57 59 51 32 31 31 33 32 27 50 41 29
 51 41 43 22 57 38 60 28 22 28 45 33 35 46 27 56 26 37 48 54 40 25 29 22
 31 24 22 26 30 58 42 21 41 31 44 22 21 39 36 24 42 32 38 54 25 27 28 26
 42 23 22 22 41 27 26 24 22 22 36 22 37 27 45 26 43 24 21 34 42 60 21 40
 24 22 23 31 33 22 21 24 27 21 27 37 25 24 24 46 23 25 39 61 38 25 22 21
 25 24 23 69 23 26 30 23 40 62 33 33 30 39 26 31 21 22 29 28 55 38 22 42
 23 21 41 34 65 22 24 37 42 23 43 36 21 23 22 47 36 45 27 21 32 41 22 34
 29 29 36 29 25 23 33 36 42 26 47 37 32 23 21 27 40 41 60 33 31 25 21 40
 36 40 42 29 21 23 26 29 21 28 32 27 55 27 57 52 21 41 25 24 60 24 36 38
 25 32 32 41 21 66 37 61 26 22 26 24 31 24 22 46 22 29 23 26 51 23 32 27
 21 22 22 33 29 49 41 23 34 23 42 27 24 25 44 21 30 25 24 51 34 27 24 63
 35 43 25 24 21 28 38 21 40 21 52 25 29 23 57 22 28 39 37 47 52 51 34 29
 26 33 21 25 31 24 65 28 29 24 46 58 30 25 35 28 37 29 47 21 25 30 41 22
 27 25 43 26 30 29 28 59 31



---


# 1. Manualmente usando arrays e listas


---



## Rol

Ordena os valores no array de dados embora não haja necessidade disso para os próximos passos.

In [51]:
dados = np.sort(dados)
print(dados)

[21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21
 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21
 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 22 22 22 22 22 22 22 22 22
 22 22 22 22 22 22 22 22 22 22 22 22 22 22 22 22 22 22 22 22 22 22 22 22
 22 22 22 22 22 22 22 22 22 22 22 22 22 22 22 22 22 22 22 22 22 22 22 22
 22 22 22 22 22 22 22 22 22 22 22 22 22 22 22 23 23 23 23 23 23 23 23 23
 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23
 23 23 23 23 23 24 24 24 24 24 24 24 24 24 24 24 24 24 24 24 24 24 24 24
 24 24 24 24 24 24 24 24 24 24 24 24 24 24 24 24 24 24 24 24 24 24 24 24
 24 24 24 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25
 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25 25
 25 25 25 26 26 26 26 26 26 26 26 26 26 26 26 26 26 26 26 26 26 26 26 26
 26 26 26 26 26 26 26 26 26 26 26 26 27 27 27 27 27 27 27 27 27 27 27 27
 27 27 27 27 27 27 27 27 27 27 27 27 27 27 27 27 27

## Amplitude toral ou Range

In [52]:
R = dados.max() - dados.min()
print(R)

60


## Número de classes

Cálculo do número de classes (auxilia na determinação da amplitude das classes)

In [53]:
import math
k = math.ceil(1+ 3.22*math.log(n))
print(k)

23


## Amplitude de cada classe

In [54]:
h = R/k 
h = math.ceil(h)
print(h)

3


## Valores distintos e frequência

Armazena num array os valores **distintos** do conjunto de dados e num outro as suas frequências.

In [55]:
dados_distintos, freq = np.unique(dados, return_counts=True)
print("Dados distintos:")
print(dados_distintos)
print("\nFrequências dos dados distintos:")
print(freq)

Dados distintos:
[21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44
 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68
 69 70 72 81]

Frequências dos dados distintos:
[63 72 38 46 48 33 32 35 29 21 24 16 17 14 10 16 19 16 12 13 22 18 13  8
 15 13  6  5  5  8  8  8  5  6  4  3  5  7  3  5  2  4  4  1  3  4  3  1
  2  1  1  1]


## Define as classes e calcula suas frequências

Cria uma lista com todas as classes (rótulos) e outras 3 listas para as frequências absoluta, acumulada e relativa de cada uma das classes.

In [56]:
classes = [] # cria uma lista vazia para armazenar os rótulos das classes
Fi = [] # cria uma lista vazia para armazenar as frequências absolutas das classes
Fac = [0] # cria uma lista para armazenar as frequências acumuladas das classes
fi = [] # cria uma lista vazia para armazenar as frequências relativas das classes

# Menor valor da série
menor = round(dados.min())
valor = menor
i = 0
while valor < dados.max():
    # acrescenta cada rótulo da classe na lista de classes
    classes.append(str(round(valor)) +' |- '+ str(round(valor+h)))
    soma = 0
    while dados_distintos[i] < valor+h: 
      soma = soma + freq[i]
      i+=1
    Fi.append(soma) # frequência absoluta
    fi.append(round(soma/n,4)) # frequência relativa
    Fac.append(Fac[-1]+Fi[-1]) # frequência acumulada
    valor+= h
Fi[-1]+= freq[-1] # adiciona frequência do maior valor na frequência da última classe
fi[-1]+= round(Fi[-1]/n,4)
Fac.pop(0) # exclui o zero utilizado para inicializar a lista Fac
Fac[-1] = Fac[-2]+Fi[-1]

print('Rótulos das classes:')
print(classes)
print('\nFrequências absolutas (Fi):')
print(Fi)
print('\nFrequências acumuladas (Fac):')
print(Fac)
print('\nFrequências relativas (fi):')
print(fi)

Rótulos das classes:
['21 |- 24', '24 |- 27', '27 |- 30', '30 |- 33', '33 |- 36', '36 |- 39', '39 |- 42', '42 |- 45', '45 |- 48', '48 |- 51', '51 |- 54', '54 |- 57', '57 |- 60', '60 |- 63', '63 |- 66', '66 |- 69', '69 |- 72', '72 |- 75', '75 |- 78', '78 |- 81']

Frequências absolutas (Fi):
[173, 127, 96, 61, 41, 51, 47, 39, 34, 18, 21, 13, 15, 11, 8, 8, 3, 1, 0, 1]

Frequências acumuladas (Fac):
[173, 300, 396, 457, 498, 549, 596, 635, 669, 687, 708, 721, 736, 747, 755, 763, 766, 767, 767, 768]

Frequências relativas (fi):
[0.2253, 0.1654, 0.125, 0.0794, 0.0534, 0.0664, 0.0612, 0.0508, 0.0443, 0.0234, 0.0273, 0.0169, 0.0195, 0.0143, 0.0104, 0.0104, 0.0039, 0.0013, 0.0, 0.0013]


## Imprime tabela de distribuição de frequências completa

Imprime a tabela completa com as 3 frequências (absoluta, acumulada e relativa)

In [57]:
print(' Classes  Fi   Fac   fi')
for i in range(len(classes)):
  print(str(classes[i]) +'  '+ str(Fi[i]) + '  ' + str(Fac[i]) + '  '+ str(round(fi[i]*100,2)) + '%')

 Classes  Fi   Fac   fi
21 |- 24  173  173  22.53%
24 |- 27  127  300  16.54%
27 |- 30  96  396  12.5%
30 |- 33  61  457  7.94%
33 |- 36  41  498  5.34%
36 |- 39  51  549  6.64%
39 |- 42  47  596  6.12%
42 |- 45  39  635  5.08%
45 |- 48  34  669  4.43%
48 |- 51  18  687  2.34%
51 |- 54  21  708  2.73%
54 |- 57  13  721  1.69%
57 |- 60  15  736  1.95%
60 |- 63  11  747  1.43%
63 |- 66  8  755  1.04%
66 |- 69  8  763  1.04%
69 |- 72  3  766  0.39%
72 |- 75  1  767  0.13%
75 |- 78  0  767  0.0%
78 |- 81  1  768  0.13%


## Cria um dataframe

Cria um pandas dataframe com as 4 listas (classes, frequência absoluta, acumulada e relativa)

In [58]:
tab_dist_freq = pd.DataFrame(list(zip(classes,Fi,Fac,fi)), columns = ['Classes','Fi','Fac','fi'])
tab_dist_freq 

Unnamed: 0,Classes,Fi,Fac,fi
0,21 |- 24,173,173,0.2253
1,24 |- 27,127,300,0.1654
2,27 |- 30,96,396,0.125
3,30 |- 33,61,457,0.0794
4,33 |- 36,41,498,0.0534
5,36 |- 39,51,549,0.0664
6,39 |- 42,47,596,0.0612
7,42 |- 45,39,635,0.0508
8,45 |- 48,34,669,0.0443
9,48 |- 51,18,687,0.0234


## Grava em arquivo CSV

In [59]:
tab_dist_freq.to_csv('tab_dist_freq.csv')

## Grava em arquivo Excel

In [60]:
tab_dist_freq.to_excel('tab_dist_freq.xls')



---


# 2. Utilizando funções da biblioteca Numpy (mais prático!)


---



## Classes e frequências absolutas

A função [np.histogram](https://numpy.org/doc/stable/reference/generated/numpy.histogram.html) define o número classes/faixas (bins) e as frequências absolutas delas.

Pode-se utilizar diferentes métodos para definição do número de classes por meio do parâmetro 'bins': 'stugers', 'sqrt', 'auto', etc..  O método 'sturges' é ideal apenas para dados gaussianos e subestima o número de classes para grandes conjuntos de dados não gaussianos. 

In [61]:
Fi_, classes = np.histogram(dados, bins = 'sqrt') # 'sturges', 'auto', ... ou o próprio k calculado anteriormente
print('Número de classes: ',len(classes)-1)
print('\nLimites das classes: ')
print(classes)
print('\nFrequências absolutas das classes:')
print(Fi_)

Número de classes:  28

Limites das classes: 
[21.         23.14285714 25.28571429 27.42857143 29.57142857 31.71428571
 33.85714286 36.         38.14285714 40.28571429 42.42857143 44.57142857
 46.71428571 48.85714286 51.         53.14285714 55.28571429 57.42857143
 59.57142857 61.71428571 63.85714286 66.         68.14285714 70.28571429
 72.42857143 74.57142857 76.71428571 78.85714286 81.        ]

Frequências absolutas das classes:
[173  94  65  64  45  33  24  51  25  40  21  28  11  13  21  10   8  10
   7   8   4   8   3   1   0   0   0   1]


## Frequência acumulada

Obtém as frequências acumuladas utilizando a função [np.cumsum](https://numpy.org/doc/stable/reference/generated/numpy.cumsum.html).

In [62]:
Fac_ = np.cumsum(Fi_)
print("Frequências acumuladas:")
print(Fac_)

Frequências acumuladas:
[173 267 332 396 441 474 498 549 574 614 635 663 674 687 708 718 726 736
 743 751 755 763 766 767 767 767 767 768]


## Frequências relativas


In [63]:
fi_ = Fi_/n
print("Frequências relativas:")
print(fi_)

Frequências relativas:
[0.22526042 0.12239583 0.08463542 0.08333333 0.05859375 0.04296875
 0.03125    0.06640625 0.03255208 0.05208333 0.02734375 0.03645833
 0.01432292 0.01692708 0.02734375 0.01302083 0.01041667 0.01302083
 0.00911458 0.01041667 0.00520833 0.01041667 0.00390625 0.00130208
 0.         0.         0.         0.00130208]


## Cria uma lista com os rótulos das classes

In [64]:
labels_classes = [] # cria lista vazia para armazenar os rótulos das classes
for i in range(len(classes)-1):
  labels_classes.append(str(round(classes[i],2)) +' |- '+ str(round(classes[i+1],2)))
labels_classes

['21.0 |- 23.14',
 '23.14 |- 25.29',
 '25.29 |- 27.43',
 '27.43 |- 29.57',
 '29.57 |- 31.71',
 '31.71 |- 33.86',
 '33.86 |- 36.0',
 '36.0 |- 38.14',
 '38.14 |- 40.29',
 '40.29 |- 42.43',
 '42.43 |- 44.57',
 '44.57 |- 46.71',
 '46.71 |- 48.86',
 '48.86 |- 51.0',
 '51.0 |- 53.14',
 '53.14 |- 55.29',
 '55.29 |- 57.43',
 '57.43 |- 59.57',
 '59.57 |- 61.71',
 '61.71 |- 63.86',
 '63.86 |- 66.0',
 '66.0 |- 68.14',
 '68.14 |- 70.29',
 '70.29 |- 72.43',
 '72.43 |- 74.57',
 '74.57 |- 76.71',
 '76.71 |- 78.86',
 '78.86 |- 81.0']

## Cria um dataframe

Cria um pandas dataframe com as 4 listas (classes, frequência absoluta, acumulada e relativa)

In [65]:
tab_dist_freq_ = pd.DataFrame(list(zip(labels_classes,Fi_.tolist(),Fac_.tolist(),fi_.tolist())), columns = ['Classes','Fi','Fac','fi'])
tab_dist_freq_ 

Unnamed: 0,Classes,Fi,Fac,fi
0,21.0 |- 23.14,173,173,0.22526
1,23.14 |- 25.29,94,267,0.122396
2,25.29 |- 27.43,65,332,0.084635
3,27.43 |- 29.57,64,396,0.083333
4,29.57 |- 31.71,45,441,0.058594
5,31.71 |- 33.86,33,474,0.042969
6,33.86 |- 36.0,24,498,0.03125
7,36.0 |- 38.14,51,549,0.066406
8,38.14 |- 40.29,25,574,0.032552
9,40.29 |- 42.43,40,614,0.052083


## Grava em arquivo CSV

In [66]:
tab_dist_freq_.to_csv('tab_dist_freq2.csv')

## Grava em arquivo Excel

In [67]:
tab_dist_freq_.to_excel('tab_dist_freq2.xls')