### Imports

In [1]:
import pandas as pd
import numpy as np
from fdth import fdt

# FDT Function Testing
Este caderno demonstra o uso das funções FDT para gerar tabelas de distribuição de frequência e sumarizar dados em diferentes formatos.
Exploraremos diferentes exemplos para diversos casos de uso, incluindo quadros de dados, matrizes e séries de dados personalizadas.

In [3]:
# Test 1: A simple DataFrame with a single numeric column
df1 = pd.DataFrame({
    'A': [1, 2, 2, 3, 3, 3, 4, 4, 4, 4]
})
result1 = fdt(df1)
print(result1)

MultipleFDT (1 tables):

A: NumericalFDT (10 elements, 5 classes, amplitude of 0.61):
Class limits  f  rf  rf(%)  cf  cf(%)
 [0.99, 1.6)  1 0.1   10.0   1   10.0
 [1.6, 2.21)  2 0.2   20.0   3   30.0
[2.21, 2.82)  0 0.0    0.0   3   30.0
[2.82, 3.43)  3 0.3   30.0   6   60.0
[3.43, 4.04)  4 0.4   40.0  10  100.0
... 5 more lines




In [4]:

# Test 2: A DataFrame with two numeric columns
df2 = pd.DataFrame({
    'A': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'B': [10, 9, 8, 7, 6, 5, 4, 3, 2, 1]
})
print('\nTest 2 (without grouping):')
result2 = fdt(df2)
print(result2)


Test 2 (without grouping):
MultipleFDT (2 tables):

A: NumericalFDT (10 elements, 5 classes, amplitude of 1.82):
Class limits  f  rf  rf(%)  cf  cf(%)
[0.99, 2.81)  2 0.2   20.0   2   20.0
[2.81, 4.63)  2 0.2   20.0   4   40.0
[4.63, 6.46)  2 0.2   20.0   6   60.0
[6.46, 8.28)  2 0.2   20.0   8   80.0
[8.28, 10.1)  2 0.2   20.0  10  100.0
... 5 more lines

B: NumericalFDT (10 elements, 5 classes, amplitude of 1.82):
Class limits  f  rf  rf(%)  cf  cf(%)
[0.99, 2.81)  2 0.2   20.0   2   20.0
[2.81, 4.63)  2 0.2   20.0   4   40.0
[4.63, 6.46)  2 0.2   20.0   6   60.0
[6.46, 8.28)  2 0.2   20.0   8   80.0
[8.28, 10.1)  2 0.2   20.0  10  100.0
... 5 more lines




In [5]:
# Test 3: DataFrame with grouping
df3 = pd.DataFrame({
    'A': [1, 2, 2, 3, 3, 3, 4, 4, 4, 4],
    'B': [10, 20, 20, 30, 30, 30, 40, 40, 40, 40],
    'Group': ['G1', 'G1', 'G1', 'G1', 'G2', 'G2', 'G2', 'G2', 'G2', 'G2']
})
result3 = fdt(df3, by='Group')
print(result3)

MultipleFDT (3 tables):

A: NumericalFDT (10 elements, 5 classes, amplitude of 0.61):
Class limits  f  rf  rf(%)  cf  cf(%)
 [0.99, 1.6)  1 0.1   10.0   1   10.0
 [1.6, 2.21)  2 0.2   20.0   3   30.0
[2.21, 2.82)  0 0.0    0.0   3   30.0
[2.82, 3.43)  3 0.3   30.0   6   60.0
[3.43, 4.04)  4 0.4   40.0  10  100.0
... 5 more lines

B: NumericalFDT (10 elements, 5 classes, amplitude of 6.10):
Class limits  f  rf  rf(%)  cf  cf(%)
 [9.9, 16.0)  1 0.1   10.0   1   10.0
[16.0, 22.1)  2 0.2   20.0   3   30.0
[22.1, 28.2)  0 0.0    0.0   3   30.0
[28.2, 34.3)  3 0.3   30.0   6   60.0
[34.3, 40.4)  4 0.4   40.0  10  100.0
... 5 more lines

Group: CategoricalFDT (10 elements, 2 categories):
Category  f  rf  rf(%)  cf  cf(%)
      G1  4 0.4   40.0   4   40.0
      G2  6 0.6   60.0  10  100.0
... 5 more lines




### FDT Default Testing
Os testes a seguir demonstram como usar a função `fdt`, incluindo diferentes métodos de cálculo de classes, como Freedman-Diaconis, Sturges e intervalos fixos.

In [7]:
# Test 1
# Testa o método de cálculo de classes usando a regra de Freedman-Diaconis ('FD').
dados = np.array([2, 5, 7, 10, 12, 15, 18])
resultado = fdt(dados, breaks='Sturges')
print(resultado)

NumericalFDT (7 elements, 4 classes, amplitude of 4.05):
  Class limits  f   rf  rf(%)  cf  cf(%)
  [1.98, 6.03)  2 0.29  28.57   2  28.57
 [6.03, 10.08)  2 0.29  28.57   4  57.14
[10.08, 14.13)  1 0.14  14.29   5  71.43
[14.13, 18.18)  2 0.29  28.57   7 100.00
... 2 more lines


In [8]:
# Teste 2
# Testa a criação de uma tabela de frequência definindo um número fixo de classes (k=4).
dados = np.array([3, 6, 9, 12, 15, 18, 21])
resultado = fdt(dados, k=4)
print(resultado)

NumericalFDT (7 elements, 4 classes, amplitude of 4.56):
  Class limits  f   rf  rf(%)  cf  cf(%)
  [2.97, 7.53)  2 0.29  28.57   2  28.57
 [7.53, 12.09)  2 0.29  28.57   4  57.14
[12.09, 16.65)  1 0.14  14.29   5  71.43
[16.65, 21.21)  2 0.29  28.57   7 100.00
... 2 more lines


In [10]:
# Teste 3
# Testa o uso de valores iniciais (start) e finais (end) personalizados para a tabela.
dados = np.array([1, 4, 7, 10, 13, 16, 19])
resultado = fdt(dados, start=0, end=20)
print(resultado)

NumericalFDT (7 elements, 5 classes, amplitude of 4.00):
Class limits  f   rf  rf(%)  cf  cf(%)
  [0.0, 4.0)  1 0.14  14.29   1  14.29
  [4.0, 8.0)  2 0.29  28.57   3  42.86
 [8.0, 12.0)  1 0.14  14.29   4  57.14
[12.0, 16.0)  1 0.14  14.29   5  71.43
[16.0, 20.0)  2 0.29  28.57   7 100.00
... 2 more lines


In [9]:
# Teste 4
# Testa a especificação de um intervalo fixo (h=8) para as classes, com limites iniciais e finais definidos.
dados = np.array([10, 15, 20, 25, 30, 35, 40])
resultado = fdt(dados, start=10, end=50, h=8)
print(resultado)

NumericalFDT (7 elements, None classes, amplitude of 8.00):
Class limits  f   rf  rf(%)  cf  cf(%)
    [10, 18)  2 0.29  28.57   2  28.57
    [18, 26)  2 0.29  28.57   4  57.14
    [26, 34)  1 0.14  14.29   5  71.43
    [34, 42)  2 0.29  28.57   7 100.00
    [42, 50)  0 0.00   0.00   7 100.00
... 2 more lines


In [31]:
# Teste 5
# Testa o comportamento da função ao encontrar valores ausentes (None) no array, com na_rm=False.
try:
    dados = np.array([2, None, 8, 10, None, 18])
    resultado = fdt(dados, na_rm=False)
except ValueError as e:
    print('Erro:', e)

TypeError: CategoricalFDT.__init__() got an unexpected keyword argument 'na_rm'

In [12]:
# Teste 6
# Testa se a função detecta inconsistências nos parâmetros (k e h definidos simultaneamente).
try:
    dados = np.array([1, 2, 3, 4])
    resultado = fdt(dados, start=1, end=5, k=2, h=1)
except ValueError as e:
    print('Erro:', e)

Erro: Please check the function syntax!


### FDT Matrix Testing
Os exemplos a seguir mostram o uso de `fdt`, que calcula tabelas de distribuição de frequência a partir de matrizes usando diferentes métodos de cálculo de classe.

In [13]:
# Matriz de entrada para teste
data_matrix = np.array([
    [1, 10],
    [2, 20],
    [3, 30],
    [4, 40],
    [5, 50]
])
# Teste com um número especificado de classes
result_k3 = fdt(data_matrix, k=3, right=False, na_rm=False)
print(result_k3)

MultipleFDT (2 tables):

0: NumericalFDT (5 elements, 4 classes, amplitude of 1.01):
Class limits  f  rf  rf(%)  cf  cf(%)
 [0.99, 2.0)  2 0.4   40.0   2   40.0
 [2.0, 3.02)  1 0.2   20.0   3   60.0
[3.02, 4.04)  1 0.2   20.0   4   80.0
[4.04, 5.05)  1 0.2   20.0   5  100.0


1: NumericalFDT (5 elements, 4 classes, amplitude of 10.15):
 Class limits  f  rf  rf(%)  cf  cf(%)
 [9.9, 20.05)  2 0.4   40.0   2   40.0
[20.05, 30.2)  1 0.2   20.0   3   60.0
[30.2, 40.35)  1 0.2   20.0   4   80.0
[40.35, 50.5)  1 0.2   20.0   5  100.0





### FDT Multiple Testing
Esta seção testa a função `fdt` que manipula múltiplas séries de dados e calcula a tabela de distribuição de frequência.

In [16]:
# Teste 1
x_uniform = pd.Series([10, 15, 20, 25, 30, 35, 40])
result_uniform_python = fdt(data=x_uniform, breaks='Sturges', right=False, na_rm=True)
print(result_uniform_python)
print(result_uniform_python.breaks_info)

NumericalFDT (7 elements, 4 classes, amplitude of 7.62):
  Class limits  f   rf  rf(%)  cf  cf(%)
  [9.9, 17.52)  2 0.29  28.57   2  28.57
[17.52, 25.15)  2 0.29  28.57   4  57.14
[25.15, 32.77)  1 0.14  14.29   5  71.43
 [32.77, 40.4)  2 0.29  28.57   7 100.00
... 2 more lines
BreaksInfo(start=np.float64(9.9), end=np.float64(40.4), h=np.float64(7.625), k=4, right=0, bins=array([ 9.9  , 17.525, 25.15 , 32.775, 40.4  ]))


### FDT Simple Testing
A função `fdt` nos permite calcular uma tabela de distribuição de frequência para intervalos simples.

In [18]:
# Teste 1: Intervalos básicos
x = np.array([5, 10, 15, 20, 25, 30, 35])
start = 0
end = 40
h = 10
print('Test 1 - Basic intervals')
print(fdt(x, start=start, end=end, h=h))

Test 1 - Basic intervals
NumericalFDT (7 elements, None classes, amplitude of 10.00):
Class limits  f   rf  rf(%)  cf  cf(%)
     [0, 10)  1 0.14  14.29   1  14.29
    [10, 20)  2 0.29  28.57   3  42.86
    [20, 30)  2 0.29  28.57   5  71.43
    [30, 40)  2 0.29  28.57   7 100.00
... 2 more lines


### FDT Default Printing and Summarization
Nesta seção, exploramos como usar `.to_string()` para formatar e resumir tabelas de distribuição de frequência geradas por `fdt`.

In [28]:
# Vetor inicial
x = [6.34, 4.57, 7.89, 5.12, 4.26, 5.77, 2.95, 8.13, 3.48, 6.05, 
     4.93, 6.88, 7.21, 3.69, 5.55, 2.87, 5.02, 4.31, 6.79, 3.98, 
     7.44, 5.36, 6.12, 4.59, 8.27, 3.65, 5.48, 7.81, 3.93, 5.67]

# Gera uma tdf 
tdf_x = fdt(x, breaks='Sturges')

# Faz a sumarização e formatação de duas maneiras diferentes 
print('Exemplo com seleção de colunas e nome de colunas')
print(tdf_x.to_string(columns=['Class limits','f','rf'], round=2))

Exemplo com seleção de colunas e nome de colunas
Class limits Class limits  f   rf
[2.84, 3.76) [2.84, 3.76)  5 0.17
[3.76, 4.68) [3.76, 4.68)  6 0.20
 [4.68, 5.6)  [4.68, 5.6)  6 0.20
 [5.6, 6.52)  [5.6, 6.52)  5 0.17
[6.52, 7.43) [6.52, 7.43)  3 0.10
[7.43, 8.35) [7.43, 8.35)  5 0.17
