### Imports

In [1]:
import pandas as pd
import numpy as np
from fdth import fdt, Binning

# FDT Function Testing
Este caderno demonstra o uso das funções FDT para gerar tabelas de distribuição de frequência e sumarizar dados em diferentes formatos.
Exploraremos diferentes exemplos para diversos casos de uso, incluindo quadros de dados, matrizes e séries de dados personalizadas.

### FDT Default Testing
Os testes a seguir demonstram como usar a função `fdt`, incluindo diferentes métodos de cálculo de classes, como Freedman-Diaconis, Sturges e intervalos fixos.

In [2]:
# Célula 2
# Test 1
# Testa o método de cálculo de classes usando a regra de Freedman-Diaconis ('FD').
dados = np.array([2, 5, 7, 10, 12, 15, 18])
resultado = fdt(dados, binning=Binning.from_fd)
print(resultado)

Class limits       f     rf  rf(%)   cf  cf(%)
----------------------------------------------
[1.98, 7.38)       3  0.429   42.9    3   42.9
[7.38, 12.78)      2  0.286   28.6    5   71.4
[12.78, 18.18)     2  0.286   28.6    7  100.0
----------------------------------------------


In [3]:
# Célula 3
# Teste 2
# Testa a criação de uma tabela de frequência definindo um número fixo de classes (k=4).
dados = np.array([3, 6, 9, 12, 15, 18, 21])
resultado = fdt(dados, k=4)
print(resultado)

Class limits       f     rf  rf(%)   cf  cf(%)
----------------------------------------------
[2.97, 7.53)       2  0.286   28.6    2   28.6
[7.53, 12.09)      2  0.286   28.6    4   57.1
[12.09, 16.65)     1  0.143   14.3    5   71.4
[16.65, 21.21)     2  0.286   28.6    7  100.0
----------------------------------------------


In [4]:
# Célula 4
# Teste 3
# Testa o uso de valores iniciais (start) e finais (end) personalizados para a tabela.
dados = np.array([1, 4, 7, 10, 13, 16, 19])
resultado = fdt(dados, start=0, end=20)
print(resultado)

Class limits       f     rf  rf(%)   cf  cf(%)
----------------------------------------------
[0.0, 4.0)         1  0.143   14.3    1   14.3
[4.0, 8.0)         2  0.286   28.6    3   42.9
[8.0, 12.0)        1  0.143   14.3    4   57.1
[12.0, 16.0)       1  0.143   14.3    5   71.4
[16.0, 20.0)       2  0.286   28.6    7  100.0
----------------------------------------------


In [5]:
# Célula 5
# Teste 4
# Testa a especificação de um intervalo fixo (h=8) para as classes, com limites iniciais e finais definidos.
dados = np.array([10, 15, 20, 25, 30, 35, 40])
resultado = fdt(dados, start=10, end=50, h=8)
print(resultado)

Class limits       f     rf  rf(%)   cf  cf(%)
----------------------------------------------
[10.0, 18.0)       2  0.286   28.6    2   28.6
[18.0, 26.0)       2  0.286   28.6    4   57.1
[26.0, 34.0)       1  0.143   14.3    5   71.4
[34.0, 42.0)       2  0.286   28.6    7  100.0
[42.0, 50.0)       0      0    0.0    7  100.0
----------------------------------------------


In [6]:
# Célula 6
# Teste 5
# Testa o comportamento da função ao encontrar valores ausentes (None) no array, com remove_nan=False.
try:
    dados = np.array([2, None, 8, 10, None, 18])
    resultado = fdt(dados, kind="numerical", remove_nan=False)
    print(resultado)
except ValueError as e:
    print('Erro:', e)

Erro: The data has NaN values and remove_nan=False


In [7]:
# Célula 7
# Teste 6
# Testa se a função detecta inconsistências nos parâmetros (k e h definidos simultaneamente).
try:
    dados = np.array([1, 2, 3, 4])
    resultado = fdt(dados, start=1, end=5, k=2, h=1)
    print(resultado)
except ValueError as e:
    print('Erro:', e)

Erro: Invalid combination of parameters


### FDT Matrix Testing
Os exemplos a seguir mostram o uso de `fdt`, que calcula tabelas de distribuição de frequência a partir de matrizes usando diferentes métodos de cálculo de classe.

In [8]:
# Célula 8
# Matriz de entrada para teste
data_matrix = np.array([
    [1, 10],
    [2, 20],
    [3, 30],
    [4, 40],
    [5, 50]
])
# Teste com um número especificado de classes
result_k3 = fdt(data_matrix, k=3)
print(result_k3)

MultipleFDT

V1
Class limits       f     rf  rf(%)   cf  cf(%)
----------------------------------------------
[0.99, 2.34)       2    0.4   40.0    2   40.0
[2.34, 3.7)        1    0.2   20.0    3   60.0
[3.7, 5.05)        2    0.4   40.0    5  100.0
----------------------------------------------

V2
Class limits       f     rf  rf(%)   cf  cf(%)
----------------------------------------------
[9.9, 23.43)       2    0.4   40.0    2   40.0
[23.43, 36.97)     1    0.2   20.0    3   60.0
[36.97, 50.5)      2    0.4   40.0    5  100.0
----------------------------------------------



### FDT Multiple Testing
Esta seção testa a função `fdt` que manipula múltiplas séries de dados e calcula a tabela de distribuição de frequência.

In [9]:
# Célula 9
# Teste 1
x_uniform = pd.Series([10, 15, 20, 25, 30, 35, 40])
result_uniform_python = fdt(
    data=x_uniform,
    binning=Binning.from_sturges,
    right=False,
    remove_nan=True
)
print(result_uniform_python)
print(result_uniform_python.binning)

Class limits       f     rf  rf(%)   cf  cf(%)
----------------------------------------------
[9.9, 17.52)       2  0.286   28.6    2   28.6
[17.52, 25.15)     2  0.286   28.6    4   57.1
[25.15, 32.78)     1  0.143   14.3    5   71.4
[32.78, 40.4)      2  0.286   28.6    7  100.0
----------------------------------------------
<fdth.Binning object at 0x5e8bec8>


In [10]:
# Célula 10
# Test 1: A simple DataFrame with a single numeric column
df1 = pd.DataFrame({
    'A': [1, 2, 2, 3, 3, 3, 4, 4, 4, 4]
})
result1 = fdt(df1)
print(result1)

MultipleFDT

A
Class limits       f     rf  rf(%)   cf  cf(%)
----------------------------------------------
[0.99, 1.6)        1    0.1   10.0    1   10.0
[1.6, 2.21)        2    0.2   20.0    3   30.0
[2.21, 2.82)       0      0    0.0    3   30.0
[2.82, 3.43)       3    0.3   30.0    6   60.0
[3.43, 4.04)       4    0.4   40.0   10  100.0
----------------------------------------------



In [11]:
# Célula 11
# Test 2: A DataFrame with two numeric columns
df2 = pd.DataFrame({
    'A': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'B': [11, 9, 8, 7, 6, 5, 4, 3, 2, 1]
})
print('\nTest 2 (without grouping):')
result2 = fdt(df2)
print(result2)


Test 2 (without grouping):
MultipleFDT

A
Class limits       f     rf  rf(%)   cf  cf(%)
----------------------------------------------
[0.99, 2.81)       2    0.2   20.0    2   20.0
[2.81, 4.63)       2    0.2   20.0    4   40.0
[4.63, 6.46)       2    0.2   20.0    6   60.0
[6.46, 8.28)       2    0.2   20.0    8   80.0
[8.28, 10.1)       2    0.2   20.0   10  100.0
----------------------------------------------

B
Class limits       f     rf  rf(%)   cf  cf(%)
----------------------------------------------
[0.99, 3.01)       3    0.3   30.0    3   30.0
[3.01, 5.04)       2    0.2   20.0    5   50.0
[5.04, 7.06)       2    0.2   20.0    7   70.0
[7.06, 9.09)       2    0.2   20.0    9   90.0
[9.09, 11.11)      1    0.1   10.0   10  100.0
----------------------------------------------



### FDT Simple Testing
A função `fdt` nos permite calcular uma tabela de distribuição de frequência para intervalos simples.

In [12]:
# Célula 12
# Teste 1: Intervalos básicos
x = np.array([5, 10, 15, 20, 25, 30, 35])
start = 0
end = 40
h = 10
print('Test 1 - Basic intervals')
print(fdt(x, start=start, end=end, h=h))

Test 1 - Basic intervals
Class limits       f     rf  rf(%)   cf  cf(%)
----------------------------------------------
[0.0, 10.0)        1  0.143   14.3    1   14.3
[10.0, 20.0)       2  0.286   28.6    3   42.9
[20.0, 30.0)       2  0.286   28.6    5   71.4
[30.0, 40.0)       2  0.286   28.6    7  100.0
----------------------------------------------
