### Imports

In [1]:
import numpy as np
import pandas as pd
from fdth import fdt

### `fdt`
A função `fdt` calcula tabelas de distribuição de frequência para vetores ou DataFrames, considerando tanto dados categóricos quanto numéricos. Ela permite análise de frequência simples, com a opção de ordenação e agrupamento.

In [2]:
# Célula 2
x1 = ['A', 'B', 'A', 'C', 'B', 'B', 'C', 'A', 'C', 'C']
x2 = ['X', 'Y', 'X', 'Z', 'Y', 'Y', 'Z', 'Z', 'Z', 'Z']
x3 = ['Red', 'Blue', 'Green', 'Red', 'Green', 'Blue', 'Blue', 'Green']

# Test 1
print('Test 1')
print(fdt(x1, sort=True, decreasing=True))  # Ordena da maior p/ menor frequência

# Test 2
print('\nTest 2')
print(fdt(x2, sort=False, decreasing=False)) # Não ordena, mantém a ordem original

# Test 3
print('\nTest 3')
print(fdt(x3, sort=True, decreasing=False))  # Ordena alfabeticamente (crescente)

Test 1
CategoricalFDT (10 elements, 3 categories):
Category  f  rf  rf(%)  cf  cf(%)
       C  4 0.4   40.0   4   40.0
       A  3 0.3   30.0   7   70.0
       B  3 0.3   30.0  10  100.0

Test 2
CategoricalFDT (10 elements, 3 categories):
Category  f  rf  rf(%)  cf  cf(%)
       X  2 0.2   20.0   2   20.0
       Y  3 0.3   30.0   5   50.0
       Z  5 0.5   50.0  10  100.0

Test 3
CategoricalFDT (8 elements, 3 categories):
Category  f   rf  rf(%)  cf  cf(%)
     Red  2 0.25   25.0   2   25.0
    Blue  3 0.38   37.5   5   62.5
   Green  3 0.38   37.5   8  100.0


Essa função é usada para gerar tabelas de frequência para um DataFrame contendo dados categóricos. Ela permite a análise de distribuições de categorias nas colunas do DataFrame, com ou sem agrupamento, e possibilita a ordenação dos resultados.

In [3]:
# Célula 3
# Test 1: Sem agrupamento
# Verifica a geração de tabelas de frequência para um DataFrame com colunas categóricas,
# sem considerar agrupamento. Ordena os resultados de forma decrescente.

df1 = pd.DataFrame({
    'col1': pd.Categorical(['A', 'B', 'A', 'C', 'C']),
    'col2': pd.Categorical(['X', 'X', 'Y', 'X', 'Y'])
})
result1 = fdt(df1, sort=True, decreasing=True)
print(result1)

MultipleFDT (2 tables):

col1: CategoricalFDT (5 elements, 3 categories):
Category  f  rf  rf(%)  cf  cf(%)
       A  2 0.4   40.0   2   40.0
       C  2 0.4   40.0   4   80.0
       B  1 0.2   20.0   5  100.0

col2: CategoricalFDT (5 elements, 2 categories):
Category  f  rf  rf(%)  cf  cf(%)
       X  3 0.6   60.0   3   60.0
       Y  2 0.4   40.0   5  100.0




In [4]:
# Célula 4
# Test 2: Com agrupamento
# Avalia a funcionalidade da função ao agrupar os dados por uma coluna específica ('group'),
# criando tabelas de frequência para as colunas categóricas dentro de cada grupo.
# Ordena os resultados de forma crescente.

df2 = pd.DataFrame({
    'group': pd.Categorical(['G1', 'G1', 'G2', 'G2', 'G2']),
    'col1': pd.Categorical(['A', 'B', 'A', 'C', 'C']),
    'col2': pd.Categorical(['X', 'X', 'Y', 'X', 'Y'])
})
result2 = fdt(df2, sort=True, decreasing=False) # ordena os resultados em ordem crescente
print(result2)

MultipleFDT (3 tables):

group: CategoricalFDT (5 elements, 2 categories):
Category  f  rf  rf(%)  cf  cf(%)
      G1  2 0.4   40.0   2   40.0
      G2  3 0.6   60.0   5  100.0

col1: CategoricalFDT (5 elements, 3 categories):
Category  f  rf  rf(%)  cf  cf(%)
       B  1 0.2   20.0   1   20.0
       A  2 0.4   40.0   3   60.0
       C  2 0.4   40.0   5  100.0

col2: CategoricalFDT (5 elements, 2 categories):
Category  f  rf  rf(%)  cf  cf(%)
       Y  2 0.4   40.0   2   40.0
       X  3 0.6   60.0   5  100.0




In [5]:
# Célula 5
# Test 3: Com coluna numérica
# Testa a função em um DataFrame que contém colunas categóricas e uma coluna numérica.
# Gera tabelas de frequência para todas as colunas.
# Não realiza ordenação nas tabelas.

df3 = pd.DataFrame({
    'col1': pd.Categorical(['A', 'B', 'A', 'C', 'C']),
    'col2': pd.Categorical(['X', 'X', 'Y', 'X', 'Y']),
    'col3': [1, 2, 3, 4, 5]  # Numeric column
})
result3 = fdt(df3)
print(result3)

MultipleFDT (3 tables):

col1: CategoricalFDT (5 elements, 3 categories):
Category  f  rf  rf(%)  cf  cf(%)
       B  1 0.2   20.0   1   20.0
       A  2 0.4   40.0   3   60.0
       C  2 0.4   40.0   5  100.0

col2: CategoricalFDT (5 elements, 2 categories):
Category  f  rf  rf(%)  cf  cf(%)
       Y  2 0.4   40.0   2   40.0
       X  3 0.6   60.0   5  100.0

col3: NumericalFDT (5 elements, 4 classes, amplitude of 1.01):
Class limits  f  rf  rf(%)  cf  cf(%)
 [0.99, 2.0)  2 0.4   40.0   2   40.0
 [2.0, 3.02)  1 0.2   20.0   3   60.0
[3.02, 4.04)  1 0.2   20.0   4   80.0
[4.04, 5.05)  1 0.2   20.0   5  100.0




Essa função gera tabelas de distribuição de frequência a partir de matrizes contendo dados categóricos. Ela oferece a capacidade de realizar a análise em várias colunas e de organizar os resultados de maneira ordenada.

In [6]:
# Célula 6
# Test 1: Verifica a criação de tabelas de distribuição de frequência
# para uma matriz de categorias distintas distribuídas igualmente
# em várias colunas. Ordena os resultados em ordem decrescente.

x = np.array([
    ['A', 'B', 'C'],
    ['A', 'B', 'C'],
    ['B', 'A', 'C'],
    ['C', 'A', 'B']
])
df = pd.DataFrame(x, columns=['Col1', 'Col2', 'Col3']) # Cria uma matriz com valores categóricos.
res = fdt(df, sort=True, decreasing=True) # Ordena os resultados de forma decrescente
print(res)

MultipleFDT (3 tables):

Col1: CategoricalFDT (4 elements, 3 categories):
Category  f   rf  rf(%)  cf  cf(%)
       A  2 0.50   50.0   2   50.0
       B  1 0.25   25.0   3   75.0
       C  1 0.25   25.0   4  100.0

Col2: CategoricalFDT (4 elements, 2 categories):
Category  f  rf  rf(%)  cf  cf(%)
       A  2 0.5   50.0   2   50.0
       B  2 0.5   50.0   4  100.0

Col3: CategoricalFDT (4 elements, 2 categories):
Category  f   rf  rf(%)  cf  cf(%)
       C  3 0.75   75.0   3   75.0
       B  1 0.25   25.0   4  100.0




In [7]:
# Célula 7
# Test 2: Testa a criação de tabelas de distribuição de frequência
# para uma matriz com valores homogêneos (mesmas categorias em todas
# as colunas e linhas). Ordena os resultados em ordem decrescente.

x = np.array([
    ['X', 'Y', 'Z'],
    ['X', 'Y', 'Z'],
    ['X', 'Y', 'Z'],
    ['X', 'Y', 'Z']
])
df = pd.DataFrame(x, columns=['Col1', 'Col2', 'Col3'])
res = fdt(df, sort=True, decreasing=True)
print(res)

MultipleFDT (3 tables):

Col1: CategoricalFDT (4 elements, 1 categories):
Category  f  rf  rf(%)  cf  cf(%)
       X  4 1.0  100.0   4  100.0

Col2: CategoricalFDT (4 elements, 1 categories):
Category  f  rf  rf(%)  cf  cf(%)
       Y  4 1.0  100.0   4  100.0

Col3: CategoricalFDT (4 elements, 1 categories):
Category  f  rf  rf(%)  cf  cf(%)
       Z  4 1.0  100.0   4  100.0




In [8]:
# Célula 8
# Test 3: Avalia a criação de tabelas de frequência para uma matriz
# com categorias variadas em cada coluna. Ordena os resultados em
# ordem crescente.

x = np.array([
    ['Dog', 'Cat', 'Fish'],
    ['Dog', 'Dog', 'Bird'],
    ['Cat', 'Cat', 'Fish'],
    ['Fish', 'Dog', 'Bird']
])
df = pd.DataFrame(x, columns=['Col1', 'Col2', 'Col3'])
res = fdt(df, sort=True, decreasing=False)
print(res)

MultipleFDT (3 tables):

Col1: CategoricalFDT (4 elements, 3 categories):
Category  f   rf  rf(%)  cf  cf(%)
     Cat  1 0.25   25.0   1   25.0
    Fish  1 0.25   25.0   2   50.0
     Dog  2 0.50   50.0   4  100.0

Col2: CategoricalFDT (4 elements, 2 categories):
Category  f  rf  rf(%)  cf  cf(%)
     Cat  2 0.5   50.0   2   50.0
     Dog  2 0.5   50.0   4  100.0

Col3: CategoricalFDT (4 elements, 2 categories):
Category  f  rf  rf(%)  cf  cf(%)
    Bird  2 0.5   50.0   2   50.0
    Fish  2 0.5   50.0   4  100.0




Essa função também permite criar múltiplas tabelas de frequência para conjuntos de dados categóricos. Ela é útil quando se deseja gerar distribuições de frequência para vários vetores ou séries de dados ao mesmo tempo, oferecendo flexibilidade para ajustes nos intervalos e agrupamentos.

In [9]:
# Célula 9
# Test Data 1
data = {
    'col1': ['A', 'B', 'A', 'C', 'B', 'B', 'C', 'A', 'C', 'C'],
    'col2': ['X', 'Y', 'X', 'Z', 'Y', 'Y', 'Z', 'Z', 'Z', 'Z']
}

df = pd.DataFrame(data)
df['col1'] = df['col1'].astype('category')
df['col2'] = df['col2'].astype('category')

# Execute Test 1
result = fdt(df, sort=True, decreasing=True)
print(result)


MultipleFDT (2 tables):

col1: CategoricalFDT (10 elements, 3 categories):
Category  f  rf  rf(%)  cf  cf(%)
       C  4 0.4   40.0   4   40.0
       A  3 0.3   30.0   7   70.0
       B  3 0.3   30.0  10  100.0

col2: CategoricalFDT (10 elements, 3 categories):
Category  f  rf  rf(%)  cf  cf(%)
       Z  5 0.5   50.0   5   50.0
       Y  3 0.3   30.0   8   80.0
       X  2 0.2   20.0  10  100.0




In [10]:
# Célula 10
# Test Data 2
data = {
    'col1': ['Red', 'Blue', 'Red', 'Green', 'Blue', 'Blue', 'Green', 'Red', 'Green', 'Green'],
    'col2': ['Dog', 'Cat', 'Dog', 'Bird', 'Cat', 'Cat', 'Bird', 'Bird', 'Bird', 'Bird'],
    'col3': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]  # Non-categorical
}

df = pd.DataFrame(data)
df['col1'] = df['col1'].astype('category')
df['col2'] = df['col2'].astype('category')

# Execute Test 2
result = fdt(df) # Calcula a distribuição de frequência sem ordenação
print(result)

MultipleFDT (3 tables):

col1: CategoricalFDT (10 elements, 3 categories):
Category  f  rf  rf(%)  cf  cf(%)
    Blue  3 0.3   30.0   3   30.0
     Red  3 0.3   30.0   6   60.0
   Green  4 0.4   40.0  10  100.0

col2: CategoricalFDT (10 elements, 3 categories):
Category  f  rf  rf(%)  cf  cf(%)
     Dog  2 0.2   20.0   2   20.0
     Cat  3 0.3   30.0   5   50.0
    Bird  5 0.5   50.0  10  100.0

col3: NumericalFDT (10 elements, 5 classes, amplitude of 1.82):
Class limits  f  rf  rf(%)  cf  cf(%)
[0.99, 2.81)  2 0.2   20.0   2   20.0
[2.81, 4.63)  2 0.2   20.0   4   40.0
[4.63, 6.46)  2 0.2   20.0   6   60.0
[6.46, 8.28)  2 0.2   20.0   8   80.0
[8.28, 10.1)  2 0.2   20.0  10  100.0




In [11]:
# Célula 11
# Test Data 3
data = {
    'col1': ['Apple', 'Apple', 'Banana', 'Banana', 'Banana', 'Grape', 'Grape', 'Apple', 'Apple', 'Grape'],
    'col2': ['Small', 'Small', 'Large', 'Large', 'Large', 'Small', 'Small', 'Large', 'Large', 'Large'],
    'col3': ['Low', 'Low', 'High', 'High', 'High', 'Medium', 'Medium', 'Low', 'Low', 'Medium']
}

df = pd.DataFrame(data)
df['col1'] = df['col1'].astype('category')
df['col2'] = df['col2'].astype('category')
df['col3'] = df['col3'].astype('category')

# Execute Test 3
result = fdt(df, sort=True, decreasing=False)
print(result)

MultipleFDT (3 tables):

col1: CategoricalFDT (10 elements, 3 categories):
Category  f  rf  rf(%)  cf  cf(%)
  Banana  3 0.3   30.0   3   30.0
   Grape  3 0.3   30.0   6   60.0
   Apple  4 0.4   40.0  10  100.0

col2: CategoricalFDT (10 elements, 2 categories):
Category  f  rf  rf(%)  cf  cf(%)
   Small  4 0.4   40.0   4   40.0
   Large  6 0.6   60.0  10  100.0

col3: CategoricalFDT (10 elements, 3 categories):
Category  f  rf  rf(%)  cf  cf(%)
    High  3 0.3   30.0   3   30.0
  Medium  3 0.3   30.0   6   60.0
     Low  4 0.4   40.0  10  100.0


