## Capítulo 2 - Resumo de Dados

Um conjunto de dados (dataset) costuma ser composto por uma coleção de registros (tabela), sendo que cada registro possui diferentes atributos/variáveis.
As variáveis de um dataset podem ser classificadas em:
* **Qualitativas (categóriocas):**
    * *Nominais*: São aquelas que simplesmente são um rótulo ou nome. Na tabela abaixo, **Região de Procedência** é uma variável qualitativa nominal.
    * *Ordinais*: Transmitem a noção de ordem/classificação. Permitem que os dados sejam ordenados. Na tabela, **Grau de Instrução** é uma variável qualitativa ordinal.
* **Quantitativas:**
    * *Discretas*: São variáveis numéricas cujos valores pertencem a conjuntos discretos (finitos ou inifinitos contáveis). **Número de Filhos** é quantitativa discreta.
    * *Contínuas*: São variáveis numéricas cujos valores pertencem a conjuntos contínuos (não-discretos). Um exemplo é a variável **Salário**.

In [44]:
from math import ceil, log10
import pandas as pd
import numpy as np
tab = pd.read_csv('./datasets/tabela2_1.csv')
tab['Salario (x Sal Min)'] = [value.replace(',','.') for value in tab['Salario (x Sal Min)']]
tab['Salario (x Sal Min)'] = pd.to_numeric(tab['Salario (x Sal Min)'])
tab.head()

Unnamed: 0,N,Estado Civil,Grau de Instrução,N de Filhos,Salario (x Sal Min),Anos,Meses,Região de Procedência
0,1,solteiro,ensino fundamental,,4.0,26,3,interior
1,2,casado,ensino fundamental,1.0,4.56,32,10,capital
2,3,casado,ensino fundamental,2.0,5.25,36,5,capital
3,4,solteiro,ensino médio,,5.73,20,10,outra
4,5,solteiro,ensino fundamental,,6.26,40,7,outra


### Tabela de distribuição de frequência
Uma boa maneira de ter uma ideia da distribuição de uma variável é criando uma tabela de distribuição de frequência. Consideremos primeiro o caso de uma variável categórica.
Para cada valor da variável, calculamos sua **frequência absoluta** $ n_i $ e sua **frequência relativa** $ f_i $.

In [45]:
def create_freq_table(df, variable):
    values = df[variable].unique()
    
    abs_freq = [len(df[df[variable] == value]) for value in values]
    n = sum(abs_freq)
    
    rel_freq = [abs_freq_value / n for abs_freq_value in abs_freq]
    return pd.DataFrame({variable: values, "Absolute Frequency": abs_freq, "Relative Frequency": rel_freq})
    
create_freq_table(tab, 'Estado Civil')

Unnamed: 0,Estado Civil,Absolute Frequency,Relative Frequency
0,solteiro,16,0.444444
1,casado,20,0.555556


Para variáveis contínuas, não é possível verificar todos os valores possíveis. Neste caso, divide-se a amostra em intervalos. O número de intervalos $ k $ é dado pela fórmula de Sturges:
$$ k = 1 + 3,322\log_{10} n $$
Devido a esta simplificação, existe uma certa perda de informação ao criar uma tabela de distribuição de frequência para variáveis contínuas.

In [64]:
def create_freq_table_cont(df, variable):
    n = df[variable].count()
    k = ceil(1 + 3.322 * log10(n))
    size_bin = n / k
    n0 = df[variable].min()
    bins = []
    abs_freq = []
    rel_freq = []
    
    for i in range(k):
        min_bin = n0 + i*size_bin
        max_bin = min_bin + size_bin
        
        bins.append("{:.2f} |- {:.2f}".format(min_bin, max_bin))
        abs_val = df[(min_bin <= df[variable]) & (df[variable] < max_bin)][variable].count()
        abs_freq.append("{:.2f}".format(abs_val))
        rel_val = abs_val / n
        rel_freq.append("{:.2f}".format(rel_val))

    return pd.DataFrame({variable: bins, 'Absolute Frequency': abs_freq, 'Relative Frequency': rel_freq})

create_freq_table_cont(tab, 'Salario (x Sal Min)')

Unnamed: 0,Salario (x Sal Min),Absolute Frequency,Relative Frequency
0,4.00 |- 9.14,15.0,0.42
1,9.14 |- 14.29,12.0,0.33
2,14.29 |- 19.43,8.0,0.22
3,19.43 |- 24.57,1.0,0.03
4,24.57 |- 29.71,0.0,0.0
5,29.71 |- 34.86,0.0,0.0
6,34.86 |- 40.00,0.0,0.0
