## Capítulo 2 - Resumo de Dados

Um conjunto de dados (dataset) costuma ser composto por uma coleção de registros (tabela), sendo que cada registro possui diferentes atributos/variáveis.
As variáveis de um dataset podem ser classificadas em:
* **Qualitativas (categóriocas):**
    * *Nominais*: São aquelas que simplesmente são um rótulo ou nome. Na tabela abaixo, **Região de Procedência** é uma variável qualitativa nominal.
    * *Ordinais*: Transmitem a noção de ordem/classificação. Permitem que os dados sejam ordenados. Na tabela, **Grau de Instrução** é uma variável qualitativa ordinal.
* **Quantitativas:**
    * *Discretas*: São variáveis numéricas cujos valores pertencem a conjuntos discretos (finitos ou inifinitos contáveis). **Número de Filhos** é quantitativa discreta.
    * *Contínuas*: São variáveis numéricas cujos valores pertencem a conjuntos contínuos (não-discretos). Um exemplo é a variável **Salário**.

In [54]:
from math import ceil, log10
import pandas as pd
import numpy as np
import pyreadr
tab = pd.read_feather('./datasets/tab2_1.feather')

#Criando uma variável Idade agregando anos e meses
tab['idade'] = tab['idade_anos'] + (tab['idade_meses']/12)

tab.head()

Unnamed: 0,N,estado_civil,grau_instrucao,n_filhos,salario,idade_anos,idade_meses,reg_procedencia,idade
0,1,solteiro,ensino fundamental,,4.0,26,3,interior,26.25
1,2,casado,ensino fundamental,1.0,4.56,32,10,capital,32.833333
2,3,casado,ensino fundamental,2.0,5.25,36,5,capital,36.416667
3,4,solteiro,ensino médio,,5.73,20,10,outra,20.833333
4,5,solteiro,ensino fundamental,,6.26,40,7,outra,40.583333


### Tabela de distribuição de frequência
Uma boa maneira de ter uma ideia da distribuição de uma variável é criando uma tabela de distribuição de frequência. Consideremos primeiro o caso de uma variável categórica.
Para cada valor da variável, calculamos sua **frequência absoluta** $ n_i $ e sua **frequência relativa** $ f_i $.

In [47]:
def create_freq_table(df, variable):
    values = df[variable].unique()
    
    abs_freq = [len(df[df[variable] == value]) for value in values]
    n = sum(abs_freq)
    
    rel_freq = [abs_freq_value / n for abs_freq_value in abs_freq]
    return pd.DataFrame({variable: values,
                         "Absolute Frequency": abs_freq,
                         "Relative Frequency": rel_freq}).sort_values(variable)
    
create_freq_table(tab, 'estado_civil')

Unnamed: 0,estado_civil,Absolute Frequency,Relative Frequency
0,solteiro,16,0.444444
1,casado,20,0.555556


Para variáveis contínuas, não é possível verificar todos os valores possíveis. Neste caso, divide-se a amostra em intervalos. O número de intervalos $ k $ é dado pela fórmula de Sturges:
$$ k = 1 + 3,322\log_{10} n $$
Devido a esta simplificação, existe uma certa perda de informação ao criar uma tabela de distribuição de frequência para variáveis contínuas.

In [104]:
def create_freq_table_cont(df, variable):
    n = df[variable].count()
    k = ceil(1 + 3.322 * log10(n))
    n0 = df[variable].min()
    size_bin = (df[variable].max() - n0) / k
    bins = []
    abs_freq = []
    rel_freq = []
    
    for i in range(k):
        min_bin = n0 + i*size_bin
        max_bin = min_bin + size_bin
        
        bins.append("{:.2f} |- {:.2f}".format(min_bin, max_bin))
        if i == k-1:
            abs_val = df[(min_bin <= df[variable]) & (df[variable] <= max_bin)][variable].count()
        else:
            abs_val = df[(min_bin <= df[variable]) & (df[variable] < max_bin)][variable].count()
        abs_freq.append("{:.2f}".format(abs_val))
        rel_val = abs_val / n
        rel_freq.append("{:.2f}".format(rel_val))

    return pd.DataFrame({variable: bins, 'Absolute Frequency': abs_freq, 'Relative Frequency': rel_freq})

create_freq_table_cont(tab, 'salario')

6
10
7
6
4
2
0


Unnamed: 0,salario,Absolute Frequency,Relative Frequency
0,4.00 |- 6.76,6.0,0.17
1,6.76 |- 9.51,10.0,0.28
2,9.51 |- 12.27,7.0,0.19
3,12.27 |- 15.03,6.0,0.17
4,15.03 |- 17.79,4.0,0.11
5,17.79 |- 20.54,2.0,0.06
6,20.54 |- 23.30,0.0,0.0


## Exercício 2:
Crie tabelas de frequência para as seguintes variáveis:
1. Estado civil

In [75]:
create_freq_table(tab, 'estado_civil')

Unnamed: 0,estado_civil,Absolute Frequency,Relative Frequency
0,solteiro,16,0.444444
1,casado,20,0.555556


2. Região de procedência

In [76]:
create_freq_table(tab, 'reg_procedencia')

Unnamed: 0,reg_procedencia,Absolute Frequency,Relative Frequency
0,interior,12,0.333333
1,capital,11,0.305556
2,outra,13,0.361111


3. Número de filhos dos empregados casados

In [77]:
emp_casados = tab[tab['estado_civil'] == 'casado']
create_freq_table(emp_casados, 'n_filhos')

Unnamed: 0,n_filhos,Absolute Frequency,Relative Frequency
2,0.0,4,0.2
0,1.0,5,0.25
1,2.0,7,0.35
3,3.0,3,0.15
4,5.0,1,0.05


4. Idade

In [78]:
create_freq_table_cont(tab, 'idade')

Unnamed: 0,idade,Absolute Frequency,Relative Frequency
0,20.83 |- 24.85,2.0,0.06
1,24.85 |- 28.86,5.0,0.14
2,28.86 |- 32.87,7.0,0.19
3,32.87 |- 36.88,8.0,0.22
4,36.88 |- 40.89,6.0,0.17
5,40.89 |- 44.90,6.0,0.17
6,44.90 |- 48.92,1.0,0.03


## Exercício 3:
Para o Conjunto de Dados 1 (CD-Brasil), calcule a tabela de distribuição de frequência para as variáveis População e Densidade Populacional.

In [100]:
# Lendo o dataset
brasil = pd.read_feather('./datasets/cd_brasil.feather')

# Algumas limpezas
brasil['densidade'] = brasil['densidade'].apply(lambda x: x.replace(',', '.'))
brasil['densidade'] = pd.to_numeric(brasil['densidade'])

brasil.head()

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,densidade
0,Norte,RO,238513,762864.0,468143.0,1231007.0,5.16
1,Norte,AC,153150,315401.0,168322.0,483726.0,3.16
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,1.51
3,Norte,RR,225116,174277.0,72854.0,247131.0,1.1
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,4.4


1. População

In [101]:
create_freq_table_cont(brasil, 'total')

Unnamed: 0,total,Absolute Frequency,Relative Frequency
0,247131.00 |- 5892756.83,19.0,0.7
1,5892756.83 |- 11538382.67,4.0,0.15
2,11538382.67 |- 17184008.50,3.0,0.11
3,17184008.50 |- 22829634.33,0.0,0.0
4,22829634.33 |- 28475260.17,0.0,0.0
5,28475260.17 |- 34120886.00,0.0,0.0


2. Densidade Populacional

In [105]:
create_freq_table_cont(brasil, 'densidade')

24
2
0
0
0
0


Unnamed: 0,densidade,Absolute Frequency,Relative Frequency
0,1.10 |- 221.42,24.0,0.89
1,221.42 |- 441.73,2.0,0.07
2,441.73 |- 662.05,0.0,0.0
3,662.05 |- 882.37,0.0,0.0
4,882.37 |- 1102.68,0.0,0.0
5,1102.68 |- 1323.00,0.0,0.0


In [103]:
brasil['densidade'].max()

1323.0