# <center>Capítulo 02 - Resumo de Dados</center>

***

## Resumo

***

***Tipos de variáveis:***

- Variável Qualitativa Nominal: Possíveis realizações são classes sem hierarquia entre si
- Variável Qualitativa Ordinal: Possíveis realizações são classes com alguma hierarquia entre si
- Variável Quantitativa Discreta: Uma variável que pertence ao conjunto dos naturais $N$
- Variável Quantitativa Contínua: Uma variável que pertence ao conjunto dos reais $R$
- Outras:
  - *Variável Dummy:* consiste na codificação de uma variável qualitativa como 0 (ausência de um atributo) ou 1 (presença de um certo atributo)

[***Escalas de medida***](https://www.lampada.uerj.br/bioestatisticabasica/introducao.html):

- Escala nominal simples: escala de medida das variáveis qualitativas nominais. Reflete a existência de diferentes classes para o nosso dado.
- Escala ordinal: escala de medida das variáveis qualitativas ordinais. Reflete a diferentes categorias que possuem uma hierarquia entre si, entretanto, não podemos afirmar que a diferença entre duas categorias é constante ao longo da escala (Exemplo: A primeira classe de um voo é duas vezes melhor que a classe econômica).
  - Quando há somente duas categorias nessa escala, temos uma *variável dummy*.
- Escala intervalar: é uma escala numérica onde a diferença entre dois valores possui o mesmo significado ao longo da escala, entretanto, a diferença entre esses dois valores não pode ser expressa como uma razão (ver exemplo do link de referência para melhor compreensão).
- Escala de razão: semelhantemente a escala intervalar, a escala de razão é numérica e possui a característica de que a diferença entre dois valores possui o mesmo significado ao longo de toda a escala, entretanto, uma vantagem dela é que essa diferença pode ser expressa em como razão, isto é, é possível afirmar que o valor $x$ é o dobro do valor $y$, desde que $\frac{x}{y} = 2$.

***Gráficos***

- O histograma é uma forma de representar a ***função de densidade de probabilidade*** de uma variável.
- O ramo-e-folhas é uma alternativa ao histograma, pois há uma menor perda de informação sobre os dados.

## Exemplos
***

In [1]:
import pandas as pd

tab2_1 = pd.read_csv('dados/tab2_1.csv')

In [14]:
## Tabela 2.1
display(tab2_1)

Unnamed: 0,N,estado_civil,grau_instrucao,n_filhos,salario,idade_anos,idade_meses,reg_procedencia
0,1,solteiro,ensino fundamental,,4.0,26,3,interior
1,2,casado,ensino fundamental,1.0,4.56,32,10,capital
2,3,casado,ensino fundamental,2.0,5.25,36,5,capital
3,4,solteiro,ensino médio,,5.73,20,10,outra
4,5,solteiro,ensino fundamental,,6.26,40,7,outra
5,6,casado,ensino fundamental,0.0,6.66,28,0,interior
6,7,solteiro,ensino fundamental,,6.86,41,0,interior
7,8,solteiro,ensino fundamental,,7.39,43,4,capital
8,9,casado,ensino médio,1.0,7.59,34,10,capital
9,10,solteiro,ensino médio,,7.44,23,6,outra


In [2]:
## Tabela 2.2

pvt = tab2_1.pivot_table(index='grau_instrucao', values='N', aggfunc='count')
pvt = pvt.assign(proporcao=(pvt['N'] / pvt['N'].sum()), porcentagem=(pvt['N'] / pvt['N'].sum()) * 100)
pvt = pvt.rename(columns={'N': 'frequencia'})
pvt

Unnamed: 0_level_0,frequencia,proporcao,porcentagem
grau_instrucao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ensino fundamental,12,0.333333,33.333333
ensino médio,18,0.5,50.0
superior,6,0.166667,16.666667


## Exercícios
***

### Ex. 2.2

In [4]:
pvt = tab2_1.pivot_table(index='estado_civil', values='N', aggfunc='count')
pvt = pvt.assign(proporcao=(pvt['N'] / pvt['N'].sum()), porcentagem=(pvt['N'] / pvt['N'].sum()) * 100)
pvt = pvt.rename(columns={'N': 'frequencia'})
pvt

Unnamed: 0_level_0,frequencia,proporcao,porcentagem
estado_civil,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
casado,20,0.555556,55.555556
solteiro,16,0.444444,44.444444


In [5]:
pvt = tab2_1.pivot_table(index='reg_procedencia', values='N', aggfunc='count')
pvt = pvt.assign(proporcao=(pvt['N'] / pvt['N'].sum()), porcentagem=(pvt['N'] / pvt['N'].sum()) * 100)
pvt = pvt.rename(columns={'N': 'frequencia'})
pvt

Unnamed: 0_level_0,frequencia,proporcao,porcentagem
reg_procedencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
capital,11,0.305556,30.555556
interior,12,0.333333,33.333333
outra,13,0.361111,36.111111


In [12]:
pvt = pd.crosstab(tab2_1['n_filhos'], tab2_1['estado_civil'])
pvt = pvt.assign(frequency=(pvt['casado'] / pvt['casado'].sum()))
pvt

estado_civil,casado,frequency
n_filhos,Unnamed: 1_level_1,Unnamed: 2_level_1
0.0,4,0.2
1.0,5,0.25
2.0,7,0.35
3.0,3,0.15
5.0,1,0.05


In [18]:
pvt = pd.pivot_table(tab2_1, index='idade_anos', values='N', aggfunc='count')
pvt = pvt.assign(proporcao=(pvt['N'] / pvt['N'].sum()), porcentagem=(pvt['N'] / pvt['N'].sum()) * 100)
pvt = pvt.rename(columns={'N': 'frequencia'})
pvt

Unnamed: 0_level_0,frequencia,proporcao,porcentagem
idade_anos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
20,1,0.027778,2.777778
23,1,0.027778,2.777778
25,1,0.027778,2.777778
26,2,0.055556,5.555556
27,1,0.027778,2.777778
28,1,0.027778,2.777778
29,1,0.027778,2.777778
30,2,0.055556,5.555556
31,2,0.055556,5.555556
32,2,0.055556,5.555556


### Ex. 2.3

In [48]:
cd_brasil = pd.read_csv('dados/cd_brasil.csv', )
cd_brasil.head()

Unnamed: 0.1,Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,densidade
0,1,Norte,RO,238513,762864.0,468143.0,1231007.0,516
1,2,Norte,AC,153150,315401.0,168322.0,483726.0,316
2,3,Norte,AM,1577820,1766166.0,623113.0,2389279.0,151
3,4,Norte,RR,225116,174277.0,72854.0,247131.0,110
4,5,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,440


In [49]:
cd_brasil = cd_brasil.drop(columns='Unnamed: 0', index=28)
cd_brasil = cd_brasil.assign(densidade=cd_brasil['densidade'].str.replace(',', '.').astype(float))

cd_brasil.head()

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,densidade
0,Norte,RO,238513,762864.0,468143.0,1231007.0,5.16
1,Norte,AC,153150,315401.0,168322.0,483726.0,3.16
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,1.51
3,Norte,RR,225116,174277.0,72854.0,247131.0,1.1
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,4.4


In [51]:
cd_brasil = cd_brasil.assign(bins_pop=pd.cut(cd_brasil['pop_urbana'], 8))

freq_pop = cd_brasil.pivot_table(index='bins_pop', values='uf', aggfunc='count')
freq_pop = freq_pop.assign(freq=(freq_pop['uf'] / freq_pop['uf'].sum()))

freq_pop

Unnamed: 0_level_0,uf,freq
bins_pop,Unnamed: 1_level_1,Unnamed: 2_level_1
"(142682.058, 4123644.75]",19,0.703704
"(4123644.75, 8073012.5]",5,0.185185
"(8073012.5, 12022380.25]",0,0.0
"(12022380.25, 15971748.0]",2,0.074074
"(15971748.0, 19921115.75]",0,0.0
"(19921115.75, 23870483.5]",0,0.0
"(23870483.5, 27819851.25]",0,0.0
"(27819851.25, 31769219.0]",1,0.037037


In [52]:
cd_brasil = cd_brasil.assign(bins_densidade=pd.cut(cd_brasil['densidade'], 8))

freq_densidade = cd_brasil.pivot_table(index='bins_densidade', values='uf', aggfunc='count')
freq_densidade = freq_densidade.assign(freq=(freq_densidade['uf'] / freq_densidade['uf'].sum()))

freq_densidade

Unnamed: 0_level_0,uf,freq
bins_densidade,Unnamed: 1_level_1,Unnamed: 2_level_1
"(-0.222, 166.338]",24,0.888889
"(166.338, 331.575]",2,0.074074
"(331.575, 496.813]",0,0.0
"(496.813, 662.05]",0,0.0
"(662.05, 827.288]",0,0.0
"(827.288, 992.525]",0,0.0
"(992.525, 1157.762]",0,0.0
"(1157.762, 1323.0]",1,0.037037


### Ex. 2.4