# Estatística descritiva

In [160]:
# importando bibliotecas
import pandas as pd
import numpy as np

A estatística descitiva compreende a organização, resumo e simplificação de informações que podem ser muito complexas.
Por exemplo, 
- o custo de vida, 
- a quilometragem média por litro, e
- a média final dos alunos de uma classe.

Suponha uma pesquisa realizada.
Uma população consiste em todos os elementos cujas caracteristicas são estudadas na pesquisa.
Cada elemento da população estudada é denominado unidade estatística.

O grupo de estudantes da turma CC0218 da UFC é uma população estatística e cada elemento da população é uma unidade estatística.

Uma amostra é uma parcela representativa da população selecionada para fins de estudo.

Para estimar a renda média das pessoas que residem em um munícipio, como amostra, uma quantidade menor do que o total das pessoas que residem no munícipio deve ser pesquisada.

É importante que o resultado obtido em uma pesquisa por amostragem seja o mais próximo possível do resultado que obteriamos pesquisando toda a população. 
Assim, certo critérios devem ser observados para que a amostra seja, de fato imparcial e representativa.

Para se estimar a renda média dos residentes em uma cidade, a a mostra deve conter pessoas de diferentes faixas de renda e que morem em regiões diferentes da cidade.

Existem vários métodos estabelecidos para obter uma amostra que foram testados e comprovados com o temo por meio de pesquisas acadêmicas, científicas e de mercado. 

Os métodos mais comuns incluem: 

- Amostragem probabilística
- Amostragem aleatória simples 
- Amostragem não probabilística
- Amostragem por cotas

Razões que nos levam a utilizar uma amostra, em vez de usar toda a população em uma pesquisa:

- econômicas: observar um grande número de elementos pode ter um custo muito elevado.

- Tempos: a demora na coleta dos dados pode levar a resultados desatualizados.

Suponha um pesquisa realizada em uma cidade, cujos objetivos são: 
- detectar a intenção de voto de cada eleitor.
- levantar o perfil socioeconômico dos eleitores.

Etapas da pesquisa:
1. Dimensionamento de uma amostra da população e coleta de dados por meio de uma pesquisa de campo.
2. Organização dos dados brutos coletados, construção de gráficos e diculgação dos resultados.
3. Verificação de margem de erro que os resultados da amostra refletem.

A etapa 1 diz respeito às técnicas de amostragem, a etapa 2 compete a estatística descritiva e a etapa 3 é objeto de estudo da infer^ncia estatística.

### Variável

**Exemplo:** Suponha uma pesquisa realizada para se traçar o perfil dos frequentadores de um parque.
Para reunir essas informações, 20 pessoas foram entrevistadas e cada uma respondeu a questões para identificar sexo, idade, número de visitas ao parque  por semana, estado cívil, meio de transporte utilizado para chegar ao parque, tempo de permanência (min) ao parque e renda familiar mensal (em salários mínimos).

In [161]:
# lendo os dados
df_parque = pd.read_csv("../data/descritiva/perfil_freq_parque.csv",sep=';')

In [162]:
# mostrando o dataframe
# tabela do perfil dos frequentadores de um parque
df_parque

Unnamed: 0.1,Unnamed: 0,Sexo,Idade,Frequência semanal,Estado Civil,Meio de transporte,Tempo de permanência (min),Renda familiar mensal (sal. mínimo)
0,0,Masculino,26,2,casada(o),carro,30,13.3
1,1,Masculino,23,1,solteira(o),ônibus,35,11.8
2,2,Feminino,41,5,viúva(o),a pé,170,8.9
3,3,Masculino,49,3,separada(o),a pé,45,13.9
4,4,Feminino,19,5,solteira(o),carro,60,11.6
5,5,Feminino,20,4,solteira(o),a pé,80,16.0
6,6,Masculino,27,3,solteira(o),carro,45,19.5
7,7,Masculino,38,3,casada(o),a pé,135,9.3
8,8,Masculino,27,2,separada(o),ônibus,80,10.2
9,9,Feminino,50,7,casada(o),a pé,45,12.4


Cada um dos aspectos investigados (questões) é denominado variável.

As variáveis sexo, estado cívil e meio de transporte utilizado, apresentam como resposta um atributo, qualidade ou preferência. Variáveis desse tipo são denominadas variáveis qualitativa.

Variáveis como idade, frequência semanal, tempo de permanência e renda familiar mensal, apresentam como resposta um quantidade.
Variáveis desse tipo são denominadas variáveis quantitativas.

As variáveis quantitativas pode ser classificadas em dois grupos:
- Discreta: são aquelas cujos valores são obtidos por contagem e representadas por elementos de um conjunto enumerável.
- Contínuas: são aquelas cujos valores são obtidos por mensuração e representados por valores pertencentes a um intervalo real.

### Tabela de frequência

A simples leitura dos dados brutos na tabela anterior não nos fornece as condições necessárias a determinação do perfil dos frequentadores do parque, uma vez que as informação não estão devidademente organizadas.

A construção de uma tabela de frequência nos possibilita uma leitura mais resumida dos dados.

Para cada variável (coluna), contamos o número de vezes que cada um dos seus valores ocorre.
O número obtido é chamado de ferequência absoluta ($n_i$).

A seguir a frequência absoluta dos 20 entrevistados para a variável estado cívil:
 - casad(a)o, $n_1 = 8$
 - solteir(a)o, $n_2 = 7$
 - separada(o), $n_3 = 3$
 - viúva(o), $n_4 = 2$

 onde $\sum_{i=1}^{n} n_i= 20$ 

A frequência relativa ($f_i$) é a razão entre a frequência absoluta ($n_i$) e p número total de elementos ($n$) pesquisados.
$$
f_i  = \frac{n_i}{n}
$$

Observações:
1. Como $0 \leq n_i \leq n$, temos que para cada $i$, $0 \leq f_i \leq 1$
2. A soma das frequências relativas é igual a 1.

**Exemplo:** A seguir construimos a tabela de frequênci para a variável **estado cívil**.

- Frequência absoluta

In [163]:
serie_ni = df_parque['Estado Civil'].value_counts()
serie_ni

Estado Civil
casada(o)      8
solteira(o)    7
separada(o)    3
viúva(o)       2
Name: count, dtype: int64

In [164]:
n = serie_ni.sum()
n

20

- Frequência relativa: $f_i = \dfrac{n_i}{n}$

In [165]:
#serie_fi = df_parque['Estado Civil'].value_counts()/n
#serie_fi

serie_fi = df_parque['Estado Civil'].value_counts(normalize = True)
serie_fi

Estado Civil
casada(o)      0.40
solteira(o)    0.35
separada(o)    0.15
viúva(o)       0.10
Name: proportion, dtype: float64

- Percentual referente a frequência relativa

In [166]:
#serie_perc = df_parque['Estado Civil'].value_counts()/20*100
#serie_perc

serie_perc = df_parque['Estado Civil'].value_counts(normalize = True)*100
serie_perc

Estado Civil
casada(o)      40.0
solteira(o)    35.0
separada(o)    15.0
viúva(o)       10.0
Name: proportion, dtype: float64

In [167]:
# combinação de todas as informações em uma tabela
tab_freq = pd.DataFrame({
    'ni': serie_ni,
    'fi': serie_fi,
    'perc' : serie_perc
})

tab_freq

Unnamed: 0_level_0,ni,fi,perc
Estado Civil,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
casada(o),8,0.4,40.0
solteira(o),7,0.35,35.0
separada(o),3,0.15,15.0
viúva(o),2,0.1,10.0


In [168]:
tab_freq = tab_freq.reset_index()
tab_freq

Unnamed: 0,Estado Civil,ni,fi,perc
0,casada(o),8,0.4,40.0
1,solteira(o),7,0.35,35.0
2,separada(o),3,0.15,15.0
3,viúva(o),2,0.1,10.0


In [169]:
tab = pd.DataFrame()
tab = pd.concat([tab, tab_freq], ignore_index=True)

resume = pd.DataFrame({
    'Estado Civil':f'Total',
    'ni':tab['ni'].sum(),
    'fi':tab['fi'].sum(),
    'perc':tab['perc'].sum(),
    }, index = ["resume"])

tab = pd.concat([tab, resume], ignore_index=True)

tab

Unnamed: 0,Estado Civil,ni,fi,perc
0,casada(o),8,0.4,40.0
1,solteira(o),7,0.35,35.0
2,separada(o),3,0.15,15.0
3,viúva(o),2,0.1,10.0
4,Total,20,1.0,100.0


A construção de tabelas de frequência para as variáveis sexo, frequência semanal e meio de transporte utilizada é análogo.

In [171]:
serie_ni = df_parque['Sexo'].value_counts()
serie_ni

Sexo
Masculino    12
Feminino      8
Name: count, dtype: int64

In [172]:
serie_ni = df_parque['Idade'].value_counts()
serie_ni

Idade
41    2
31    2
27    2
26    1
49    1
19    1
20    1
38    1
23    1
50    1
52    1
28    1
48    1
36    1
56    1
44    1
29    1
Name: count, dtype: int64

Em alguns casos os valores assumidos por uma variável pertencem a um intervalo real, não havendo praticamente repetição de valores.
Isso ocorre com as variáveis idade, tempo de permanência e renda familiar.
A renda familiar mensal tem seus valores definidos no intervalo $[5, 20)$ .
Nesse caso, construimos uma tabela de frequência em que os dados são agrupados em classes (intervalos) de valores.

A notação $a \vdash b$ refere-se ao intervalo real $[a,b)$, ou seja
$$
[a,b) = \{ x \in \mathbb{R} \ : \ a \leq x < b \}
$$

A amplitude do intevarlo $a \vdash b$ é dados pela diferença $b-a$.

Não existe regras fixas para a construção de intervalos para agrupar as informações dos dados. 
Dependendo da natureza dos dados, podemos ter um número maior ou menor de classes.

Considere a variável **renda familiar**.

- Tabela (dataframe)

In [117]:
serie_rm = df_parque['Renda familiar mensal (sal. mínimo)']
df_rm = pd.DataFrame({'renda':serie_rm.values})
df_rm

Unnamed: 0,renda
0,13.3
1,11.8
2,8.9
3,13.9
4,11.6
5,16.0
6,19.5
7,9.3
8,10.2
9,12.4


- Intervalo de classes

amplitude = 3

In [173]:
# definição dos intervalos de classe
bins = [5, 8, 11, 14, 17, 20]

In [174]:
# criação dos intervalos de classe
df_rm['classes'] = pd.cut(df_rm['renda'], bins, right=False, include_lowest=True)
df_rm

Unnamed: 0,renda,classes
0,13.3,"[11, 14)"
1,11.8,"[11, 14)"
2,8.9,"[8, 11)"
3,13.9,"[11, 14)"
4,11.6,"[11, 14)"
5,16.0,"[14, 17)"
6,19.5,"[17, 20)"
7,9.3,"[8, 11)"
8,10.2,"[8, 11)"
9,12.4,"[11, 14)"


- Frequência absoluta

In [120]:
# cria a tabela de distribuição de frequências absoluta
serie_ni = df_rm['classes'].value_counts(sort=False)
serie_ni


classes
[5, 8)      2
[8, 11)     5
[11, 14)    7
[14, 17)    4
[17, 20)    2
Name: count, dtype: int64

In [121]:
# organiza os intervalos de classe em ordem crescente
serie_ni = serie_ni.sort_index()
serie_ni

classes
[5, 8)      2
[8, 11)     5
[11, 14)    7
[14, 17)    4
[17, 20)    2
Name: count, dtype: int64

- Frequência relativa

In [122]:
# calcula as frequências relativas
serie_fi = serie_ni / serie_ni.sum()
serie_fi

classes
[5, 8)      0.10
[8, 11)     0.25
[11, 14)    0.35
[14, 17)    0.20
[17, 20)    0.10
Name: count, dtype: float64

In [123]:
# calcula o percentual referente as frequências relativas
serie_perc = serie_fi * 100
serie_perc

classes
[5, 8)      10.0
[8, 11)     25.0
[11, 14)    35.0
[14, 17)    20.0
[17, 20)    10.0
Name: count, dtype: float64

- Frequência absoluta acumulada e frequência relativa acumulada

A frequência absoluta acumulada ($ni\_ac$) e a frequência relativa acumulada ($fi\_ac$) correspondem, respectivamente, a soma das frequências absolutas e a soma das frequências relativas até determinado dado.

In [124]:
# calcula as frequências absoluta acumuladas
serie_ni_ac = serie_ni.cumsum()
serie_ni_ac

classes
[5, 8)       2
[8, 11)      7
[11, 14)    14
[14, 17)    18
[17, 20)    20
Name: count, dtype: int64

In [125]:
# calcula as frequências relativa acumuladas
serie_fi_ac = serie_fi.cumsum()
serie_fi_ac

classes
[5, 8)      0.10
[8, 11)     0.35
[11, 14)    0.70
[14, 17)    0.90
[17, 20)    1.00
Name: count, dtype: float64

A seguir mostramos a tabela de frequência resultante.

In [126]:
# combina todas as informações em uma tabela
tab_freq = pd.DataFrame({
    'ni': serie_ni,
    'fi': serie_fi,
    'perc': serie_perc,
    'ni ac': serie_ni_ac,
    'fi ac': serie_fi_ac
})

tab_freq

Unnamed: 0_level_0,ni,fi,perc,ni ac,fi ac
classes,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
"[5, 8)",2,0.1,10.0,2,0.1
"[8, 11)",5,0.25,25.0,7,0.35
"[11, 14)",7,0.35,35.0,14,0.7
"[14, 17)",4,0.2,20.0,18,0.9
"[17, 20)",2,0.1,10.0,20,1.0


In [127]:
tab_freq = tab_freq.reset_index()
tab_freq

Unnamed: 0,classes,ni,fi,perc,ni ac,fi ac
0,"[5, 8)",2,0.1,10.0,2,0.1
1,"[8, 11)",5,0.25,25.0,7,0.35
2,"[11, 14)",7,0.35,35.0,14,0.7
3,"[14, 17)",4,0.2,20.0,18,0.9
4,"[17, 20)",2,0.1,10.0,20,1.0


In [128]:
tab = pd.DataFrame()
tab = pd.concat([tab, tab_freq], ignore_index=True)

resume = pd.DataFrame({
    'classes':f'soma',
    'ni':tab['ni'].sum(),
    'fi':tab['fi'].sum(),
    'perc':tab['perc'].sum(),
    'ni ac':'',
    'fi ac':''
    }, index = ["resume"])

tab = pd.concat([tab, resume], ignore_index=True)

tab

Unnamed: 0,classes,ni,fi,perc,ni ac,fi ac
0,"[5, 8)",2,0.1,10.0,2.0,0.1
1,"[8, 11)",5,0.25,25.0,7.0,0.35
2,"[11, 14)",7,0.35,35.0,14.0,0.7
3,"[14, 17)",4,0.2,20.0,18.0,0.9
4,"[17, 20)",2,0.1,10.0,20.0,1.0
5,soma,20,1.0,100.0,,


Calculo das frequências para a variável **tempo de permanência**

In [129]:
serie_tp = df_parque['Tempo de permanência (min)']
#serie_tp = serie_tp.sort_values(ascending=True)
serie_tp = pd.DataFrame({'tempo':serie_tp.values})
serie_tp

Unnamed: 0,tempo
0,30
1,35
2,170
3,45
4,60
5,80
6,45
7,135
8,80
9,45


In [130]:
# define os intervalos de classe
bins = [30, 60, 90, 120, 150, 180]

In [131]:
# cria a coluna de intervalos de classe
serie_tp['classes'] = pd.cut(serie_tp['tempo'], bins, right = False,  include_lowest=True)
serie_tp

Unnamed: 0,tempo,classes
0,30,"[30, 60)"
1,35,"[30, 60)"
2,170,"[150, 180)"
3,45,"[30, 60)"
4,60,"[60, 90)"
5,80,"[60, 90)"
6,45,"[30, 60)"
7,135,"[120, 150)"
8,80,"[60, 90)"
9,45,"[30, 60)"


In [132]:
# cria a tabela de distribuição de frequências absoluta
serie_ni = serie_tp['classes'].value_counts(sort=False)
serie_ni

classes
[30, 60)      8
[60, 90)      5
[90, 120)     2
[120, 150)    2
[150, 180)    3
Name: count, dtype: int64

In [133]:
# organiza os intervalos de classe em ordem crescente
serie_ni = serie_ni.sort_index()
serie_ni

classes
[30, 60)      8
[60, 90)      5
[90, 120)     2
[120, 150)    2
[150, 180)    3
Name: count, dtype: int64

In [134]:
# calcula as frequências relativas
serie_fi = serie_ni / serie_ni.sum()
serie_fi

classes
[30, 60)      0.40
[60, 90)      0.25
[90, 120)     0.10
[120, 150)    0.10
[150, 180)    0.15
Name: count, dtype: float64

In [135]:
# calculo dos percentuais
serie_perc = serie_fi * 100
serie_perc

classes
[30, 60)      40.0
[60, 90)      25.0
[90, 120)     10.0
[120, 150)    10.0
[150, 180)    15.0
Name: count, dtype: float64

In [136]:
# calcula as frequências absoluta acumuladas
serie_ni_ac = serie_ni.cumsum()
serie_ni_ac

classes
[30, 60)       8
[60, 90)      13
[90, 120)     15
[120, 150)    17
[150, 180)    20
Name: count, dtype: int64

In [137]:
# combina todas as informações em uma tabela
tab_freq_tp = pd.DataFrame({
    'ni': serie_ni,
    'fi': serie_fi,
    'perc': serie_perc
})

tab_freq_tp

Unnamed: 0_level_0,ni,fi,perc
classes,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"[30, 60)",8,0.4,40.0
"[60, 90)",5,0.25,25.0
"[90, 120)",2,0.1,10.0
"[120, 150)",2,0.1,10.0
"[150, 180)",3,0.15,15.0


In [138]:
tab_freq_tp = tab_freq_tp.reset_index()
tab_freq_tp

Unnamed: 0,classes,ni,fi,perc
0,"[30, 60)",8,0.4,40.0
1,"[60, 90)",5,0.25,25.0
2,"[90, 120)",2,0.1,10.0
3,"[120, 150)",2,0.1,10.0
4,"[150, 180)",3,0.15,15.0


Conclusão:
- A maioria ($60\%$) dos entrevistados permanece menos de 90 minútos no parque.
- 3 a cada entrevistados ficam no parque por menos de duas horas. ($ 40\% + 20\% + 15\% = 75\%$)

**Exemplo :**
Suponha que foram coletados dados relativos à idade (em ano) e ao peso (em quilograma) de um grupo de adolescentes.
O resultado dessa pesquisa, feita com uma amostra de 30 adolescentes, é mostrado na tabela a seguir:

In [139]:
# lendo os dados e mostrando df
df_adol = pd.read_csv("../data/descritiva/idade_peso_adolecentes.csv",sep=';')
df_adol

Unnamed: 0,idade,peso
0,14,48.5
1,15,51.0
2,15,51.0
3,16,51.5
4,14,51.4
5,14,53.0
6,17,49.2
7,15,50.3
8,16,50.3
9,14,50.0


In [140]:
serie_ni = df_adol["idade"].value_counts()
serie_ni

idade
15    12
16     9
14     6
17     3
Name: count, dtype: int64

Em relação a variável idade temos a frequência absoluta ($n_i$):
- 14 anos, $n_1$ = 6 vezes
- 15 anos, $n_2$ = 12 vezes
- 16 anos, $n_3$ = 9 vezes
- 17 anos, $n_4$ = 3 vezes

In [141]:
serie_fi = df_adol['idade'].value_counts(normalize = True)
serie_fi

idade
15    0.4
16    0.3
14    0.2
17    0.1
Name: proportion, dtype: float64

Em relação à variável idade, considerando 30 adolescentes, temos a frequência relativa ($f_i$):
- 15 anos: $f_1 = 0.4$
- 16 anos: $f_2 = 0.3$
- 14 anos: $f_3 = 0.2$
- 17 anos: $f_4 = 0.1$

In [142]:
# calculo do percentual
serie_perc = df_adol['idade'].value_counts(normalize = True)*100
serie_perc

idade
15    40.0
16    30.0
14    20.0
17    10.0
Name: proportion, dtype: float64

In [143]:
# calcula as frequências absoluta acumuladas
serie_ni_ac = serie_ni.cumsum()
serie_ni_ac

idade
15    12
16    21
14    27
17    30
Name: count, dtype: int64

In [144]:
# calcula as frequências relativa acumuladas
serie_fi_ac = serie_fi.cumsum()
serie_fi_ac

idade
15    0.4
16    0.7
14    0.9
17    1.0
Name: proportion, dtype: float64

In [145]:
# combinação de todas as informações em uma tabela
tab_freq = pd.DataFrame({
    'ni': serie_ni,
    'fi': serie_fi,
    'perc' : serie_perc,
    'ni_ac' : serie_ni_ac,
    'fi_ac' : serie_fi_ac
})

tab_freq

Unnamed: 0_level_0,ni,fi,perc,ni_ac,fi_ac
idade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
15,12,0.4,40.0,12,0.4
16,9,0.3,30.0,21,0.7
14,6,0.2,20.0,27,0.9
17,3,0.1,10.0,30,1.0


In [146]:
tab_freq = tab_freq.reset_index()
tab_freq

Unnamed: 0,idade,ni,fi,perc,ni_ac,fi_ac
0,15,12,0.4,40.0,12,0.4
1,16,9,0.3,30.0,21,0.7
2,14,6,0.2,20.0,27,0.9
3,17,3,0.1,10.0,30,1.0


In [147]:
tab = pd.DataFrame()
tab = pd.concat([tab, tab_freq], ignore_index=True)

resume = pd.DataFrame({
    'idade':f'Total',
    'ni':tab['ni'].sum(),
    'fi':tab['fi'].sum(),
    'perc':tab['perc'].sum(),
    'ni_ac': '',
    'fi_ac': ''
    }, index = ["resume"])

tab_freq = pd.concat([tab, resume], ignore_index=True)

tab_freq

Unnamed: 0,idade,ni,fi,perc,ni_ac,fi_ac
0,15,12,0.4,40.0,12.0,0.4
1,16,9,0.3,30.0,21.0,0.7
2,14,6,0.2,20.0,27.0,0.9
3,17,3,0.1,10.0,30.0,1.0
4,Total,30,1.0,100.0,,


Considere agora a variável peso e seus resultados obtidos na pesquisa com adolecentes.

In [148]:
serie_peso = df_adol['peso']
serie_peso = pd.DataFrame({'peso':serie_peso.values})
serie_peso

Unnamed: 0,peso
0,48.5
1,51.0
2,51.0
3,51.5
4,51.4
5,53.0
6,49.2
7,50.3
8,50.3
9,50.0


In [149]:
peso_max = df_adol['peso'].max()
peso_min = df_adol['peso'].min()
print(f"peso max = {peso_max}")
print(f"peso min = {peso_min}")

peso max = 53.0
peso min = 48.0


In [150]:
dif = peso_max - peso_min
print(dif)

5.0


In [151]:
bins = [48,49,50,51,52,53,54]

In [152]:
serie_adol = df_adol['peso']

In [153]:
# criação da coluna de intervalos de classe
serie_peso['classes'] = pd.cut(serie_peso['peso'], bins, right=False, include_lowest=True)
serie_peso

Unnamed: 0,peso,classes
0,48.5,"[48, 49)"
1,51.0,"[51, 52)"
2,51.0,"[51, 52)"
3,51.5,"[51, 52)"
4,51.4,"[51, 52)"
5,53.0,"[53, 54)"
6,49.2,"[49, 50)"
7,50.3,"[50, 51)"
8,50.3,"[50, 51)"
9,50.0,"[50, 51)"


In [154]:
# criação da tabela de distribuição de frequências absoluta
serie_ni = serie_peso['classes'].value_counts(sort=False)
serie_ni

classes
[48, 49)    3
[49, 50)    3
[50, 51)    9
[51, 52)    6
[52, 53)    3
[53, 54)    6
Name: count, dtype: int64

In [155]:
# organização dos intervalos de classe em ordem crescente
serie_ni = serie_ni.sort_index()
serie_ni

classes
[48, 49)    3
[49, 50)    3
[50, 51)    9
[51, 52)    6
[52, 53)    3
[53, 54)    6
Name: count, dtype: int64

In [156]:
# calculo das frequências relativas
serie_fi = serie_ni / serie_ni.sum()
serie_fi

classes
[48, 49)    0.1
[49, 50)    0.1
[50, 51)    0.3
[51, 52)    0.2
[52, 53)    0.1
[53, 54)    0.2
Name: count, dtype: float64

In [157]:
# combinação de todas as informações em uma tabela
tab_freq = pd.DataFrame({
    'ni': serie_ni,
    'fi': serie_fi
})

tab_freq

Unnamed: 0_level_0,ni,fi
classes,Unnamed: 1_level_1,Unnamed: 2_level_1
"[48, 49)",3,0.1
"[49, 50)",3,0.1
"[50, 51)",9,0.3
"[51, 52)",6,0.2
"[52, 53)",3,0.1
"[53, 54)",6,0.2


In [158]:
tab_freq = tab_freq.reset_index()
tab_freq

Unnamed: 0,classes,ni,fi
0,"[48, 49)",3,0.1
1,"[49, 50)",3,0.1
2,"[50, 51)",9,0.3
3,"[51, 52)",6,0.2
4,"[52, 53)",3,0.1
5,"[53, 54)",6,0.2


In [159]:
tab = pd.DataFrame()
tab = pd.concat([tab, tab_freq], ignore_index=True)

resume = pd.DataFrame({
    'classes':f'total',
    'ni':tab['ni'].sum(),
    'fi':tab['fi'].sum(),
    }, index = ["resume"])

tab_freq = pd.concat([tab, resume], ignore_index=True)

tab_freq

Unnamed: 0,classes,ni,fi
0,"[48, 49)",3,0.1
1,"[49, 50)",3,0.1
2,"[50, 51)",9,0.3
3,"[51, 52)",6,0.2
4,"[52, 53)",3,0.1
5,"[53, 54)",6,0.2
6,total,30,1.0
