# Estatística descritiva univariada

## Tabela de distribuição de frequências e representações gráficas

As tabelas de distribuições de frequência podem ser utilizadas para representar a frequência de ocorrências de um conjunto de observações de variáveis qualitativas ou quantitativas.

No caso de variáveis qualitativas, a tabela representa a frequência de ocorrências de cada categoria da variável. Para as variáveis quantitativas discretas, a frequência de ocorrências é calculada para cada valor discreto da variável. Já os dados das variáveis contínuas são agrupados inicialmente em classes, e a partir daí são calculadas as
frequências de ocorrências para cada classe.

Uma tabela de distribuição de frequências usualmente comporta os seguintes cálculos:

- Frequência absoluta (*F<sub>i</sub>*): número de ocorrências de cada elemento *i* na amostra.
- Frequência relativa (*Fr<sub>i</sub>*): porcentagem relativa à frequência absoluta.
- Frequência acumulada (*F<sub>ac</sub>*): soma de todas as ocorrências até o elemento analisado.
- Frequência relativa acumulada (*Fr<sub>ac</sub>*}: porcentagem relativa à frequência acumulada (soma de todas as frequências relativas até o elemento analisado).

#### Exemplo 1

Um determinado hospital precisa de ao menos 60 doações de sangue por dia para manter seu estoque para transfusões. A seguinte base de dados apresenta o tipo sanguíneo para os doadores de um determinado dia. Utilizaremos tal base para construir uma tabela de distribuição de frequências.

In [1]:
import pandas as pd

DADOS = "./dados/blood_donors.csv"

df = pd.read_csv(DADOS)

df.head()

Unnamed: 0,donor_id,blood_type
0,1,a+
1,2,a+
2,3,a+
3,4,a+
4,5,a+


In [2]:
df.tail()

Unnamed: 0,donor_id,blood_type
55,56,o+
56,57,o+
57,58,o+
58,59,o-
59,60,o-


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60 entries, 0 to 59
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   donor_id    60 non-null     int64 
 1   blood_type  60 non-null     object
dtypes: int64(1), object(1)
memory usage: 1.1+ KB


In [5]:
df.describe(exclude='number')

Unnamed: 0,blood_type
count,60
unique,8
top,o+
freq,32


In [9]:
df['blood_type'].value_counts(normalize=True).sort_index()*100

blood_type
a+     25.000000
a-      3.333333
ab+     1.666667
ab-     1.666667
b+     10.000000
b-      1.666667
o+     53.333333
o-      3.333333
Name: proportion, dtype: float64

In [13]:
df_estatistica = pd.DataFrame()
# quantidade de ocorrencia
df_estatistica['Frequencia']= df['blood_type'].value_counts().sort_index()
# %
df_estatistica['frequencia_relativa']= df['blood_type'].value_counts(normalize=True).sort_index()*100
#soma dos valores
df_estatistica['frequencia_acumulada']= df_estatistica['Frequencia'].cumsum()
#soma da frenquencia relativa
df_estatistica['frequencia_relativa_acumulada']= df_estatistica['frequencia_relativa'].cumsum()


df_estatistica


Unnamed: 0_level_0,Frequencia,frequencia_relativa,frequencia_acumulada,frequencia_relativa_acumulada
blood_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
a+,15,25.0,15,25.0
a-,2,3.333333,17,28.333333
ab+,1,1.666667,18,30.0
ab-,1,1.666667,19,31.666667
b+,6,10.0,25,41.666667
b-,1,1.666667,26,43.333333
o+,32,53.333333,58,96.666667
o-,2,3.333333,60,100.0


In [14]:
from auxiliares import tabela_distribuicao_frequencias

tabela_distribuicao_frequencias(df,'blood_type')

Unnamed: 0_level_0,Frequencia,frequencia_relativa,frequencia_acumulada,frequencia_relativa_acumulada
blood_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
a+,15,25.0,15,25.0
a-,2,3.333333,17,28.333333
ab+,1,1.666667,18,30.0
ab-,1,1.666667,19,31.666667
b+,6,10.0,25,41.666667
b-,1,1.666667,26,43.333333
o+,32,53.333333,58,96.666667
o-,2,3.333333,60,100.0
