# Estatística descritiva

In [1]:
# importando bibliotecas
import pandas as pd
import numpy as np

### Variável

**Exemplo:** Suponha uma pesquisa realizada para se traçar o perfil dos frequentadores de um parque.
Para reunir essas informações, 20 pessoas foram entrevistadas e cada uma respondeu a questões para identificar sexo, idade, número de visitas ao parque  por semana, estado cívil, meio de transporte utilizado para chegar ao parque, tempo de permanência (min) ao parque e renda familiar mensal (em salários mínimos).

In [6]:
#print(df_parque.to_latex(index=False,
#                  formatters={"name": str.upper},
#                  float_format="{:.1f}".format,
#))

In [16]:
# lendo os dados
df_parque = pd.read_csv("../data/descritiva/perfil_freq_parque.csv",sep=';')

In [17]:
# mostrando o dataframe
df_parque

Unnamed: 0.1,Unnamed: 0,Sexo,Idade,Frequência semanal,Estado Civil,Meio de transporte,Tempo de permanência (min),Renda familiar mensal (sal. mínimo)
0,0,Masculino,26,2,casada(o),carro,30,13.3
1,1,Masculino,23,1,solteira(o),ônibus,35,11.8
2,2,Feminino,41,5,viúva(o),a pé,170,8.9
3,3,Masculino,49,3,separada(o),a pé,45,13.9
4,4,Feminino,19,5,solteira(o),carro,60,11.6
5,5,Feminino,20,4,solteira(o),a pé,80,16.0
6,6,Masculino,27,3,solteira(o),carro,45,19.5
7,7,Masculino,38,3,casada(o),a pé,135,9.3
8,8,Masculino,27,2,separada(o),ônibus,80,10.2
9,9,Feminino,50,7,casada(o),a pé,45,12.4


### Tabela de frequência

**Estado cívil**

- Frequência absoluta

In [57]:
serie_ni = df_parque['Estado Civil'].value_counts()
serie_ni

Estado Civil
casada(o)      8
solteira(o)    7
separada(o)    3
viúva(o)       2
Name: count, dtype: int64

In [58]:
n = serie_ni.sum()
n

20

- Frequência relativa: $f_i = \dfrac{n_i}{n}$

In [59]:
#serie_fi = df_parque['Estado Civil'].value_counts()/n
#serie_fi

serie_fi = df_parque['Estado Civil'].value_counts(normalize = True)
serie_fi

Estado Civil
casada(o)      0.40
solteira(o)    0.35
separada(o)    0.15
viúva(o)       0.10
Name: proportion, dtype: float64

- Percentual referente a frequência relativa

In [60]:
#serie_perc = df_parque['Estado Civil'].value_counts()/20*100
#serie_perc

serie_perc = df_parque['Estado Civil'].value_counts(normalize = True)*100
serie_perc

Estado Civil
casada(o)      40.0
solteira(o)    35.0
separada(o)    15.0
viúva(o)       10.0
Name: proportion, dtype: float64

In [61]:
# Combina todas as informações em uma tabela
tab_freq = pd.DataFrame({
    'ni': serie_ni,
    'fi': serie_fi,
    'perc' : serie_perc
})

tab_freq

Unnamed: 0_level_0,ni,fi,perc
Estado Civil,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
casada(o),8,0.4,40.0
solteira(o),7,0.35,35.0
separada(o),3,0.15,15.0
viúva(o),2,0.1,10.0


In [62]:
tab_freq = tab_freq.reset_index()
tab_freq

Unnamed: 0,Estado Civil,ni,fi,perc
0,casada(o),8,0.4,40.0
1,solteira(o),7,0.35,35.0
2,separada(o),3,0.15,15.0
3,viúva(o),2,0.1,10.0


In [63]:
tab = pd.DataFrame()
tab = pd.concat([tab, tab_freq], ignore_index=True)

resume = pd.DataFrame({
    'Estado Civil':f'Total',
    'ni':tab['ni'].sum(),
    'fi':tab['fi'].sum(),
    'perc':tab['perc'].sum(),
    }, index = ["resume"])

tab = pd.concat([tab, resume], ignore_index=True)

tab

Unnamed: 0,Estado Civil,ni,fi,perc
0,casada(o),8,0.4,40.0
1,solteira(o),7,0.35,35.0
2,separada(o),3,0.15,15.0
3,viúva(o),2,0.1,10.0
4,Total,20,1.0,100.0


**Renda familiar**

- Tabela (dataframe)

In [69]:
serie_rm = df_parque['Renda familiar mensal (sal. mínimo)']
df_rm = pd.DataFrame({'Renda':serie_rm.values})
df_rm

Unnamed: 0,Renda
0,13.3
1,11.8
2,8.9
3,13.9
4,11.6
5,16.0
6,19.5
7,9.3
8,10.2
9,12.4


- Intervalo de classes

In [70]:
# define os intervalos de classe
bins = [5, 8, 11, 14, 17, 20]

In [71]:
# cria a coluna de intervalos de classe
df_rm['Intervalo de Classe'] = pd.cut(df_rm['Renda'], bins, include_lowest=True)
df_rm

Unnamed: 0,Renda,Intervalo de Classe
0,13.3,"(11.0, 14.0]"
1,11.8,"(11.0, 14.0]"
2,8.9,"(8.0, 11.0]"
3,13.9,"(11.0, 14.0]"
4,11.6,"(11.0, 14.0]"
5,16.0,"(14.0, 17.0]"
6,19.5,"(17.0, 20.0]"
7,9.3,"(8.0, 11.0]"
8,10.2,"(8.0, 11.0]"
9,12.4,"(11.0, 14.0]"


- Frequência absoluta

In [68]:
# cria a tabela de distribuição de frequências absoluta
serie_ni = df_rm['Intervalo de Classe'].value_counts(sort=False)
serie_ni


Intervalo de Classe
(4.999, 8.0]    2
(8.0, 11.0]     5
(11.0, 14.0]    7
(14.0, 17.0]    4
(17.0, 20.0]    2
Name: count, dtype: int64

In [33]:
# organiza os intervalos de classe em ordem crescente
serie_ni = serie_ni.sort_index()
serie_ni

Intervalo de Classe
(4.999, 8.0]    2
(8.0, 11.0]     5
(11.0, 14.0]    7
(14.0, 17.0]    4
(17.0, 20.0]    2
Name: count, dtype: int64

- Frequência relativa

In [72]:
# calcula as frequências relativas
serie_fi = serie_ni / serie_ni.sum()
serie_fi

Intervalo de Classe
(4.999, 8.0]    0.10
(8.0, 11.0]     0.25
(11.0, 14.0]    0.35
(14.0, 17.0]    0.20
(17.0, 20.0]    0.10
Name: count, dtype: float64

In [73]:
# calcula o percentual referente as frequências relativas
serie_perc = serie_fi * 100
serie_perc

Intervalo de Classe
(4.999, 8.0]    10.0
(8.0, 11.0]     25.0
(11.0, 14.0]    35.0
(14.0, 17.0]    20.0
(17.0, 20.0]    10.0
Name: count, dtype: float64

- Frequência absoluta acumulada

In [74]:
# calcula as frequências absoluta acumuladas
serie_ni_ac = serie_ni.cumsum()
serie_ni_ac

Intervalo de Classe
(4.999, 8.0]     2
(8.0, 11.0]      7
(11.0, 14.0]    14
(14.0, 17.0]    18
(17.0, 20.0]    20
Name: count, dtype: int64

- Frequência relativa acumulada

In [76]:
# calcula as frequências relativa acumuladas
serie_fi_ac = serie_fi.cumsum()
serie_fi_ac

Intervalo de Classe
(4.999, 8.0]    0.10
(8.0, 11.0]     0.35
(11.0, 14.0]    0.70
(14.0, 17.0]    0.90
(17.0, 20.0]    1.00
Name: count, dtype: float64

- Tabela de freqência

In [77]:
# combina todas as informações em uma tabela
tab_freq = pd.DataFrame({
    'ni': serie_ni,
    'fi': serie_fi,
    'perc': serie_perc,
    'ni ac': serie_ni_ac,
    'fi ac': serie_fi_ac
})

tab_freq

Unnamed: 0_level_0,ni,fi,perc,ni ac,fi ac
Intervalo de Classe,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
"(4.999, 8.0]",2,0.1,10.0,2,0.1
"(8.0, 11.0]",5,0.25,25.0,7,0.35
"(11.0, 14.0]",7,0.35,35.0,14,0.7
"(14.0, 17.0]",4,0.2,20.0,18,0.9
"(17.0, 20.0]",2,0.1,10.0,20,1.0


In [39]:
tab_freq = tab_freq.reset_index()
tab_freq

Unnamed: 0,Intervalo de Classe,ni,fi,perc,ni ac,fi ac
0,"(4.999, 8.0]",2,0.1,10.0,2,0.1
1,"(8.0, 11.0]",5,0.25,25.0,7,0.35
2,"(11.0, 14.0]",7,0.35,35.0,14,0.7
3,"(14.0, 17.0]",4,0.2,20.0,18,0.9
4,"(17.0, 20.0]",2,0.1,10.0,20,1.0


In [40]:
tab = pd.DataFrame()
tab = pd.concat([tab, tab_freq], ignore_index=True)

resume = pd.DataFrame({
    'Intervalo de Classe':f'Total',
    'ni':tab['ni'].sum(),
    'fi':tab['fi'].sum(),
    'perc':tab['perc'].sum(),
    'ni ac':'',
    'fi ac':''
    }, index = ["resume"])

tab = pd.concat([tab, resume], ignore_index=True)

tab

Unnamed: 0,Intervalo de Classe,ni,fi,perc,ni ac,fi ac
0,"(4.999, 8.0]",2,0.1,10.0,2.0,0.1
1,"(8.0, 11.0]",5,0.25,25.0,7.0,0.35
2,"(11.0, 14.0]",7,0.35,35.0,14.0,0.7
3,"(14.0, 17.0]",4,0.2,20.0,18.0,0.9
4,"(17.0, 20.0]",2,0.1,10.0,20.0,1.0
5,Total,20,1.0,100.0,,


**Tempo de permanência**

In [78]:
serie_tp = df_parque['Tempo de permanência (min)']
#serie_tp = serie_tp.sort_values(ascending=True)
serie_tp = pd.DataFrame({'Tempo':serie_tp.values})
serie_tp

Unnamed: 0,Tempo
0,30
1,35
2,170
3,45
4,60
5,80
6,45
7,135
8,80
9,45


In [79]:
# define os intervalos de classe
bins = [30, 60, 90, 120, 150, 180]

In [80]:
# cria a coluna de intervalos de classe
serie_tp['Intervalo de Classe'] = pd.cut(serie_tp['Tempo'], bins,  include_lowest=True)
serie_tp

Unnamed: 0,Tempo,Intervalo de Classe
0,30,"(29.999, 60.0]"
1,35,"(29.999, 60.0]"
2,170,"(150.0, 180.0]"
3,45,"(29.999, 60.0]"
4,60,"(29.999, 60.0]"
5,80,"(60.0, 90.0]"
6,45,"(29.999, 60.0]"
7,135,"(120.0, 150.0]"
8,80,"(60.0, 90.0]"
9,45,"(29.999, 60.0]"


In [81]:
# cria a tabela de distribuição de frequências absoluta
serie_ni = serie_tp['Intervalo de Classe'].value_counts(sort=False)
serie_ni

Intervalo de Classe
(29.999, 60.0]    10
(60.0, 90.0]       4
(90.0, 120.0]      2
(120.0, 150.0]     2
(150.0, 180.0]     2
Name: count, dtype: int64

In [82]:
# organiza os intervalos de classe em ordem crescente
serie_ni = serie_ni.sort_index()
serie_ni

Intervalo de Classe
(29.999, 60.0]    10
(60.0, 90.0]       4
(90.0, 120.0]      2
(120.0, 150.0]     2
(150.0, 180.0]     2
Name: count, dtype: int64

In [83]:
# calcula as frequências relativas
serie_fi = serie_ni / serie_ni.sum()
serie_fi

Intervalo de Classe
(29.999, 60.0]    0.5
(60.0, 90.0]      0.2
(90.0, 120.0]     0.1
(120.0, 150.0]    0.1
(150.0, 180.0]    0.1
Name: count, dtype: float64

In [84]:
# calcula as frequências absoluta acumuladas
serie_ni_ac = serie_ni.cumsum()
serie_ni_ac

Intervalo de Classe
(29.999, 60.0]    10
(60.0, 90.0]      14
(90.0, 120.0]     16
(120.0, 150.0]    18
(150.0, 180.0]    20
Name: count, dtype: int64

In [85]:
# combina todas as informações em uma tabela
tab_freq_tp = pd.DataFrame({
    'ni': serie_ni,
    'fi': serie_fi,
    'ni ac': serie_ni_ac
})

tab_freq_tp

Unnamed: 0_level_0,ni,fi,ni ac
Intervalo de Classe,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"(29.999, 60.0]",10,0.5,10
"(60.0, 90.0]",4,0.2,14
"(90.0, 120.0]",2,0.1,16
"(120.0, 150.0]",2,0.1,18
"(150.0, 180.0]",2,0.1,20


**Exemplo :**
Suponha que foram coletados dados relativos à idade (em ano) e ao peso (em quilograma) de um grupo de adolescentes.
O resultado dessa pesquisa, feita com uma amostra de 30 adolescentes, é mostrado na tabela a seguir:

In [86]:
# lendo os dados e mostrando df
df_adol = pd.read_csv("../data/descritiva/idade_peso_adolecentes.csv",sep=';')
df_adol

Unnamed: 0,idade,peso
0,14,48.5
1,15,51.0
2,15,51.0
3,16,51.5
4,14,51.4
5,14,53.0
6,17,49.2
7,15,50.3
8,16,50.3
9,14,50.0


In [87]:
serie_ni = df_adol["idade"].value_counts()
serie_ni

idade
15    12
16     9
14     6
17     3
Name: count, dtype: int64

A variável idade é quantitativa discreta, portanto, podemos indicar a quantidade de vezes em que cada valor atribuído a essa variável foi citado por meio da frequência absoluta ($n_i$). 
Em relação a variável idade, temos:

- 14 anos: 6 vezes
- 15 anos: 12 vezes
- 16 anos: 9 vezes
- 17 anos: 3 vezes

In [88]:
serie_fi = df_adol['idade'].value_counts(normalize = True)
serie_fi

idade
15    0.4
16    0.3
14    0.2
17    0.1
Name: proportion, dtype: float64

Para comparar a participação de cada um desses valores em relação ao todo, usamos a frequência relativa ($f_i$), que é a razão entre a frequência absoluta e o total de elementos do conjunto ($n$), ou seja, $f_i = \frac{n_i}{n}$
Em relação à variável idade, considerando 30 adolescentes, temos:
- 14 anos: $\frac{6}{30} = 0.2$
- 15 anos: $\frac{12}{30} = 0.4$
- 16 anos: $\frac{9}{30} = 0.3$
- 17 anos: $\frac{3}{10} = 0.1$

In [89]:
serie_perc = df_adol['idade'].value_counts(normalize = True)*100
serie_perc

idade
15    40.0
16    30.0
14    20.0
17    10.0
Name: proportion, dtype: float64

A frequência absoluta acumulada ($ni\_ac$) e a frequência relativa acumulada ($fi\_ac$) correspondem, respectivamente, a soma das frequências absolutas e a soma das frequências relativas até determinado dado.

In [90]:
# Calcula as frequências absoluta acumuladas
serie_ni_ac = serie_ni.cumsum()
serie_ni_ac

idade
15    12
16    21
14    27
17    30
Name: count, dtype: int64

In [91]:
# Calcula as frequências relativa acumuladas
serie_fi_ac = serie_fi.cumsum()
serie_fi_ac

idade
15    0.4
16    0.7
14    0.9
17    1.0
Name: proportion, dtype: float64

In [92]:
# Combina todas as informações em uma tabela
tab_freq = pd.DataFrame({
    'ni': serie_ni,
    'fi': serie_fi,
    'perc' : serie_perc,
    'ni_ac' : serie_ni_ac,
    'fi_ac' : serie_fi_ac
})

tab_freq

Unnamed: 0_level_0,ni,fi,perc,ni_ac,fi_ac
idade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
15,12,0.4,40.0,12,0.4
16,9,0.3,30.0,21,0.7
14,6,0.2,20.0,27,0.9
17,3,0.1,10.0,30,1.0


In [93]:
tab_freq = tab_freq.reset_index()
tab_freq

Unnamed: 0,idade,ni,fi,perc,ni_ac,fi_ac
0,15,12,0.4,40.0,12,0.4
1,16,9,0.3,30.0,21,0.7
2,14,6,0.2,20.0,27,0.9
3,17,3,0.1,10.0,30,1.0


In [94]:
tab = pd.DataFrame()
tab = pd.concat([tab, tab_freq], ignore_index=True)

resume = pd.DataFrame({
    'idade':f'Total',
    'ni':tab['ni'].sum(),
    'fi':tab['fi'].sum(),
    'perc':tab['perc'].sum(),
    'ni_ac': '',
    'fi_ac': ''
    }, index = ["resume"])

tab_freq = pd.concat([tab, resume], ignore_index=True)

tab_freq

Unnamed: 0,idade,ni,fi,perc,ni_ac,fi_ac
0,15,12,0.4,40.0,12.0,0.4
1,16,9,0.3,30.0,21.0,0.7
2,14,6,0.2,20.0,27.0,0.9
3,17,3,0.1,10.0,30.0,1.0
4,Total,30,1.0,100.0,,


In [95]:
df_adol.columns

Index(['idade', 'peso'], dtype='object')

In [96]:
peso_max = df_adol['peso'].max()
peso_min = df_adol['peso'].min()

In [97]:
print(f"peso max = {peso_max}")
print(f"peso min = {peso_min}")

peso max = 53.0
peso min = 48.0


In [98]:
dif = peso_max - peso_min
print(dif)

5.0


In [99]:
bins = [48,49,50,51,52,53]

In [100]:
serie_adol = df_adol['peso']

In [101]:
serie_peso = df_adol['peso']
serie_peso = pd.DataFrame({'peso':serie_peso.values})
serie_peso

Unnamed: 0,peso
0,48.5
1,51.0
2,51.0
3,51.5
4,51.4
5,53.0
6,49.2
7,50.3
8,50.3
9,50.0


In [102]:
# Cria a coluna de intervalos de classe
serie_peso['Intervalo de Classe'] = pd.cut(serie_peso['peso'], bins, include_lowest=True)
serie_peso

Unnamed: 0,peso,Intervalo de Classe
0,48.5,"(47.999, 49.0]"
1,51.0,"(50.0, 51.0]"
2,51.0,"(50.0, 51.0]"
3,51.5,"(51.0, 52.0]"
4,51.4,"(51.0, 52.0]"
5,53.0,"(52.0, 53.0]"
6,49.2,"(49.0, 50.0]"
7,50.3,"(50.0, 51.0]"
8,50.3,"(50.0, 51.0]"
9,50.0,"(49.0, 50.0]"


In [103]:
# Cria a tabela de distribuição de frequências absoluta
serie_ni = serie_peso['Intervalo de Classe'].value_counts(sort=False)
serie_ni

Intervalo de Classe
(47.999, 49.0]    3
(49.0, 50.0]      8
(50.0, 51.0]      6
(51.0, 52.0]      4
(52.0, 53.0]      9
Name: count, dtype: int64

In [104]:
# Organiza os intervalos de classe em ordem crescente
serie_ni = serie_ni.sort_index()
serie_ni

Intervalo de Classe
(47.999, 49.0]    3
(49.0, 50.0]      8
(50.0, 51.0]      6
(51.0, 52.0]      4
(52.0, 53.0]      9
Name: count, dtype: int64

In [105]:
# Calcula as frequências relativas
serie_fi = serie_ni / serie_ni.sum()
serie_fi

Intervalo de Classe
(47.999, 49.0]    0.100000
(49.0, 50.0]      0.266667
(50.0, 51.0]      0.200000
(51.0, 52.0]      0.133333
(52.0, 53.0]      0.300000
Name: count, dtype: float64

In [106]:
# Combina todas as informações em uma tabela
tab_freq = pd.DataFrame({
    'ni': serie_ni,
    'fi': serie_fi
})

tab_freq

Unnamed: 0_level_0,ni,fi
Intervalo de Classe,Unnamed: 1_level_1,Unnamed: 2_level_1
"(47.999, 49.0]",3,0.1
"(49.0, 50.0]",8,0.266667
"(50.0, 51.0]",6,0.2
"(51.0, 52.0]",4,0.133333
"(52.0, 53.0]",9,0.3


In [107]:
tab_freq = tab_freq.reset_index()
tab_freq

Unnamed: 0,Intervalo de Classe,ni,fi
0,"(47.999, 49.0]",3,0.1
1,"(49.0, 50.0]",8,0.266667
2,"(50.0, 51.0]",6,0.2
3,"(51.0, 52.0]",4,0.133333
4,"(52.0, 53.0]",9,0.3


In [108]:
tab = pd.DataFrame()
tab = pd.concat([tab, tab_freq], ignore_index=True)

resume = pd.DataFrame({
    'Intervalo de Classe':f'Total',
    'ni':tab['ni'].sum(),
    'fi':tab['fi'].sum(),
    }, index = ["resume"])

tab_freq = pd.concat([tab, resume], ignore_index=True)

tab_freq

Unnamed: 0,Intervalo de Classe,ni,fi
0,"(47.999, 49.0]",3,0.1
1,"(49.0, 50.0]",8,0.266667
2,"(50.0, 51.0]",6,0.2
3,"(51.0, 52.0]",4,0.133333
4,"(52.0, 53.0]",9,0.3
5,Total,30,1.0
