# Para saber mais: distribuição de frequência


Uma distribuição de frequência é uma organização de dados em tabelas, que resume as ocorrências (frequências) de cada categoria ou classe de dados em um conjunto. É uma técnica essencial na estatística descritiva, utilizada tanto para dados qualitativos quanto quantitativos, a fim de visualizar e interpretar padrões nos dados.

Cada entrada na tabela contém a contagem de ocorrências de valores dentro de um grupo ou intervalo específico, resumindo a distribuição destes valores. Por exemplo, classifica a quantidade de pessoas pelo sexo biológico, a quantidade de itens de um produto vendido, a faixa de renda de pessoas, etc.

Para construir uma tabela de frequência, precisamos:

1. Ordenar os valores das variáveis em ordem crescente ou decrescente;
2. Determinar a frequência de cada valor;
3. Agrupar os dados em classes ou intervalos.

**Uma tabela de frequência pode possuir os seguintes elementos**:

### Frequência absoluta (f_i)
Representa o número de vezes que um determinado valor ou classe aparece em um conjunto de dados.
![image.png](attachment:image.png)

Onde, *i* representa a classe analisada.

**Exemplo**: Em um conjunto de dados X = {2, 2, 3, 4, 2, 3, 5}:

O valor 2 ocorre 3 vezes, logo `f_2 = 3`.
O valor 3 ocorre 2 vezes, logo `f_3 = 2`.

### Frequência absoluta acumulada (F_i)
Soma das frequências absolutas até a categoria/classe n, como na fórmula abaixo. Para todas as classes teríamos a frequência total absoluta (F), ou melhor, o número total de registros.

![image-2.png](attachment:image-2.png)

Onde, **Fi** é a frequência acumulada até a i-ésima classe.

Exemplo: Usando o mesmo conjunto de dados X = {2, 2, 3, 4, 2, 3, 5}:

`F_2 = f_2 = 3`.
`F_3 = f_2 + f_3 = 3 + 2 = 5`
`F_4 = f_2 + f_3 + f_4 = 3 + 2 + 1 = 6`

### Frequência relativa (fr_i)
É a proporção ou percentual de ocorrências de cada categoria/classe em relação ao total de dados. É dada pela razão entre a frequência absoluta de cada classe e a frequência total absoluta:

![image-3.png](attachment:image-3.png)

Onde,

`f_i` = frequência absoluta do valor i.
`F` = frequência absoluta total ou número total de elementos do conjunto de dados.
Para valores percentuais, basta multiplicar cada frequência relativa por 100.

Exemplo: Com o conjunto de dados X = {2, 2, 3, 4, 2, 3, 5}, temos F = 7:

Para f_2 = 3, a frequência relativa é de fr_2 = 3/7 = `0.429 ou 42,9%`
Frequência relativa acumulada (Fr_i)
Soma das frequências relativas até a categoria/classe n, como na fórmula abaixo. Para todas as classes teríamos a frequência total relativa (Fr), ou melhor, 1 ou 100%.

![image-4.png](attachment:image-4.png)

Exemplo: Seguindo o exemplo anterior:
Para o valor 2, Fr_2 = F_2 / n = 3/7 = 0,429
Para o valor 3, Fr_3 = F_3 / n = (f_2 + f_3) / 7 = 5/7 = 0,714

#### Aplicando os conceito 
Uma pesquisa foi realizada para identificar o meio de transporte favorito de trabalhadores em uma grande cidade. As opções são: "Carro", "Ônibus", "Bicicleta" e "Metrô". Vamos calcular a distribuição de frequência.

In [55]:
import pandas as pd

# Dados das preferências de transporte
transporte = [
    "Carro", "Ônibus", "Bicicleta", "Carro", "Metrô", "Ônibus", 
    "Bicicleta", "Carro", "Metrô", "Bicicleta", "Carro", "Ônibus", 
    "Bicicleta", "Carro", "Metrô", "Carro", "Ônibus", "Bicicleta", 
    "Carro", "Metrô", "Ônibus", "Bicicleta", "Metrô", "Carro",
    "Bicicleta", "Carro", "Metrô", "Ônibus", "Carro", "Bicicleta",
    "Metrô", "Ônibus", "Carro", "Bicicleta", "Ônibus", "Metrô",
    "Carro", "Ônibus", "Metrô", "Bicicleta", "Carro", "Metrô",
    "Bicicleta", "Ônibus", "Carro", "Metrô", "Ônibus", "Bicicleta"
]

Transformando em um DataFrame

In [56]:
dados = pd.DataFrame(transporte, columns=['Meio_Transporte'])
dados.head()

Unnamed: 0,Meio_Transporte
0,Carro
1,Ônibus
2,Bicicleta
3,Carro
4,Metrô


Calculando a distribuição de frequência

In [57]:
# Groupby
tabela_freq_groupBy = dados.groupby('Meio_Transporte').size().reset_index(name='Freq_absoluta')
tabela_freq_groupBy

Unnamed: 0,Meio_Transporte,Freq_absoluta
0,Bicicleta,12
1,Carro,14
2,Metrô,11
3,Ônibus,11


In [58]:
# Value_counts()
tabela_freq_value_counts = dados['Meio_Transporte'].value_counts().reset_index(name='Freq_absoluta')
tabela_freq_value_counts

Unnamed: 0,Meio_Transporte,Freq_absoluta
0,Carro,14
1,Bicicleta,12
2,Ônibus,11
3,Metrô,11


Calculando a frequência relativa

In [59]:
tabela_freq_groupBy['Freq_relativa'] = round(tabela_freq_value_counts['Freq_absoluta'] / tabela_freq_value_counts['Freq_absoluta'].sum()*100, 2)
tabela_freq_groupBy


Unnamed: 0,Meio_Transporte,Freq_absoluta,Freq_relativa
0,Bicicleta,12,29.17
1,Carro,14,25.0
2,Metrô,11,22.92
3,Ônibus,11,22.92


In [60]:
dados['Meio_Transporte'].value_counts(normalize=True)
tabela_freq_value_counts['Freq_relativa'] = dados['Meio_Transporte'].value_counts(normalize=True).mul(100).values.round(2)
tabela_freq_value_counts

Unnamed: 0,Meio_Transporte,Freq_absoluta,Freq_relativa
0,Carro,14,29.17
1,Bicicleta,12,25.0
2,Ônibus,11,22.92
3,Metrô,11,22.92


Calculando a frequência Acumulada

In [61]:
tabela_freq_groupBy['Freq_acumulada'] = tabela_freq_groupBy['Freq_absoluta'].cumsum()
tabela_freq_groupBy

Unnamed: 0,Meio_Transporte,Freq_absoluta,Freq_relativa,Freq_acumulada
0,Bicicleta,12,29.17,12
1,Carro,14,25.0,26
2,Metrô,11,22.92,37
3,Ônibus,11,22.92,48


Calculando a frequência Relativa Acumulada

In [62]:
tabela_freq_groupBy['Freq_relativa_acumulada'] = tabela_freq_groupBy['Freq_relativa'].cumsum()
tabela_freq_groupBy

Unnamed: 0,Meio_Transporte,Freq_absoluta,Freq_relativa,Freq_acumulada,Freq_relativa_acumulada
0,Bicicleta,12,29.17,12,29.17
1,Carro,14,25.0,26,54.17
2,Metrô,11,22.92,37,77.09
3,Ônibus,11,22.92,48,100.01


Ordenando pela frequência Absoluta

In [63]:
tabela_frequencia = tabela_freq_groupBy.sort_values(by='Freq_absoluta', ascending=False)
tabela_frequencia

Unnamed: 0,Meio_Transporte,Freq_absoluta,Freq_relativa,Freq_acumulada,Freq_relativa_acumulada
1,Carro,14,25.0,26,54.17
0,Bicicleta,12,29.17,12,29.17
2,Metrô,11,22.92,37,77.09
3,Ônibus,11,22.92,48,100.01


Utilizando esse caso que calculamos aqui, podemos explorar diversos temas sobre os transportes, agregando em nossas análises, por exemplo:

1. `Planejamento Urbano`: Identificar padrões de transporte pode ajudar no desenvolvimento de políticas públicas.
2. `Pesquisa de Mercado`: Empresas podem usar esse tipo de análise para oferecer produtos ou serviços voltados a grupos específicos, como apps de carona para quem usa "Carro".
3. `Visualização de Dados`: Esses resultados podem ser representados em gráficos de barras ou outras visualizações para apresentações.
4. `Segmentação de Usuários`: Em plataformas de mobilidade urbana, como aplicativos de transporte, para personalizar ofertas ou otimizar rotas.

## Frequências Relativas em uma tabela Cruzada


Uma tabela cruzada, ou tabela de contingência, é uma ferramenta utilizada para analisar a relação entre duas variáveis qualitativas, exibindo as frequências absolutas ou relativas de combinações de categorias, sejam elas dependentes ou independentes.

Ela é amplamente utilizada em análises exploratórias de dados para identificar padrões ou associações dos quais os grupos são mutuamente exclusivos.

As frequências relativas de uma tabela cruzada podem ser calculadas de três formas:

Por coluna: Cada valor na coluna é comparado ao total da respectiva coluna.
Por linha: Cada valor na linha é comparado ao total da respectiva linha.
Por todos os dados: Cada valor é comparado ao total geral.
A seguir, apresentamos um exemplo prático para construir uma tabela cruzada e calcular frequências absolutas e relativas.

Preferências de estilo musical por região
Vamos criar um conjunto de dados fictício que contém as preferências de estilos musicais em diferentes regiões do país. Vamos passar uma semente (seed) para que os valores que definimos aqui apareçam da mesma forma para você.