# Identificando Dados Qualitativos Nominais e Ordinais em Números

Em análise de dados, é comum encontrar variáveis numéricas que, na verdade, representam categorias. Por exemplo, códigos de identificação, classificações ou respostas de pesquisas codificadas numericamente. Essas variáveis são qualitativas e podem ser de dois tipos principais:

- **Nominais:** Categorias sem uma ordem lógica, como gêneros (1 = Masculino, 2 = Feminino) ou departamentos (1 = TI, 2 = RH, 3 = Marketing).
- **Ordinais:** Categorias com uma ordem natural, como níveis de satisfação (1 = Insatisfeito, 2 = Neutro, 3 = Satisfeito).

Tratar adequadamente essas variáveis é essencial para evitar erros, como realizar operações matemáticas em dados que representam categorias. Em Python, podemos usar a biblioteca **pandas** para tratar essas variáveis corretamente, especialmente com o tipo `Categorical` para variáveis ordinais.

## O que é um Categorical?

Em Python, o `Categorical` do pandas é usado para representar variáveis categóricas. Ele permite armazenar as categorias de forma eficiente e, no caso de variáveis ordinais, definir uma ordem específica para elas. Isso facilita a manipulação e análise dos dados.

## Exemplo

Uma empresa realiza uma pesquisa de satisfação com clientes e coleta os seguintes dados:

- `cliente_id`: Número de identificação do cliente (nominal).
- `nivel_satisfacao`: Respostas codificadas como 1 (Insatisfeito), 2 (Neutro), 3 (Satisfeito) (ordinal).

O objetivo é transformar essas variáveis corretamente utilizando `Categorical` e visualizar a alteração. Podemos fazer isso da seguinte forma:

In [2]:
# Importando o pacote
import pandas as pd

In [3]:
# DataFrame de exemplo
dados = pd.DataFrame({
    'cliente_id': [101, 102, 103, 104, 105],
    'nivel_satisfacao': [3, 2, 1, 3, 2]
})

In [None]:
# Convertendo nivel_satisfacao em uma categoria ordinal
dados['nivel_satisfacao'] = pd.Categorical(
    dados['nivel_satisfacao'],
    categories=[1, 2, 3],
    ordered=True
)

avaliacao_labels = {1: 'Insatisfeito', 2: 'Neutro', 3: 'Satisfeito'}
dados['nivel_satisfacao'] = dados['nivel_satisfacao'].map(avaliacao_labels)

In [8]:
# Ordenando os dados pela coluna 'nivel_satisfacao'
dados_sorted = dados.sort_values('nivel_satisfacao', ascending=False)

dados_sorted

Unnamed: 0,cliente_id,nivel_satisfacao
0,101,Satisfeito
3,104,Satisfeito
1,102,Neutro
4,105,Neutro
2,103,Insatisfeito


Note que ordenamos os dados de forma decrescente pelo `nivel_satisfacao`, e o `Categorical` reconheceu a ordem definida nas categorias (de Satisfeito a Insatisfeito) com base no parâmetro `ordered=True`.

## Aplicações do Categorical

O Categorical pode auxiliar em diversas situações na ciência de dados e análise com Python, como:

- **Análise Estatística:** Para definir variáveis categóricas e quais estatísticas descritivas aplicar nesses casos.
- **Visualização de Dados:** Facilita a criação de gráficos categóricos, como gráficos de barras, usando bibliotecas como Matplotlib e Seaborn.
- **Machine Learning:** Prepara variáveis categóricas para algoritmos que não aceitam dados numéricos diretamente.
- **Manipulação de Dados:** Permite ordenações e agrupamentos em tabelas e relatórios.

Logo, transformar variáveis numéricas que expressam variáveis categóricas em `Categorical` garante maior precisão e facilita a interpretação em análises qualitativas.


---

# Distribuição de Frequência

Uma **distribuição de frequência** é uma organização de dados em tabelas, que resume as ocorrências (**frequências**) de cada categoria ou classe de dados em um conjunto. É uma técnica essencial na estatística descritiva, utilizada tanto para dados **qualitativos** quanto **quantitativos**, a fim de visualizar e interpretar padrões nos dados.

Cada entrada na tabela contém a contagem de ocorrências de valores dentro de um grupo ou intervalo específico, resumindo a distribuição destes valores. Por exemplo, classifica a quantidade de pessoas pelo sexo biológico, a quantidade de itens de um produto vendido, a faixa de renda de pessoas, etc.

## Como Construir uma Tabela de Frequência

Para construir uma tabela de frequência, precisamos:

1. Ordenar os valores das variáveis em ordem crescente ou decrescente;
2. Determinar a frequência de cada valor;
3. Agrupar os dados em classes ou intervalos.

## Elementos de uma Tabela de Frequência

Uma tabela de frequência pode possuir os seguintes elementos:

### Frequência Absoluta (f<sub>i</sub>)

Representa o número de vezes que um determinado valor ou classe aparece em um conjunto de dados.

```
f_i = n° de elementos da categoria/classe
```

Onde, i representa a classe analisada.

**Exemplo:** Em um conjunto de dados X = {2, 2, 3, 4, 2, 3, 5}:
- O valor `2` ocorre 3 vezes, logo `f_2 = 3`.
- O valor `3` ocorre 2 vezes, logo `f_3 = 2`.

### Frequência Absoluta Acumulada (F<sub>i</sub>)

Soma das frequências absolutas até a categoria/classe `n`, como na fórmula abaixo. Para todas as classes teríamos a frequência total absoluta (F), ou melhor, o número total de registros.

```
F_i = Σ(i=1 até n) f_i = f_1 + f_2 + ... + f_n
```

Onde, `Fi` é a frequência acumulada até a i-ésima classe.

**Exemplo:** Usando o mesmo conjunto de dados X = {2, 2, 3, 4, 2, 3, 5}:
- `F_2 = f_2 = 3`.
- `F_3 = f_2 + f_3 = 3 + 2 = 5`
- `F_4 = f_2 + f_3 + f_4 = 3 + 2 + 1 = 6`

### Frequência Relativa (fr<sub>i</sub>)

É a proporção ou percentual de ocorrências de cada categoria/classe em relação ao total de dados. É dada pela razão entre a frequência absoluta de cada classe e a frequência total absoluta:

```
fr_i = f_i / F
```

Onde:
- `f_i` = frequência absoluta do valor `i`.
- `F` = frequência absoluta total ou número total de elementos do conjunto de dados.

Para valores percentuais, basta multiplicar cada frequência relativa por 100.

**Exemplo:** Com o conjunto de dados X = {2, 2, 3, 4, 2, 3, 5}, temos `F = 7`:
- Para `f_2 = 3`, a frequência relativa é de `fr_2 = 3/7 = 0.429` ou `42,9%`

### Frequência Relativa Acumulada (Fr<sub>i</sub>)

Soma das frequências relativas até a categoria/classe `n`, como na fórmula abaixo. Para todas as classes teríamos a frequência total relativa (Fr), ou melhor, 1 ou 100%.

```
Fr_i = Σ(i=1 até n) fr_i = fr_1 + fr_2 + ... + fr_n
```

**Exemplo:** Seguindo o exemplo anterior:
- Para o valor `2`, `Fr_2 = F_2 / n = 3/7 = 0,429`
- Para o valor `3`, `Fr_3 = F_3 / n = (f_2 + f_3) / 7 = 5/7 = 0,714`

## Exemplo Prático

Vamos testar esse conhecimento em um exemplo?

Uma pesquisa foi realizada para identificar o meio de transporte favorito de trabalhadores em uma grande cidade. As opções são: "Carro", "Ônibus", "Bicicleta" e "Metrô". Vamos calcular a distribuição de frequência.

In [1]:
import pandas as pd

# Dados das preferências de transporte
transporte = [
    "Carro", "Ônibus", "Bicicleta", "Carro", "Metrô", "Ônibus", 
    "Bicicleta", "Carro", "Metrô", "Bicicleta", "Carro", "Ônibus", 
    "Bicicleta", "Carro", "Metrô", "Carro", "Ônibus", "Bicicleta", 
    "Carro", "Metrô", "Ônibus", "Bicicleta", "Metrô", "Carro",
    "Bicicleta", "Carro", "Metrô", "Ônibus", "Carro", "Bicicleta",
    "Metrô", "Ônibus", "Carro", "Bicicleta", "Ônibus", "Metrô",
    "Carro", "Ônibus", "Metrô", "Bicicleta", "Carro", "Metrô",
    "Bicicleta", "Ônibus", "Carro", "Metrô", "Ônibus", "Bicicleta"
]

In [2]:
# Transformando em um DataFrame
dados = pd.DataFrame(transporte, columns=['Meio_Transporte'])

In [3]:
# Calculando a distribuição de frequência e ordenando por frequência absoluta
tabela_freq = (
    dados.groupby('Meio_Transporte')
    .size()
    .reset_index(name='Fi')  # Frequência absoluta
)

# Calculando a frequência relativa
tabela_freq['Fri'] = round(tabela_freq['Fi'] / tabela_freq['Fi'].sum(),2)

# Calculando a frequência acumulada
tabela_freq['F'] = tabela_freq['Fi'].cumsum()

# Calculando a frequência relativa acumulada
tabela_freq['Fri_acum'] = tabela_freq['Fri'].cumsum()

# Ordenando pela frequência absoluta
tabela_freq = tabela_freq.sort_values(by='Fi', ascending=False)

tabela_freq

Unnamed: 0,Meio_Transporte,Fi,Fri,F,Fri_acum
1,Carro,14,0.29,26,0.54
0,Bicicleta,12,0.25,12,0.25
2,Metrô,11,0.23,37,0.77
3,Ônibus,11,0.23,48,1.0


## Aplicações Práticas

Utilizando esse caso que calculamos aqui, podemos explorar diversos temas sobre os transportes, agregando em nossas análises, por exemplo:

1. **Planejamento Urbano:** Identificar padrões de transporte pode ajudar no desenvolvimento de políticas públicas.
2. **Pesquisa de Mercado:** Empresas podem usar esse tipo de análise para oferecer produtos ou serviços voltados a grupos específicos, como apps de carona para quem usa "Carro".
3. **Visualização de Dados:** Esses resultados podem ser representados em gráficos de barras ou outras visualizações para apresentações.
4. **Segmentação de Usuários:** Em plataformas de mobilidade urbana, como aplicativos de transporte, para personalizar ofertas ou otimizar rotas.

## Conclusão

Essas são apenas algumas das possibilidades em que a estatística age como uma ferramenta para extrair insights e elaborar hipóteses com os dados que temos disponíveis - e a distribuição de frequência é uma dessas ferramentas fundamentais para organizar, interpretar e comunicar dados em diversos contextos, desde pesquisas acadêmicas até análises de negócios e operações industriais.


---

# Frequências Relativas em uma Tabela Cruzada

Uma **tabela cruzada**, ou tabela de contingência, é uma ferramenta utilizada para analisar a relação entre duas variáveis qualitativas, exibindo as frequências absolutas ou relativas de combinações de categorias, sejam elas dependentes ou independentes.

Ela é amplamente utilizada em análises exploratórias de dados para identificar padrões ou associações dos quais os grupos são mutuamente exclusivos.

## Tipos de Frequências Relativas

As frequências relativas de uma tabela cruzada podem ser calculadas de três formas:

- **Por coluna:** Cada valor na coluna é comparado ao total da respectiva coluna.
- **Por linha:** Cada valor na linha é comparado ao total da respectiva linha.
- **Por todos os dados:** Cada valor é comparado ao total geral.

A seguir, apresentamos um exemplo prático para construir uma tabela cruzada e calcular frequências absolutas e relativas.

## Exemplo Prático: Preferências de Estilo Musical por Região

Vamos criar um conjunto de dados fictício que contém as preferências de estilos musicais em diferentes regiões do país. Vamos passar uma semente (`seed`) para que os valores que definimos aqui apareçam da mesma forma para você.

In [4]:
import pandas as pd
import numpy as np

In [5]:
# Definindo a semente para garantir resultados reproduzíveis
np.random.seed(123)

In [6]:
# Criando o conjunto de dados fictício
estilos_musicais = ["Rock", "Pop", "Eletrônica", "Funk", "Sertanejo"]
regioes = ["Centro-Oeste", "Nordeste", "Norte", "Sudeste", "Sul"]

In [7]:
# Gerando 500 amostras para cada variável
dados = pd.DataFrame({
    'Estilo_Musical': np.random.choice(estilos_musicais, 500, replace=True),
    'Regiao': np.random.choice(regioes, 500, replace=True)
})

dados.head()

Unnamed: 0,Estilo_Musical,Regiao
0,Eletrônica,Sul
1,Sertanejo,Norte
2,Eletrônica,Nordeste
3,Pop,Sudeste
4,Funk,Nordeste


**Passo 1: Gerando a tabela cruzada com as frequências absolutas**

In [8]:
tab_musical_regiao = pd.crosstab(dados['Estilo_Musical'], dados['Regiao'])

tab_musical_regiao 

Regiao,Centro-Oeste,Nordeste,Norte,Sudeste,Sul
Estilo_Musical,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Eletrônica,22,14,15,21,21
Funk,27,24,12,26,15
Pop,19,25,20,26,18
Rock,22,23,17,22,15
Sertanejo,14,12,22,25,23


Com isso, temos a tabela com os 500 registros divididos pelo número de ocorrência entre estilos musicais e a região onde a pessoa entrevistada mora. Vamos agora criar as diferentes tabelas cruzadas para comparar resultados entre regiões, entre estilos musicais e levando os dois casos em conta.

**Passo 2: Gerando a tabela de frequências relativas por coluna**

Neste primeiro caso, vamos fazer algo similar ao produzido na aula. Queremos inicialmente comparar como cada região se divide em relação ao estilo musical. Para isso, faremos o cálculo das frequências relativas por coluna, onde a soma de todos os gêneros por região será responsável por 100%. Neste caso, por exemplo, podemos comparar qual seria o estilo musical mais ouvido no Norte.

In [9]:
tab_musical_regiao = round(pd.crosstab(dados['Estilo_Musical'], dados['Regiao'], normalize = 'columns') * 100,1)
tab_musical_regiao

Regiao,Centro-Oeste,Nordeste,Norte,Sudeste,Sul
Estilo_Musical,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Eletrônica,21.2,14.3,17.4,17.5,22.8
Funk,26.0,24.5,14.0,21.7,16.3
Pop,18.3,25.5,23.3,21.7,19.6
Rock,21.2,23.5,19.8,18.3,16.3
Sertanejo,13.5,12.2,25.6,20.8,25.0


**Passo 3: Gerando a tabela de frequências relativas por linha**

Agora, vamos focar na comparação de como cada estilo musical se divide em relação à região. Para isso, faremos o cálculo das frequências relativas por linha, onde a soma de todas as regiões por estilo musical será responsável por 100%. Neste caso, por exemplo, podemos comparar onde o estilo Pop é mais ouvido.

In [10]:
tab_musical_regiao = round(pd.crosstab(dados['Estilo_Musical'], dados['Regiao'], normalize = 'index') * 100,1)
tab_musical_regiao

Regiao,Centro-Oeste,Nordeste,Norte,Sudeste,Sul
Estilo_Musical,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Eletrônica,23.7,15.1,16.1,22.6,22.6
Funk,26.0,23.1,11.5,25.0,14.4
Pop,17.6,23.1,18.5,24.1,16.7
Rock,22.2,23.2,17.2,22.2,15.2
Sertanejo,14.6,12.5,22.9,26.0,24.0


**Passo 4: Gerando a tabela de frequências relativas por total geral**

Por fim, vamos comparar todos os estilos musicais em relação às regiões. Para isso, faremos o cálculo das frequências relativas por todos os registros, onde a soma de todas as comparações será responsável por 100%. Neste caso, por exemplo, podemos entender o peso da música Pop na Região Nordeste frente a todas as outras em todas as regiões.

In [11]:
tab_musical_regiao = round(pd.crosstab(dados['Estilo_Musical'], dados['Regiao'], normalize = 'all') * 100,1)
tab_musical_regiao

Regiao,Centro-Oeste,Nordeste,Norte,Sudeste,Sul
Estilo_Musical,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Eletrônica,4.4,2.8,3.0,4.2,4.2
Funk,5.4,4.8,2.4,5.2,3.0
Pop,3.8,5.0,4.0,5.2,3.6
Rock,4.4,4.6,3.4,4.4,3.0
Sertanejo,2.8,2.4,4.4,5.0,4.6


**Muito interessante esse caso, não é mesmo?**

Resumindo, as tabelas cruzadas são fundamentais para identificar padrões e associações em, por exemplo:

 - Estudos de mercado: Preferências de produtos ou serviços por região.
 - Ciências sociais: Análise de categorias como gênero, escolaridade, ou ocupação.
 - Saúde: Relação entre condições médicas e fatores demográficos.
 
Agora que aprendemos sobre as tabelas de frequência, que tal partimos para analisar os dados qualitativos de acordo com uma variável quantitativa? Vamos lá!