### Módulo 2 - Aula 6 - Para saber mais: frequências relativas em uma tabela cruzada

Preferências de estilo musical por região
Vamos criar um conjunto de dados fictício que contém as preferências de estilos musicais em diferentes regiões do país. Vamos passar uma semente (seed) para que os valores que definimos aqui apareçam da mesma forma para você.

In [1]:
import pandas as pd
import numpy as np

# Definindo a semente para garantir resultados reproduzíveis
np.random.seed(123)

# Criando o conjunto de dados fictício
estilos_musicais = ["Rock", "Pop", "Eletrônica", "Funk", "Sertanejo"]
regioes = ["Centro-Oeste", "Nordeste", "Norte", "Sudeste", "Sul"]

# Gerando 500 amostras para cada variável
dados = pd.DataFrame({
    'Estilo_Musical': np.random.choice(estilos_musicais, 500, replace=True),
    'Regiao': np.random.choice(regioes, 500, replace=True)
})

dados.head()

Unnamed: 0,Estilo_Musical,Regiao
0,Eletrônica,Sul
1,Sertanejo,Norte
2,Eletrônica,Nordeste
3,Pop,Sudeste
4,Funk,Nordeste


Passo 1: Gerando a tabela cruzada com as frequências absolutas

In [2]:
tab_musical_regiao = pd.crosstab(dados['Estilo_Musical'], dados['Regiao'])

tab_musical_regiao 

Regiao,Centro-Oeste,Nordeste,Norte,Sudeste,Sul
Estilo_Musical,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Eletrônica,22,14,15,21,21
Funk,27,24,12,26,15
Pop,19,25,20,26,18
Rock,22,23,17,22,15
Sertanejo,14,12,22,25,23


Passo 2: Gerando a tabela de frequências relativas por coluna

Neste primeiro caso, vamos fazer algo similar ao produzido na aula. Queremos inicialmente comparar como cada região se divide em relação ao estilo musical. Para isso, faremos o cálculo das frequências relativas por coluna, onde a soma de todos os gêneros por região será responsável por 100%. Neste caso, por exemplo, podemos comparar qual seria o estilo musical mais ouvido no Norte.

In [3]:
tab_musical_regiao = round(pd.crosstab(dados['Estilo_Musical'], dados['Regiao'], normalize = 'columns') * 100,1)
tab_musical_regiao

Regiao,Centro-Oeste,Nordeste,Norte,Sudeste,Sul
Estilo_Musical,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Eletrônica,21.2,14.3,17.4,17.5,22.8
Funk,26.0,24.5,14.0,21.7,16.3
Pop,18.3,25.5,23.3,21.7,19.6
Rock,21.2,23.5,19.8,18.3,16.3
Sertanejo,13.5,12.2,25.6,20.8,25.0


Passo 3: Gerando a tabela de frequências relativas por linha

Agora, vamos focar na comparação de como cada estilo musical se divide em relação à região. Para isso, faremos o cálculo das frequências relativas por linha, onde a soma de todas as regiões por estilo musical será responsável por 100%. Neste caso, por exemplo, podemos comparar onde o estilo Pop é mais ouvido.

In [4]:
tab_musical_regiao = round(pd.crosstab(dados['Estilo_Musical'], dados['Regiao'], normalize = 'index') * 100,1)
tab_musical_regiao

Regiao,Centro-Oeste,Nordeste,Norte,Sudeste,Sul
Estilo_Musical,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Eletrônica,23.7,15.1,16.1,22.6,22.6
Funk,26.0,23.1,11.5,25.0,14.4
Pop,17.6,23.1,18.5,24.1,16.7
Rock,22.2,23.2,17.2,22.2,15.2
Sertanejo,14.6,12.5,22.9,26.0,24.0


Passo 4: Gerando a tabela de frequências relativas por total geral

Por fim, vamos comparar todos os estilos musicais em relação às regiões. Para isso, faremos o cálculo das frequências relativas por todos os registros, onde a soma de todas as comparações será responsável por 100%. Neste caso, por exemplo, podemos entender o peso da música Pop na Região Nordeste frente a todas as outras em todas as regiões.

In [5]:
tab_musical_regiao = round(pd.crosstab(dados['Estilo_Musical'], dados['Regiao'], normalize = 'all') * 100,1)
tab_musical_regiao

Regiao,Centro-Oeste,Nordeste,Norte,Sudeste,Sul
Estilo_Musical,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Eletrônica,4.4,2.8,3.0,4.2,4.2
Funk,5.4,4.8,2.4,5.2,3.0
Pop,3.8,5.0,4.0,5.2,3.6
Rock,4.4,4.6,3.4,4.4,3.0
Sertanejo,2.8,2.4,4.4,5.0,4.6
