# Distribuição de frequencia - Variaveis Qualitativas
### Com variaveis categorizadas

In [46]:
import pandas as pd
import numpy as np

In [17]:
dados = pd.read_excel("../Arquivos/dados.xlsx")
dados.head(3)

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1603807616
1,11,1,23,2,12,1150,1739789827
2,11,1,35,8,15,880,1760443822


## Distribuição

#### Contando os valores a partir do Sexo

In [26]:
frequencia = dados["Sexo"].value_counts()
frequencia

0    53250
1    23590
Name: Sexo, dtype: int64

#### Exibindo em porcentagem

In [27]:
frequencia_percentual = dados["Sexo"].value_counts(normalize = True) * 100
frequencia_percentual

0    69.299844
1    30.700156
Name: Sexo, dtype: float64

### Criando um dataFrame pra representar essa distribuição

In [28]:
dis_freq_porcentagem = pd.DataFrame({'Frequencia:' : frequencia, 'Porcentagem (%)' : frequencia_percentual })
dis_freq_porcentagem

Unnamed: 0,Frequencia:,Porcentagem (%)
0,53250,69.299844
1,23590,30.700156


#### Organizando e renomeando

In [21]:
dis_freq_porcentagem.rename(index = {0: 'Masculino', 1: 'Feminino'}, inplace = True)
dis_freq_porcentagem.rename_axis('Sexo', axis = 'columns',inplace = True)
dis_freq_porcentagem

Sexo,Frequencia:,Porcentagem (%)
Masculino,53250,69.299844
Feminino,23590,30.700156


## Metodo 2 = Crosstab

#### O metodo Crosstab faz um cruzamento entre as informações. Neste caso, mostra as pessoas do sexo 0 de cor 0, e depois do sexo 1 e de cor 3, assim sucessivamente.

### Renomeando

In [30]:
sexo = {0: 'Masculino', 
        1: 'Feminino'}

cor = {0: 'Indígena', 
       2: 'Branca', 
       4: 'Preta', 
       6: 'Amarela', 
       8: 'Parda', 
       9: 'Sem declaração'}

In [32]:
frequencia = pd.crosstab(dados.Sexo,
                         dados.Cor)
frequencia.rename(index = sexo, inplace = True)
frequencia.rename(columns = cor, inplace = True)
frequencia

Cor,Indígena,Branca,Preta,Amarela,Parda
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,256,22194,5502,235,25063
Feminino,101,9621,2889,117,10862


### Percentual

In [33]:
percentual = pd.crosstab(dados.Sexo,
                         dados.Cor,
                         normalize = True) * 100
percentual.rename(index = sexo, inplace = True)
percentual.rename(columns = cor, inplace = True)
percentual

Cor,Indígena,Branca,Preta,Amarela,Parda
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,0.33316,28.883394,7.160333,0.30583,32.617126
Feminino,0.131442,12.520822,3.759761,0.152264,14.135867


### Ao inves da quantidade de pessoas, informar a media salarial com esse cruzamento

In [25]:
frequencia2 = pd.crosstab(dados.Sexo,
                         dados.Cor,
                         aggfunc = 'mean',
                         values = dados.Renda)

frequencia2

Cor,0,2,4,6,8
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,1081.710938,2925.744435,1603.861687,4758.251064,1659.577425
1,2464.386139,2109.86675,1134.5964,3027.34188,1176.758516


# Distribuição para Variaveis Quantitativas

### Limites de cada classe

### Passo 1 - Especificar os limites de cada classe

Utilizar a seguinte classificação, onde o valor do salário mínimo na época era de <b>R$ 788,00</b> (2015):

<b>A</b> ► Acima de 15.760

<b>B</b> ► De 7.880 a 15.760

<b>C</b> ► De 3.152 a 7.880

<b>D</b> ► De 1.576 a 3.152

<b>E</b> ► Até 1.576


### Exibindo a renda minima e a renda maxima do dataSet

In [34]:
dados.Renda.min()

0

In [36]:
dados.Renda.max()

200000

#### Criar as classes com os limites de renda e depois os labels correspondentes

In [37]:
classes = [0, 1576, 3152, 7880, 15760, 200000]

In [38]:
classes = [0, 1576, 3152, 7880, 15760, 200000]
labels = ['E', 'D', 'C', 'B', 'A']

### Criando a tabela de frequencia
#### Cut = Ele vai pegar cada item do dataset e vai classificar de acordo com as classes que criamos

In [39]:
# include_lowest = inclua o menor valor, nesse caso o zero

pd.cut(x = dados['Renda'],
         bins = classes,
         labels = labels,
         include_lowest = True)

0        E
1        E
2        E
3        C
4        E
        ..
76835    E
76836    E
76837    E
76838    E
76839    E
Name: Renda, Length: 76840, dtype: category
Categories (5, object): ['E' < 'D' < 'C' < 'B' < 'A']

#### Fazendo a contagem de quantos itens tem cada classe

In [40]:
frequencia = pd.value_counts(
    pd.cut(x = dados['Renda'],
             bins = classes,
             labels = labels,
             include_lowest = True))
frequencia

E    49755
D    16700
C     7599
B     2178
A      608
Name: Renda, dtype: int64

#### Fazendo a porcentagem

In [41]:
porcentagem = pd.value_counts(
    pd.cut(x = dados['Renda'],
             bins = classes,
             labels = labels,
             include_lowest = True), normalize = True) * 100
porcentagem

E    64.751432
D    21.733472
C     9.889381
B     2.834461
A     0.791255
Name: Renda, dtype: float64

### Criando um dataframe com todas essas informações

In [42]:
dist_freq_quantitativas = pd.DataFrame(
    {'Frequência': frequencia, 'Porcentagem (%)': porcentagem}
)
dist_freq_quantitativas

Unnamed: 0,Frequência,Porcentagem (%)
E,49755,64.751432
D,16700,21.733472
C,7599,9.889381
B,2178,2.834461
A,608,0.791255


# Metodo 2 
### Quando não ha classes pre-definidas como no caso anterior

#### Regra de Sturges = Definir numero de classes

## $$k = 1 + \frac {10}{3}\log_{10}n$$

In [44]:
n = dados.shape[0]
n

76840

In [47]:
k = 1 + (10 /3) * np.log10(n)
k

17.285291187298853

### Criando a tabela de frequencias

In [48]:
frequencia = pd.value_counts(
  pd.cut(
    x = dados['Renda'],
    bins = 17,
    include_lowest = True
  ))

frequencia

(-200.001, 11764.706]       75594
(11764.706, 23529.412]       1022
(23529.412, 35294.118]        169
(35294.118, 47058.824]         19
(47058.824, 58823.529]         16
(94117.647, 105882.353]         6
(58823.529, 70588.235]          5
(70588.235, 82352.941]          4
(188235.294, 200000.0]          3
(82352.941, 94117.647]          1
(117647.059, 129411.765]        1
(105882.353, 117647.059]        0
(129411.765, 141176.471]        0
(141176.471, 152941.176]        0
(152941.176, 164705.882]        0
(164705.882, 176470.588]        0
(176470.588, 188235.294]        0
Name: Renda, dtype: int64

### Fazendo percentual

In [49]:
# Sort=false é para ordenar de acordo com a renda

percentual = pd.value_counts(
  pd.cut(
    x = dados.Renda,
    bins = 17,
    include_lowest = True
  ),
    sort = False,
  normalize = True
) * 100
percentual

(-200.001, 11764.706]       98.378449
(11764.706, 23529.412]       1.330036
(23529.412, 35294.118]       0.219938
(35294.118, 47058.824]       0.024727
(47058.824, 58823.529]       0.020822
(58823.529, 70588.235]       0.006507
(70588.235, 82352.941]       0.005206
(82352.941, 94117.647]       0.001301
(94117.647, 105882.353]      0.007808
(105882.353, 117647.059]     0.000000
(117647.059, 129411.765]     0.001301
(129411.765, 141176.471]     0.000000
(141176.471, 152941.176]     0.000000
(152941.176, 164705.882]     0.000000
(164705.882, 176470.588]     0.000000
(176470.588, 188235.294]     0.000000
(188235.294, 200000.0]       0.003904
Name: Renda, dtype: float64