# Categorizando variaveis quantitativas e fazendo distribuição

In [37]:
import pandas as pd
import numpy as np

In [4]:
dados = pd.read_excel("dados.xlsx")
dados.head(3)

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1603807616
1,11,1,23,2,12,1150,1739789827
2,11,1,35,8,15,880,1760443822


# Metodo 1

### Passo 1 - Especificar os limites de cada classe

Utilizar a seguinte classificação:

<b>A</b> ► Acima de 20 SM

<b>B</b> ► De 10 a 20 SM

<b>C</b> ► De 4 a 10 SM

<b>D</b> ► De 2 a 4 SM

<b>E</b> ► Até 2 SM

onde <b>SM</b> é o valor do salário mínimo na época. Em nosso caso <b>R$ 788,00</b> (2015):

<b>A</b> ► Acima de 15.760

<b>B</b> ► De 7.880 a 15.760

<b>C</b> ► De 3.152 a 7.880

<b>D</b> ► De 1.576 a 3.152

<b>E</b> ► Até 1.576


In [8]:
dados['Renda'].min()

0

In [7]:
dados.Renda.max()

200000

#### Criar as classes com os limites de renda e depois os labels correspondentes

In [10]:
classes = [0, 1576, 3152, 7880, 15760, 200000]
labels = ['E', 'D', 'C', 'B', 'A']

### Criando a tabela de frequencia|
### Cut = Ele vai pegar cada item do dataset e vai classificar de acordo com as classes que criamos

In [19]:
# include_lowest = inclua o menor valor, nesse caso o zero

pd.cut(x = dados['Renda'],
         bins = classes,
         labels = labels,
         include_lowest = True)

0        E
1        E
2        E
3        C
4        E
        ..
76835    E
76836    E
76837    E
76838    E
76839    E
Name: Renda, Length: 76840, dtype: category
Categories (5, object): ['E' < 'D' < 'C' < 'B' < 'A']

#### Fazendo a contagem de quantos itens tem cada classe

In [21]:
frequencia = pd.value_counts(
    pd.cut(x = dados['Renda'],
             bins = classes,
             labels = labels,
             include_lowest = True))
frequencia

Renda
E    49755
D    16700
C     7599
B     2178
A      608
Name: count, dtype: int64

#### Fazendo a porcentagem

In [23]:
porcentagem = pd.value_counts(
    pd.cut(x = dados['Renda'],
             bins = classes,
             labels = labels,
             include_lowest = True), normalize = True) * 100
porcentagem

Renda
E    64.751432
D    21.733472
C     9.889381
B     2.834461
A     0.791255
Name: proportion, dtype: float64

### Criando um dataframe com todas essas informações

In [34]:
dist_freq_quantitativas = pd.DataFrame(
    {'Frequência': frequencia, 'Porcentagem (%)': porcentagem}
)
dist_freq_quantitativas

Unnamed: 0_level_0,Frequência,Porcentagem (%)
Renda,Unnamed: 1_level_1,Unnamed: 2_level_1
E,49755,64.751432
D,16700,21.733472
C,7599,9.889381
B,2178,2.834461
A,608,0.791255


# Metodo 2 
### Quando não ha classes pre-definidas como no caso anterior

#### Regra de Sturges = Definir numero de classes

# $$k = 1 + \frac {10}{3}\log_{10}n$$

In [35]:
n = dados.shape[0]
n

76840

In [39]:
k = 1 + (10 /3) * np.log10(n)
k

17.285291187298853

### Criando a tabela de frequencias

In [56]:
frequencia = pd.value_counts(
  pd.cut(
    x = dados['Renda'],
    bins = 17,
    include_lowest = True
  ))

frequencia

Renda
(-200.001, 11764.706]       75594
(11764.706, 23529.412]       1022
(23529.412, 35294.118]        169
(35294.118, 47058.824]         19
(47058.824, 58823.529]         16
(94117.647, 105882.353]         6
(58823.529, 70588.235]          5
(70588.235, 82352.941]          4
(188235.294, 200000.0]          3
(82352.941, 94117.647]          1
(117647.059, 129411.765]        1
(105882.353, 117647.059]        0
(129411.765, 141176.471]        0
(141176.471, 152941.176]        0
(152941.176, 164705.882]        0
(164705.882, 176470.588]        0
(176470.588, 188235.294]        0
Name: count, dtype: int64

### Fazendo percentual

In [64]:
# Sort=false é para ordenar de acordo com a renda

percentual = pd.value_counts(
  pd.cut(
    x = dados.Renda,
    bins = 17,
    include_lowest = True
  ),
    sort = False,
  normalize = True
) * 100
percentual

Renda
(-200.001, 11764.706]       98.378449
(11764.706, 23529.412]       1.330036
(23529.412, 35294.118]       0.219938
(35294.118, 47058.824]       0.024727
(47058.824, 58823.529]       0.020822
(58823.529, 70588.235]       0.006507
(70588.235, 82352.941]       0.005206
(82352.941, 94117.647]       0.001301
(94117.647, 105882.353]      0.007808
(105882.353, 117647.059]     0.000000
(117647.059, 129411.765]     0.001301
(129411.765, 141176.471]     0.000000
(141176.471, 152941.176]     0.000000
(152941.176, 164705.882]     0.000000
(164705.882, 176470.588]     0.000000
(176470.588, 188235.294]     0.000000
(188235.294, 200000.0]       0.003904
Name: proportion, dtype: float64