In [25]:
import pandas as pd

# Criando faixas de valor

In [26]:
dados = pd.read_csv('dados/aluguel.csv', sep = ';')
dados

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU,Valor m2,Tipo Agregado
0,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0,53.33,Apartamento
1,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,0.0,16.67,Apartamento
2,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0,26.00,Apartamento
3,Apartamento,Grajaú,2,1,0,70,1500.0,642.0,74.0,21.43,Apartamento
4,Apartamento,Lins de Vasconcelos,3,1,1,90,1500.0,455.0,14.0,16.67,Apartamento
...,...,...,...,...,...,...,...,...,...,...,...
19826,Quitinete,Glória,1,0,0,10,400.0,107.0,10.0,40.00,Apartamento
19827,Quitinete,Flamengo,1,0,0,23,900.0,605.0,0.0,39.13,Apartamento
19828,Quitinete,Centro,1,0,0,24,1100.0,323.0,0.0,45.83,Apartamento
19829,Quitinete,Copacabana,1,0,0,22,1500.0,286.0,200.0,68.18,Apartamento


In [27]:
# distribuição de frequência

In [28]:
# faixas de valor entre: 
# 0 e 1
# 2 e 3
# 4 e 5
# 6 e +
# temos que passar numa lista o "valor mínimo", os "limites das classes" e o "valor máximo"
classes = [0, 1, 3, 5, 100]

**Cut**: semelhante ao groupby, serve para classificar as linhas (registros) de acordo com o parâmetro escolhido. A diferença é que com cut é possível informar uma faixa de valor (um intervalo) para agrupar os registros. Após utilizarmos o método cut, teremos uma series parametrizada (cada linha informando a respectiva faixa de valor). Depois, é só rodar um contador e ele fará os agrupamentos.

Neste exemplo, iremos agrupar os registros conforme a quantidade de quartos, agrupando em função de um intervalo (ex.: quantos imóveis com 1 ou 2 quartos, com 3 ou 4, e etc). Se fosse com groupby, só poderíamos agrupar em função de um parâmetro individual (ex.: quantos imóveis com 1 quarto, com 2 quartos, e etc). 

In [29]:
# pd.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise', ordered=True)

In [30]:
quartos = pd.cut(dados.Quartos, classes, include_lowest=True)

In [31]:
# vejamos a nossa series parametrizada:
quartos

0        (-0.001, 1.0]
1        (-0.001, 1.0]
2           (1.0, 3.0]
3           (1.0, 3.0]
4           (1.0, 3.0]
             ...      
19826    (-0.001, 1.0]
19827    (-0.001, 1.0]
19828    (-0.001, 1.0]
19829    (-0.001, 1.0]
19830    (-0.001, 1.0]
Name: Quartos, Length: 19831, dtype: category
Categories (4, interval[float64, right]): [(-0.001, 1.0] < (1.0, 3.0] < (3.0, 5.0] < (5.0, 100.0]]

In [32]:
# agora com o contador, teremos os nossos agrupamentos:
# obs: não inclui o primeiro (ao lado de colchete "(") e inclui o segundo (ao lado de chave "]")
pd.value_counts(quartos)

(1.0, 3.0]       13864
(-0.001, 1.0]     3506
(3.0, 5.0]        2322
(5.0, 100.0]       139
Name: Quartos, dtype: int64

In [33]:
# deixando bonitinho com o labels
labels = ['0 e 1 quartos', '2 e 3 quartos', '4 e 5 quartos', '6 quartos ou mais' ]
quartos = pd.cut(dados.Quartos, classes, include_lowest=True, labels = labels)
pd.value_counts(quartos)

2 e 3 quartos        13864
0 e 1 quartos         3506
4 e 5 quartos         2322
6 quartos ou mais      139
Name: Quartos, dtype: int64