# Criando Faixas de Valor

In [24]:
import pandas as pd

In [25]:
dados = pd.read_csv('dados/aluguel.csv', sep = ';')
dados.head(10)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU,Valor m2,Tipo Agregado
0,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0,53.33,Apartamento
1,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,0.0,16.67,Apartamento
2,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0,26.0,Apartamento
3,Apartamento,Grajaú,2,1,0,70,1500.0,642.0,74.0,21.43,Apartamento
4,Apartamento,Lins de Vasconcelos,3,1,1,90,1500.0,455.0,14.0,16.67,Apartamento
5,Apartamento,Copacabana,1,0,1,40,2000.0,561.0,50.0,50.0,Apartamento
6,Apartamento,Freguesia (Jacarepaguá),3,0,0,54,950.0,300.0,28.0,17.59,Apartamento
7,Apartamento,Barra da Tijuca,2,1,1,67,1700.0,589.0,147.0,25.37,Apartamento
8,Apartamento,Tijuca,2,1,0,110,1900.0,700.0,138.0,17.27,Apartamento
9,Apartamento,Olaria,3,1,0,68,1000.0,670.0,0.0,14.71,Apartamento


O que queremos é gerar uma distribuição de frequência, tal qual aprendemos na aula anterior (usando value_counts()).    
Queremos contar a quantidade de imóveis que possuem de 1 a 2 quartos; depois 3 e 4 quartos; 5 e 6 e a faixa final de 7 ou mais quartos.

In [26]:
# Vamos criar classes e devemos passar os valores mínimo, máximo e os limites das classes

# 1 e 2
# 3 e 4
# 5 e 6
# 7 ou mais
classes = [0, 2, 4, 6, 100]

In [27]:
# Vamos criar um DataFrame categorizado. O cut() vai ajudar nisso
quartos = pd.cut(dados.Quartos, classes)

In [28]:
quartos

0        (0.0, 2.0]
1        (0.0, 2.0]
2        (0.0, 2.0]
3        (0.0, 2.0]
4        (2.0, 4.0]
            ...    
19826    (0.0, 2.0]
19827    (0.0, 2.0]
19828    (0.0, 2.0]
19829    (0.0, 2.0]
19830           NaN
Name: Quartos, Length: 19831, dtype: category
Categories (4, interval[int64, right]): [(0, 2] < (2, 4] < (4, 6] < (6, 100]]

In [29]:
# Gerando nossa primeira visualização da tabela de frequência
pd.value_counts(quartos)

# Obs: o parêntese é aberto, ou seja, o primeiro valor não entra na conta.
# E o colchete indica que o intervalo é fechado, ou seja, entra na conta

(0, 2]      11074
(2, 4]       8094
(4, 6]        470
(6, 100]       36
Name: Quartos, dtype: int64

In [30]:
# Melhorando a formatação
labels = ['1 e 2 quartos', '3 e 4 quartos', '5 e 6 quartos', '7 quartos ou mais']

In [31]:
quartos = pd.cut(dados.Quartos, classes, labels = labels)

In [32]:
pd.value_counts(quartos)

1 e 2 quartos        11074
3 e 4 quartos         8094
5 e 6 quartos          470
7 quartos ou mais       36
Name: Quartos, dtype: int64

In [33]:
# Método para incluir o valor mais baixo, no caso, o zero
quartos = pd.cut(dados.Quartos, classes, labels = labels, include_lowest = True)

In [34]:
pd.value_counts(quartos)

1 e 2 quartos        11231
3 e 4 quartos         8094
5 e 6 quartos          470
7 quartos ou mais       36
Name: Quartos, dtype: int64

#### Podemos ver que a quantidade de imóveis com 1 e 2 quartos aumentou, porque tem pessoas declarando que o imóvel tem 0 quartos.

<font color='red'>__>>> Precisamos corrigir isto!__</font>

<font color='green'>__>>> Corrigindo!__</font>

In [0]:
# Melhorando a formatação
labels = ['0 a 2 quartos', '3 e 4 quartos', '5 e 6 quartos', '7 quartos ou mais']

In [0]:
# Método para incluir o valor mais baixo, no caso, o zero
quartos = pd.cut(dados.Quartos, classes, labels = labels, include_lowest = True)

In [0]:
pd.value_counts(quartos)

## Fim