Atividade introdutória de manipulação de dados no setor imobiliário

In [1]:
# importando as bibliotecas
# pandas - biblioteca responsável por manipular os dados
import numpy as np
import pandas as pd

In [2]:
# comando do google colab para integração com o google drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
# carregando as informações do arquivo csv
data = pd.read_csv('/content/drive/MyDrive/AULAS/dados/aluguel.csv',
                       sep=';', encoding='utf-8')
# encoding: codificação de caracteres, normalmente utiliza-se
#o iso-8859-1, utf-8, latin-1)

Temos uma nova tarefa solicitada por uma seguradora que contratou nossos serviços a ser realizada: com base nos dados disponibilizados acima, a empresa decidiu criar produtos **apenas** para imóveis residenciais. Dessa forma, precisamos criar uma nova base de dados que contenha somente imóveis dessa categoria.

In [15]:
data

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
...,...,...,...,...,...,...,...,...,...
32955,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
32956,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
32957,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0
32958,Apartamento,Leblon,2,0,0,70,3000.0,760.0,


In [None]:
list(data['Tipo'])

Iremos trabalhar na variável Tipo, retirando todos os imóveis que não forem residenciais.

Iremos utilizar o método drop_duplicates(). Usaremos este mesmo recursos para nos ajudar na seleção dos imóveis. Primeiramente, criaremos uma lista, agregaremos nossos dados e então utilizaremos o método:

In [6]:
list(data['Tipo'].drop_duplicates())

['Quitinete',
 'Casa',
 'Conjunto Comercial/Sala',
 'Apartamento',
 'Casa de Condomínio',
 'Prédio Inteiro',
 'Flat',
 'Loja/Salão',
 'Galpão/Depósito/Armazém',
 'Casa Comercial',
 'Casa de Vila',
 'Terreno Padrão',
 'Box/Garagem',
 'Loft',
 'Loja Shopping/ Ct Comercial',
 'Chácara',
 'Loteamento/Condomínio',
 'Sítio',
 'Pousada/Chalé',
 'Studio',
 'Hotel',
 'Indústria']

Iremos selecionar apenas os imóveis que classificamos como residenciais. Serão eles:

residencial = ['Quitinete',
'Casa',
'Apartamento',
'Casa de Condomínio',
'Casa de Vila']

In [11]:
residencial = ['Quitinete', 'Casa', 'Apartamento', 'Casa de Condomínio', 'Casa de Vila']

Agora que temos uma lista de imóveis residenciais, conheceremos um novo método que nos ajudará a prosseguir com o projeto: isin() . Ao passarmos a listagem residecial que desejamos, será verificado dentro do DataFrame se os elementos da nossa lista existem de fato, assinalando True ou False. Escreveremos:

In [12]:
data['Tipo'].isin(residencial).head(10)

0     True
1     True
2    False
3     True
4     True
5     True
6     True
7     True
8     True
9    False
Name: Tipo, dtype: bool

Será criada uma nova variável chamada seleção



In [13]:
selecao = data['Tipo'].isin(residencial)
selecao

0         True
1         True
2        False
3         True
4         True
         ...  
32955     True
32956     True
32957     True
32958     True
32959    False
Name: Tipo, Length: 32960, dtype: bool

Usaremos um método de seleção no DataFrame, de maneira que só tenhamos os registros que possuem a marcação True. Criaremos um novo DataFrame, dados_residencial. Em seguida, acionaremos nossa base de dados selecionada.

In [14]:
dados_residencial = data[selecao]
dados_residencial

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
5,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
...,...,...,...,...,...,...,...,...,...
32953,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
32955,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
32956,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
32957,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


Faremos uma verificação para garantir a integridade dos dados. Coletaremos dados_residencial, especificamente a variável Tipo, e evocaremos o método drop_duplicates().

In [20]:
list(dados_residencial['Tipo'].drop_duplicates())

['Quitinete', 'Casa', 'Apartamento', 'Casa de Condomínio', 'Casa de Vila']

In [21]:
dados_residencial.shape

(22580, 9)

In [22]:
data.shape

(32960, 9)

Teremos como resultado o número 22580 elementos. Se fizermos a mesma verificação em data, teremos um total de 32960 elementos, isto é, estamos com um conjunto de dados reduzido. Próximo passo é realizar a reconstrução do indice. Notem que há "buracos" nessa informação.

In [23]:
dados_residencial.head(10)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
5,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
6,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0
7,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000.0,,
8,Casa de Condomínio,Ramos,2,2,0,65,1000.0,,
10,Apartamento,Centro,1,0,0,36,1200.0,,
11,Apartamento,Grajaú,2,1,0,70,1500.0,642.0,74.0


Usaremos novamente o termo index e o método range(), que receberá dados_residencial.shape[0]

In [None]:
dados_residencial.shape

(22580, 9)

In [24]:
dados_residencial.index = range(dados_residencial.shape[0])
dados_residencial.head(10)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
5,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0
6,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000.0,,
7,Casa de Condomínio,Ramos,2,2,0,65,1000.0,,
8,Apartamento,Centro,1,0,0,36,1200.0,,
9,Apartamento,Grajaú,2,1,0,70,1500.0,642.0,74.0


In [26]:
dados_residencial.to_csv(
    '/content/drive/MyDrive/AULAS/dados/aluguel_residencial.csv', sep = ';')

Com base nas informações do data frame dados_residencial, a seguradora deseja que realizemos algumas seleções e retire a frequência de cada uma delas.

Temos o seguinte problema repassado:



* Selecione somente os imóveis classificados com tipo 'Apartamento'.
* Selecione os imóveis classificados com tipos 'Casa', 'Casa de Condomínio' e 'Casa de Vila'.
* Selecione os imóveis com área entre 60 e 100 metros quadrados, incluindo os limites.

* Selecione os imóveis que tenham pelo menos 4 quartos e aluguel menor que R$ 2.000,00.

Usaremos o CSV do relatório da primeira parte da aula

In [28]:
dados = pd.read_csv('/content/drive/MyDrive/AULAS/dados/aluguel_residencial.csv', sep = ';')
dados.head(10)

Unnamed: 0.1,Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
4,4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
5,5,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0
6,6,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000.0,,
7,7,Casa de Condomínio,Ramos,2,2,0,65,1000.0,,
8,8,Apartamento,Centro,1,0,0,36,1200.0,,
9,9,Apartamento,Grajaú,2,1,0,70,1500.0,642.0,74.0


#Selecione somente os imóveis classificados com tipo 'Apartamento'.


In [29]:
selecao = dados ['Tipo'] == 'Apartamento'
selecao

0        False
1        False
2         True
3         True
4         True
         ...  
22575     True
22576    False
22577     True
22578     True
22579     True
Name: Tipo, Length: 22580, dtype: bool

In [30]:
selecao = dados['Tipo'] == 'Apartamento'
n1 = dados[selecao].shape
n1

(19532, 10)

# Usando o query

In [None]:
n1_query = dados.query("Bairro == 'Centro'")
n1_query.head(2)

Unnamed: 0.1,Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
2,2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
8,8,Apartamento,Centro,1,0,0,36,1200.0,,


In [31]:
#Selecione somente os imóveis classificados com tipo 'Apartamento'.
apartamento_query = dados.query("Tipo == 'Apartamento'")
apartamento_query

Unnamed: 0.1,Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
2,2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
4,4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
5,5,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0
8,8,Apartamento,Centro,1,0,0,36,1200.0,,
...,...,...,...,...,...,...,...,...,...,...
22573,22573,Apartamento,Vila Valqueire,2,0,0,52,1000.0,550.0,
22575,22575,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
22577,22577,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
22578,22578,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


In [None]:
#Selecione os imóveis classificados com tipos 'Casa', 'Casa de Condomínio' e 'Casa de Vila'.
selecao = (dados['Tipo'] == 'Casa') | (dados['Tipo'] == 'Casa de Condomínio') | (dados['Tipo'] == 'Casa de Vila')
n2 = dados[selecao].shape
n2

(2212, 10)

In [32]:
#usando o query
n2_query = dados.query("Tipo == 'Casa' | Tipo == 'Casa de Condomínio' | Tipo == 'Casa de Vila'")
n2_query


Unnamed: 0.1,Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
1,1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
6,6,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000.0,,
7,7,Casa de Condomínio,Ramos,2,2,0,65,1000.0,,
14,14,Casa de Condomínio,Taquara,3,1,1,115,2000.0,,
18,18,Casa de Condomínio,Barra da Tijuca,4,3,2,466,7500.0,2695.0,
...,...,...,...,...,...,...,...,...,...,...
22545,22545,Casa de Condomínio,Freguesia (Jacarepaguá),3,3,1,155,2000.0,530.0,1250.0
22547,22547,Casa,Bento Ribeiro,2,1,0,60,1400.0,,
22555,22555,Casa de Condomínio,Barra da Tijuca,3,5,3,1000,20000.0,3000.0,
22558,22558,Casa,Centro,5,0,1,160,5000.0,,80.0


In [33]:
#Selecione os imóveis com área entre 60 e 100 metros quadrados,
#incluindo os limites.
#60 <= Area <=100
selecao = (dados['Area'] >= 60) & (dados['Area'] <= 100)
n3 = dados[selecao].shape
n3

(8719, 10)

In [34]:
#usando o query
n3_query = dados.query("Area >= 60 and Area <= 100")
n3_query

Unnamed: 0.1,Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
1,1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
4,4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
7,7,Casa de Condomínio,Ramos,2,2,0,65,1000.0,,
9,9,Apartamento,Grajaú,2,1,0,70,1500.0,642.0,74.0
10,10,Apartamento,Lins de Vasconcelos,3,1,1,90,1500.0,455.0,14.0
...,...,...,...,...,...,...,...,...,...,...
22568,22568,Apartamento,Recreio dos Bandeirantes,3,2,1,88,1550.0,790.0,
22570,22570,Apartamento,Leblon,3,0,1,80,3000.0,1010.0,249.0
22575,22575,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
22577,22577,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0


In [35]:
#Selecione os imóveis que tenham pelo menos 4 quartos e aluguel menor que R$ 2.000,00.
selecao = (dados['Quartos'] >= 4) & (dados['Valor'] < 2000)
n4 = dados[selecao].shape
n4

(41, 10)

In [36]:
#usando o query
n3_query = dados.query("Quartos >= 4 & Valor < 2000")
n3_query.shape

(41, 10)