# Dataset de imóveis para aluguel em Fortaleza

Neste trabalho, vamos explorar dados de imóveis para aluguel na cidade de Fortaleza presentes no site do [viva real](https://www.vivareal.com.br/aluguel/ceara/fortaleza/) e no [zap imoveis](https://www.zapimoveis.com.br/aluguel/imoveis/ce+fortaleza/?transacao=Aluguel&tipo=Im%C3%B3vel%20usado&pagina=1&onde=,Cear%C3%A1,Fortaleza,,,,,city,BR%3ECeara%3ENULL%3EFortaleza,-3.73272,-38.527013)

O objetivo é a partir dos dados presentes nestes sites, unir as informações em um único dataset com todos os imóveis para aluguel.

A princípio, a estratégia para obter os dados seria utilizar *scraping*, raspando as páginas html desses sites. Porém, ao navegar além da primeira página em ambos os sites, é possível observar que os dados de páginas subsequentes é retornado por meio de chamadas *HTTP* para uma API pública dessas plataformas. Com base nisso, foi possível replicar as requisições usadas pelas páginas *web*, evitando a necessidade de raspar o html das páginas.

# Fluxo de processamento dos dados

Com base nas observações iniciais sobre as plataformas, vamos dividir o trabalho em 3 etapas

1. Salvar dados da API e persistir em arquivos
2. A partir dos dados de cada requisição, montar um dataset para o VivaReal e ZapImóveis
  - Avaliar cada dataset separadamente e realizar ajustes de modo que seja possível unir ambos os datasets
3. Montar dataset final, unindo os 2 datasets e aplicar sobre esse dataset tratamentos finais nos dados, como remoção de duplicações e de valores nulos

In [1]:
from json import dump as json_dump, load as json_load, dumps
import os
import requests
import math
from tqdm import tqdm, trange
from time import sleep
import pandas as pd
from pandas import DataFrame as df
import numpy as np

# Ensure all columns from a dataframe are shown, since the dataframes used here have like 30 columns
# this is needed
pd.set_option("display.max_columns", None)

def jsonprint(json_data):
  print(dumps(json_data, indent=2))

In [2]:
BASE_PATH = '.'
VIVAREAL_PATH = f'{BASE_PATH}/vivareal'
ZAP_IMOVEIS_PATH = f'{BASE_PATH}/zap-imoveis'

if not os.path.isdir(VIVAREAL_PATH):
  os.mkdir(VIVAREAL_PATH)

if not os.path.isdir(ZAP_IMOVEIS_PATH):
  os.mkdir(ZAP_IMOVEIS_PATH)

# indica se vamos reutilizar dados das requisições salvos anteriormente ou não. 
# USE_PRE_SAVED_REQUESTS = False fará com que os dados sejam obtidos novamente da API do VivaReal e ZapImóveis.
USE_PRE_SAVED_REQUESTS = True

## Obtenção de dados do VivaReal e ZapImoveis

Conforme exposto, vamos usar a API do VivaReal e ZapImóveis para obter os dados dos imóveis. As API's possuem paginação utilizando *offsets**, onde informamos a partir de qual ponto devem ser retornados os dados, por exemplo, os imóveis após o décimo resultado, assim, podemos pegar os 10 primeiros imóveis, depois mais 10 imóveis após os 10 primeiros, assim sucessivamente. O resultado de cada requisição é salvo em um arquivo `json`.

In [3]:
vivareal_headers = {'x-domain': 'www.vivareal.com.br', 'User-Agent': 'PostmanRuntime/7.29.0'}

def get_vivareal_page(page, page_size):
  current_from = page_size * page
  vivareal_url = f'https://glue-api.vivareal.com/v2/listings?addressCity=Fortaleza&addressLocationId=BR%3ECeara%3ENULL%3EFortaleza&addressNeighborhood=&addressState=Cear%C3%A1&addressCountry=Brasil&addressStreet=&addressZone=&addressPointLat=-3.73272&addressPointLon=-38.527013&business=RENTAL&facets=amenities&unitTypes=&unitSubTypes=&unitTypesV3=&usageTypes=&listingType=USED&parentId=null&categoryPage=RESULT&stamps=&includeFields=search(result(listings(listing(displayAddressType%2Camenities%2CusableAreas%2CconstructionStatus%2ClistingType%2Cdescription%2Ctitle%2CunitTypes%2CnonActivationReason%2CpropertyType%2CunitSubTypes%2Cid%2Cportal%2CparkingSpaces%2Caddress%2Csuites%2CpublicationType%2CexternalId%2Cbathrooms%2CusageTypes%2CtotalAreas%2CadvertiserId%2Cbedrooms%2CpricingInfos%2CshowPrice%2Cstatus%2CadvertiserContact%2CvideoTourLink%2CwhatsappNumber%2Cstamps)%2Caccount(id%2Cname%2ClogoUrl%2ClicenseNumber%2CshowAddress%2ClegacyVivarealId%2Cphones)%2Cmedias%2CaccountLink%2Clink))%2CtotalCount)%2Cpage%2CseasonalCampaigns%2CfullUriFragments%2Cnearby(search(result(listings(listing(displayAddressType%2Camenities%2CusableAreas%2CconstructionStatus%2ClistingType%2Cdescription%2Ctitle%2CunitTypes%2CnonActivationReason%2CpropertyType%2CunitSubTypes%2Cid%2Cportal%2CparkingSpaces%2Caddress%2Csuites%2CpublicationType%2CexternalId%2Cbathrooms%2CusageTypes%2CtotalAreas%2CadvertiserId%2Cbedrooms%2CpricingInfos%2CshowPrice%2Cstatus%2CadvertiserContact%2CvideoTourLink%2CwhatsappNumber%2Cstamps)%2Caccount(id%2Cname%2ClogoUrl%2ClicenseNumber%2CshowAddress%2ClegacyVivarealId%2Cphones)%2Cmedias%2CaccountLink%2Clink))%2CtotalCount))%2Cexpansion(search(result(listings(listing(displayAddressType%2Camenities%2CusableAreas%2CconstructionStatus%2ClistingType%2Cdescription%2Ctitle%2CunitTypes%2CnonActivationReason%2CpropertyType%2CunitSubTypes%2Cid%2Cportal%2CparkingSpaces%2Caddress%2Csuites%2CpublicationType%2CexternalId%2Cbathrooms%2CusageTypes%2CtotalAreas%2CadvertiserId%2Cbedrooms%2CpricingInfos%2CshowPrice%2Cstatus%2CadvertiserContact%2CvideoTourLink%2CwhatsappNumber%2Cstamps)%2Caccount(id%2Cname%2ClogoUrl%2ClicenseNumber%2CshowAddress%2ClegacyVivarealId%2Cphones)%2Cmedias%2CaccountLink%2Clink))%2CtotalCount))%2Caccount(id%2Cname%2ClogoUrl%2ClicenseNumber%2CshowAddress%2ClegacyVivarealId%2Cphones%2Cphones)%2Cfacets%2Cowners(search(result(listings(listing(displayAddressType%2Camenities%2CusableAreas%2CconstructionStatus%2ClistingType%2Cdescription%2Ctitle%2CunitTypes%2CnonActivationReason%2CpropertyType%2CunitSubTypes%2Cid%2Cportal%2CparkingSpaces%2Caddress%2Csuites%2CpublicationType%2CexternalId%2Cbathrooms%2CusageTypes%2CtotalAreas%2CadvertiserId%2Cbedrooms%2CpricingInfos%2CshowPrice%2Cstatus%2CadvertiserContact%2CvideoTourLink%2CwhatsappNumber%2Cstamps)%2Caccount(id%2Cname%2ClogoUrl%2ClicenseNumber%2CshowAddress%2ClegacyVivarealId%2Cphones)%2Cmedias%2CaccountLink%2Clink))%2CtotalCount))&size={page_size}&from={current_from}&q=&developmentsSize=5&__vt=&levels=CITY&ref=&pointRadius=&isPOIQuery='

  return requests.get(vivareal_url, headers = vivareal_headers)

def create_vivareal_reader(page_size):
  return lambda page: get_vivareal_page(page, page_size)

def compute_number_of_results(first_page_request):
  return first_page_request.json()["page"]["uriPagination"]["total"]

def get_number_of_pages(number_of_results, page_size):
  return math.ceil(number_of_results / page_size) + 1

def get_vivareal_file_path(page):
  return f"{VIVAREAL_PATH}/request-{page}.json"

In [4]:
if not USE_PRE_SAVED_REQUESTS:

  VIVAREAL_PAGE_SIZE = 100

  vivareal_reader = create_vivareal_reader(VIVAREAL_PAGE_SIZE)

  # retrieve metadata about number of pages to process
  first_page = vivareal_reader(0)

  number_of_results = compute_number_of_results(first_page)
  number_of_pages = get_number_of_pages(number_of_results, VIVAREAL_PAGE_SIZE)

  print(f"Starting to process {number_of_results} results...")
  print(f"Number of pages: {number_of_pages}")

  # save first page
  f = open(get_vivareal_file_path(0), 'w')
  json_dump(first_page.json(), f)
  f.close()

  with tqdm(total=number_of_pages) as pbar:
      pbar.update(1)

      # include final page
      for page in range(1, number_of_pages):
        sleep(1.2) # wait a bit to avoid issues about too many requests
        result = vivareal_reader(page)
        result_json = result.json()
        f = open(get_vivareal_file_path(page), 'w')
        json_dump(result_json, f)
        f.close()

        pbar.update(1)


In [5]:
zapimoveis_headers = {'x-domain': 'www.vivareal.com.br', 'User-Agent': 'PostmanRuntime/7.29.0'}
def get_zapimoveis_page(page, page_size):
  current_from = page_size * page
  zapimoveis_url = f'https://glue-api.zapimoveis.com.br/v2/listings?0=U&1=n&2=i&3=t&4=T&5=y&6=p&7=e&8=_&9=N&10=O&11=N&12=E&categoryPage=RESULT&business=RENTAL&listingType=USED&parentId=null&addressCountry=&addressState=Cear%C3%A1&addressCity=Fortaleza&addressZone=&addressNeighborhood=&addressStreet=&addressAccounts=&addressType=CITY&addressLocationId=BR%3ECeara%3ENULL%3EFortaleza&addressPointLat=-3.73272&addressPointLon=-38.527013&addressUrl=%2Faluguel%2Fimoveis%2Fce%2Bfortaleza%2F&size={page_size}&from={current_from}&includeFields=search(result(listings(listing(listingsCount,sourceId,displayAddressType,amenities,usableAreas,constructionStatus,listingType,description,title,stamps,createdAt,floors,unitTypes,nonActivationReason,providerId,propertyType,unitSubTypes,unitsOnTheFloor,legacyId,id,portal,unitFloor,parkingSpaces,updatedAt,address,suites,publicationType,externalId,bathrooms,usageTypes,totalAreas,advertiserId,advertiserContact,whatsappNumber,bedrooms,acceptExchange,pricingInfos,showPrice,resale,buildings,capacityLimit,status,priceSuggestion),account(id,name,logoUrl,licenseNumber,showAddress,legacyVivarealId,legacyZapId,minisite),medias,accountLink,link)),totalCount),page,fullUriFragments,superPremium(search(result(listings(listing(listingsCount,sourceId,displayAddressType,amenities,usableAreas,constructionStatus,listingType,description,title,stamps,createdAt,floors,unitTypes,nonActivationReason,providerId,propertyType,unitSubTypes,unitsOnTheFloor,legacyId,id,portal,unitFloor,parkingSpaces,updatedAt,address,suites,publicationType,externalId,bathrooms,usageTypes,totalAreas,advertiserId,advertiserContact,whatsappNumber,bedrooms,acceptExchange,pricingInfos,showPrice,resale,buildings,capacityLimit,status,priceSuggestion),account(id,name,logoUrl,licenseNumber,showAddress,legacyVivarealId,legacyZapId,minisite),medias,accountLink,link)),totalCount)),owners(search(result(listings(listing(listingsCount,sourceId,displayAddressType,amenities,usableAreas,constructionStatus,listingType,description,title,stamps,createdAt,floors,unitTypes,nonActivationReason,providerId,propertyType,unitSubTypes,unitsOnTheFloor,legacyId,id,portal,unitFloor,parkingSpaces,updatedAt,address,suites,publicationType,externalId,bathrooms,usageTypes,totalAreas,advertiserId,advertiserContact,whatsappNumber,bedrooms,acceptExchange,pricingInfos,showPrice,resale,buildings,capacityLimit,status,priceSuggestion),account(id,name,logoUrl,licenseNumber,showAddress,legacyVivarealId,legacyZapId,minisite),medias,accountLink,link)),totalCount))&cityWiseStreet=1&developmentsSize=3&superPremiumSize=3&levels=CITY&ref=%2Faluguel%2Fimoveis%2Fce%2Bfortaleza%2F&__zt=mtc:deduplication,hero:a'

  return requests.get(zapimoveis_url, headers = zapimoveis_headers)

def create_zapimoveis_reader(page_size):
  return lambda page: get_zapimoveis_page(page, page_size)

def get_zapimoveis_file_path(page):
  return f"{ZAP_IMOVEIS_PATH}/request-{page}.json"

In [6]:
if not USE_PRE_SAVED_REQUESTS:
  ZAPIMOVEIS_PAGE_SIZE = 100

  zapimoveis_reader = create_zapimoveis_reader(ZAPIMOVEIS_PAGE_SIZE)

  # retrieve metadata about number of pages to process
  first_page = zapimoveis_reader(0)

  number_of_results = compute_number_of_results(first_page)
  number_of_pages = get_number_of_pages(number_of_results, ZAPIMOVEIS_PAGE_SIZE)

  print(f"Starting to process {number_of_results} results...")
  print(f"Number of pages: {number_of_pages}")

  # save first page
  f = open(get_zapimoveis_file_path(0), 'w')
  json_dump(first_page.json(), f)
  f.close()

  with tqdm(total=number_of_pages) as pbar:
      pbar.update(1)

      # include final page
      for page in range(1, number_of_pages):
        sleep(1.2) # wait a bit to avoid issues about too many requests
        result = zapimoveis_reader(page)
        result_json = result.json()
        f = open(get_zapimoveis_file_path(page), 'w')
        json_dump(result_json, f)
        f.close()

        pbar.update(1)


## Construção de dataframes a partir dos dados brutos

Uma vez que os dados brutos foram coletados, podemos unificar todos esses dados em *dataframes* do pandas

### VivaReal

In [7]:
# filter non-request files
number_of_vivareal_files = len(list(filter(lambda e: e.startswith("request-"), os.listdir(VIVAREAL_PATH))))

fp = open(get_vivareal_file_path(0), "r")
vivareal_sample_json = json_load(fp)
fp.close()


Abaixo, podemos ver o retorno bruto de uma requisição, no caso, o da primeira requisição. 

In [8]:
jsonprint(vivareal_sample_json)

{
  "search": {
    "result": {
      "listings": [
        {
          "listing": {
            "displayAddressType": "ALL",
            "amenities": [
              "ELEVATOR",
              "GATED_COMMUNITY",
              "GARDEN",
              "PLAYGROUND",
              "PARTY_HALL",
              "CONCIERGE_24H",
              "ELECTRONIC_GATE"
            ],
            "usableAreas": [
              "70"
            ],
            "constructionStatus": "ConstructionStatus_NONE",
            "listingType": "USED",
            "description": "IM\u00d3VEL IMPEC\u00c1VEL! L I N D A V I S T A M A R! <br><br>\u00c1rea aproximada 70,00 m\u00b2;<br>01 Su\u00edtes (Vista Mar, Arm\u00e1rios Projetados Fixos, Banheiro Box Vidro);<br>01 Dormit\u00f3rio (Vista Mar, Arm\u00e1rios Projetados Fixos, Banheiro Box Vidro);<br>01 Sala de Estar / Jantar (Vista Mar);<br>01 Cozinha (Arm\u00e1rios Projetados Fixos);<br>02 Vagas de Garagens (COBERTAS) Obs.: Bem ESPA\u00c7OSA;<br><br>Condom\u00ednio i

Analisando os dados, podemos ver que os dados das residências ficam aninhados em 'search' > 'result' > 'listings', que é uma lista com os resultados. Abaixo, mostramos o primeiro elemento dessa lista, ou seja, um imóvel para alugar. Aqui, é possível notar que os dados da residência de fato ficam dentro do campo `listing`

In [9]:
listings = vivareal_sample_json["search"]["result"]["listings"]
jsonprint(listings[0])

{
  "listing": {
    "displayAddressType": "ALL",
    "amenities": [
      "ELEVATOR",
      "GATED_COMMUNITY",
      "GARDEN",
      "PLAYGROUND",
      "PARTY_HALL",
      "CONCIERGE_24H",
      "ELECTRONIC_GATE"
    ],
    "usableAreas": [
      "70"
    ],
    "constructionStatus": "ConstructionStatus_NONE",
    "listingType": "USED",
    "description": "IM\u00d3VEL IMPEC\u00c1VEL! L I N D A V I S T A M A R! <br><br>\u00c1rea aproximada 70,00 m\u00b2;<br>01 Su\u00edtes (Vista Mar, Arm\u00e1rios Projetados Fixos, Banheiro Box Vidro);<br>01 Dormit\u00f3rio (Vista Mar, Arm\u00e1rios Projetados Fixos, Banheiro Box Vidro);<br>01 Sala de Estar / Jantar (Vista Mar);<br>01 Cozinha (Arm\u00e1rios Projetados Fixos);<br>02 Vagas de Garagens (COBERTAS) Obs.: Bem ESPA\u00c7OSA;<br><br>Condom\u00ednio incluso (G\u00e1s);",
    "title": "Apartamento para aluguel tem 70 metros quadrados com 2 quartos em Meireles - Fortaleza - Cear\u00e1",
    "unitTypes": [
      "APARTMENT"
    ],
    "nonActivat

Para facilitar nossas análises e lidar com os dados, montaremos um *dataframe* contendo os dados obtidos em todas as requisições, isso pode ser feito utilizando o método `from_records` da classe DataFrame, que constrói um *dataframe* a partir de uma lista de objetos com estrutura em comum. Por enquanto, armazenaremos este dataframe em uma lista de dataframes, que será utilizada mais a frente.

In [10]:
vivareal_df = df.from_records(map(lambda el: el['listing'], listings))
vivareal_dfs = [vivareal_df]

In [11]:
# sample df from first request
vivareal_df.head()

Unnamed: 0,displayAddressType,amenities,usableAreas,constructionStatus,listingType,description,title,unitTypes,nonActivationReason,propertyType,unitSubTypes,id,portal,parkingSpaces,address,suites,publicationType,externalId,bathrooms,usageTypes,totalAreas,advertiserId,bedrooms,pricingInfos,showPrice,status,advertiserContact,videoTourLink,whatsappNumber,stamps
0,ALL,"[ELEVATOR, GATED_COMMUNITY, GARDEN, PLAYGROUND...",[70],ConstructionStatus_NONE,USED,IMÓVEL IMPECÁVEL! L I N D A V I S T A M A R! <...,Apartamento para aluguel tem 70 metros quadrad...,[APARTMENT],NonActivationReason_NONE,UNIT,[],2562524561,GRUPOZAP,[2],"{'country': 'BR', 'zipCode': '60170000', 'geoJ...",[2],PREMIUM,QGC3OEKO,[2],[RESIDENTIAL],[70],ff52eb4d-636c-e327-d8f0-7e576aa266c6,[2],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,{'phones': ['85985685000']},,85985685000,[]
1,ALL,"[FURNISHED, BARBECUE_GRILL, ELEVATOR, GATED_CO...",[60],ConstructionStatus_NONE,USED,"Apartamento Duplex 60 m2, com 02 suítes, total...","Apartamento DUPLEX MOBILIADO, 02 suítes, em Me...",[APARTMENT],NonActivationReason_NONE,UNIT,[],2515185773,GRUPOZAP,[1],"{'country': 'BR', 'zipCode': '60170210', 'geoJ...",[2],PREMIUM,5WFQM4GZ,[2],[RESIDENTIAL],[69],a239c50b-0319-1aa0-6ef7-3837586b4063,[2],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,{'phones': ['11981751746']},,11981751746,[]
2,ALL,"[AIR_CONDITIONING, PORCELAIN]",[35],ConstructionStatus_NONE,USED,ANDAR ALTO;<br>PISO EM PORCELANATO;<br>ILUMINA...,"Sala comercial, localização INENARRÁVEL / para...",[OFFICE],NonActivationReason_NONE,UNIT,[],2534494892,GRUPOZAP,[],"{'country': 'BR', 'zipCode': '60160230', 'geoJ...",[],PREMIUM,FW367WSA,[1],[COMMERCIAL],[35],ff52eb4d-636c-e327-d8f0-7e576aa266c6,[],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,{'phones': ['85985685000']},,85985685000,[]
3,ALL,[],[33],ConstructionStatus_NONE,USED,"Salas com piso em porcelanato bianco, com forr...",Scopa Platinum Corporate - Salas amplas com WC,[OFFICE],NonActivationReason_NONE,UNIT,[],2516799902,GRUPOZAP,[1],"{'country': 'BR', 'zipCode': '60115191', 'geoJ...",[],PREMIUM,FQSV6NGN,[1],[COMMERCIAL],[],11c4ded5-8ea5-2404-2183-e5e985813374,[],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,{'phones': ['85991180986']},,85991180986,[]
4,ALL,[],[30],ConstructionStatus_NONE,USED,COMPSA – COMPARTILHAMENTO DE SALAS: <br>I. MOB...,"COMPSA - Compartilhamento de Salas - Hora, Exp...",[OFFICE],NonActivationReason_NONE,UNIT,[CLINIC],2532715897,GRUPOZAP,[0],"{'country': 'BR', 'zipCode': '60140120', 'geoJ...",[0],PREMIUM,GY3AMWXI,[0],[COMMERCIAL],[],2cb4a334-9204-a7c6-6c50-0f503453322a,[0],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,"{'phones': ['85988312527', '85998340077']}",,85998340077,[]


Abaixo, carregamos um *dataframe* para cada requisição, e salvamos este *dataframe* em uma lista, que será muito útil no passo seguinte. 

In [12]:
for i in trange(1, number_of_vivareal_files):
  fp = open(get_vivareal_file_path(i), "r")
  vivareal_json = json_load(fp)
  vivareal_listings = vivareal_json["search"]["result"]["listings"]
  vivareal_listings = map(lambda el: el['listing'], vivareal_listings)
  vivareal_df = df.from_records(vivareal_listings)
  vivareal_dfs.append(vivareal_df)

100%|██████████████████████████████████████████████████████████████████| 76/76 [00:00<00:00, 116.39it/s]


A coluna usageTypes, indica qual a finalidade do imóvel, se é para residir ou se é um imóvel comercial. Para este trabalho, estamos interessados em imóveis residenciais, portanto, analisaremos quais os valores possíveis para este campo, a quantidade de imóveis que não são residenciais, e por fim, droparemos aqueles imóveis que não são residenciais.

Em posse da lista com todos os *dataframes* para cada requisição, podemos utilizar o método `concat` do pandas. Este método recebe uma lista de dataframes e então cria um único dataframe unindo todos os *dataframes* da lista! Que é exatamente o que queremos aqui :)

In [13]:
vivareal_df_raw = pd.concat(vivareal_dfs)
print(f"Quantidade de linhas no dataset do vivareal: {len(vivareal_df_raw)}\n\n")
vivareal_df_raw.head()

Quantidade de linhas no dataset do vivareal: 7586




Unnamed: 0,displayAddressType,amenities,usableAreas,constructionStatus,listingType,description,title,unitTypes,nonActivationReason,propertyType,unitSubTypes,id,portal,parkingSpaces,address,suites,publicationType,externalId,bathrooms,usageTypes,totalAreas,advertiserId,bedrooms,pricingInfos,showPrice,status,advertiserContact,videoTourLink,whatsappNumber,stamps
0,ALL,"[ELEVATOR, GATED_COMMUNITY, GARDEN, PLAYGROUND...",[70],ConstructionStatus_NONE,USED,IMÓVEL IMPECÁVEL! L I N D A V I S T A M A R! <...,Apartamento para aluguel tem 70 metros quadrad...,[APARTMENT],NonActivationReason_NONE,UNIT,[],2562524561,GRUPOZAP,[2],"{'country': 'BR', 'zipCode': '60170000', 'geoJ...",[2],PREMIUM,QGC3OEKO,[2],[RESIDENTIAL],[70],ff52eb4d-636c-e327-d8f0-7e576aa266c6,[2],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,{'phones': ['85985685000']},,85985685000,[]
1,ALL,"[FURNISHED, BARBECUE_GRILL, ELEVATOR, GATED_CO...",[60],ConstructionStatus_NONE,USED,"Apartamento Duplex 60 m2, com 02 suítes, total...","Apartamento DUPLEX MOBILIADO, 02 suítes, em Me...",[APARTMENT],NonActivationReason_NONE,UNIT,[],2515185773,GRUPOZAP,[1],"{'country': 'BR', 'zipCode': '60170210', 'geoJ...",[2],PREMIUM,5WFQM4GZ,[2],[RESIDENTIAL],[69],a239c50b-0319-1aa0-6ef7-3837586b4063,[2],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,{'phones': ['11981751746']},,11981751746,[]
2,ALL,"[AIR_CONDITIONING, PORCELAIN]",[35],ConstructionStatus_NONE,USED,ANDAR ALTO;<br>PISO EM PORCELANATO;<br>ILUMINA...,"Sala comercial, localização INENARRÁVEL / para...",[OFFICE],NonActivationReason_NONE,UNIT,[],2534494892,GRUPOZAP,[],"{'country': 'BR', 'zipCode': '60160230', 'geoJ...",[],PREMIUM,FW367WSA,[1],[COMMERCIAL],[35],ff52eb4d-636c-e327-d8f0-7e576aa266c6,[],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,{'phones': ['85985685000']},,85985685000,[]
3,ALL,[],[33],ConstructionStatus_NONE,USED,"Salas com piso em porcelanato bianco, com forr...",Scopa Platinum Corporate - Salas amplas com WC,[OFFICE],NonActivationReason_NONE,UNIT,[],2516799902,GRUPOZAP,[1],"{'country': 'BR', 'zipCode': '60115191', 'geoJ...",[],PREMIUM,FQSV6NGN,[1],[COMMERCIAL],[],11c4ded5-8ea5-2404-2183-e5e985813374,[],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,{'phones': ['85991180986']},,85991180986,[]
4,ALL,[],[30],ConstructionStatus_NONE,USED,COMPSA – COMPARTILHAMENTO DE SALAS: <br>I. MOB...,"COMPSA - Compartilhamento de Salas - Hora, Exp...",[OFFICE],NonActivationReason_NONE,UNIT,[CLINIC],2532715897,GRUPOZAP,[0],"{'country': 'BR', 'zipCode': '60140120', 'geoJ...",[0],PREMIUM,GY3AMWXI,[0],[COMMERCIAL],[],2cb4a334-9204-a7c6-6c50-0f503453322a,[0],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,"{'phones': ['85988312527', '85998340077']}",,85998340077,[]


Abaixo, podemos ver o nome de todas as colunas do DataFrame e seus respectivos tipos.


In [14]:
vivareal_df_raw.dtypes

displayAddressType     object
amenities              object
usableAreas            object
constructionStatus     object
listingType            object
description            object
title                  object
unitTypes              object
nonActivationReason    object
propertyType           object
unitSubTypes           object
id                     object
portal                 object
parkingSpaces          object
address                object
suites                 object
publicationType        object
externalId             object
bathrooms              object
usageTypes             object
totalAreas             object
advertiserId           object
bedrooms               object
pricingInfos           object
showPrice                bool
status                 object
advertiserContact      object
videoTourLink          object
whatsappNumber         object
stamps                 object
dtype: object

### ZapImoveis

Abaixo, repetiremos os mesmos procedimentos com os dados do zap imóveis. 

In [15]:
# filter non-request files
number_of_zapimoveis_files = len(list(filter(lambda e: e.startswith("request-"), os.listdir(ZAP_IMOVEIS_PATH))))

fp = open(get_zapimoveis_file_path(0), "r")
zapimoveis_sample_json = json_load(fp)
fp.close()


In [16]:
jsonprint(zapimoveis_sample_json)

{
  "search": {
    "result": {
      "listings": [
        {
          "listing": {
            "displayAddressType": "ALL",
            "amenities": [
              "GYM",
              "POOL",
              "PLAYGROUND",
              "SPORTS_COURT",
              "PARTY_HALL"
            ],
            "usableAreas": [
              "75"
            ],
            "constructionStatus": "ConstructionStatus_NONE",
            "listingType": "USED",
            "description": "Adriano Freire Im\u00f3veis aluga apartamento no Mont Blanc Residence, com 3 quartos (sendo 2 su\u00edtes), sala de estar e jantar, cozinha, banheiro social, \u00e1rea de servi\u00e7o e 2 vagas de garagem. M\u00f3veis fixos nos quartos e cozinha, vista por cima do Parque do Coc\u00f3. <br><br><br>O condom\u00ednio disp\u00f5e de: Piscina Adulto com Raia, Piscina Infantil, Playground, Sal\u00e3o de Festas, Quadra, Recep\u00e7\u00e3o, Home Theater, Sal\u00e3o de Jogos, Fitness, Lavanderia, Terra\u00e7o e Portaria 

In [17]:
listings = zapimoveis_sample_json["search"]["result"]["listings"]
jsonprint(listings[0])

{
  "listing": {
    "displayAddressType": "ALL",
    "amenities": [
      "GYM",
      "POOL",
      "PLAYGROUND",
      "SPORTS_COURT",
      "PARTY_HALL"
    ],
    "usableAreas": [
      "75"
    ],
    "constructionStatus": "ConstructionStatus_NONE",
    "listingType": "USED",
    "description": "Adriano Freire Im\u00f3veis aluga apartamento no Mont Blanc Residence, com 3 quartos (sendo 2 su\u00edtes), sala de estar e jantar, cozinha, banheiro social, \u00e1rea de servi\u00e7o e 2 vagas de garagem. M\u00f3veis fixos nos quartos e cozinha, vista por cima do Parque do Coc\u00f3. <br><br><br>O condom\u00ednio disp\u00f5e de: Piscina Adulto com Raia, Piscina Infantil, Playground, Sal\u00e3o de Festas, Quadra, Recep\u00e7\u00e3o, Home Theater, Sal\u00e3o de Jogos, Fitness, Lavanderia, Terra\u00e7o e Portaria 24h. <br><br><br>Localiza\u00e7\u00e3o: Av. das Adenanteras, 311, pr\u00f3ximo a Milfrios Distribuidora. <br><br><br>Mais informa\u00e7\u00f5es ou agendamento de visita, fale conos

In [18]:
zapimoveis_df = df.from_records(map(lambda el: el['listing'], listings))
zapimoveis_dfs = [zapimoveis_df]

In [19]:
zapimoveis_df.head()

Unnamed: 0,displayAddressType,amenities,usableAreas,constructionStatus,listingType,description,title,stamps,createdAt,floors,unitTypes,nonActivationReason,providerId,propertyType,unitSubTypes,unitsOnTheFloor,legacyId,id,portal,unitFloor,parkingSpaces,updatedAt,address,suites,publicationType,externalId,bathrooms,usageTypes,totalAreas,advertiserId,advertiserContact,whatsappNumber,bedrooms,acceptExchange,pricingInfos,showPrice,resale,buildings,capacityLimit,status
0,ALL,"[GYM, POOL, PLAYGROUND, SPORTS_COURT, PARTY_HALL]",[75],ConstructionStatus_NONE,USED,Adriano Freire Imóveis aluga apartamento no Mo...,"Apartamento com 3 quartos, no MontBlanc Reside...",[],2022-05-23T19:48:19.423Z,[],[APARTMENT],NonActivationReason_NONE,19381.0,UNIT,[],0,,2563928464,GRUPOZAP,0,[2],2022-05-23T19:48:20.942Z,"{'country': 'BR', 'zipCode': '60190560', 'geoJ...",[2],STANDARD,AP7541,[3],[RESIDENTIAL],[75],aaa31266-c13f-74ad-1f85-5efc14307444,"{'phones': ['8530132400', '85981133290']}",85981133290.0,[3],False,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,False,0,[],ACTIVE
1,ALL,"[CONCIERGE_24H, ELECTRONIC_GATE, GATED_COMMUNI...",[130],ConstructionStatus_NONE,USED,"Apartamento no bairro de Fátima com 3 quartos,...","Excelente apto 3 quartos, sendo 2 suítes Bairr...",[],2022-05-23T18:02:43.478Z,[],[APARTMENT],NonActivationReason_NONE,,UNIT,[],0,,2563918208,GRUPOZAP,0,[2],2022-05-23T18:15:22.131Z,"{'country': 'BR', 'zipCode': '60410356', 'geoJ...",[2],PREMIUM,1TV8U1A,[3],[RESIDENTIAL],[],5106bb84-0c28-6112-9cec-481f62782e38,"{'phones': ['8530239132', '85999257101']}",85999257101.0,[3],False,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,False,0,[],ACTIVE
2,ALL,[],[73],ConstructionStatus_NONE,USED,"Excelente localização, com terraço, churrasque...","Excelente localização, com terraço, churrasque...",[],2022-05-23T23:16:11.096Z,[],[APARTMENT],NonActivationReason_NONE,43332.0,UNIT,[],0,,2563941482,GRUPOZAP,0,[2],2022-05-23T23:19:45.384Z,"{'country': 'BR', 'zipCode': '60115222', 'geoJ...",[2],STANDARD,L2338,[5],[RESIDENTIAL],[73],21f8bf92-c80f-c0cb-1399-e7287bde5ca1,{'phones': ['8533053000']},,[3],False,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,False,0,[],ACTIVE
3,ALL,[],[68],ConstructionStatus_NONE,USED,"Ótimo apartamento com 68m², com recepção, acad...","Ótimo apartamento com 68m², com recepção, acad...",[],2022-05-23T23:16:11.109Z,[],[APARTMENT],NonActivationReason_NONE,43332.0,UNIT,[],0,,2563938888,GRUPOZAP,0,[2],2022-05-23T23:22:49.370Z,"{'country': 'BR', 'zipCode': '60125150', 'geoJ...",[1],STANDARD,L2037,[3],[RESIDENTIAL],[68],21f8bf92-c80f-c0cb-1399-e7287bde5ca1,{'phones': ['8533053000']},,[3],False,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,False,0,[],ACTIVE
4,ALL,[PETS_ALLOWED],[276],ConstructionStatus_NONE,USED,Casa com 276m2 a uma quadra da Av. Jovita Feit...,Casa com 276m2 a uma quadra da Av. Jovita Feitosa,[],2022-05-23T18:42:50.258Z,[],[HOME],NonActivationReason_NONE,,UNIT,[],0,,2563921331,GRUPOZAP,0,[3],2022-05-23T19:21:27.265Z,"{'country': 'BR', 'zipCode': '60450490', 'geoJ...",[1],PREMIUM,JP302130,[3],[RESIDENTIAL],[276],87f26ab6-e5ef-7460-ae50-b999a79937de,"{'phones': ['8532244445', '85991418248']}",85991418248.0,[3],False,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,False,0,[],ACTIVE


In [20]:
for i in trange(1, number_of_zapimoveis_files):
  fp = open(get_zapimoveis_file_path(i), "r")
  zapimoveis_json = json_load(fp)
  zapimoveis_listings = zapimoveis_json["search"]["result"]["listings"]
  zapimoveis_listings = map(lambda el: el['listing'], zapimoveis_listings)
  zapimoveis_df = df.from_records(zapimoveis_listings)
  zapimoveis_dfs.append(zapimoveis_df)

100%|███████████████████████████████████████████████████████████████████| 78/78 [00:00<00:00, 94.89it/s]


In [21]:
zapimoveis_df_raw = pd.concat(zapimoveis_dfs)
print(f"Quantidade de linhas no dataset do ZapImoveis: {len(zapimoveis_df_raw)}\n\n")
zapimoveis_df_raw.head()

Quantidade de linhas no dataset do ZapImoveis: 7419




Unnamed: 0,displayAddressType,amenities,usableAreas,constructionStatus,listingType,description,title,stamps,createdAt,floors,unitTypes,nonActivationReason,providerId,propertyType,unitSubTypes,unitsOnTheFloor,legacyId,id,portal,unitFloor,parkingSpaces,updatedAt,address,suites,publicationType,externalId,bathrooms,usageTypes,totalAreas,advertiserId,advertiserContact,whatsappNumber,bedrooms,acceptExchange,pricingInfos,showPrice,resale,buildings,capacityLimit,status,priceSuggestion
0,ALL,"[GYM, POOL, PLAYGROUND, SPORTS_COURT, PARTY_HALL]",[75],ConstructionStatus_NONE,USED,Adriano Freire Imóveis aluga apartamento no Mo...,"Apartamento com 3 quartos, no MontBlanc Reside...",[],2022-05-23T19:48:19.423Z,[],[APARTMENT],NonActivationReason_NONE,19381.0,UNIT,[],0,,2563928464,GRUPOZAP,0,[2],2022-05-23T19:48:20.942Z,"{'country': 'BR', 'zipCode': '60190560', 'geoJ...",[2],STANDARD,AP7541,[3],[RESIDENTIAL],[75],aaa31266-c13f-74ad-1f85-5efc14307444,"{'phones': ['8530132400', '85981133290']}",85981133290.0,[3],False,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,False,0.0,[],ACTIVE,
1,ALL,"[CONCIERGE_24H, ELECTRONIC_GATE, GATED_COMMUNI...",[130],ConstructionStatus_NONE,USED,"Apartamento no bairro de Fátima com 3 quartos,...","Excelente apto 3 quartos, sendo 2 suítes Bairr...",[],2022-05-23T18:02:43.478Z,[],[APARTMENT],NonActivationReason_NONE,,UNIT,[],0,,2563918208,GRUPOZAP,0,[2],2022-05-23T18:15:22.131Z,"{'country': 'BR', 'zipCode': '60410356', 'geoJ...",[2],PREMIUM,1TV8U1A,[3],[RESIDENTIAL],[],5106bb84-0c28-6112-9cec-481f62782e38,"{'phones': ['8530239132', '85999257101']}",85999257101.0,[3],False,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,False,0.0,[],ACTIVE,
2,ALL,[],[73],ConstructionStatus_NONE,USED,"Excelente localização, com terraço, churrasque...","Excelente localização, com terraço, churrasque...",[],2022-05-23T23:16:11.096Z,[],[APARTMENT],NonActivationReason_NONE,43332.0,UNIT,[],0,,2563941482,GRUPOZAP,0,[2],2022-05-23T23:19:45.384Z,"{'country': 'BR', 'zipCode': '60115222', 'geoJ...",[2],STANDARD,L2338,[5],[RESIDENTIAL],[73],21f8bf92-c80f-c0cb-1399-e7287bde5ca1,{'phones': ['8533053000']},,[3],False,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,False,0.0,[],ACTIVE,
3,ALL,[],[68],ConstructionStatus_NONE,USED,"Ótimo apartamento com 68m², com recepção, acad...","Ótimo apartamento com 68m², com recepção, acad...",[],2022-05-23T23:16:11.109Z,[],[APARTMENT],NonActivationReason_NONE,43332.0,UNIT,[],0,,2563938888,GRUPOZAP,0,[2],2022-05-23T23:22:49.370Z,"{'country': 'BR', 'zipCode': '60125150', 'geoJ...",[1],STANDARD,L2037,[3],[RESIDENTIAL],[68],21f8bf92-c80f-c0cb-1399-e7287bde5ca1,{'phones': ['8533053000']},,[3],False,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,False,0.0,[],ACTIVE,
4,ALL,[PETS_ALLOWED],[276],ConstructionStatus_NONE,USED,Casa com 276m2 a uma quadra da Av. Jovita Feit...,Casa com 276m2 a uma quadra da Av. Jovita Feitosa,[],2022-05-23T18:42:50.258Z,[],[HOME],NonActivationReason_NONE,,UNIT,[],0,,2563921331,GRUPOZAP,0,[3],2022-05-23T19:21:27.265Z,"{'country': 'BR', 'zipCode': '60450490', 'geoJ...",[1],PREMIUM,JP302130,[3],[RESIDENTIAL],[276],87f26ab6-e5ef-7460-ae50-b999a79937de,"{'phones': ['8532244445', '85991418248']}",85991418248.0,[3],False,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,False,0.0,[],ACTIVE,


In [22]:
zapimoveis_df_raw.dtypes

displayAddressType      object
amenities               object
usableAreas             object
constructionStatus      object
listingType             object
description             object
title                   object
stamps                  object
createdAt               object
floors                  object
unitTypes               object
nonActivationReason     object
providerId              object
propertyType            object
unitSubTypes            object
unitsOnTheFloor          int64
legacyId                object
id                      object
portal                  object
unitFloor                int64
parkingSpaces           object
updatedAt               object
address                 object
suites                  object
publicationType         object
externalId              object
bathrooms               object
usageTypes              object
totalAreas              object
advertiserId            object
advertiserContact       object
whatsappNumber          object
bedrooms

## Análise preliminar dos dados

Em posse de ambos *dataframes*, podemos realizar análises e correções particulares a cada conjunto de dados, para que no final, seja possível unir ambos os *dataframes* em um único *dataset final*, no qual faremos mais algumas análises e correções, possivelmente.



Antes de darmos início a essa exploração nos dados, note que o *dataframe* do ZapImoveis possui mais colunas que o *dataframe* do VivaReal, portanto, podemos iniciar a análise pelo ZapImóveis, para identificarmos quais são as colunas extras do *dataset*.

In [23]:
print(f"Número de colunas do VivaReal: {len(vivareal_df_raw.columns)}")
print(f"Número de colunas do ZapImoveis: {len(zapimoveis_df_raw.columns)}")

Número de colunas do VivaReal: 30
Número de colunas do ZapImoveis: 41


### ZapImoveis

Primeiramente, vamos listar quais as colunas em comum e as colunas diferentes entre os datasets. 

In [24]:
print(f"Colunas em comum: ")
for column in zapimoveis_df_raw.columns.intersection(vivareal_df_raw.columns).to_list(): print(column)

Colunas em comum: 
displayAddressType
amenities
usableAreas
constructionStatus
listingType
description
title
stamps
unitTypes
nonActivationReason
propertyType
unitSubTypes
id
portal
parkingSpaces
address
suites
publicationType
externalId
bathrooms
usageTypes
totalAreas
advertiserId
advertiserContact
whatsappNumber
bedrooms
pricingInfos
showPrice
status


In [25]:
print(f"Colunas diferentes: ")
different_columns = zapimoveis_df_raw.columns.symmetric_difference(vivareal_df_raw.columns)
for column in different_columns.to_list(): print(column)

Colunas diferentes: 
acceptExchange
buildings
capacityLimit
createdAt
floors
legacyId
priceSuggestion
providerId
resale
unitFloor
unitsOnTheFloor
updatedAt
videoTourLink


Agora, das colunas diferentes entre os dois datasets, vamos verificar quais delas estão no dataframe do zap imóveis

In [26]:
zapimoveis_different_columns = different_columns.intersection(zapimoveis_df_raw.columns)
for column in zapimoveis_different_columns.to_list(): print(column)

acceptExchange
buildings
capacityLimit
createdAt
floors
legacyId
priceSuggestion
providerId
resale
unitFloor
unitsOnTheFloor
updatedAt


Agora, analisemos os dados presentes nestas colunas. Eles são relevantes em nossa análise? A princípio, podemos identificar alguns que não são necessários, como `updatedAt`, `createdAt`, `providerId` e `legacyId`.

In [27]:
zapimoveis_df_raw[zapimoveis_different_columns]

Unnamed: 0,acceptExchange,buildings,capacityLimit,createdAt,floors,legacyId,priceSuggestion,providerId,resale,unitFloor,unitsOnTheFloor,updatedAt
0,False,0.0,[],2022-05-23T19:48:19.423Z,[],,,19381,False,0,0,2022-05-23T19:48:20.942Z
1,False,0.0,[],2022-05-23T18:02:43.478Z,[],,,,False,0,0,2022-05-23T18:15:22.131Z
2,False,0.0,[],2022-05-23T23:16:11.096Z,[],,,43332,False,0,0,2022-05-23T23:19:45.384Z
3,False,0.0,[],2022-05-23T23:16:11.109Z,[],,,43332,False,0,0,2022-05-23T23:22:49.370Z
4,False,0.0,[],2022-05-23T18:42:50.258Z,[],,,,False,0,0,2022-05-23T19:21:27.265Z
...,...,...,...,...,...,...,...,...,...,...,...,...
81,False,0.0,[],2021-09-01T06:33:40.088Z,[],,,19953,False,0,0,2022-05-06T10:09:20.716Z
82,False,0.0,[],2021-02-12T06:40:40.684Z,[],,,56232,False,0,0,2022-02-03T01:01:34.054Z
83,False,0.0,[],2020-09-02T08:41:41.575Z,[],,,19953,False,0,0,2022-02-15T19:30:10.672Z
84,False,0.0,[],2021-03-04T07:20:44.855Z,[],,,56232,False,0,0,2022-02-03T01:01:34.657Z


Para ter uma noção mais precisa do que é armazenado nesses atributos extras, é interessante analisarmos quais os valores que existem no dataset para estas colunas. Vamos usar o método `describe` para ter uma noção rápida sobre os valores numéricos.

In [28]:
zapimoveis_df_raw[zapimoveis_different_columns].describe()

Unnamed: 0,buildings,unitFloor,unitsOnTheFloor
count,7415.0,7419.0,7419.0
mean,0.050169,0.68055,0.196927
std,0.407863,18.651126,1.343894
min,0.0,0.0,0.0
25%,0.0,0.0,0.0
50%,0.0,0.0,0.0
75%,0.0,0.0,0.0
max,16.0,1317.0,28.0


Note que em sua grande maioria, estes atributos apresentam valor `0`, um forte indício de que não farão falta em nosso *dataset* final. Para ter mais uma evidência, podemos analisar a frequência dos valores de cada uma dessas colunas, usando o método `value_counts`.

In [29]:
zapimoveis_df_raw[zapimoveis_different_columns]['buildings'].value_counts()

0.0     7187
1.0      167
2.0       34
4.0       12
3.0        8
6.0        2
8.0        1
10.0       1
16.0       1
12.0       1
7.0        1
Name: buildings, dtype: int64

In [30]:
zapimoveis_df_raw[zapimoveis_different_columns]['unitFloor'].value_counts()

0       6930
1        126
2         59
3         57
4         37
8         23
5         21
10        19
7         18
6         18
9         18
15        13
11        12
19        11
13        11
14        10
16         8
17         7
12         7
20         6
18         3
21         2
1317       1
23         1
905        1
Name: unitFloor, dtype: int64

In [31]:
zapimoveis_df_raw[zapimoveis_different_columns]['unitsOnTheFloor'].value_counts()

0     7165
4       74
2       35
3       24
8       21
1       19
6       14
5       13
7       10
10       9
17       8
12       7
9        4
18       3
15       3
11       3
16       2
14       1
20       1
24       1
28       1
21       1
Name: unitsOnTheFloor, dtype: int64

Assim, podemos concluir que esses atributos (buildings, unitsOnTheFloor e unitFloor) não são necessários para nosso *dataframe* final, pois em sua grande maioria assumem o valor 0. Note que alguns casos até aparentam ser erros, como o campo `unitFloor` assumindo valor 1317 (ou seja, um apartamento no andar 1317?!).

O método `describe` também funciona para atributos do tipo *object* e *boolean*, basta informar no parâmetro `include`. Com isso, podemos avaliar rapidamente a quantidade de valores únicos para cada atributo.

In [32]:
zapimoveis_df_raw[zapimoveis_different_columns].describe(include = ['O', 'bool'])

Unnamed: 0,acceptExchange,capacityLimit,createdAt,floors,legacyId,priceSuggestion,providerId,resale,updatedAt
count,7419,7419,7419,7419,7419.0,6,7419.0,7419,7419
unique,2,2,6957,28,59.0,6,140.0,2,5184
top,False,[],2022-05-23T19:48:19.422Z,[],,"{'min': 8.99, 'central': 11.24, 'max': 13.49, ...",,False,2022-05-18T16:20:13.771Z
freq,7418,7418,5,7106,7361.0,1,1408.0,7413,391


A partir desses dados, podemos concluir que esses atributos de fato podem ser removidos do dataset sem grandes percas, pois como podemos ver, eles praticamente não são usados. `capacityLimit` assume valor diferente de `[]` apenas uma vez, `floors` tem 28 possibilidades de valores distintos, contudo, em apenas 313 imóveis esse atributo é diferente de `[]`, `priceSuggestion` só está presente para 6 imóveis, `acceptExchange` é `True` apenas uma vez, e `resale` é `True` apenas 6 vezes.

Portanto, vamos dropar todas essas colunas do dataframe, para isso, utilizamos o método `drop` do dataframe, informando as colunas a serem removidas.

In [33]:
zapimoveis_correct_columns = zapimoveis_df_raw.drop(columns = zapimoveis_different_columns)

In [34]:
zapimoveis_correct_columns.columns

Index(['displayAddressType', 'amenities', 'usableAreas', 'constructionStatus',
       'listingType', 'description', 'title', 'stamps', 'unitTypes',
       'nonActivationReason', 'propertyType', 'unitSubTypes', 'id', 'portal',
       'parkingSpaces', 'address', 'suites', 'publicationType', 'externalId',
       'bathrooms', 'usageTypes', 'totalAreas', 'advertiserId',
       'advertiserContact', 'whatsappNumber', 'bedrooms', 'pricingInfos',
       'showPrice', 'status'],
      dtype='object')

Agora, podemos recalcular quais as colunas diferentes entre os *datasets*, verificando se existem mais colunas a serem 'padronizadas' entre ambos os *datasets*.

In [35]:
different_columns = zapimoveis_correct_columns.columns.symmetric_difference(vivareal_df_raw.columns)
for column in different_columns.to_list(): print(column)

videoTourLink


O único atributo distinto entre os *datasets* é o atributo `videoTourLink`, que pertence ao *dataset* do VivaReal

### VivaReal

Primeiramente, vamos analisar quais os valores assumidos pelo atributo `videoTourLink`

In [36]:
vivareal_df_raw["videoTourLink"]

0      
1      
2      
3      
4      
     ..
81     
82     
83     
84     
85     
Name: videoTourLink, Length: 7586, dtype: object

In [37]:
vivareal_df_raw["videoTourLink"].unique()

array(['', 'http://comdal.com.br/site/imovel-comercial-na-parangaba/',
       'https://www.youtube.com/watch?v=YEBBt3tidAc',
       'https://youtu.be/X1ANUh31zqs',
       'https://meutour360.com.br/tour-360/rua-d-56-apto-204',
       'bit.ly/2JHYRLL',
       'https://www.youtube.com/watch?v=6rU-pQToIA8&t=112s',
       'https://www.banibconecta.com/site/tour/erandir-ferreira-da-silva/the-loft/autostart',
       'https://tour360.meupasseiovirtual.com/036232/166458/tourvirtual/',
       'http://comdal.com.br/site/terreno-na-tiburcio-cavalcante/',
       'https://www.meutour360.com.br/tour-360/ca1702-rua-joao-lobo-filho-no-327-fortaleza',
       'https://goo.gl/maps/jALVm72mMzQo953j7',
       'http://comdal.com.br/site/terreno-avenida-edilson-brasil-soares/',
       'http://comdal.com.br/site/terreno-posto-sao-geraldo/',
       'https://tour360.meupasseiovirtual.com/036232/161740/tourvirtual/',
       'https://tour360.meupasseiovirtual.com/036232/161710/tourvirtual/index.html',
       'htt

In [38]:
vivareal_df_raw["videoTourLink"].value_counts()

                                                                                7520
https://www.youtube.com/watch?v=YEBBt3tidAc                                        2
https://tour360.meupasseiovirtual.com/036232/162765/tourvirtual/index.html         2
https://ws.hvr360.net/tourvirtual/popup/kxg718/SA0130                              2
https://ws.hvr360.net/tourvirtual/popup/kxg718/AP1463                              1
                                                                                ... 
https://grautour.com/public/plugins/1705191495196031/ver-360.php?id=AP0213_1       1
https://grautour.com/public/plugins/1705191495196031/ver-360.php?id=AP0282         1
https://www.youtube.com/watch?v=3AK0VoGm52o                                        1
https://grautour.com/public/plugins/1705191495196031/ver-360.php?id=SA0075         1
https://ws.hvr360.net/tourvirtual/popup/kxg718/SA0061                              1
Name: videoTourLink, Length: 64, dtype: int64

Perceba que a grande maioria dos imóveis presentes no dataset não possui um vídeo apresentando o imóvel, e como esse atributo não é relevante para nossas análises, podemos removê-lo sem maiores problemas.

In [39]:
vivareal_correct_columns = vivareal_df_raw.drop(columns = ['videoTourLink'])
vivareal_correct_columns.columns

Index(['displayAddressType', 'amenities', 'usableAreas', 'constructionStatus',
       'listingType', 'description', 'title', 'unitTypes',
       'nonActivationReason', 'propertyType', 'unitSubTypes', 'id', 'portal',
       'parkingSpaces', 'address', 'suites', 'publicationType', 'externalId',
       'bathrooms', 'usageTypes', 'totalAreas', 'advertiserId', 'bedrooms',
       'pricingInfos', 'showPrice', 'status', 'advertiserContact',
       'whatsappNumber', 'stamps'],
      dtype='object')

In [40]:
different_columns = zapimoveis_correct_columns.columns.symmetric_difference(vivareal_correct_columns.columns)
different_columns

Index([], dtype='object')

## Unindo os dois *dataframes* 

Agora, ambos os *datasets* possuem as mesmas colunas, resta saber se os tipos entre as colunas são compatíveis, para realizar a concatenação dos *dataframes* sem maiores problemas. Para isso, podemos verificar se os *dtypes* de ambos os *dataframes* são iguais.

In [41]:
vivareal_correct_columns.dtypes.sort_index()

address                object
advertiserContact      object
advertiserId           object
amenities              object
bathrooms              object
bedrooms               object
constructionStatus     object
description            object
displayAddressType     object
externalId             object
id                     object
listingType            object
nonActivationReason    object
parkingSpaces          object
portal                 object
pricingInfos           object
propertyType           object
publicationType        object
showPrice                bool
stamps                 object
status                 object
suites                 object
title                  object
totalAreas             object
unitSubTypes           object
unitTypes              object
usableAreas            object
usageTypes             object
whatsappNumber         object
dtype: object

In [42]:
zapimoveis_correct_columns.dtypes.sort_index()

address                object
advertiserContact      object
advertiserId           object
amenities              object
bathrooms              object
bedrooms               object
constructionStatus     object
description            object
displayAddressType     object
externalId             object
id                     object
listingType            object
nonActivationReason    object
parkingSpaces          object
portal                 object
pricingInfos           object
propertyType           object
publicationType        object
showPrice                bool
stamps                 object
status                 object
suites                 object
title                  object
totalAreas             object
unitSubTypes           object
unitTypes              object
usableAreas            object
usageTypes             object
whatsappNumber         object
dtype: object

In [43]:
vivareal_correct_columns.dtypes.sort_index() == zapimoveis_correct_columns.dtypes.sort_index()

address                True
advertiserContact      True
advertiserId           True
amenities              True
bathrooms              True
bedrooms               True
constructionStatus     True
description            True
displayAddressType     True
externalId             True
id                     True
listingType            True
nonActivationReason    True
parkingSpaces          True
portal                 True
pricingInfos           True
propertyType           True
publicationType        True
showPrice              True
stamps                 True
status                 True
suites                 True
title                  True
totalAreas             True
unitSubTypes           True
unitTypes              True
usableAreas            True
usageTypes             True
whatsappNumber         True
dtype: bool

Observe que a comparação de ambos os `dtypes` retorna `True` para todos os campos, portanto, os tipos dos atributos entre os *datasets* são compatíveis, logo podemos concatená-los sem problemas! Para realizar a concatenação, utilizamos novamente o método `concat` do pandas.

In [44]:
rents_df = pd.concat([vivareal_correct_columns, zapimoveis_correct_columns])
rents_df

Unnamed: 0,displayAddressType,amenities,usableAreas,constructionStatus,listingType,description,title,unitTypes,nonActivationReason,propertyType,unitSubTypes,id,portal,parkingSpaces,address,suites,publicationType,externalId,bathrooms,usageTypes,totalAreas,advertiserId,bedrooms,pricingInfos,showPrice,status,advertiserContact,whatsappNumber,stamps
0,ALL,"[ELEVATOR, GATED_COMMUNITY, GARDEN, PLAYGROUND...",[70],ConstructionStatus_NONE,USED,IMÓVEL IMPECÁVEL! L I N D A V I S T A M A R! <...,Apartamento para aluguel tem 70 metros quadrad...,[APARTMENT],NonActivationReason_NONE,UNIT,[],2562524561,GRUPOZAP,[2],"{'country': 'BR', 'zipCode': '60170000', 'geoJ...",[2],PREMIUM,QGC3OEKO,[2],[RESIDENTIAL],[70],ff52eb4d-636c-e327-d8f0-7e576aa266c6,[2],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,{'phones': ['85985685000']},85985685000,[]
1,ALL,"[FURNISHED, BARBECUE_GRILL, ELEVATOR, GATED_CO...",[60],ConstructionStatus_NONE,USED,"Apartamento Duplex 60 m2, com 02 suítes, total...","Apartamento DUPLEX MOBILIADO, 02 suítes, em Me...",[APARTMENT],NonActivationReason_NONE,UNIT,[],2515185773,GRUPOZAP,[1],"{'country': 'BR', 'zipCode': '60170210', 'geoJ...",[2],PREMIUM,5WFQM4GZ,[2],[RESIDENTIAL],[69],a239c50b-0319-1aa0-6ef7-3837586b4063,[2],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,{'phones': ['11981751746']},11981751746,[]
2,ALL,"[AIR_CONDITIONING, PORCELAIN]",[35],ConstructionStatus_NONE,USED,ANDAR ALTO;<br>PISO EM PORCELANATO;<br>ILUMINA...,"Sala comercial, localização INENARRÁVEL / para...",[OFFICE],NonActivationReason_NONE,UNIT,[],2534494892,GRUPOZAP,[],"{'country': 'BR', 'zipCode': '60160230', 'geoJ...",[],PREMIUM,FW367WSA,[1],[COMMERCIAL],[35],ff52eb4d-636c-e327-d8f0-7e576aa266c6,[],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,{'phones': ['85985685000']},85985685000,[]
3,ALL,[],[33],ConstructionStatus_NONE,USED,"Salas com piso em porcelanato bianco, com forr...",Scopa Platinum Corporate - Salas amplas com WC,[OFFICE],NonActivationReason_NONE,UNIT,[],2516799902,GRUPOZAP,[1],"{'country': 'BR', 'zipCode': '60115191', 'geoJ...",[],PREMIUM,FQSV6NGN,[1],[COMMERCIAL],[],11c4ded5-8ea5-2404-2183-e5e985813374,[],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,{'phones': ['85991180986']},85991180986,[]
4,ALL,[],[30],ConstructionStatus_NONE,USED,COMPSA – COMPARTILHAMENTO DE SALAS: <br>I. MOB...,"COMPSA - Compartilhamento de Salas - Hora, Exp...",[OFFICE],NonActivationReason_NONE,UNIT,[CLINIC],2532715897,GRUPOZAP,[0],"{'country': 'BR', 'zipCode': '60140120', 'geoJ...",[0],PREMIUM,GY3AMWXI,[0],[COMMERCIAL],[],2cb4a334-9204-a7c6-6c50-0f503453322a,[0],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,"{'phones': ['85988312527', '85998340077']}",85998340077,[]
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
81,ALL,[],[7000],ConstructionStatus_NONE,USED,"Excelente terreno com 3 frentes, 7.000M² de ár...",Terreno com 7mil m² para alugar na BR 116,[COMMERCIAL_ALLOTMENT_LAND],NonActivationReason_NONE,UNIT,[],2532936392,GRUPOZAP,[0],"{'country': 'BR', 'zipCode': '60864012', 'geoJ...",[0],STANDARD,TE0094,[0],[COMMERCIAL],[7000],ad5fe715-fe78-13a9-9ad1-0d1926f4b893,[0],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,{'phones': ['8530551111']},,[]
82,NEIGHBORHOOD,[],[15],ConstructionStatus_NONE,USED,,Sala Comercial,[OFFICE],NonActivationReason_NONE,UNIT,[],2510762525,GRUPOZAP,[0],"{'country': 'BR', 'zipCode': '60752483', 'geoJ...",[0],STANDARD,SA0066,[1],[COMMERCIAL],[15],c27910a9-7ff5-fbc7-b3a8-8deca3b971d2,[0],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,"{'phones': ['8534444810', '85981472775']}",85981472775,[]
83,ALL,"[KITCHEN, BACKYARD, SERVICE_AREA]",[594],ConstructionStatus_NONE,USED,"Casa residencial ou comercial com 594 m², loca...",Casa para alugar com 594 m² no Vila Velha,[HOME],NonActivationReason_NONE,UNIT,[],2494679159,GRUPOZAP,[12],"{'country': 'BR', 'zipCode': '60345631', 'geoJ...",[2],STANDARD,CA0136,[4],[RESIDENTIAL],[594],ad5fe715-fe78-13a9-9ad1-0d1926f4b893,[5],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,{'phones': ['8530551111']},,[]
84,NEIGHBORHOOD,[],[297],ConstructionStatus_NONE,USED,,Ponto Comercial,[BUSINESS],NonActivationReason_NONE,UNIT,[],2512728603,GRUPOZAP,[0],"{'country': 'BR', 'zipCode': '60873155', 'geoJ...",[0],STANDARD,PT0105,[1],[COMMERCIAL],[297],c27910a9-7ff5-fbc7-b3a8-8deca3b971d2,[0],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,"{'phones': ['8534444810', '85981472775']}",85981472775,[]


## Tratamento final de dados


### Definindo atributos de interesse

Como queremos montar um dataset de casas para alugar, é interessante termos pelo menos os seguintes dados:

- Preço do aluguel
- Preço do condomínio
- Valor do iptu
- Número de quartos
- Benefícios disponíveis
- Número de vagas de estacionamento
- Bairro
- Número de suítes
- Número de banheiros
- Área em m²
- Latitude e longitude ; preferir usableAreas do que totalAreas

O nome da rua do imóvel também pode ser útil, mas aqui, vamos deixá-lo de fora, pois ter a latitude e longitude deve ser mais útil (pois talvez seja possível criar clusters, por exemplo, analisar imóveis próximos).

Abaixo, vamos investigar se existem mais atributos úteis no dataset ou não, e por fim, remover aqueles que não serão utilizados.

In [45]:
rents_df

Unnamed: 0,displayAddressType,amenities,usableAreas,constructionStatus,listingType,description,title,unitTypes,nonActivationReason,propertyType,unitSubTypes,id,portal,parkingSpaces,address,suites,publicationType,externalId,bathrooms,usageTypes,totalAreas,advertiserId,bedrooms,pricingInfos,showPrice,status,advertiserContact,whatsappNumber,stamps
0,ALL,"[ELEVATOR, GATED_COMMUNITY, GARDEN, PLAYGROUND...",[70],ConstructionStatus_NONE,USED,IMÓVEL IMPECÁVEL! L I N D A V I S T A M A R! <...,Apartamento para aluguel tem 70 metros quadrad...,[APARTMENT],NonActivationReason_NONE,UNIT,[],2562524561,GRUPOZAP,[2],"{'country': 'BR', 'zipCode': '60170000', 'geoJ...",[2],PREMIUM,QGC3OEKO,[2],[RESIDENTIAL],[70],ff52eb4d-636c-e327-d8f0-7e576aa266c6,[2],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,{'phones': ['85985685000']},85985685000,[]
1,ALL,"[FURNISHED, BARBECUE_GRILL, ELEVATOR, GATED_CO...",[60],ConstructionStatus_NONE,USED,"Apartamento Duplex 60 m2, com 02 suítes, total...","Apartamento DUPLEX MOBILIADO, 02 suítes, em Me...",[APARTMENT],NonActivationReason_NONE,UNIT,[],2515185773,GRUPOZAP,[1],"{'country': 'BR', 'zipCode': '60170210', 'geoJ...",[2],PREMIUM,5WFQM4GZ,[2],[RESIDENTIAL],[69],a239c50b-0319-1aa0-6ef7-3837586b4063,[2],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,{'phones': ['11981751746']},11981751746,[]
2,ALL,"[AIR_CONDITIONING, PORCELAIN]",[35],ConstructionStatus_NONE,USED,ANDAR ALTO;<br>PISO EM PORCELANATO;<br>ILUMINA...,"Sala comercial, localização INENARRÁVEL / para...",[OFFICE],NonActivationReason_NONE,UNIT,[],2534494892,GRUPOZAP,[],"{'country': 'BR', 'zipCode': '60160230', 'geoJ...",[],PREMIUM,FW367WSA,[1],[COMMERCIAL],[35],ff52eb4d-636c-e327-d8f0-7e576aa266c6,[],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,{'phones': ['85985685000']},85985685000,[]
3,ALL,[],[33],ConstructionStatus_NONE,USED,"Salas com piso em porcelanato bianco, com forr...",Scopa Platinum Corporate - Salas amplas com WC,[OFFICE],NonActivationReason_NONE,UNIT,[],2516799902,GRUPOZAP,[1],"{'country': 'BR', 'zipCode': '60115191', 'geoJ...",[],PREMIUM,FQSV6NGN,[1],[COMMERCIAL],[],11c4ded5-8ea5-2404-2183-e5e985813374,[],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,{'phones': ['85991180986']},85991180986,[]
4,ALL,[],[30],ConstructionStatus_NONE,USED,COMPSA – COMPARTILHAMENTO DE SALAS: <br>I. MOB...,"COMPSA - Compartilhamento de Salas - Hora, Exp...",[OFFICE],NonActivationReason_NONE,UNIT,[CLINIC],2532715897,GRUPOZAP,[0],"{'country': 'BR', 'zipCode': '60140120', 'geoJ...",[0],PREMIUM,GY3AMWXI,[0],[COMMERCIAL],[],2cb4a334-9204-a7c6-6c50-0f503453322a,[0],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,"{'phones': ['85988312527', '85998340077']}",85998340077,[]
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
81,ALL,[],[7000],ConstructionStatus_NONE,USED,"Excelente terreno com 3 frentes, 7.000M² de ár...",Terreno com 7mil m² para alugar na BR 116,[COMMERCIAL_ALLOTMENT_LAND],NonActivationReason_NONE,UNIT,[],2532936392,GRUPOZAP,[0],"{'country': 'BR', 'zipCode': '60864012', 'geoJ...",[0],STANDARD,TE0094,[0],[COMMERCIAL],[7000],ad5fe715-fe78-13a9-9ad1-0d1926f4b893,[0],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,{'phones': ['8530551111']},,[]
82,NEIGHBORHOOD,[],[15],ConstructionStatus_NONE,USED,,Sala Comercial,[OFFICE],NonActivationReason_NONE,UNIT,[],2510762525,GRUPOZAP,[0],"{'country': 'BR', 'zipCode': '60752483', 'geoJ...",[0],STANDARD,SA0066,[1],[COMMERCIAL],[15],c27910a9-7ff5-fbc7-b3a8-8deca3b971d2,[0],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,"{'phones': ['8534444810', '85981472775']}",85981472775,[]
83,ALL,"[KITCHEN, BACKYARD, SERVICE_AREA]",[594],ConstructionStatus_NONE,USED,"Casa residencial ou comercial com 594 m², loca...",Casa para alugar com 594 m² no Vila Velha,[HOME],NonActivationReason_NONE,UNIT,[],2494679159,GRUPOZAP,[12],"{'country': 'BR', 'zipCode': '60345631', 'geoJ...",[2],STANDARD,CA0136,[4],[RESIDENTIAL],[594],ad5fe715-fe78-13a9-9ad1-0d1926f4b893,[5],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,{'phones': ['8530551111']},,[]
84,NEIGHBORHOOD,[],[297],ConstructionStatus_NONE,USED,,Ponto Comercial,[BUSINESS],NonActivationReason_NONE,UNIT,[],2512728603,GRUPOZAP,[0],"{'country': 'BR', 'zipCode': '60873155', 'geoJ...",[0],STANDARD,PT0105,[1],[COMMERCIAL],[297],c27910a9-7ff5-fbc7-b3a8-8deca3b971d2,[0],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,"{'phones': ['8534444810', '85981472775']}",85981472775,[]


In [46]:
rents_df.describe()

Unnamed: 0,displayAddressType,amenities,usableAreas,constructionStatus,listingType,description,title,unitTypes,nonActivationReason,propertyType,unitSubTypes,id,portal,parkingSpaces,address,suites,publicationType,externalId,bathrooms,usageTypes,totalAreas,advertiserId,bedrooms,pricingInfos,showPrice,status,advertiserContact,whatsappNumber,stamps
count,15005,15005,15005,15005,15005,15005,15005,15005,15005,15005,15005,15005,15005,15005,15005,15005,15005,15005,15005,15005,15005,15005,15005,15005,15005,15005,15005,15005.0,15005
unique,3,1695,807,1,1,6651,5490,19,1,1,17,7588,2,38,7076,18,3,6987,25,3,843,396,25,4513,1,1,397,364.0,2
top,ALL,[],[30],ConstructionStatus_NONE,USED,GARAGEM para alugar no bairro ALDEOTA,SALA para alugar na cidade de FORTALEZA-CE,[APARTMENT],NonActivationReason_NONE,UNIT,[],2563919083,GRUPOZAP,[0],"{'country': 'BR', 'zipCode': '60160230', 'geoJ...",[0],STANDARD,PT0022,[1],[RESIDENTIAL],[],61169048-ace0-3daa-e89c-3048088b59b5,[0],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",True,ACTIVE,{'phones': ['8534664343']},,[]
freq,9939,7784,944,15005,15005,174,530,5251,15005,15005,14499,3,15004,7689,22,8679,11526,12,6815,7711,1508,1852,6515,172,15005,15005,1852,6082.0,14296


Atualmente, o *dataset* possui 29 colunas, porém, diversas não serão necessárias para nosso trabalho, abaixo, vamos listar algumas dessas colunas que serão removidas.

- `displayAddressType`, pois apenas controla como o endereço deve ser exibido na interface dos sites
- `constructionStatus`, aqui, não estamos preocupados se as residências ainda estão em construção ou não, apenas no preço do aluguel
- `listingType`, esse atributo sempre assume o valor `USED`, talvez ele seria relevante, pois seria possível analisar se imóveis novos tem aluguel significativamente diferente das casas usadas
- `nonActivationReason`, pois assume sempre o mesmo valor
- `propertyType`, por sempre assumir o mesmo valor
- `portal`, apenas informa a origem do dado
- `publicationType`, só informa qual o tipo daquela publicação nos sistemas
- `advertiserId`, id do anunciante, irrelevante para nosso objetivo
- `showPrice`, é sempre true e também não é relevante para nosso trabalho
- `status`, é sempre `ACTIVE` e também não é relevante para nosso trabalho
- `advertiserContact` e `whatsappNumber`, são informações de contato dos anunciantes, que são irrelevante para o nosso trabalho

Além disso, existem mais algumas colunas que podemos remover, mas que antes precisamos realizar mais algumas análises sobre elas para tomar a decisão

- `id` e `externalId`, pois podemos usar o id para procurar imóveis duplicados
- `description` e `title`, também podemos usá-los para identificar imóveis duplicados, com base nas descrições idênticas por exemplo. Além disso, pode fazer sentido manter esses atributos para auxiliar nas análises, pois os membros podem fornecer *insights* sobre os dados, embora não devam ser utilizados na criação do modelo final
- `stamps`, pois só com base no nome do atributo não conseguimos informar a sua finalidade
- `unitSubTypes`, pois o campo `unitTypes` já informa o tipo da unidade (se é apartamento, casa, etc), enquanto `unitSubTypes` parece trazer um detalhamento mais fino a respeito do tipo da unidade, isso pode ser útil, mas vai depender dos valores presentes nesse atributo

Abaixo, removemos as colunas que já decidimos descartar

In [47]:
columns_to_drop = ["displayAddressType", 
                   "constructionStatus", 
                   "listingType", 
                   "nonActivationReason", 
                   "propertyType", 
                   "portal", 
                   "publicationType", 
                   "advertiserId", 
                   "showPrice",
                   "status", 
                   "advertiserContact",
                   "whatsappNumber"
                   ]

rents_df = rents_df.drop(columns=columns_to_drop)
rents_df

Unnamed: 0,amenities,usableAreas,description,title,unitTypes,unitSubTypes,id,parkingSpaces,address,suites,externalId,bathrooms,usageTypes,totalAreas,bedrooms,pricingInfos,stamps
0,"[ELEVATOR, GATED_COMMUNITY, GARDEN, PLAYGROUND...",[70],IMÓVEL IMPECÁVEL! L I N D A V I S T A M A R! <...,Apartamento para aluguel tem 70 metros quadrad...,[APARTMENT],[],2562524561,[2],"{'country': 'BR', 'zipCode': '60170000', 'geoJ...",[2],QGC3OEKO,[2],[RESIDENTIAL],[70],[2],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",[]
1,"[FURNISHED, BARBECUE_GRILL, ELEVATOR, GATED_CO...",[60],"Apartamento Duplex 60 m2, com 02 suítes, total...","Apartamento DUPLEX MOBILIADO, 02 suítes, em Me...",[APARTMENT],[],2515185773,[1],"{'country': 'BR', 'zipCode': '60170210', 'geoJ...",[2],5WFQM4GZ,[2],[RESIDENTIAL],[69],[2],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",[]
2,"[AIR_CONDITIONING, PORCELAIN]",[35],ANDAR ALTO;<br>PISO EM PORCELANATO;<br>ILUMINA...,"Sala comercial, localização INENARRÁVEL / para...",[OFFICE],[],2534494892,[],"{'country': 'BR', 'zipCode': '60160230', 'geoJ...",[],FW367WSA,[1],[COMMERCIAL],[35],[],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",[]
3,[],[33],"Salas com piso em porcelanato bianco, com forr...",Scopa Platinum Corporate - Salas amplas com WC,[OFFICE],[],2516799902,[1],"{'country': 'BR', 'zipCode': '60115191', 'geoJ...",[],FQSV6NGN,[1],[COMMERCIAL],[],[],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",[]
4,[],[30],COMPSA – COMPARTILHAMENTO DE SALAS: <br>I. MOB...,"COMPSA - Compartilhamento de Salas - Hora, Exp...",[OFFICE],[CLINIC],2532715897,[0],"{'country': 'BR', 'zipCode': '60140120', 'geoJ...",[0],GY3AMWXI,[0],[COMMERCIAL],[],[0],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",[]
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
81,[],[7000],"Excelente terreno com 3 frentes, 7.000M² de ár...",Terreno com 7mil m² para alugar na BR 116,[COMMERCIAL_ALLOTMENT_LAND],[],2532936392,[0],"{'country': 'BR', 'zipCode': '60864012', 'geoJ...",[0],TE0094,[0],[COMMERCIAL],[7000],[0],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",[]
82,[],[15],,Sala Comercial,[OFFICE],[],2510762525,[0],"{'country': 'BR', 'zipCode': '60752483', 'geoJ...",[0],SA0066,[1],[COMMERCIAL],[15],[0],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",[]
83,"[KITCHEN, BACKYARD, SERVICE_AREA]",[594],"Casa residencial ou comercial com 594 m², loca...",Casa para alugar com 594 m² no Vila Velha,[HOME],[],2494679159,[12],"{'country': 'BR', 'zipCode': '60345631', 'geoJ...",[2],CA0136,[4],[RESIDENTIAL],[594],[5],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",[]
84,[],[297],,Ponto Comercial,[BUSINESS],[],2512728603,[0],"{'country': 'BR', 'zipCode': '60873155', 'geoJ...",[0],PT0105,[1],[COMMERCIAL],[297],[0],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",[]


Agora, analizamos os valores possíveis para a coluna `stamps`, note que a mesma é uma lista, portanto, fazemos uma transformação para `string` com o método `map` para que o método `value_counts` possa funcionar corretamente. 

In [48]:
rents_df['stamps'].map(str).value_counts()

[]                      14296
['DATAZAP_APPROVED']      709
Name: stamps, dtype: int64

O atributo é usado em apenas cerca de 5% dos imóveis, além disso, aparenta ser apenas uma indicação que o imóvel foi 'aprovado', possivelmente o atributo tem apenas um fim publicitário, portanto, iremos removê-lo. 

In [49]:
rents_df = rents_df.drop(columns=["stamps"])
rents_df

Unnamed: 0,amenities,usableAreas,description,title,unitTypes,unitSubTypes,id,parkingSpaces,address,suites,externalId,bathrooms,usageTypes,totalAreas,bedrooms,pricingInfos
0,"[ELEVATOR, GATED_COMMUNITY, GARDEN, PLAYGROUND...",[70],IMÓVEL IMPECÁVEL! L I N D A V I S T A M A R! <...,Apartamento para aluguel tem 70 metros quadrad...,[APARTMENT],[],2562524561,[2],"{'country': 'BR', 'zipCode': '60170000', 'geoJ...",[2],QGC3OEKO,[2],[RESIDENTIAL],[70],[2],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant..."
1,"[FURNISHED, BARBECUE_GRILL, ELEVATOR, GATED_CO...",[60],"Apartamento Duplex 60 m2, com 02 suítes, total...","Apartamento DUPLEX MOBILIADO, 02 suítes, em Me...",[APARTMENT],[],2515185773,[1],"{'country': 'BR', 'zipCode': '60170210', 'geoJ...",[2],5WFQM4GZ,[2],[RESIDENTIAL],[69],[2],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant..."
2,"[AIR_CONDITIONING, PORCELAIN]",[35],ANDAR ALTO;<br>PISO EM PORCELANATO;<br>ILUMINA...,"Sala comercial, localização INENARRÁVEL / para...",[OFFICE],[],2534494892,[],"{'country': 'BR', 'zipCode': '60160230', 'geoJ...",[],FW367WSA,[1],[COMMERCIAL],[35],[],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant..."
3,[],[33],"Salas com piso em porcelanato bianco, com forr...",Scopa Platinum Corporate - Salas amplas com WC,[OFFICE],[],2516799902,[1],"{'country': 'BR', 'zipCode': '60115191', 'geoJ...",[],FQSV6NGN,[1],[COMMERCIAL],[],[],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant..."
4,[],[30],COMPSA – COMPARTILHAMENTO DE SALAS: <br>I. MOB...,"COMPSA - Compartilhamento de Salas - Hora, Exp...",[OFFICE],[CLINIC],2532715897,[0],"{'country': 'BR', 'zipCode': '60140120', 'geoJ...",[0],GY3AMWXI,[0],[COMMERCIAL],[],[0],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
81,[],[7000],"Excelente terreno com 3 frentes, 7.000M² de ár...",Terreno com 7mil m² para alugar na BR 116,[COMMERCIAL_ALLOTMENT_LAND],[],2532936392,[0],"{'country': 'BR', 'zipCode': '60864012', 'geoJ...",[0],TE0094,[0],[COMMERCIAL],[7000],[0],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant..."
82,[],[15],,Sala Comercial,[OFFICE],[],2510762525,[0],"{'country': 'BR', 'zipCode': '60752483', 'geoJ...",[0],SA0066,[1],[COMMERCIAL],[15],[0],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant..."
83,"[KITCHEN, BACKYARD, SERVICE_AREA]",[594],"Casa residencial ou comercial com 594 m², loca...",Casa para alugar com 594 m² no Vila Velha,[HOME],[],2494679159,[12],"{'country': 'BR', 'zipCode': '60345631', 'geoJ...",[2],CA0136,[4],[RESIDENTIAL],[594],[5],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant..."
84,[],[297],,Ponto Comercial,[BUSINESS],[],2512728603,[0],"{'country': 'BR', 'zipCode': '60873155', 'geoJ...",[0],PT0105,[1],[COMMERCIAL],[297],[0],"[{'rentalInfo': {'period': 'MONTHLY', 'warrant..."


### Transformando valores em listas

Existem diversos atributos do *dataframe* que estão como listas, mesmo que seja uma lista somente com um elemento, portanto, vamos tratar esses casos, para que não sejam mais listas.

In [50]:
rents_df_copy = rents_df.copy(deep=True)

In [51]:
rents_df = rents_df_copy.copy(deep=True)

In [52]:
def list_to_type(el, type_converter):
  if not isinstance(el, list): return type_converter(el)
  if len(el) == 0: return None
  return type_converter(el[0])

def list_to_float(el):
  return list_to_type(el, float)

def list_to_str(el):
  return list_to_type(el, str)

rents_df["usableAreas"] = rents_df["usableAreas"].map(list_to_float)
rents_df["parkingSpaces"] = rents_df["parkingSpaces"].map(list_to_float)
rents_df["suites"] = rents_df["suites"].map(list_to_float)
rents_df["bathrooms"] = rents_df["suites"].map(list_to_float)
rents_df["totalAreas"] = rents_df["totalAreas"].map(list_to_float)
rents_df["bedrooms"] = rents_df["bedrooms"].map(list_to_float)


rents_df["unitTypes"] = rents_df["unitTypes"].map(list_to_str)
rents_df["unitSubTypes"] = rents_df["unitSubTypes"].map(list_to_str)
rents_df["usageTypes"] = rents_df["usageTypes"].map(list_to_str)

rents_df

Unnamed: 0,amenities,usableAreas,description,title,unitTypes,unitSubTypes,id,parkingSpaces,address,suites,externalId,bathrooms,usageTypes,totalAreas,bedrooms,pricingInfos
0,"[ELEVATOR, GATED_COMMUNITY, GARDEN, PLAYGROUND...",70.0,IMÓVEL IMPECÁVEL! L I N D A V I S T A M A R! <...,Apartamento para aluguel tem 70 metros quadrad...,APARTMENT,,2562524561,2.0,"{'country': 'BR', 'zipCode': '60170000', 'geoJ...",2.0,QGC3OEKO,2.0,RESIDENTIAL,70.0,2.0,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant..."
1,"[FURNISHED, BARBECUE_GRILL, ELEVATOR, GATED_CO...",60.0,"Apartamento Duplex 60 m2, com 02 suítes, total...","Apartamento DUPLEX MOBILIADO, 02 suítes, em Me...",APARTMENT,,2515185773,1.0,"{'country': 'BR', 'zipCode': '60170210', 'geoJ...",2.0,5WFQM4GZ,2.0,RESIDENTIAL,69.0,2.0,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant..."
2,"[AIR_CONDITIONING, PORCELAIN]",35.0,ANDAR ALTO;<br>PISO EM PORCELANATO;<br>ILUMINA...,"Sala comercial, localização INENARRÁVEL / para...",OFFICE,,2534494892,,"{'country': 'BR', 'zipCode': '60160230', 'geoJ...",,FW367WSA,,COMMERCIAL,35.0,,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant..."
3,[],33.0,"Salas com piso em porcelanato bianco, com forr...",Scopa Platinum Corporate - Salas amplas com WC,OFFICE,,2516799902,1.0,"{'country': 'BR', 'zipCode': '60115191', 'geoJ...",,FQSV6NGN,,COMMERCIAL,,,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant..."
4,[],30.0,COMPSA – COMPARTILHAMENTO DE SALAS: <br>I. MOB...,"COMPSA - Compartilhamento de Salas - Hora, Exp...",OFFICE,CLINIC,2532715897,0.0,"{'country': 'BR', 'zipCode': '60140120', 'geoJ...",0.0,GY3AMWXI,0.0,COMMERCIAL,,0.0,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
81,[],7000.0,"Excelente terreno com 3 frentes, 7.000M² de ár...",Terreno com 7mil m² para alugar na BR 116,COMMERCIAL_ALLOTMENT_LAND,,2532936392,0.0,"{'country': 'BR', 'zipCode': '60864012', 'geoJ...",0.0,TE0094,0.0,COMMERCIAL,7000.0,0.0,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant..."
82,[],15.0,,Sala Comercial,OFFICE,,2510762525,0.0,"{'country': 'BR', 'zipCode': '60752483', 'geoJ...",0.0,SA0066,0.0,COMMERCIAL,15.0,0.0,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant..."
83,"[KITCHEN, BACKYARD, SERVICE_AREA]",594.0,"Casa residencial ou comercial com 594 m², loca...",Casa para alugar com 594 m² no Vila Velha,HOME,,2494679159,12.0,"{'country': 'BR', 'zipCode': '60345631', 'geoJ...",2.0,CA0136,2.0,RESIDENTIAL,594.0,5.0,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant..."
84,[],297.0,,Ponto Comercial,BUSINESS,,2512728603,0.0,"{'country': 'BR', 'zipCode': '60873155', 'geoJ...",0.0,PT0105,0.0,COMMERCIAL,297.0,0.0,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant..."


Agora, resta tratar as colunas `address` (dicionário) e `pricingInfos` (lista). A coluna `amenities` de fato precisa ser uma lista, pois um imóvel pode ter vários benefícios, como ar-condicionado embutido, elevador, etc. 

### Tratando a coluna de endereço

Como podemos ver abaixo, a coluna de `address` é um objeto com diversos campos, portanto, abaixo trataremos esse objeto e dele vamos extrair diversas colunas, como a latitude e longitude da residência.

In [53]:
rents_df.iloc[0]["address"]

{'country': 'BR',
 'zipCode': '60170000',
 'geoJson': '',
 'city': 'Fortaleza',
 'streetNumber': '160',
 'level': 'STREET',
 'precision': 'ROOFTOP',
 'confidence': 'VALID_STREET',
 'stateAcronym': 'CE',
 'source': 'CORREIOS',
 'point': {'lon': -38.495875, 'source': 'GOOGLE', 'lat': -3.72788},
 'ibgeCityId': '',
 'zone': '',
 'street': 'Avenida Desembargador Moreira',
 'locationId': 'BR>Ceara>NULL>Fortaleza>Barrios>Meireles',
 'district': '',
 'name': '',
 'state': 'Ceará',
 'neighborhood': 'Meireles',
 'poisList': ['BS:Ônibus para Cumbuco',
  'TS:Ônibus para Cumbuco',
  'TS:Papicu',
  'TS:Mucuripe',
  'CS:Uri Mercado',
  'CS:Minimercado Bempertim',
  'CS:Cort Carnes Nobres',
  'CS:Napadaria',
  'CS:Aquablu',
  'PH:Farmácia i9',
  'PH:Farmácia TeleJuca',
  'PH:Pharmapele',
  'PH:Farmácia Aldesul',
  'PH:Aldesul'],
 'complement': '',
 'pois': [],
 'valuableZones': []}

O objeto do endereço é bem rico. Ele possui até mesmo pontos de interesse próximos ao imóvel! Entretanto, aqui estamos interessados no bairro (`neighborhood`), e na latitude e longitude. Também vamos armazenar o nome da rua, pois pode ser útil para obter mais alguns insights durante as visualizações (embora, não deva ser usada para criação do modelo final). Alguns imóveis não possuem latitude nem longitude informada, nesse caso, deixaremos o campo como NaN.

In [54]:
# def cep_to_nominatim_query(cep):
#     endereco = pycep_correios.get_address_from_cep(cep, webservice=pycep_correios.WebService.VIACEP)
#     street = endereco['logradouro'].split("-")[0].strip()
#     return {
#         "city": "Fortaleza",
#         "state": "CE",
#         "country": "Brazil",
#         "format": "jsonv2",
#         "street": street,
#     }

# def cep_to_lat_lon(cep):
#     # print(cep)
#     # print(params)
#     try:
#       params = cep_to_nominatim_query(cep)

#       response = requests.get("https://nominatim.openstreetmap.org/search", params=params)
#       response_json = response.json()
#       if len(response_json) == 0: 
#         print(f"Not found.. {cep}")
#         print(params)
#         return { "lat": None, "lon": None }
#       data = response_json[0]
#       return { "lat": data["lat"], "lon": data["lon"]}
#     except Exception:
#       print(f"Exception on cep {cep}")
#       return { "lat": None, "lon": None }  

def get_from_point(data, key):
  if "point" in data:
    return data["point"][key]
  # return cep_to_lat_lon(data["zipCode"])[key]

rents_df["neighborhood"] = rents_df["address"].map(lambda e: e["neighborhood"])

rents_df["lat"] = rents_df["address"].map(lambda e: get_from_point(e, "lat"))
rents_df["lon"] = rents_df["address"].map(lambda e: get_from_point(e, "lon"))

rents_df

Unnamed: 0,amenities,usableAreas,description,title,unitTypes,unitSubTypes,id,parkingSpaces,address,suites,externalId,bathrooms,usageTypes,totalAreas,bedrooms,pricingInfos,neighborhood,lat,lon
0,"[ELEVATOR, GATED_COMMUNITY, GARDEN, PLAYGROUND...",70.0,IMÓVEL IMPECÁVEL! L I N D A V I S T A M A R! <...,Apartamento para aluguel tem 70 metros quadrad...,APARTMENT,,2562524561,2.0,"{'country': 'BR', 'zipCode': '60170000', 'geoJ...",2.0,QGC3OEKO,2.0,RESIDENTIAL,70.0,2.0,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",Meireles,-3.727880,-38.495875
1,"[FURNISHED, BARBECUE_GRILL, ELEVATOR, GATED_CO...",60.0,"Apartamento Duplex 60 m2, com 02 suítes, total...","Apartamento DUPLEX MOBILIADO, 02 suítes, em Me...",APARTMENT,,2515185773,1.0,"{'country': 'BR', 'zipCode': '60170210', 'geoJ...",2.0,5WFQM4GZ,2.0,RESIDENTIAL,69.0,2.0,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",Meireles,-3.727192,-38.490351
2,"[AIR_CONDITIONING, PORCELAIN]",35.0,ANDAR ALTO;<br>PISO EM PORCELANATO;<br>ILUMINA...,"Sala comercial, localização INENARRÁVEL / para...",OFFICE,,2534494892,,"{'country': 'BR', 'zipCode': '60160230', 'geoJ...",,FW367WSA,,COMMERCIAL,35.0,,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",Meireles,-3.736109,-38.490084
3,[],33.0,"Salas com piso em porcelanato bianco, com forr...",Scopa Platinum Corporate - Salas amplas com WC,OFFICE,,2516799902,1.0,"{'country': 'BR', 'zipCode': '60115191', 'geoJ...",,FQSV6NGN,,COMMERCIAL,,,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",Aldeota,-3.733264,-38.509330
4,[],30.0,COMPSA – COMPARTILHAMENTO DE SALAS: <br>I. MOB...,"COMPSA - Compartilhamento de Salas - Hora, Exp...",OFFICE,CLINIC,2532715897,0.0,"{'country': 'BR', 'zipCode': '60140120', 'geoJ...",0.0,GY3AMWXI,0.0,COMMERCIAL,,0.0,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",Aldeota,-3.743591,-38.493051
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
81,[],7000.0,"Excelente terreno com 3 frentes, 7.000M² de ár...",Terreno com 7mil m² para alugar na BR 116,COMMERCIAL_ALLOTMENT_LAND,,2532936392,0.0,"{'country': 'BR', 'zipCode': '60864012', 'geoJ...",0.0,TE0094,0.0,COMMERCIAL,7000.0,0.0,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",Cajazeiras,-3.800307,-38.506944
82,[],15.0,,Sala Comercial,OFFICE,,2510762525,0.0,"{'country': 'BR', 'zipCode': '60752483', 'geoJ...",0.0,SA0066,0.0,COMMERCIAL,15.0,0.0,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",Mondubim,,
83,"[KITCHEN, BACKYARD, SERVICE_AREA]",594.0,"Casa residencial ou comercial com 594 m², loca...",Casa para alugar com 594 m² no Vila Velha,HOME,,2494679159,12.0,"{'country': 'BR', 'zipCode': '60345631', 'geoJ...",2.0,CA0136,2.0,RESIDENTIAL,594.0,5.0,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",Vila Velha,-3.722138,-38.595065
84,[],297.0,,Ponto Comercial,BUSINESS,,2512728603,0.0,"{'country': 'BR', 'zipCode': '60873155', 'geoJ...",0.0,PT0105,0.0,COMMERCIAL,297.0,0.0,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",Parque Santa Maria,,


### Tratando a coluna de preço

Como podemos ver abaixo, a coluna de `pricingInfos` também está no formato de lista, com um objeto contendo os campos relativos ao preço do imóvel. Vamos verificar transformar essa lista de objetos em um único objeto, e no fim, extrairemos os campos desejados: preço do aluguel, preço do condomínio e o valor do IPTU.

Primeiramente, é importante observar que por ser uma lista, a coluna `pricingInfos` pode ter mais de 1 valor, abaixo, verificamos se isso ocorre.

In [55]:
multiple_pricing_infos = rents_df[rents_df["pricingInfos"].map(lambda e: len(e) > 1)]

multiple_pricing_infos

Unnamed: 0,amenities,usableAreas,description,title,unitTypes,unitSubTypes,id,parkingSpaces,address,suites,externalId,bathrooms,usageTypes,totalAreas,bedrooms,pricingInfos,neighborhood,lat,lon
30,"[POOL, FURNISHED, BARBECUE_GRILL, ELEVATOR, GA...",127.0,Belíssima cobertura com vista panorâmica para ...,Cobertura duplex 3 suítes Vista Mar 50 mts Bei...,APARTMENT,PENTHOUSE,2547274836,2.0,"{'country': 'BR', 'zipCode': '60125150', 'geoJ...",2.0,oya22,2.0,RESIDENTIAL,,3.0,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",Meireles,-3.727110,-38.497674
31,"[POOL, FURNISHED, BARBECUE_GRILL, ELEVATOR, GA...",401.0,O apartamento no bairro Meireles tem 401 metro...,Apartamento para venda possui 401 metros quadr...,APARTMENT,,2555176845,5.0,"{'country': 'BR', 'zipCode': '60165070', 'geoJ...",4.0,Palmares7,4.0,RESIDENTIAL,401.0,4.0,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",Meireles,-3.726588,-38.500821
32,"[POOL, FURNISHED, BARBECUE_GRILL, ELEVATOR, GA...",70.0,"Apartamento com 03 Suites Mobiliadas, projetad...",Praia de Iracema Novo Mobiliado Vista Mar Fort...,APARTMENT,,2557571094,1.0,"{'country': 'BR', 'zipCode': '60060390', 'geoJ...",2.0,007,2.0,RESIDENTIAL,,2.0,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",Praia de Iracema,-3.721737,-38.516330
38,"[POOL, BARBECUE_GRILL, GATED_COMMUNITY, PETS_A...",52.0,IMPERDÍVEL! Excelente apartamento para locação...,Excelente apartamento para locação com 02 quar...,APARTMENT,,2556522442,1.0,"{'country': 'BR', 'zipCode': '60749020', 'geoJ...",1.0,1001257022,1.0,RESIDENTIAL,52.0,2.0,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",Prefeito José Walter,-3.830788,-38.535257
40,[],112.0,Ed. Centurion ( Salas em obra) <br><br>Salas c...,"Escritório para aluguel e venda tem 112,35 met...",OFFICE,,2562023192,3.0,"{'country': 'BR', 'zipCode': '60170000', 'geoJ...",0.0,Ed. Centurion Business Center 3,0.0,COMMERCIAL,,0.0,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",Meireles,-3.732392,-38.497516
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
80,[KITCHEN],40.0,"Localizado próximo à Av. José Bastos, Hospital...","Ponto para alugar com 40 m², próximo ao Hemoce...",BUSINESS,,2481328178,0.0,"{'country': 'BR', 'zipCode': '60430170', 'geoJ...",0.0,PT0030,0.0,COMMERCIAL,40.0,0.0,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",Rodolfo Teófilo,-3.747550,-38.550727
83,"[KITCHEN, SERVICE_AREA]",360.0,"Localizado a 1 quadra da Av. Eduardo Girão, pr...",Casa com 4 quartos para alugar no Bairro de Fa...,HOME,,2539685411,3.0,"{'country': 'BR', 'zipCode': '60415050', 'geoJ...",0.0,CA0750,0.0,RESIDENTIAL,360.0,4.0,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",Fátima,-3.753538,-38.530332
2,"[BACKYARD, GOURMET_BALCONY]",200.0,"Casa à Venda/Aluguel, 200m² por R$ 350.000. Co...",Casa duplex - Próxima a UPA,HOME,,2532217991,1.0,"{'country': 'BR', 'zipCode': '60532380', 'geoJ...",0.0,CA0005_MARCEL,0.0,RESIDENTIAL,10.0,2.0,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",Conjunto Ceará I,-3.770340,-38.599622
3,"[BARBECUE_GRILL, BACKYARD, SERVICE_AREA, GOURM...",69.0,"Dispõe de 69 m², sala ampla, varanda, cozinha,...","Casa com 2 dormitórios, 69 m² - venda por R$ 2...",HOME,,2542759712,2.0,"{'country': 'BR', 'zipCode': '60831227', 'geoJ...",1.0,CA0738,1.0,RESIDENTIAL,200.0,2.0,"[{'rentalInfo': {'period': 'MONTHLY', 'warrant...",Lagoa Redonda,-3.717606,-38.603029


Existem 900 imóveis nessa condição, logo devemos analisar estes casos.

In [56]:
multiple_pricing_infos["pricingInfos"].iloc[0]

[{'rentalInfo': {'period': 'MONTHLY',
   'warranties': ['SECURITY_DEPOSIT', 'INSURANCE_GUARANTEE']},
  'yearlyIptu': '0',
  'price': '1290000',
  'businessType': 'SALE',
  'monthlyCondoFee': '1200'},
 {'rentalInfo': {'period': 'MONTHLY',
   'warranties': ['SECURITY_DEPOSIT', 'INSURANCE_GUARANTEE'],
   'monthlyRentalTotalPrice': '15200'},
  'yearlyIptu': '0',
  'price': '14000',
  'businessType': 'RENTAL',
  'monthlyCondoFee': '1200'}]

Ao analisar os dados, podemos ver que isso acontece porque o imóvel está listado tanto pra venda quanto para aluguel, portanto, é o caso de considerarmos apenas os dados de aluguel. Abaixo, realizamos esse tratamento nos dados.

In [57]:
def treat_pricing_infos(data):
  # get pricing infor for RENTAL
  return next(filter(lambda e: e['businessType'] == 'RENTAL', data))

rents_df["pricingInfos"] = rents_df["pricingInfos"].map(treat_pricing_infos)

rents_df

Unnamed: 0,amenities,usableAreas,description,title,unitTypes,unitSubTypes,id,parkingSpaces,address,suites,externalId,bathrooms,usageTypes,totalAreas,bedrooms,pricingInfos,neighborhood,lat,lon
0,"[ELEVATOR, GATED_COMMUNITY, GARDEN, PLAYGROUND...",70.0,IMÓVEL IMPECÁVEL! L I N D A V I S T A M A R! <...,Apartamento para aluguel tem 70 metros quadrad...,APARTMENT,,2562524561,2.0,"{'country': 'BR', 'zipCode': '60170000', 'geoJ...",2.0,QGC3OEKO,2.0,RESIDENTIAL,70.0,2.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Meireles,-3.727880,-38.495875
1,"[FURNISHED, BARBECUE_GRILL, ELEVATOR, GATED_CO...",60.0,"Apartamento Duplex 60 m2, com 02 suítes, total...","Apartamento DUPLEX MOBILIADO, 02 suítes, em Me...",APARTMENT,,2515185773,1.0,"{'country': 'BR', 'zipCode': '60170210', 'geoJ...",2.0,5WFQM4GZ,2.0,RESIDENTIAL,69.0,2.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Meireles,-3.727192,-38.490351
2,"[AIR_CONDITIONING, PORCELAIN]",35.0,ANDAR ALTO;<br>PISO EM PORCELANATO;<br>ILUMINA...,"Sala comercial, localização INENARRÁVEL / para...",OFFICE,,2534494892,,"{'country': 'BR', 'zipCode': '60160230', 'geoJ...",,FW367WSA,,COMMERCIAL,35.0,,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Meireles,-3.736109,-38.490084
3,[],33.0,"Salas com piso em porcelanato bianco, com forr...",Scopa Platinum Corporate - Salas amplas com WC,OFFICE,,2516799902,1.0,"{'country': 'BR', 'zipCode': '60115191', 'geoJ...",,FQSV6NGN,,COMMERCIAL,,,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Aldeota,-3.733264,-38.509330
4,[],30.0,COMPSA – COMPARTILHAMENTO DE SALAS: <br>I. MOB...,"COMPSA - Compartilhamento de Salas - Hora, Exp...",OFFICE,CLINIC,2532715897,0.0,"{'country': 'BR', 'zipCode': '60140120', 'geoJ...",0.0,GY3AMWXI,0.0,COMMERCIAL,,0.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Aldeota,-3.743591,-38.493051
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
81,[],7000.0,"Excelente terreno com 3 frentes, 7.000M² de ár...",Terreno com 7mil m² para alugar na BR 116,COMMERCIAL_ALLOTMENT_LAND,,2532936392,0.0,"{'country': 'BR', 'zipCode': '60864012', 'geoJ...",0.0,TE0094,0.0,COMMERCIAL,7000.0,0.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Cajazeiras,-3.800307,-38.506944
82,[],15.0,,Sala Comercial,OFFICE,,2510762525,0.0,"{'country': 'BR', 'zipCode': '60752483', 'geoJ...",0.0,SA0066,0.0,COMMERCIAL,15.0,0.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Mondubim,,
83,"[KITCHEN, BACKYARD, SERVICE_AREA]",594.0,"Casa residencial ou comercial com 594 m², loca...",Casa para alugar com 594 m² no Vila Velha,HOME,,2494679159,12.0,"{'country': 'BR', 'zipCode': '60345631', 'geoJ...",2.0,CA0136,2.0,RESIDENTIAL,594.0,5.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Vila Velha,-3.722138,-38.595065
84,[],297.0,,Ponto Comercial,BUSINESS,,2512728603,0.0,"{'country': 'BR', 'zipCode': '60873155', 'geoJ...",0.0,PT0105,0.0,COMMERCIAL,297.0,0.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Parque Santa Maria,,


Agora, basta extrair individualmente os atributos desejados: `price`, que é o preço do aluguel, `monthlyCondoFee`, que é o preço mensal do condomínio (se existir a taxa), e `yearlyIptu`, o iptu pago anualmente. 

In [58]:
def getKey(data, key):
  if key in data: return data[key]
  return 0


rents_df["condoFee"] = rents_df["pricingInfos"].map(lambda e: getKey(e, "monthlyCondoFee"))
rents_df["rentPrice"] = rents_df["pricingInfos"].map(lambda e: getKey(e, "price"))
rents_df["iptu"] = rents_df["pricingInfos"].map(lambda e: getKey(e, "yearlyIptu"))

rents_df

Unnamed: 0,amenities,usableAreas,description,title,unitTypes,unitSubTypes,id,parkingSpaces,address,suites,externalId,bathrooms,usageTypes,totalAreas,bedrooms,pricingInfos,neighborhood,lat,lon,condoFee,rentPrice,iptu
0,"[ELEVATOR, GATED_COMMUNITY, GARDEN, PLAYGROUND...",70.0,IMÓVEL IMPECÁVEL! L I N D A V I S T A M A R! <...,Apartamento para aluguel tem 70 metros quadrad...,APARTMENT,,2562524561,2.0,"{'country': 'BR', 'zipCode': '60170000', 'geoJ...",2.0,QGC3OEKO,2.0,RESIDENTIAL,70.0,2.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Meireles,-3.727880,-38.495875,730,2700,110
1,"[FURNISHED, BARBECUE_GRILL, ELEVATOR, GATED_CO...",60.0,"Apartamento Duplex 60 m2, com 02 suítes, total...","Apartamento DUPLEX MOBILIADO, 02 suítes, em Me...",APARTMENT,,2515185773,1.0,"{'country': 'BR', 'zipCode': '60170210', 'geoJ...",2.0,5WFQM4GZ,2.0,RESIDENTIAL,69.0,2.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Meireles,-3.727192,-38.490351,800,2500,200
2,"[AIR_CONDITIONING, PORCELAIN]",35.0,ANDAR ALTO;<br>PISO EM PORCELANATO;<br>ILUMINA...,"Sala comercial, localização INENARRÁVEL / para...",OFFICE,,2534494892,,"{'country': 'BR', 'zipCode': '60160230', 'geoJ...",,FW367WSA,,COMMERCIAL,35.0,,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Meireles,-3.736109,-38.490084,575,2500,330
3,[],33.0,"Salas com piso em porcelanato bianco, com forr...",Scopa Platinum Corporate - Salas amplas com WC,OFFICE,,2516799902,1.0,"{'country': 'BR', 'zipCode': '60115191', 'geoJ...",,FQSV6NGN,,COMMERCIAL,,,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Aldeota,-3.733264,-38.509330,428,1750,1143
4,[],30.0,COMPSA – COMPARTILHAMENTO DE SALAS: <br>I. MOB...,"COMPSA - Compartilhamento de Salas - Hora, Exp...",OFFICE,CLINIC,2532715897,0.0,"{'country': 'BR', 'zipCode': '60140120', 'geoJ...",0.0,GY3AMWXI,0.0,COMMERCIAL,,0.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Aldeota,-3.743591,-38.493051,0,500,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
81,[],7000.0,"Excelente terreno com 3 frentes, 7.000M² de ár...",Terreno com 7mil m² para alugar na BR 116,COMMERCIAL_ALLOTMENT_LAND,,2532936392,0.0,"{'country': 'BR', 'zipCode': '60864012', 'geoJ...",0.0,TE0094,0.0,COMMERCIAL,7000.0,0.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Cajazeiras,-3.800307,-38.506944,0,45000,1715
82,[],15.0,,Sala Comercial,OFFICE,,2510762525,0.0,"{'country': 'BR', 'zipCode': '60752483', 'geoJ...",0.0,SA0066,0.0,COMMERCIAL,15.0,0.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Mondubim,,,0,700,0
83,"[KITCHEN, BACKYARD, SERVICE_AREA]",594.0,"Casa residencial ou comercial com 594 m², loca...",Casa para alugar com 594 m² no Vila Velha,HOME,,2494679159,12.0,"{'country': 'BR', 'zipCode': '60345631', 'geoJ...",2.0,CA0136,2.0,RESIDENTIAL,594.0,5.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Vila Velha,-3.722138,-38.595065,0,5000,0
84,[],297.0,,Ponto Comercial,BUSINESS,,2512728603,0.0,"{'country': 'BR', 'zipCode': '60873155', 'geoJ...",0.0,PT0105,0.0,COMMERCIAL,297.0,0.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Parque Santa Maria,,,0,1700,0


### Investigando linhas duplicadas

Agora, vamos investigar se existem linhas duplicadas no dataset, para isso, podemos utilizar o método `duplicated` do pandas. Para identificar as linhas duplicadas, vamos usar as colunas `id` e `externalId`.

In [59]:
# Exibindo todas as linhas duplicadas
rents_df[rents_df.duplicated(subset = ['id', 'externalId'], keep = False)].sort_values(by='id')

Unnamed: 0,amenities,usableAreas,description,title,unitTypes,unitSubTypes,id,parkingSpaces,address,suites,externalId,bathrooms,usageTypes,totalAreas,bedrooms,pricingInfos,neighborhood,lat,lon,condoFee,rentPrice,iptu
85,[KITCHEN],20.0,"Kitinete em bom estado de conservação, medindo...","KITNET para aluguel, Centro - FORTALEZA/CE",KITNET,,1037182362,0.0,"{'country': 'BR', 'zipCode': '60025000', 'geoJ...",0.0,7367,0.0,RESIDENTIAL,20.0,0.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Centro,,,0,350,316
85,[KITCHEN],20.0,"Kitinete em bom estado de conservação, medindo...","KITNET para aluguel, Centro - FORTALEZA/CE",KITNET,,1037182362,0.0,"{'country': 'BR', 'zipCode': '60025000', 'geoJ...",0.0,7367,0.0,RESIDENTIAL,20.0,0.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Centro,,,0,350,316
39,"[AIR_CONDITIONING, KITCHEN, INTERCOM, CABLE_TV...",45.0,Apartamentos em perfeita localização no Cambeb...,"Apartamento com 2 dormitórios para alugar, 45 ...",APARTMENT,,1037377383,0.0,"{'country': 'BR', 'zipCode': '60841455', 'geoJ...",0.0,AP1296,0.0,RESIDENTIAL,45.0,2.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Messejana,,,0,520,0
41,"[AIR_CONDITIONING, KITCHEN, INTERCOM, CABLE_TV...",45.0,Apartamentos em perfeita localização no Cambeb...,"Apartamento com 2 dormitórios para alugar, 45 ...",APARTMENT,,1037377383,0.0,"{'country': 'BR', 'zipCode': '60841455', 'geoJ...",0.0,AP1296,0.0,RESIDENTIAL,45.0,2.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Messejana,,,0,520,0
90,"[SAFETY_CIRCUIT, KITCHEN]",31.0,"Loja comercial plana, em bom estado de conserv...","LOJA para aluguel, Meireles - FORTALEZA/CE",BUSINESS,,1037456177,0.0,"{'country': 'BR', 'zipCode': '60165081', 'geoJ...",0.0,3665,0.0,COMMERCIAL,31.0,0.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Meireles,,,197,800,671
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
39,[],45.0,Sala comercial no 4° andar do Ed. Nordeste Cen...,"SA0023 - Sala comercial 45m², Ed. Nordeste Cen...",OFFICE,,93766435,0.0,"{'country': 'BR', 'zipCode': '60135100', 'geoJ...",0.0,SA0023,0.0,COMMERCIAL,45.0,0.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Joaquim Távora,-3.742119,-38.511967,180,700,55
61,"[POOL, FURNISHED, BARBECUE_GRILL, ELEVATOR, BA...",70.0,Aluguel de apartamento mensal ou diaria de 70 ...,Apartamento para aluguel com 70 metros quadrad...,APARTMENT,,94721792,1.0,"{'country': 'BR', 'zipCode': '60165050', 'geoJ...",1.0,33,1.0,RESIDENTIAL,70.0,2.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Meireles,-3.721492,-38.510060,0,2800,0
61,"[POOL, FURNISHED, BARBECUE_GRILL, ELEVATOR, BA...",70.0,Aluguel de apartamento mensal ou diaria de 70 ...,Apartamento para aluguel com 70 metros quadrad...,APARTMENT,,94721792,1.0,"{'country': 'BR', 'zipCode': '60165050', 'geoJ...",1.0,33,1.0,RESIDENTIAL,70.0,2.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Meireles,-3.721492,-38.510060,0,2800,0
31,"[POOL, BARBECUE_GRILL, ELEVATOR, GATED_COMMUNI...",120.0,Excelente apto a poucas quadras do shopping Ri...,Apartamento projetado no Cond. Mistral com 120...,APARTMENT,,95387448,2.0,"{'country': 'BR', 'zipCode': '60176010', 'geoJ...",3.0,044LOCMIS,3.0,RESIDENTIAL,120.0,3.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Papicu,-3.736612,-38.471152,922,3000,211


In [60]:
rents_df[rents_df.duplicated(subset = ['id', 'externalId'], keep = 'first')].sort_values(by='id')

Unnamed: 0,amenities,usableAreas,description,title,unitTypes,unitSubTypes,id,parkingSpaces,address,suites,externalId,bathrooms,usageTypes,totalAreas,bedrooms,pricingInfos,neighborhood,lat,lon,condoFee,rentPrice,iptu
85,[KITCHEN],20.0,"Kitinete em bom estado de conservação, medindo...","KITNET para aluguel, Centro - FORTALEZA/CE",KITNET,,1037182362,0.0,"{'country': 'BR', 'zipCode': '60025000', 'geoJ...",0.0,7367,0.0,RESIDENTIAL,20.0,0.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Centro,,,0,350,316
41,"[AIR_CONDITIONING, KITCHEN, INTERCOM, CABLE_TV...",45.0,Apartamentos em perfeita localização no Cambeb...,"Apartamento com 2 dormitórios para alugar, 45 ...",APARTMENT,,1037377383,0.0,"{'country': 'BR', 'zipCode': '60841455', 'geoJ...",0.0,AP1296,0.0,RESIDENTIAL,45.0,2.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Messejana,,,0,520,0
90,"[SAFETY_CIRCUIT, KITCHEN]",31.0,"Loja comercial plana, em bom estado de conserv...","LOJA para aluguel, Meireles - FORTALEZA/CE",BUSINESS,,1037456177,0.0,"{'country': 'BR', 'zipCode': '60165081', 'geoJ...",0.0,3665,0.0,COMMERCIAL,31.0,0.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Meireles,,,197,800,671
37,[KITCHEN],70.0,"Loja 70,50m² com ponto agregado, mezanino e 01...","LOJA para aluguel, Papicu - FORTALEZA/CE",BUSINESS,,1037499332,0.0,"{'country': 'BR', 'zipCode': '60175395', 'geoJ...",0.0,7384,0.0,COMMERCIAL,70.0,0.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Papicu,,,0,1500,393
66,[],510.0,ALUGA-SE EXCELENTE PONTO COMERCIAL (510M2).<br...,EXCELENTE PONTO COMERCIAL (TODO REFORMADO),BUSINESS,,1037588219,0.0,"{'country': 'BR', 'zipCode': '60150060', 'geoJ...",0.0,8/19,0.0,COMMERCIAL,,2.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Aldeota,-3.735915,-38.506204,0,5000,578
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
58,[],132.0,Alugo<br><br>Casa duplex no condomínio Litoral...,Alugo casa em condomínio fechado 3 suítes na s...,HOME,CONDOMINIUM,93669391,2.0,"{'country': 'BR', 'zipCode': '60835575', 'geoJ...",3.0,98,3.0,RESIDENTIAL,143.0,3.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Sabiaguaba,-3.806992,-38.428464,800,1200,100
38,"[GATED_COMMUNITY, ELECTRONIC_GATE]",50.0,EXCELENTE CASA EM CONDOMÍNIO (sem cobrança de ...,Excelente casa condomínio fechado em uma ótima...,HOME,CONDOMINIUM,93677681,1.0,"{'country': 'BR', 'zipCode': '60871750', 'geoJ...",0.0,77,0.0,RESIDENTIAL,50.0,2.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Coaçu,-3.836541,-38.486019,0,750,0
39,[],45.0,Sala comercial no 4° andar do Ed. Nordeste Cen...,"SA0023 - Sala comercial 45m², Ed. Nordeste Cen...",OFFICE,,93766435,0.0,"{'country': 'BR', 'zipCode': '60135100', 'geoJ...",0.0,SA0023,0.0,COMMERCIAL,45.0,0.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Joaquim Távora,-3.742119,-38.511967,180,700,55
61,"[POOL, FURNISHED, BARBECUE_GRILL, ELEVATOR, BA...",70.0,Aluguel de apartamento mensal ou diaria de 70 ...,Apartamento para aluguel com 70 metros quadrad...,APARTMENT,,94721792,1.0,"{'country': 'BR', 'zipCode': '60165050', 'geoJ...",1.0,33,1.0,RESIDENTIAL,70.0,2.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Meireles,-3.721492,-38.510060,0,2800,0


Observe que de fato, temos muitas duplicações! A conclusão que podemos tirar aqui, é que o site do ZapImóveis utiliza a mesma base de dados que o site do VivaReal. A quantidade de duplicatas é praticamente a mesma quantidade de linhas presentes no dataset do ZapImóveis! Infelizmente, será necessário remover essas duplicatas. A premissa inicial neste trabalho é de que embora pudessem existir anuncios repetidos, fossem existir mais anúncios presentes somente em uma das bases. Porém, como podemos ver, não é esse o caso. :(

Abaixo, removemos as linhas duplicadas.

In [61]:
print(f"Tamanho do dataframe antes de remover as duplicações: {len(rents_df)}")

rents_df = rents_df.drop_duplicates(subset = ['id', 'externalId'], keep='first')

print(f"Tamanho do dataframe apos de remover as duplicações: {len(rents_df)}")

Tamanho do dataframe antes de remover as duplicações: 15005
Tamanho do dataframe apos de remover as duplicações: 7588


### Analisando a coluna `unitSubTypes`

A coluna `unitSubTypes` é interessante, por oferecer mais informações a respeito do tipo de imóvel. Porém, já existe a coluna `unitTypes`, então talvez `unitSubTypes` pode não ser necessária. Portanto, vamos analisar os valores possíveis pra coluna `unitSubTypes`, para poder decidir se essa coluna estará presente no *dataset* final ou não. 

In [62]:
rents_df["unitSubTypes"].describe()

count        262
unique        15
top       KITNET
freq         144
Name: unitSubTypes, dtype: object

In [63]:
rents_df["unitSubTypes"].value_counts()

KITNET                 144
OFFICE                  38
CONDOMINIUM             15
VILLAGE_HOUSE           11
RETAIL_CENTER           10
FLAT                     9
CLINIC                   8
TWO_STORY_HOUSE          6
PENTHOUSE                5
SHOPPING                 5
FLOOR                    4
GALLERY                  2
SINGLE_STOREY_HOUSE      2
STUDIO                   2
DUPLEX                   1
Name: unitSubTypes, dtype: int64

Observe que existem poucas linhas no *dataset* em que a coluna `unitSubTypes` está presente, portanto, vamos remover essa coluna. 

In [64]:
rents_df = rents_df.drop(columns=["unitSubTypes"])
rents_df

Unnamed: 0,amenities,usableAreas,description,title,unitTypes,id,parkingSpaces,address,suites,externalId,bathrooms,usageTypes,totalAreas,bedrooms,pricingInfos,neighborhood,lat,lon,condoFee,rentPrice,iptu
0,"[ELEVATOR, GATED_COMMUNITY, GARDEN, PLAYGROUND...",70.0,IMÓVEL IMPECÁVEL! L I N D A V I S T A M A R! <...,Apartamento para aluguel tem 70 metros quadrad...,APARTMENT,2562524561,2.0,"{'country': 'BR', 'zipCode': '60170000', 'geoJ...",2.0,QGC3OEKO,2.0,RESIDENTIAL,70.0,2.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Meireles,-3.727880,-38.495875,730,2700,110
1,"[FURNISHED, BARBECUE_GRILL, ELEVATOR, GATED_CO...",60.0,"Apartamento Duplex 60 m2, com 02 suítes, total...","Apartamento DUPLEX MOBILIADO, 02 suítes, em Me...",APARTMENT,2515185773,1.0,"{'country': 'BR', 'zipCode': '60170210', 'geoJ...",2.0,5WFQM4GZ,2.0,RESIDENTIAL,69.0,2.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Meireles,-3.727192,-38.490351,800,2500,200
2,"[AIR_CONDITIONING, PORCELAIN]",35.0,ANDAR ALTO;<br>PISO EM PORCELANATO;<br>ILUMINA...,"Sala comercial, localização INENARRÁVEL / para...",OFFICE,2534494892,,"{'country': 'BR', 'zipCode': '60160230', 'geoJ...",,FW367WSA,,COMMERCIAL,35.0,,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Meireles,-3.736109,-38.490084,575,2500,330
3,[],33.0,"Salas com piso em porcelanato bianco, com forr...",Scopa Platinum Corporate - Salas amplas com WC,OFFICE,2516799902,1.0,"{'country': 'BR', 'zipCode': '60115191', 'geoJ...",,FQSV6NGN,,COMMERCIAL,,,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Aldeota,-3.733264,-38.509330,428,1750,1143
4,[],30.0,COMPSA – COMPARTILHAMENTO DE SALAS: <br>I. MOB...,"COMPSA - Compartilhamento de Salas - Hora, Exp...",OFFICE,2532715897,0.0,"{'country': 'BR', 'zipCode': '60140120', 'geoJ...",0.0,GY3AMWXI,0.0,COMMERCIAL,,0.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Aldeota,-3.743591,-38.493051,0,500,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
83,"[KITCHEN, BACKYARD, SERVICE_AREA]",594.0,"Casa residencial ou comercial com 594 m², loca...",Casa para alugar com 594 m² no Vila Velha,HOME,2494679159,12.0,"{'country': 'BR', 'zipCode': '60345631', 'geoJ...",2.0,CA0136,2.0,RESIDENTIAL,594.0,5.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Vila Velha,-3.722138,-38.595065,0,5000,0
84,[],297.0,,Ponto Comercial,BUSINESS,2512728603,0.0,"{'country': 'BR', 'zipCode': '60873155', 'geoJ...",0.0,PT0105,0.0,COMMERCIAL,297.0,0.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Parque Santa Maria,,,0,1700,0
85,"[KITCHEN, SERVICE_AREA]",200.0,Casa comercial duplex de esquina com 6 ambient...,"Casa comercial duplex, no bairro Conjunto Ceará",COMMERCIAL_PROPERTY,2507751481,2.0,"{'country': 'BR', 'zipCode': '60531820', 'geoJ...",3.0,CA0474,3.0,COMMERCIAL,200.0,6.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Conjunto Ceará II,,,0,10500,0
34,"[BARBECUE_GRILL, GARDEN, POOL, PLAYGROUND, ELE...",54.0,"Primeira Locação, valor já com condomínio. Apa...",Apartamento de 54 metros quadrados no bairro P...,APARTMENT,2455269281,2.0,"{'country': 'BR', 'zipCode': '60760510', 'geoJ...",1.0,ZAP1556053,1.0,RESIDENTIAL,64.0,2.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Planalto Ayrton Senna,-3.833893,-38.567802,275,700,250


### Remoção da coluna `totalAreas`

No *dataset*, existem duas colunas que indicam a área dos imóveis, `totalAreas` e `usableAreas`. A coluna `totalAreas` indica a área bruta total do imóvel, enquanto `usableAreas` representa a área útil do imóvel. Aqui, estamos interessados apenas na área útil, portanto, removemos a coluna `totalAreas` do *dataset*.

In [65]:
rents_df = rents_df.drop(columns=["totalAreas"])
rents_df

Unnamed: 0,amenities,usableAreas,description,title,unitTypes,id,parkingSpaces,address,suites,externalId,bathrooms,usageTypes,bedrooms,pricingInfos,neighborhood,lat,lon,condoFee,rentPrice,iptu
0,"[ELEVATOR, GATED_COMMUNITY, GARDEN, PLAYGROUND...",70.0,IMÓVEL IMPECÁVEL! L I N D A V I S T A M A R! <...,Apartamento para aluguel tem 70 metros quadrad...,APARTMENT,2562524561,2.0,"{'country': 'BR', 'zipCode': '60170000', 'geoJ...",2.0,QGC3OEKO,2.0,RESIDENTIAL,2.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Meireles,-3.727880,-38.495875,730,2700,110
1,"[FURNISHED, BARBECUE_GRILL, ELEVATOR, GATED_CO...",60.0,"Apartamento Duplex 60 m2, com 02 suítes, total...","Apartamento DUPLEX MOBILIADO, 02 suítes, em Me...",APARTMENT,2515185773,1.0,"{'country': 'BR', 'zipCode': '60170210', 'geoJ...",2.0,5WFQM4GZ,2.0,RESIDENTIAL,2.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Meireles,-3.727192,-38.490351,800,2500,200
2,"[AIR_CONDITIONING, PORCELAIN]",35.0,ANDAR ALTO;<br>PISO EM PORCELANATO;<br>ILUMINA...,"Sala comercial, localização INENARRÁVEL / para...",OFFICE,2534494892,,"{'country': 'BR', 'zipCode': '60160230', 'geoJ...",,FW367WSA,,COMMERCIAL,,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Meireles,-3.736109,-38.490084,575,2500,330
3,[],33.0,"Salas com piso em porcelanato bianco, com forr...",Scopa Platinum Corporate - Salas amplas com WC,OFFICE,2516799902,1.0,"{'country': 'BR', 'zipCode': '60115191', 'geoJ...",,FQSV6NGN,,COMMERCIAL,,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Aldeota,-3.733264,-38.509330,428,1750,1143
4,[],30.0,COMPSA – COMPARTILHAMENTO DE SALAS: <br>I. MOB...,"COMPSA - Compartilhamento de Salas - Hora, Exp...",OFFICE,2532715897,0.0,"{'country': 'BR', 'zipCode': '60140120', 'geoJ...",0.0,GY3AMWXI,0.0,COMMERCIAL,0.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Aldeota,-3.743591,-38.493051,0,500,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
83,"[KITCHEN, BACKYARD, SERVICE_AREA]",594.0,"Casa residencial ou comercial com 594 m², loca...",Casa para alugar com 594 m² no Vila Velha,HOME,2494679159,12.0,"{'country': 'BR', 'zipCode': '60345631', 'geoJ...",2.0,CA0136,2.0,RESIDENTIAL,5.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Vila Velha,-3.722138,-38.595065,0,5000,0
84,[],297.0,,Ponto Comercial,BUSINESS,2512728603,0.0,"{'country': 'BR', 'zipCode': '60873155', 'geoJ...",0.0,PT0105,0.0,COMMERCIAL,0.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Parque Santa Maria,,,0,1700,0
85,"[KITCHEN, SERVICE_AREA]",200.0,Casa comercial duplex de esquina com 6 ambient...,"Casa comercial duplex, no bairro Conjunto Ceará",COMMERCIAL_PROPERTY,2507751481,2.0,"{'country': 'BR', 'zipCode': '60531820', 'geoJ...",3.0,CA0474,3.0,COMMERCIAL,6.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Conjunto Ceará II,,,0,10500,0
34,"[BARBECUE_GRILL, GARDEN, POOL, PLAYGROUND, ELE...",54.0,"Primeira Locação, valor já com condomínio. Apa...",Apartamento de 54 metros quadrados no bairro P...,APARTMENT,2455269281,2.0,"{'country': 'BR', 'zipCode': '60760510', 'geoJ...",1.0,ZAP1556053,1.0,RESIDENTIAL,2.0,"{'rentalInfo': {'period': 'MONTHLY', 'warranti...",Planalto Ayrton Senna,-3.833893,-38.567802,275,700,250


### Tratamento de `NaN`'s

Existem alguns valores NaN no *dataframe*, abaixo, trataremos as colunas que possuem `NaN`'s.

Primeiramente, podemos usar o método isna().any() para listar as colunas que possuem valores `NaN`.

In [66]:
rents_df.isna().any()

amenities        False
usableAreas       True
description      False
title            False
unitTypes        False
id               False
parkingSpaces     True
address          False
suites            True
externalId       False
bathrooms         True
usageTypes       False
bedrooms          True
pricingInfos     False
neighborhood     False
lat               True
lon               True
condoFee         False
rentPrice        False
iptu             False
dtype: bool

Para as colunas `parkingSpaces`, `suites`, `bathrooms` e `bedrooms`, podemos trocar os valores `NaN`'s por 0, pois é um valor que faz sentido para estas colunas, e se não foi informado, provavelmente foi porque era 0, caso contrário, faria sentido ser anunciado, pois é bastante relevante no anúncio de um imóvel conhecer estas informações! Para trocar os valores `NaN` por 0, usaremos o método `fillna` do pandas.

In [67]:
rents_df["parkingSpaces"] = rents_df["parkingSpaces"].fillna(0)
rents_df["suites"] = rents_df["suites"].fillna(0)
rents_df["bathrooms"] = rents_df["bathrooms"].fillna(0)
rents_df["bedrooms"] = rents_df["bedrooms"].fillna(0)
rents_df.isna().any()

amenities        False
usableAreas       True
description      False
title            False
unitTypes        False
id               False
parkingSpaces    False
address          False
suites           False
externalId       False
bathrooms        False
usageTypes       False
bedrooms         False
pricingInfos     False
neighborhood     False
lat               True
lon               True
condoFee         False
rentPrice        False
iptu             False
dtype: bool

Para a coluna `usableAreas`, não faz sentido termos valores `NaN` trocados por 0, pois não é possível usar um imóvel com área 0. Primeiramente, podemos ver as linhas que possuem área `NaN`.

In [68]:
rents_df[rents_df["usableAreas"].isna()]["title"].value_counts()

GARAGEM para alugar na cidade de FORTALEZA-CE                 93
vaga de garagem no prédio comercial Edifício Rocha Aguiar.     2
Área para alugar por R$ 5.000/mês - Centro - Fortaleza/CE      1
Name: title, dtype: int64

Note que são poucos casos, além disso, a maioria se trata de garagens. Como essas informações não são relevantes para nosso *dataset*, removeremos estas linhas. 

In [69]:
rents_df = rents_df[rents_df["usableAreas"].notna()]
rents_df.isna().any()

amenities        False
usableAreas      False
description      False
title            False
unitTypes        False
id               False
parkingSpaces    False
address          False
suites           False
externalId       False
bathrooms        False
usageTypes       False
bedrooms         False
pricingInfos     False
neighborhood     False
lat               True
lon               True
condoFee         False
rentPrice        False
iptu             False
dtype: bool

Por fim, a coluna de latitude e longitude possuem valores `NaN`. Isso se deve ao fato de que nem todos os imóveis possuiam o endereço de forma mais precisa, contudo. Por ora, vamos preencher os valores faltantes com a latitude e longitude de Fortaleza. Entretanto, essa estratégia não é a ideal, e o melhor é tentar aproximar a latitude e longitude por bairro, cep e nome da rua, possivelmente utilizando alguma API com essa finalidade.

In [70]:
print(f"Quantidade de latitudes NaN: {len(rents_df[rents_df['lat'].isna()])}")
print(f"Quantidade de longitudes NaN: {len(rents_df[rents_df['lon'].isna()])}")

Quantidade de latitudes NaN: 2560
Quantidade de longitudes NaN: 2560


In [71]:
rents_df["lat"] = rents_df["lat"].fillna(-3.7304512)
rents_df["lon"] = rents_df["lon"].fillna(-38.5217989)
rents_df.isna().any()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rents_df["lat"] = rents_df["lat"].fillna(-3.7304512)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rents_df["lon"] = rents_df["lon"].fillna(-38.5217989)


amenities        False
usableAreas      False
description      False
title            False
unitTypes        False
id               False
parkingSpaces    False
address          False
suites           False
externalId       False
bathrooms        False
usageTypes       False
bedrooms         False
pricingInfos     False
neighborhood     False
lat              False
lon              False
condoFee         False
rentPrice        False
iptu             False
dtype: bool

### Remoção de colunas intermediárias


Como as colunas `id` e `externalId` já foram usadas para identificar linhas duplicadas, e as colunas `pricingInfos` e `address` foram usadas para extrair o preço e endereço dos imóveis, podemos removê-las do *dataframe*. Por ora, vamos manter a coluna `title` e `description`, pois elas podem prover informações úteis para análises adicionais.

In [72]:
rents_df = rents_df.drop(columns=["id", "externalId", "pricingInfos", "address"])
rents_df

Unnamed: 0,amenities,usableAreas,description,title,unitTypes,parkingSpaces,suites,bathrooms,usageTypes,bedrooms,neighborhood,lat,lon,condoFee,rentPrice,iptu
0,"[ELEVATOR, GATED_COMMUNITY, GARDEN, PLAYGROUND...",70.0,IMÓVEL IMPECÁVEL! L I N D A V I S T A M A R! <...,Apartamento para aluguel tem 70 metros quadrad...,APARTMENT,2.0,2.0,2.0,RESIDENTIAL,2.0,Meireles,-3.727880,-38.495875,730,2700,110
1,"[FURNISHED, BARBECUE_GRILL, ELEVATOR, GATED_CO...",60.0,"Apartamento Duplex 60 m2, com 02 suítes, total...","Apartamento DUPLEX MOBILIADO, 02 suítes, em Me...",APARTMENT,1.0,2.0,2.0,RESIDENTIAL,2.0,Meireles,-3.727192,-38.490351,800,2500,200
2,"[AIR_CONDITIONING, PORCELAIN]",35.0,ANDAR ALTO;<br>PISO EM PORCELANATO;<br>ILUMINA...,"Sala comercial, localização INENARRÁVEL / para...",OFFICE,0.0,0.0,0.0,COMMERCIAL,0.0,Meireles,-3.736109,-38.490084,575,2500,330
3,[],33.0,"Salas com piso em porcelanato bianco, com forr...",Scopa Platinum Corporate - Salas amplas com WC,OFFICE,1.0,0.0,0.0,COMMERCIAL,0.0,Aldeota,-3.733264,-38.509330,428,1750,1143
4,[],30.0,COMPSA – COMPARTILHAMENTO DE SALAS: <br>I. MOB...,"COMPSA - Compartilhamento de Salas - Hora, Exp...",OFFICE,0.0,0.0,0.0,COMMERCIAL,0.0,Aldeota,-3.743591,-38.493051,0,500,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
83,"[KITCHEN, BACKYARD, SERVICE_AREA]",594.0,"Casa residencial ou comercial com 594 m², loca...",Casa para alugar com 594 m² no Vila Velha,HOME,12.0,2.0,2.0,RESIDENTIAL,5.0,Vila Velha,-3.722138,-38.595065,0,5000,0
84,[],297.0,,Ponto Comercial,BUSINESS,0.0,0.0,0.0,COMMERCIAL,0.0,Parque Santa Maria,-3.730451,-38.521799,0,1700,0
85,"[KITCHEN, SERVICE_AREA]",200.0,Casa comercial duplex de esquina com 6 ambient...,"Casa comercial duplex, no bairro Conjunto Ceará",COMMERCIAL_PROPERTY,2.0,3.0,3.0,COMMERCIAL,6.0,Conjunto Ceará II,-3.730451,-38.521799,0,10500,0
34,"[BARBECUE_GRILL, GARDEN, POOL, PLAYGROUND, ELE...",54.0,"Primeira Locação, valor já com condomínio. Apa...",Apartamento de 54 metros quadrados no bairro P...,APARTMENT,2.0,1.0,1.0,RESIDENTIAL,2.0,Planalto Ayrton Senna,-3.833893,-38.567802,275,700,250


## Salvando *dataset* final

Uma vez que realizamos todos os devidos tratamentos nos dados, podemos salvar nosso *dataframe*  em um csv. Para isso, utilizamos o método `to_csv` do *dataframe*. A coluna `usageTypes` indica qual o tipo de uso para o imóvel, que pode ser comercial ou residencial. Com base nisso, vamos gerar dois *datasets*, um com todos os imóveis, e outro apenas com os imóveis residenciais.

In [73]:
rents_df.head()

Unnamed: 0,amenities,usableAreas,description,title,unitTypes,parkingSpaces,suites,bathrooms,usageTypes,bedrooms,neighborhood,lat,lon,condoFee,rentPrice,iptu
0,"[ELEVATOR, GATED_COMMUNITY, GARDEN, PLAYGROUND...",70.0,IMÓVEL IMPECÁVEL! L I N D A V I S T A M A R! <...,Apartamento para aluguel tem 70 metros quadrad...,APARTMENT,2.0,2.0,2.0,RESIDENTIAL,2.0,Meireles,-3.72788,-38.495875,730,2700,110
1,"[FURNISHED, BARBECUE_GRILL, ELEVATOR, GATED_CO...",60.0,"Apartamento Duplex 60 m2, com 02 suítes, total...","Apartamento DUPLEX MOBILIADO, 02 suítes, em Me...",APARTMENT,1.0,2.0,2.0,RESIDENTIAL,2.0,Meireles,-3.727192,-38.490351,800,2500,200
2,"[AIR_CONDITIONING, PORCELAIN]",35.0,ANDAR ALTO;<br>PISO EM PORCELANATO;<br>ILUMINA...,"Sala comercial, localização INENARRÁVEL / para...",OFFICE,0.0,0.0,0.0,COMMERCIAL,0.0,Meireles,-3.736109,-38.490084,575,2500,330
3,[],33.0,"Salas com piso em porcelanato bianco, com forr...",Scopa Platinum Corporate - Salas amplas com WC,OFFICE,1.0,0.0,0.0,COMMERCIAL,0.0,Aldeota,-3.733264,-38.50933,428,1750,1143
4,[],30.0,COMPSA – COMPARTILHAMENTO DE SALAS: <br>I. MOB...,"COMPSA - Compartilhamento de Salas - Hora, Exp...",OFFICE,0.0,0.0,0.0,COMMERCIAL,0.0,Aldeota,-3.743591,-38.493051,0,500,0


In [74]:
full_df = rents_df
residential_df = rents_df[rents_df["usageTypes"] == "RESIDENTIAL"]

full_df.to_csv(BASE_PATH + "/full_rents.csv")
residential_df.to_csv(BASE_PATH + "/residential.csv")