# Trabalho de Conclusão de Curso - Coleta de Dados
<p style='font-size: 18px; line-height: 2'>Alexsandro Pereira</p>

# Coletando os dados
<hr style='border: 2px solid;'>

## Importando bibliotecas

https://requests.readthedocs.io/en/master/

https://pandas.pydata.org/

https://docs.python.org/3/library/json.html

In [1]:
import requests
import json
import pandas as pd

## O Dataset
<hr>

### Fonte: https://api.loft.com.br/

### Descrição:
<p style='font-size: 18px; line-height: 2; margin: 10px 50px; text-align: justify;'>Script para coleta dos dados no site da loft para apartamentos a venda na cidade de São Paulo.</p>

### Dados:
<ul style='font-size: 18px; line-height: 2; text-align: justify;'>
    <li><b>address</b> - Endereço do imóvel</li>
    <li><b>area</b> - Área do imóvel (m²)</li>
    <li><b>balconyType</b> - Tipo de varanda</li>
    <li><b>bedrooms</b> - Quantidade de quartos</li>
    <li><b>buildingCommercialType</b> - Tipo edifício comercial</li>
    <li><b>buildingHasAirConditioning</b> - Se a construção tem ar-condicionado</li>
    <li><b>buildingHasGarage</b> - Se a construção tem estacio-namento</li>
    <li><b>contractType</b> - Tipo do contrato</li>
    <li><b>currentPhase</b> - Fase atual </li>
    <li><b>facadeQualification</b> - Qualificação da Fachada</li>
    <li><b>floor</b> - Andar do imóvel</li>
    <li><b>gatekeeperAvailability</b> - Disponibilidade do porteiro</li>
    <li><b>heatingSystem</b> - Se tem aquecedor</li>
    <li><b>id</b> - Id do registro</li>
    <li><b>image</b> - Imagem do imóvel</li>
    <li><b>image_thumbnail</b> - Miniatura da imagem do imóvel</li>
    <li><b>isMarketplace</b> - Se é mercado</li>
    <li><b>isRentable</b> - Se é alugável</li>
    <li><b>kitchenServiceAreaViewIsBlocked</b> - Se a visão da área de serviço da cozinha está bloqueada</li>
    <li><b>livingRoomViewIsBlocked</b> - Se a visão da sala de estar está bloqueada</li>
    <li><b>livingRoomViewQualification</b> - Qualificação da vista da sala de estar</li>
    <li><b>mainBedroomViewIsBlocked</b> - Se a visão do quarto principal está bloqueada</li>
    <li><b>otherBedroomsViewsAreBlocked</b> - Se a visão dos outros quartos está bloqueada</li>
    <li><b>parkingSpots</b> - Quantidade de vagas</li>
    <li><b>price</b> - Preço de venda do imóvel (R$)</li>
    <li><b>productType</b> - Tipo de produto</li>
    <li><b>propertyType</b> - Tipo de propriedade</li>
    <li><b>rentalPrice</b> - Preço de aluguel</li>
    <li><b>status</b> - Status do imóvel</li>
    <li><b>subwayShortestDistance (m)</b> - Distância mais curta do metrô</li>
    <li><b>suits</b> - Quantidade de suits</li>
    <li><b>towerHasElevator</b> - Se tem elevador</li>
    <li><b>unitHasServiceBathroom</b> - Se o imóvel tem banheiro de serviço</li>
    <li><b>unitHasServiceBedroom</b> - Se o imóvel tem quarto de ser-viço</li>
    <li><b>unitId</b> - Id da unidade</li>
</ul>

## Script de coleta dos dados

In [27]:
headers = {
                    'Connection': 'keep-alive',
                    'Accept': '*/*',
                    'Access-Control-Request-Method': 'GET',
                    'Access-Control-Request-Headers': 'loft_user_id,loftuserid,utm_campaign,utm_content,utm_created_at,utm_id,utm_medium,utm_source,utm_term,utm_user_agent,x-user-agent,x-utm-source,x-utm-user-id',
                    'Origin': 'https://www.loft.com.br',
                    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36',
                    'Sec-Fetch-Mode': 'cors',
                    'Sec-Fetch-Site': 'same-site',
                    'Sec-Fetch-Dest': 'empty',
                    'Referer': 'https://www.loft.com.br/',
                    'Accept-Language': 'en-US,en;q=0.9',
                }

params = (
                ('city', 'S\xE3o Paulo'),
                ('facetFilters/[/]', 'address.city:S\xE3o Paulo'),
                ('limit', f'30'),
                ('limitedColumns', 'true'),
                ('loftUserId', '417b37df-19ab-4014-a800-688c5acc039d'),
                ('offset', f'0'),
                ('orderBy/[/]', 'rankB'),
                ('orderByStatus', '\'FOR_SALE\', \'JUST_LISTED\', \'DEMOLITION\', \'COMING_SOON\' , \'SOLD\''),
                ('originType', 'LISTINGS_LOAD_MORE'),
                ('q', 'pin'),
                ('status/[/]', ['FOR_SALE', 'JUST_LISTED', 'DEMOLITION', 'COMING_SOON', 'SOLD']),
            )

resposta = requests.get('https://landscape-api.loft.com.br/listing/search', headers=headers, params=params)
if resposta.status_code == 200:
  print(f"NÚMERO DE PÁGINAS === {int(resposta.json()['pagination']['total'])}")
else:
  print(resposta.status_code)

NÚMERO DE PÁGINAS === 1368


In [28]:
class ListaDeImoveis:
    
  def __init__(self, offset=0, limit=30):
    self.__offset = offset
    self.__limit = limit
    self.__headers = {
                    'Connection': 'keep-alive',
                    'Accept': '*/*',
                    'Access-Control-Request-Method': 'GET',
                    'Access-Control-Request-Headers': 'loft_user_id,loftuserid,utm_campaign,utm_content,utm_created_at,utm_id,utm_medium,utm_source,utm_term,utm_user_agent,x-user-agent,x-utm-source,x-utm-user-id',
                    'Origin': 'https://www.loft.com.br',
                    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36',
                    'Sec-Fetch-Mode': 'cors',
                    'Sec-Fetch-Site': 'same-site',
                    'Sec-Fetch-Dest': 'empty',
                    'Referer': 'https://www.loft.com.br/',
                    'Accept-Language': 'en-US,en;q=0.9',
                }
    self.__params = (
                ('city', 'S\xE3o Paulo'),
                ('facetFilters/[/]', 'address.city:S\xE3o Paulo'),
                ('limit', f'{self.__limit}'),
                ('limitedColumns', 'true'),
                ('loftUserId', '417b37df-19ab-4014-a800-688c5acc039d'),
                ('offset', f'{self.__offset}'),
                ('orderBy/[/]', 'rankB'),
                ('orderByStatus', '\'FOR_SALE\', \'JUST_LISTED\', \'DEMOLITION\', \'COMING_SOON\' , \'SOLD\''),
                ('originType', 'LISTINGS_LOAD_MORE'),
                ('q', 'pin'),
                ('status/[/]', ['FOR_SALE', 'JUST_LISTED', 'DEMOLITION', 'COMING_SOON', 'SOLD']),
            )

  def __next_page(self):
    self.__offset +=30
      
  def __has_next(self):
    if(self.__offset < self.__total_pages()):
      return True
    else:
      return False

  def __total_pages(self) -> int:
    resposta = requests.get('https://landscape-api.loft.com.br/listing/search', headers=self.__headers, params=self.__params)
    if resposta.status_code == 200:
      print(f"NÚMERO DE PÁGINAS === {int(resposta.json()['pagination']['total'])}")
      return int(resposta.json()['pagination']['total'])
    else:
      return 0

  def __list_imoveis(self):
    resposta = requests.get('https://landscape-api.loft.com.br/listing/search', headers=self.__headers, params=self.__params)        
    if resposta.status_code == 200:
      return resposta.json()['listings']
    else:
      return None

  def generate_dataset(self):
    frames = []
    while(self.__has_next()):
      print(self.__list_imoveis())
      frames.append(pd.DataFrame(self.__list_imoveis()))
      self.__next_page()
    return pd.concat(frames)

## Coletando e armazenado os dados

In [29]:
lista_imoveis = ListaDeImoveis()
imoveis = lista_imoveis.generate_dataset()
imoveis.to_csv('dataset_imoveis_loft_sao_paulo_20102022_21.csv', sep=';', index=False)

Output hidden; open in https://colab.research.google.com to view.

https://cursos.alura.com.br/forum/topico-erro-notebookapp-iopub_data_rate_limit-178235

## Leitura dos dados

In [10]:
imoveis = pd.read_csv('dataset_imoveis_loft_sao_paulo_20102022_194824.csv', sep=';')
imoveis.head()

Unnamed: 0,id,unitId,price,rentalPrice,complexFee,area,status,currentPhase,amenities,unitHasBalcony,...,_geoloc,createdAtTimeStamp,imageScored,photos,homeType,objectID,_highlightResult,previousPrice,priceUpdatedAt,isOnSale
0,zywhpi,892813,1390000,,1420,100,FOR_SALE,,"['grill', 'gourmet', 'green_area', 'sports_cou...",False,...,"{'lat': -23.5406715, 'lng': -46.7167654}",1653076263,living16.jpg,"['living14.jpg', 'living15.jpg', 'living16.jpg...",apartment,zywhpi,"{'id': {'value': 'zywhpi', 'matchLevel': 'none...",,,
1,zyawv5,219643,899000,,499,98,FOR_SALE,,[],False,...,"{'lat': -23.566868, 'lng': -46.6858205}",1665144861,,"['living08.jpg', 'kitchen01.jpg', 'kitchen02.j...",apartment,zyawv5,"{'id': {'value': 'zyawv5', 'matchLevel': 'none...",,,
2,zvbfnj,967955,3600000,,2200,185,FOR_SALE,,['playground'],False,...,"{'lat': -23.5503774, 'lng': -46.7179889}",1654315455,,"['living12.jpg', 'living13.jpg', 'living14.jpg...",apartment,zvbfnj,"{'id': {'value': 'zvbfnj', 'matchLevel': 'none...",,,
3,zqp4uf,5852038,667800,,540,32,FOR_SALE,,"['green_area', 'gourmet', 'party_room']",True,...,"{'lat': -23.5607628, 'lng': -46.674579}",1662898865,,"['living7.jpg', 'kitchen2.jpg', 'bathroom0.jpg...",apartment,zqp4uf,"{'id': {'value': 'zqp4uf', 'matchLevel': 'none...",,,
4,znpmoh,5873851,2491000,,1000,124,FOR_SALE,,"['gym', 'green_area', 'kids', 'grill', 'gourme...",True,...,"{'lat': -23.5693524, 'lng': -46.6882424}",1666056317,,"['living07.jpg', 'living08.jpg', 'kitchen05.jp...",apartment,znpmoh,"{'id': {'value': 'znpmoh', 'matchLevel': 'none...",,,


In [11]:
imoveis.shape

(1368, 37)