In [6]:
import json
import pandas as pd
import cloudscraper
from scrapy.selector import Selector

# Função para coletar dados de uma página
def get_data_from_page(page_number):
    url = f'https://www.olx.com.br/imoveis/venda/apartamentos/estado-pr/regiao-de-curitiba-e-paranagua/pinheirinho?o={page_number}'
    scraper = cloudscraper.create_scraper()
    r = scraper.get(url)
    response = Selector(text=r.text)
    html = json.loads(response.xpath('//script[@id="__NEXT_DATA__"]/text()').get())
    houses = html.get('props', {}).get('pageProps', {}).get('ads', [])
    
    # Lista para armazenar os dados dos anúncios
    data = []

    # Iterar sobre os anúncios e extrair propriedades
    for house in houses:
        # Extrair propriedades
        properties = house.get('properties', [])
        
        # Converter a lista de propriedades para um dicionário
        property_dict = {prop['name']: prop['value'] for prop in properties}
        
        # Adicionar dados adicionais ao dicionário
        property_dict['title'] = house.get('title')
        property_dict['price'] = house.get('price')
        property_dict['location'] = house.get('location')
        property_dict['url'] = house.get('url')
        
        # Adicionar o dicionário à lista de dados
        data.append(property_dict)

    return data

# Número total de páginas
total_pages = 100  # ou o número de páginas que você deseja

# Lista para armazenar os dados de todas as páginas
all_data = []

# Iterar sobre as páginas e coletar dados
for page_number in range(1, total_pages + 1):
    print(f'Coletando dados da página {page_number}...')
    page_data = get_data_from_page(page_number)
    all_data.extend(page_data)

# Criar um DataFrame a partir da lista de dados
df = pd.DataFrame(all_data)

# Definir a ordem desejada das colunas
desired_order = ['title', 'price', 'location', 'size', 'rooms', 'bathrooms', 'garage_spaces', 'url']

# Identificar todas as colunas atuais no DataFrame
current_columns = list(df.columns)

# Determinar quais colunas não estão na lista desejada
other_columns = [col for col in current_columns if col not in desired_order]

# Combinar a ordem desejada com as outras colunas
final_order = desired_order + other_columns

# Reordenar as colunas do DataFrame
df = df[final_order]

# Remover linhas em branco (ou seja, linhas onde todos os valores são NaN)
df = df.dropna(how='all')

# Exibir as primeiras linhas do DataFrame para verificação
print(df.head())

# Exportar o DataFrame para um arquivo Excel
df.to_excel('houses_data.xlsx', index=False)




Coletando dados da página 1...
Coletando dados da página 2...
Coletando dados da página 3...
Coletando dados da página 4...
Coletando dados da página 5...
Coletando dados da página 6...
Coletando dados da página 7...
Coletando dados da página 8...
Coletando dados da página 9...
Coletando dados da página 10...
Coletando dados da página 11...
Coletando dados da página 12...
Coletando dados da página 13...
Coletando dados da página 14...
Coletando dados da página 15...
Coletando dados da página 16...
Coletando dados da página 17...
Coletando dados da página 18...
Coletando dados da página 19...
Coletando dados da página 20...
Coletando dados da página 21...
Coletando dados da página 22...
Coletando dados da página 23...
Coletando dados da página 24...
Coletando dados da página 25...
Coletando dados da página 26...
Coletando dados da página 27...
Coletando dados da página 28...
Coletando dados da página 29...
Coletando dados da página 30...
Coletando dados da página 31...
Coletando dados d