## Imports e definição do diretório base

In [21]:
import pandas as pd
import re
import os

# Define caminho base como o diretório atual (adaptado para notebooks)
BASE_DIR = os.path.abspath(os.path.join(os.getcwd(), '..')) # ou defina manualmente se necessário
print(BASE_DIR)

/Users/Homailson/Documents/WebScrapZapImoveis


## Função para ingestão de amenidades

In [22]:
def ingest_amenidades(arquivo_amenidades):
    df_bairros = pd.read_csv(arquivo_amenidades)
    df_bairros['bairro'] = df_bairros['bairro'].replace('Parque do Taboão', 'Área Rural de Lorena')
    return df_bairros

## Função para ingestão de dados de imóveis

In [23]:
def ingest_scraping(arquivo_scraping):
    df_imoveis = pd.read_csv(arquivo_scraping)
    df_imoveis['local'] = df_imoveis['local'].replace('Loteamento Lorena Village', 'Loteamento Village das Palmeiras')
    df_imoveis['local'] = df_imoveis['local'].replace('Santa Lucrécia', 'Área Rural de Lorena')
    df_imoveis['local'] = df_imoveis['local'].replace(r'(?<!Parque )Mondesir', 'Parque Mondesir', regex=True)
    return df_imoveis

## Função de junção dos dados

In [24]:
def merging_files(amenidades, scraping):
    df_completo = pd.merge(scraping, amenidades, left_on='local', right_on='bairro', how='left')
    df_completo = df_completo.drop(columns=['local'])

    nova_ordem = ["bairro", "area", "quartos", "banheiros", "vagas",
                  "hospital", "gas_station", "school", "supermarket",
                  "restaurant", "pharmacy", "preco"]
    df_completo = df_completo[nova_ordem]
    return df_completo

## Função para salvar o DataFrame

In [25]:
def salvar_df_completo(df, caminho_saida):
    df.to_csv(caminho_saida, index=False)

## Função main

In [26]:
def main():
    # Caminhos dos arquivos
    caminho_amenidades = os.path.join(BASE_DIR, 'dados', 'raw', 'amenidades.csv')
    caminho_scraping = os.path.join(BASE_DIR, 'dados', 'raw', 'scraping.csv')
    caminho_saida = os.path.join(BASE_DIR, 'dados', 'processed', 'imoveis_com_amenidades.csv')
    
    # Processamento
    df_bairros = ingest_amenidades(caminho_amenidades)
    df_imoveis = ingest_scraping(caminho_scraping)
    df_completo = merging_files(df_bairros, df_imoveis)
    
    # Salvando o resultado
    salvar_df_completo(df_completo, caminho_saida)
    print(f"Arquivo salvo como '{caminho_saida}'")

## Execução da função main

In [27]:
main()

Arquivo salvo como '/Users/Homailson/Documents/WebScrapZapImoveis/dados/processed/imoveis_com_amenidades.csv'
