In [1]:
from bs4 import BeautifulSoup
from dataclasses import dataclass, asdict
from typing import List
import yaml
import requests
import json
import pandas as pd

In [2]:
pd.set_option('display.max_columns', None)

In [3]:
def read_config(config_path: str):
    with open(config_path, "r") as file:
        yaml_content = yaml.safe_load(file)
    return yaml_content

In [4]:
parameters_path = "./config/download_parameters.yaml"
scraper_path = "./config/scraper.yaml"

In [5]:
scraper_config = read_config(scraper_path)

In [6]:
url = 'https://www.otodom.pl/pl/oferta/nowolipki-3-pokoje-63-2m2-ID4oITS'
# url = 'https://www.otodom.pl/pl/oferta/2-pokojowe-mieszkanie-54m2-2-balkony-ID4nOyG'

In [7]:
# one_add_page = f'https://www.otodom.pl{one_url}'
one_add_page = url
page_one_add = requests.get(one_add_page, timeout=2)
soup_one_add = BeautifulSoup(page_one_add.content, 'html.parser')
soup_one_add.find_all("div", {"class": "css-m97llu e16xl7020"})
json_data = json.loads(soup_one_add.find('script', type='application/json').text)
json_data = json_data['props']['pageProps']

In [11]:
def extract_ad_main_char(json_data: dict, scraper_config: dict):
    paresed_gen = {}
    for c in scraper_config['general_ad_attr']:
        ads_gen = {c: json_data.get(c, {})}
        paresed_gen.update(ads_gen)
    return paresed_gen

def extract_ad_details(json_data: dict, scraper_config: dict):
    parsed_details = {}
    add_details_json = json_data.get("ad", {})
    for c in scraper_config['ad_attr']:
        ad_details = {c: add_details_json.get(c, {})}
        parsed_details.update(ad_details)
    return parsed_details

def extract_target_details(json_data: dict, scraper_config: dict):
    parsed_targets = {}
    add_target_json = json_data.get("ad", {}).get("target", {})
    for c in scraper_config['ad_targets_attr']:
        ad_targets = {c: add_target_json.get(c, {})}
        parsed_targets.update(ad_targets)
    return parsed_targets

def extract_ad_geo(json_data: dict, scraper_config: dict):
    parsed_geo = {}
    add_geo_json = json_data.get("ad", {}).get("location", {}).get('coordinates', {})
    for c in scraper_config['geo_attr']:
        ad_geo = {c: add_geo_json.get(c, {})}
        parsed_geo.update(ad_geo)
    return parsed_geo

def extract_ad_address(json_data: dict, scraper_config: dict):
    address_parsed = {}
    ad_address_json = json_data.get("ad", {}).get("location", {}).get('address', {})
    for c in scraper_config['address_attr']:        
        ad_address = {
            f'{c}_id': ad_address_json.get(c, {}).get('id', {}),
            f'{c}_name': ad_address_json.get(c, {}).get('name', {}),
        }
        address_parsed.update(ad_address)
    return address_parsed

def full_ad_details(json_data: dict, scraper_config: dict):
    full_data = {}
    full_data.update(extract_ad_main_char(json_data, scraper_config))
    full_data.update(extract_ad_details(json_data, scraper_config))
    full_data.update(extract_target_details(json_data, scraper_config))
    full_data.update(extract_ad_geo(json_data, scraper_config))
    full_data.update(extract_ad_address(json_data, scraper_config))
    return full_data

In [9]:
extract_target_details(json_data = json_data, scraper_config = scraper_config)

{'MarketType': 'secondary',
 'Area': '63.26',
 'AreaRange': [],
 'Build_year': '1951',
 'Building_floors_num': '4',
 'Country': 'Polska',
 'City': 'warszawa',
 'City_id': '26',
 'Construction_status': ['to_renovation'],
 'Extras_types': ['balcony', 'basement', 'separate_kitchen'],
 'Floor_no': ['floor_1'],
 'ProperType': 'mieszkanie',
 'Province': 'mazowieckie',
 'Rooms_num': ['3'],
 'Security_types': ['entryphone'],
 'Price': 1055555,
 'PriceRange': ['1000001-3000000'],
 'Price_per_m': 16686,
 'hidePrice': '0'}

In [12]:
full_ad_details(json_data = json_data, scraper_config = scraper_config)

{'lang': 'pl',
 'id': 64997816,
 'relativeUrl': '/pl/oferta/nowolipki-3-pokoje-63-2m2-ID4oITS',
 'publicId': '4oITS',
 'market': 'SECONDARY',
 'advertiserType': 'private',
 'title': 'Nowolipki, 3 pokoje, 63,2m2',
 'description': '<p>Mieszkanie 3 pokojowe, o powierzchni 63,26m2 w bardzo dobrej lokalizacji na ul. Nowolipki.<br/> Mieszkanie znajduje się na pierwszym piętrze w budynku czteropiętrowym z cegły z lat 50siątych.<br/> W jego skład wchodzą 3 samodzielne pokoje (19m2,17m2 i 12m2), kuchnia z oknem, łazienka, WC, przedpokój.<br/> Mieszkanie dwustronne, okna od kuchni i małego pokoju wychodzą na ciche podwórko, a pozostałe dwa pokoje z balkonem na cichą ulicę.<br/> Wc, łazienka i korytarz są po remoncie, okna wymienione.<br/> Pozostałe pokoje do remontu.<br/> Do lokalu przynależy piwnica, możliwość parkowania na podwórzu przeznaczone tylko dla mieszkańców.<br/> W najbliższej przyszłości będzie odnowiona elewacja budynku.<br/> Mieszkanie idealne dla rodziny, ale również jako inwestyc