# HouseHunter Pro - Workflow

**Workflow:**
1. Detect scrape dates
2. Load search results and compute URL diff
3. Show new URLs to scrape
4. Parse all listings
5. Create final dataframe with: `is_sold`, `prices` (history), `days_live`

## Setup

In [1]:
import pandas as pd
from pathlib import Path

from scraping import (
    process_listings_directory,
    process_search_results_directory,
)
from scraping.utils import deduplicate_listings, fix_list_columns

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

SCRAPED_DIR = Path('data/scraped')

print("Ready")

Ready


## Step 1: Detect Available Scrape Dates

Auto-detect all scraped dates from the data directory.

In [2]:
# Find all date directories (format: YYYY_MM_DD)
import re

date_dirs = []
for d in SCRAPED_DIR.iterdir():
    if d.is_dir() and re.match(r'\d{4}_\d{2}_\d{2}', d.name):
        date_dirs.append(d.name)

# Sort chronologically
date_dirs = sorted(date_dirs)

print(f"Found {len(date_dirs)} scrape dates:")
for i, d in enumerate(date_dirs):
    label = "(current)" if i == len(date_dirs) - 1 else ""
    print(f"  {d} {label}")

# Current date is the most recent
CURRENT_DATE = date_dirs[-1] if date_dirs else None
ALL_DATES = date_dirs

Found 2 scrape dates:
  2026_01_18 
  2026_01_24 (current)


---

## Step 2: Load Search Results for All Dates

Load search results from all scraped dates to find:
- New URLs to scrape (appeared in current but not previous)
- Sold URLs (disappeared between scrapes)

In [3]:
# Load search results for all dates
search_results_by_date = {}

for date_str in ALL_DATES:
    search_dir = SCRAPED_DIR / date_str / 'search_results'
    if search_dir.exists():
        df = process_search_results_directory(search_dir, date_str)
        if not df.empty:
            # Deduplicate - keep first occurrence (lowest page number)
            df = df.drop_duplicates(subset=['listing_id'], keep='first')
            search_results_by_date[date_str] = df
            print(f"{date_str}: {len(df)} unique listings")

print(f"\nLoaded search results for {len(search_results_by_date)} dates")

2026_01_18: 157 unique listings
2026_01_24: 157 unique listings

Loaded search results for 2 dates


In [4]:
# Compute URL diffs and build price history
sorted_dates = sorted(search_results_by_date.keys())

# Track price history for each listing: listing_id -> [(date, price), ...]
price_history = {}

# Track when each listing was last seen (to detect sold)
last_seen_date = {}

# Build history from all dates
for date_str in sorted_dates:
    df = search_results_by_date[date_str]
    for _, row in df.iterrows():
        lid = row['listing_id']
        price = row.get('price')
        
        if lid not in price_history:
            price_history[lid] = []
        price_history[lid].append((date_str, price))
        last_seen_date[lid] = date_str

# Compute new/removed for latest comparison
if len(sorted_dates) >= 2:
    prev_date = sorted_dates[-2]
    curr_date = sorted_dates[-1]
    
    df_prev = search_results_by_date[prev_date]
    df_curr = search_results_by_date[curr_date]
    
    prev_ids = set(df_prev['listing_id'].unique())
    curr_ids = set(df_curr['listing_id'].unique())
    
    new_ids = curr_ids - prev_ids
    removed_ids = prev_ids - curr_ids
    
    df_new_urls = df_curr[df_curr['listing_id'].isin(new_ids)].copy()
    
    print(f"Comparison: {prev_date} -> {curr_date}")
    print(f"  New: {len(new_ids)}")
    print(f"  Removed (sold): {len(removed_ids)}")
    print(f"  Still active: {len(curr_ids & prev_ids)}")
else:
    df_new_urls = pd.DataFrame()
    removed_ids = set()
    print("Only one scrape date - no comparison possible")

Comparison: 2026_01_18 -> 2026_01_24
  New: 13
  Removed (sold): 13
  Still active: 144


## New URLs to Scrape

URLs that appeared in the current scrape but weren't in the previous one.

In [5]:
# Show new URLs to scrape
if not df_new_urls.empty:
    print(f"New URLs to scrape: {len(df_new_urls)}\n")
    display(df_new_urls[['portal', 'listing_id', 'url', 'price']].reset_index(drop=True))
else:
    print("No new URLs to scrape")

New URLs to scrape: 13



Unnamed: 0,portal,listing_id,url,price
0,idealista,ideal_34602221,https://www.idealista.it/immobile/34602221/,470000.0
1,idealista,ideal_34638590,https://www.idealista.it/immobile/34638590/,610000.0
2,idealista,ideal_34635714,https://www.idealista.it/immobile/34635714/,550000.0
3,immobiliare,immo_126177541,https://www.immobiliare.it/annunci/126177541/,
4,immobiliare,immo_126018123,https://www.immobiliare.it/annunci/126018123/,
5,immobiliare,immo_126170915,https://www.immobiliare.it/annunci/126170915/,
6,immobiliare,immo_126171269,https://www.immobiliare.it/annunci/126171269/,
7,immobiliare,immo_126108861,https://www.immobiliare.it/annunci/126108861/,
8,immobiliare,immo_124590193,https://www.immobiliare.it/annunci/124590193/,
9,immobiliare,immo_126011745,https://www.immobiliare.it/annunci/126011745/,


---

## Step 3: Parse Listings

In [6]:
# Parse listings from all scraped dates
all_listings = []

for date_str in ALL_DATES:
    listings_dir = SCRAPED_DIR / date_str
    df = process_listings_directory(listings_dir, date_str)
    
    if not df.empty:
        all_listings.append(df)
        print(f"{date_str}: {len(df)} listings parsed")
    else:
        print(f"{date_str}: No listing HTML files found")

# Combine all listings
if all_listings:
    df_listings = pd.concat(all_listings, ignore_index=True)
    print(f"\nTotal: {len(df_listings)} listings parsed")
else:
    df_listings = pd.DataFrame()
    print("\nNo listings parsed yet")

2026_01_18: 152 listings parsed
2026_01_24: 13 listings parsed

Total: 165 listings parsed


---

## Step 4: Final DataFrame

Add `is_sold`, `prices` (history from search results), and `days_live`.

In [7]:
# Build final dataframe
if not df_listings.empty:
    df = df_listings.copy()
    
    # Get the most recent scrape date (current)
    current_date = sorted_dates[-1] if sorted_dates else None
    
    # is_sold: True if listing was seen before but not in the latest search results
    def check_sold(lid):
        last_seen = last_seen_date.get(lid)
        if last_seen and current_date:
            return last_seen != current_date
        return False
    
    df['is_sold'] = df['listing_id'].apply(check_sold)
    
    # prices: list of prices, only adding when price changed
    def get_prices(lid):
        history = price_history.get(lid, [])
        prices = []
        for (d, p) in history:
            if p is not None:
                # Only add if different from last price
                if not prices or p != prices[-1]:
                    prices.append(p)
        return prices if prices else None
    
    df['prices'] = df['listing_id'].apply(get_prices)
    
    # days_live: for sold listings, calculate days from created_at to removal
    def calc_days_live(row):
        if not row['is_sold']:
            return None
        
        # Get listing date from created_at (Unix timestamp for Immobiliare)
        listing_date = None
        if 'created_at' in row.index and pd.notna(row.get('created_at')):
            val = row['created_at']
            # Check if it's a Unix timestamp (large number)
            if isinstance(val, (int, float)) and val > 1e9:
                listing_date = pd.to_datetime(val, unit='s')
            else:
                listing_date = pd.to_datetime(val, errors='coerce')
        
        if listing_date is None or pd.isna(listing_date):
            return None
        
        # Get removal date (the date after last_seen)
        last_seen = last_seen_date.get(row['listing_id'])
        if last_seen:
            try:
                idx = sorted_dates.index(last_seen)
                if idx + 1 < len(sorted_dates):
                    removal_date = pd.to_datetime(sorted_dates[idx + 1], format='%Y_%m_%d')
                    return (removal_date - listing_date).days
            except:
                pass
        return None
    
    df['days_live'] = df.apply(calc_days_live, axis=1)
    
    print(f"Final dataframe: {len(df)} listings")
    print(f"  Sold: {df['is_sold'].sum()}")
    print(f"  Active: {(~df['is_sold']).sum()}")
    
    # Show days_live stats for sold
    sold_days = df[df['is_sold']]['days_live'].dropna()
    if len(sold_days) > 0:
        print(f"  Days live (sold): min={sold_days.min():.0f}, max={sold_days.max():.0f}, avg={sold_days.mean():.0f}")
else:
    df = pd.DataFrame()
    print("No listings to process")

Final dataframe: 165 listings
  Sold: 12
  Active: 153
  Days live (sold): min=11, max=119, avg=80


In [8]:
df

Unnamed: 0,id,portal,url,title,location,description,price,price_formatted,price_per_sqm,surface_sqm,surface_commercial,surface_usable,rooms,bathrooms,floor,elevator,building_year,condition,heating,energy_class,has_balcony,has_terrace,has_garden,has_cellar,has_air_conditioning,parking,condominium_fees,latitude,longitude,characteristics,last_update,created_at,photo_count,plan_count,floor_plan_indices,has_virtual_tour,listing_id,version,folder_path,image_count,reference,typology,typology_detail,bedrooms,floors_building,kitchen,furnished,availability,air_conditioning,address,city,zone,microzone,features,primary_features,luxury,contract,updated_at,main_features,snapshot_date,rooms_count,surface_numeric,is_sold,prices,days_live
0,ideal_22701141,idealista,https://www.idealista.it/immobile/22701141/,Quadrilocale in vendita in Via Solferino s.n.c,"Santo Stefano - Galvani, Bologna","Bologna centro storico, a due passi da via D’A...",695000,695.000€,,133 m2,133 m² commerciali,,4 locali,,2º piano con ascensore,Con ascensore,,Buono stato,Riscaldamento autonomo,Classe energetica: In corso,True,False,False,True,True,,,44.487839,11.342547,"[133 m² commerciali, 4 locali, 2 bagni, Balcon...",Annuncio aggiornato più di 6 mesi fa,1.751926e+09,27,1,[26],True,ideal_22701141,1,data/scraped/2026_01_18/ideal_22701141_v1,28,,,,,,,,,,,,,,,,,,,,2026-01-18,4,133,False,[695000.0],
1,ideal_24217142,idealista,https://www.idealista.it/immobile/24217142/,Appartamento in vendita in Via Luigi Calori s.n.c,"Marconi, Bologna",Spazio Casa 2000 ( per informazioni contattare...,490000,490.000€,,149 m2,149 m² commerciali,,5 locali,,2º piano con ascensore,Con ascensore,,Buono stato,Riscaldamento centralizzato,Classe energetica: In corso,True,False,False,True,True,,,44.500548,11.331802,"[Nuda proprietàCos'è la nuda proprietà, 149 m²...",Annuncio aggiornato 3 giorni fa,1.768432e+09,35,2,"[31, 32]",True,ideal_24217142,1,data/scraped/2026_01_18/ideal_24217142_v1,37,,,,,,,,,,,,,,,,,,,,2026-01-18,5,149,False,[490000.0],
2,ideal_24851423,idealista,https://www.idealista.it/immobile/24851423/,Appartamento in vendita in Via Alessandrini s.n.c,"Irnerio, Bologna","**Appartamento in Vendita - Via Alessandrini, ...",570000,570.000€,,150 m2,150 m² commerciali,,5 locali,,1º piano con ascensore,Con ascensore,1900.0,Buono stato,Riscaldamento autonomo: Gas naturale,"Classe energetica (Legge 90 del 2013, legislaz...",False,False,False,True,True,,,44.498659,11.346485,"[150 m² commerciali, 5 locali, 2 bagni, Buono ...",Annuncio aggiornato 22 giorni fa,1.766790e+09,55,2,"[54, 55]",True,ideal_24851423,1,data/scraped/2026_01_18/ideal_24851423_v1,57,,,,,,,,,,,,,,,,,,,,2026-01-18,5,150,False,[570000.0],
3,ideal_25075109,idealista,https://www.idealista.it/immobile/25075109/,Appartamento in vendita in Via delle Belle Art...,"Centro Storico, Bologna",CONSULENTE DI RIFERIMENTO: GIORGIOCOMPOSIZIONE...,529000,529.000€,,135 m2,135 m² commerciali,,5 locali,,2º piano senza ascensore,Senza ascensore,,Buono stato,Riscaldamento autonomo,"Classe energetica (Legge 90 del 2013, legislaz...",False,True,False,True,False,,,44.497432,11.348160,"[135 m² commerciali, 5 locali, 2 bagni, Terraz...",Annuncio aggiornato più di 3 mesi fa,1.760393e+09,45,1,[44],True,ideal_25075109,1,data/scraped/2026_01_18/ideal_25075109_v1,46,,,,,,,,,,,,,,,,,,,,2026-01-18,5,135,False,[529000.0],
4,ideal_30090429,idealista,https://www.idealista.it/immobile/30090429/,Quadrilocale in vendita a Centro Storico,"Centro, Bologna","Bologna – Sito in via Marconi, nel pieno del c...",670000,670.000€,,130 m2,130 m² commerciali,,4 locali,,5º piano con ascensore,Con ascensore,1957.0,Buono stato,Riscaldamento centralizzato,Classe energetica (D.L. 192 del 2005):(IPE non...,False,False,False,True,True,,,44.494703,11.337875,"[130 m² commerciali, 4 locali, 1 bagno, Buono ...",Annuncio aggiornato più di un anno fa,1.748038e+09,21,0,[],True,ideal_30090429,1,data/scraped/2026_01_18/ideal_30090429_v1,21,,,,,,,,,,,,,,,,,,,,2026-01-18,4,130,False,[670000.0],
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
160,immo_126108861,immobiliare,https://www.immobiliare.it/annunci/126108861/,"Quadrilocale via Castiglione, Santo Stefano, B...",,CONSULENTE DI RIFERIMENTO: MAURIZIO\n--\nCOMPO...,460000,€ 460.000,,120 m²,,,4,2.0,1°,False,,Nuovo / In costruzione,"autonomo, a radiatori, alimentato a metano",,False,False,False,False,False,,€ 100/mese,44.485400,11.348200,,Annuncio aggiornato il 21/01/2026,1.761655e+09,9,1,[9],False,immo_126108861,1,data/scraped/2026_01_24/immo_126108861_v1,11,M-35,Appartamento,Appartamento | Intera proprietà | Classe immob...,2,4 piani,Cucina angolo cottura,Appartamento | Intera proprietà | Classe immob...,libero,"autonomo, freddo/caldo",Via Castiglione,Bologna,Centro,Santo Stefano,"[Armadio a muro, Esposizione esterna, Fibra ot...","[Fibra ottica, Porta blindata, Esposizione est...",False,sale,1.769016e+09,"[4 locali, 120 m², 2 bagni, Piano 1, No Ascens...",2026-01-24,4,120,False,[nan],
161,immo_126125431,immobiliare,https://www.immobiliare.it/annunci/126125431/,"Quadrilocale da ristrutturare, primo piano, Sa...",,STRADA MAGGIORE laterale via Begatto in stabil...,500000,€ 500.000,,158 m²,,,4,2.0,"2 piani: Interrato (-1), 1°",False,1930.0,Da ristrutturare,"autonomo, alimentato a gas",,False,False,False,False,False,,,44.493000,11.352700,,Annuncio aggiornato il 22/01/2026,1.769076e+09,10,1,[10],False,immo_126125431,1,data/scraped/2026_01_24/immo_126125431_v1,12,OTTA68,Appartamento,Appartamento | Intera proprietà | Classe immob...,3,3 piani,Cucina abitabile,Appartamento | Intera proprietà | Classe immob...,libero,,,Bologna,Centro,San Vitale,"[Infissi esterni in vetro / legno, Porta blind...","[Porta blindata, impianto tv centralizzato, So...",False,sale,1.769077e+09,"[4 locali, 158 m², 2 bagni, No Ascensore, Solo...",2026-01-24,4,158,False,[nan],
162,immo_126170915,immobiliare,https://www.immobiliare.it/annunci/126170915/,"Quadrilocale via Guglielmo Marconi, Marconi, B...",,"nel centro storico della citta', adiacente a p...",630000,€ 630.000,,176 m²,,,4,2.0,"5°, con ascensore",True,1930.0,Buono / Abitabile,"autonomo, a radiatori, alimentato a metano",,False,False,False,False,False,,€ 250/mese,44.498800,11.338400,,Annuncio aggiornato il 23/01/2026,1.759412e+09,31,1,[31],True,immo_126170915,1,data/scraped/2026_01_24/immo_126170915_v1,33,EK-126170915,Appartamento,Appartamento | Intera proprietà | Classe immob...,3,5 piani,Cucina abitabile,Appartamento | Intera proprietà | Classe immob...,libero,,Via Guglielmo Marconi,Bologna,Centro,Marconi,"[Armadio a muro, Esposizione esterna, Fibra ot...","[cancello elettrico, Fibra ottica, Porta blind...",False,sale,1.769158e+09,"[4 locali, 176 m², 2 bagni, Piano 5, Ascensore...",2026-01-24,4,176,False,[nan],
163,immo_126171269,immobiliare,https://www.immobiliare.it/annunci/126171269/,"Attico via Castiglione, Santo Stefano, Bologna",,"appartamento attico particolarissimo, con due ...",520000,€ 520.000,,160 m²,,,5+,3.0,"2°, con ascensore",True,1400.0,Ottimo / Ristrutturato,"autonomo, a radiatori, alimentato a metano",In attesa di certificazione,False,False,False,False,False,,,44.485400,11.348200,,Annuncio aggiornato il 23/01/2026,1.759520e+09,51,1,[51],True,immo_126171269,1,data/scraped/2026_01_24/immo_126171269_v1,53,EK-126171269,Attico - Mansarda,Attico | Nuda proprietà | Classe immobile sign...,3,2 piani,Cucina abitabile,Attico | Nuda proprietà | Classe immobile sign...,,"autonomo, freddo/caldo",Via Castiglione,Bologna,Centro,Santo Stefano,"[Armadio a muro, Esposizione interna, Fibra ot...","[Mansarda, Fibra ottica, Esposizione interna, ...",False,sale,1.769159e+09,"[5+ locali, 160 m², 3 bagni, Piano 2, Ascensor...",2026-01-24,5,160,False,[nan],


In [9]:
df[df.is_sold].days_live.unique()

array([ 81.,  74.,  54.,  24., 105.,  94.,  53., 115., 119., 113., 112.,
        11.])

In [10]:
df[df.is_sold]

Unnamed: 0,id,portal,url,title,location,description,price,price_formatted,price_per_sqm,surface_sqm,surface_commercial,surface_usable,rooms,bathrooms,floor,elevator,building_year,condition,heating,energy_class,has_balcony,has_terrace,has_garden,has_cellar,has_air_conditioning,parking,condominium_fees,latitude,longitude,characteristics,last_update,created_at,photo_count,plan_count,floor_plan_indices,has_virtual_tour,listing_id,version,folder_path,image_count,reference,typology,typology_detail,bedrooms,floors_building,kitchen,furnished,availability,air_conditioning,address,city,zone,microzone,features,primary_features,luxury,contract,updated_at,main_features,snapshot_date,rooms_count,surface_numeric,is_sold,prices,days_live
34,ideal_33840798,idealista,https://www.idealista.it/immobile/33840798/,Appartamento in vendita in Via Milazzo,"Marconi, Bologna",Centro - Adiacenze Via Milazzo-Via Don Minzoni...,549000,549.000€,,185 m2,185 m² commerciali,,6 locali,,7º piano con ascensore,Con ascensore,1955.0,Da ristrutturare,Riscaldamento centralizzato: Gas,"Classe energetica (Legge 90 del 2013, legislaz...",True,False,False,True,False,Posto auto scoperto,,44.501417,11.341601,"[185 m² commerciali, 6 locali, 2 bagni, Balcon...",Annuncio aggiornato più di 2 mesi fa,1762211000.0,31,2,"[30, 31]",True,ideal_33840798,1,data/scraped/2026_01_18/ideal_33840798_v1,33,,,,,,,,,,,,,,,,,,,,2026-01-18,6,185,True,[549000.0],81.0
38,ideal_33934638,idealista,https://www.idealista.it/immobile/33934638/,"Appartamento in vendita in Via Santa Croce, 13","Malpighi, Bologna",Via Santa Croce - centro storico di Bologna vi...,570000,570.000€,,168 m2,168 m² commerciali,,6 locali,,2º piano con ascensore,Con ascensore,,Da ristrutturare,Riscaldamento autonomo,"Classe energetica (Legge 90 del 2013, legislaz...",True,False,False,True,False,Posto auto scoperto,,44.496795,11.329762,"[168 m² commerciali, 6 locali, 2 bagni, Balcon...",Annuncio aggiornato più di 2 mesi fa,1762816000.0,34,1,[33],True,ideal_33934638,1,data/scraped/2026_01_18/ideal_33934638_v1,35,,,,,,,,,,,,,,,,,,,,2026-01-18,6,168,True,[570000.0],74.0
51,ideal_34283360,idealista,https://www.idealista.it/immobile/34283360/,Appartamento in vendita in Via dell'Indipendenza,"Centro Storico, Bologna",CENTRALISSIMO - VIA DELL'INDIPENDENZAP. ZA MAG...,490000,490.000€,,140 m2,140 m² commerciali,,6 locali,,4º piano con ascensore,Con ascensore,1900.0,Da ristrutturare,Riscaldamento centralizzato,Classe energetica: Non indicato,True,False,False,True,False,,,44.497857,11.342691,"[140 m² commerciali, 6 locali, 1 bagno, Balcon...",Annuncio aggiornato più di un mese fa,1764544000.0,31,0,[],True,ideal_34283360,1,data/scraped/2026_01_18/ideal_34283360_v1,31,,,,,,,,,,,,,,,,,,,,2026-01-18,6,140,True,[490000.0],54.0
60,ideal_34479043,idealista,https://www.idealista.it/immobile/34479043/,Appartamento in vendita a Marconi,"Centro, Bologna",BOLOGNA - AD. ZE PIAZZA DEI MARTIRI - APPARTAM...,550000,550.000€,,177 m2,177 m² commerciali,,8 locali,,7º piano con ascensore,Con ascensore,1960.0,Da ristrutturare,,Classe energetica:(175 kWh/m² anno),False,False,False,False,False,,,44.502287,11.340708,"[177 m² commerciali, 8 locali, 2 bagni, Da ris...",Annuncio aggiornato 18 giorni fa,1767136000.0,7,3,"[5, 7, 8]",True,ideal_34479043,1,data/scraped/2026_01_18/ideal_34479043_v1,10,,,,,,,,,,,,,,,,,,,,2026-01-18,8,177,True,[550000.0],24.0
99,immo_123773329,immobiliare,https://www.immobiliare.it/annunci/123773329/,"Appartamento via Milazzo, Marconi, Bologna",,Centro - Adiacenze Via Milazzo-Via Don Minzoni...,590000,€ 590.000,,185 m²,,,5+,2.0,"7°, con ascensore",True,1955.0,Da ristrutturare,"centralizzato, a pavimento, alimentato a metano",,False,False,False,False,False,,€ 300/mese,44.5037,11.3395,,Annuncio aggiornato il 15/10/2025,1760087000.0,25,2,"[25, 26]",False,immo_123773329,1,data/scraped/2026_01_18/immo_123773329_v1,28,BO-00347,Appartamento,Appartamento | Intera proprietà | Classe immob...,5.0,8 piani,Cucina abitabile,Appartamento | Intera proprietà | Classe immob...,libero,,Via Milazzo,Bologna,Centro,Marconi,"[Esposizione doppia, Infissi esterni in vetro ...","[Esposizione interna, Esposizione esterna, bal...",False,sale,1760551000.0,"[5+ locali, 185 m², 2 bagni, Piano 7, Ascensor...",2026-01-18,5,185,True,[nan],105.0
107,immo_124014459,immobiliare,https://www.immobiliare.it/annunci/124014459/,"Appartamento via Santa Croce, San Felice, Bologna",,Via Santa Croce - centro storico di Bologna vi...,570000,€ 570.000,,168 m²,,,5+,2.0,"2°, con ascensore",True,1950.0,Buono / Abitabile,"autonomo, a radiatori, alimentato a metano",,False,False,False,False,False,,€ 142/mese,44.4967,11.3294,,Annuncio aggiornato il 22/10/2025,1761035000.0,29,1,[29],False,immo_124014459,1,data/scraped/2026_01_18/immo_124014459_v1,31,MT6209,Appartamento,Appartamento | Intera proprietà | Classe immob...,4.0,5 piani,Cucina abitabile,Appartamento | Intera proprietà | Classe immob...,libero,,Via Santa Croce,Bologna,Centro,San Felice,"[Esposizione doppia, Infissi esterni in doppio...","[Esposizione interna, Esposizione esterna, bal...",False,sale,1761150000.0,"[5+ locali, 168 m², 2 bagni, Piano 2, Ascensor...",2026-01-18,5,168,True,[nan],94.0
121,immo_125070539,immobiliare,https://www.immobiliare.it/annunci/125070539/,"Appartamento via Dell' Indipendenza, Centro St...",,CENTRALISSIMO - VIA DELL'INDIPENDENZA \nP.ZA M...,490000,€ 490.000,,140 m²,,,5+,1.0,"4° piano, con ascensore",True,1900.0,Da ristrutturare,centralizzato,Non classificabile,False,False,False,False,False,,nessuna spesa condominiale,44.4984,11.3435,,Annuncio aggiornato il 01/12/2025,1764588000.0,26,0,[],False,immo_125070539,1,data/scraped/2026_01_18/immo_125070539_v1,27,CE308,Appartamento,Appartamento | Intera proprietà | Classe immob...,5.0,5 piani,Cucina abitabile,Appartamento | Intera proprietà | Classe immob...,libero,,Via Dell' Indipendenza,Bologna,Centro,Centro Storico,[impianto tv centralizzato],"[balcone, impianto tv centralizzato, cantina]",False,sale,1764588000.0,"[5+ locali, 140 m², 1 bagno, Piano 4, Ascensor...",2026-01-18,5,140,True,[nan],53.0
128,immo_125271473,immobiliare,https://www.immobiliare.it/annunci/125271473/,"Appartamento via Calori, San Felice, Bologna",,Rif: mc520nudapro - Spazio Casa 2000 (per info...,490000,€ 490.000,,149 m²,,,5,2.0,"2°, con ascensore",True,,Ottimo / Ristrutturato,"centralizzato, a radiatori",,False,False,False,False,False,,€ 250/mese,44.5005,11.3316,,Annuncio aggiornato il 08/01/2026,1759256000.0,15,1,[15],False,immo_125271473,1,data/scraped/2026_01_18/immo_125271473_v1,17,mc490nudapro (2849583),Appartamento,Appartamento,3.0,6 piani,Cucina abitabile,Appartamento,,"autonomo, freddo",Via Calori,Bologna,Centro,San Felice,"[Fibra ottica, Impianto di allarme, Porta blin...","[Fibra ottica, videoCitofono, Impianto di alla...",False,sale,1767893000.0,"[5 locali, 149 m², 2 bagni, Piano 2, Ascensore...",2026-01-18,5,149,True,[nan],115.0
133,immo_125522717,immobiliare,https://www.immobiliare.it/annunci/125522717/,"Appartamento via delle Belle Arti 7, Centro St...",,CONSULENTE DI RIFERIMENTO: GIORGIO\n--\nCOMPOS...,529000,€ 529.000,,135 m²,,,5,1.0,2°,False,1980.0,Ottimo / Ristrutturato,"autonomo, a radiatori, alimentato a metano",,False,False,False,False,False,,€ 120/mese,44.4975,11.3483,,Annuncio aggiornato il 22/12/2025,1758902000.0,28,1,[28],True,immo_125522717,1,data/scraped/2026_01_18/immo_125522717_v1,30,G-17,Appartamento,Appartamento | Intera proprietà | Classe immob...,3.0,2 piani,Cucina abitabile,Appartamento | Intera proprietà | Classe immob...,libero,"autonomo, freddo/caldo",Via delle Belle Arti,Bologna,Centro,Centro Storico,"[Armadio a muro, Esposizione esterna, Fibra ot...","[Fibra ottica, Porta blindata, Esposizione est...",False,sale,1766409000.0,"[5 locali, 135 m², 1 bagno, Piano 2, No Ascens...",2026-01-18,5,135,True,[529000.0],119.0
137,immo_125699521,immobiliare,https://www.immobiliare.it/annunci/125699521/,"Quadrilocale via Guglielmo Marconi, Marconi, B...",,"nel centro storico della citta', adiacente a p...",630000,€ 630.000,,176 m²,,,4,2.0,"5°, con ascensore",True,1930.0,Buono / Abitabile,"autonomo, a radiatori, alimentato a metano",,False,False,False,False,False,,€ 250/mese,44.4988,11.3384,,Annuncio aggiornato il 07/01/2026,1759412000.0,31,1,[31],True,immo_125699521,1,data/scraped/2026_01_18/immo_125699521_v1,33,EK-125699521,Appartamento,Appartamento | Intera proprietà | Classe immob...,3.0,5 piani,Cucina abitabile,Appartamento | Intera proprietà | Classe immob...,libero,,Via Guglielmo Marconi,Bologna,Centro,Marconi,"[Armadio a muro, Esposizione esterna, Fibra ot...","[cancello elettrico, Fibra ottica, Porta blind...",False,sale,1767780000.0,"[4 locali, 176 m², 2 bagni, Piano 5, Ascensore...",2026-01-18,4,176,True,[nan],113.0


---

## Quick Reference

**Final DataFrame (`df`) columns:**
- `listing_id`, `portal`, `url`, `title`, `price`, etc. (from parsed HTML)
- `is_sold` - True if listing disappeared from search results
- `prices` - List of prices (only when changed)
- `days_live` - Days from `created_at` to removal date (for sold listings)
- `created_at` - Listing date (Unix timestamp, both portals)

**Other variables:**
- `df_new_urls` - New URLs to scrape (from latest comparison)

## Step 5: Deduplicate Listings

Remove duplicate listings that appear on both Immobiliare and Idealista.

**Matching criteria:**
- Exact same price
- Exact same surface area
- Coordinates within 100m

Keeps the Immobiliare listing and merges any additional data from the Idealista duplicate.

In [11]:
# Deduplicate listings across portals
# Keeps Immobiliare listings and merges data from duplicate Idealista listings

if not df.empty:
    print(f"Before deduplication: {len(df)} listings")
    print(f"  Immobiliare: {len(df[df.portal == 'immobiliare'])}")
    print(f"  Idealista: {len(df[df.portal == 'idealista'])}")
    
    df = deduplicate_listings(df)
    df = df.reset_index(drop=True)
    
    # Fix list columns for parquet serialization
    df = fix_list_columns(df)
    
    print(f"\nAfter deduplication: {len(df)} listings")
    print(f"  Immobiliare: {len(df[df.portal == 'immobiliare'])}")
    print(f"  Idealista: {len(df[df.portal == 'idealista'])}")

Before deduplication: 165 listings
  Immobiliare: 97
  Idealista: 68
Found 22 duplicate listings
  Merging: ideal_24217142 -> immo_125271473
  Merging: ideal_24851423 -> immo_125233655
  Merging: ideal_25075109 -> immo_125522717
  Merging: ideal_31845035 -> immo_117757313
  Merging: ideal_32148437 -> immo_118939011
  Merging: ideal_32198336 -> immo_119038273
  Merging: ideal_32551850 -> immo_125402535
  Merging: ideal_32693488 -> immo_125699521
  Merging: ideal_33075416 -> immo_121549264
  Merging: ideal_33121115 -> immo_121674072
  Merging: ideal_33404330 -> immo_122526106
  Merging: ideal_33569998 -> immo_125930031
  Merging: ideal_33724493 -> immo_123422763
  Merging: ideal_33909723 -> immo_123937121
  Merging: ideal_33934638 -> immo_124014459
  Merging: ideal_33993703 -> immo_124174799
  Merging: ideal_34180958 -> immo_124722345
  Merging: ideal_34283360 -> immo_125070539
  Merging: ideal_34297868 -> immo_125106347
  Merging: ideal_34305642 -> immo_125131153
  Merging: ideal_343621

In [12]:
# Save final dataframe
output_dir = Path('data/processed')
output_dir.mkdir(parents=True, exist_ok=True)

if not df.empty:
    df.to_parquet(output_dir / 'listings.parquet', index=False)
    print(f"Saved: {output_dir / 'listings.parquet'}")
    
# Export new URLs to scrape
if not df_new_urls.empty:
    urls_file = output_dir / 'new_urls_to_scrape.txt'
    with open(urls_file, 'w') as f:
        for url in df_new_urls['url']:
            f.write(url + '\n')
    print(f"Saved: {urls_file} ({len(df_new_urls)} URLs)")

Saved: data/processed/listings.parquet
Saved: data/processed/new_urls_to_scrape.txt (13 URLs)


---

## Quick Reference

**Final DataFrame (`df`) columns:**
- `listing_id`, `portal`, `url`, `title`, `price`, etc. (from parsed HTML)
- `is_sold` - True if listing disappeared from search results
- `prices` - List of all prices seen in search results history
- `days_live` - Days from `created_at` to removal date (for sold listings)
- `created_at` - When listing was published (Immobiliare only)

**Other variables:**
- `df_new_urls` - New URLs to scrape (from latest comparison)