In [22]:
from pathlib import Path

import pandas as pd

project_root = Path.cwd().resolve()
if project_root.name == "notebooks":
    project_root = project_root.parent

data_dir = project_root / "data"
combined_path = data_dir / "contract_graph_edges_all_years.csv"
year_files = sorted(data_dir.glob("contract_graph_edges_20??.csv"))


In [23]:
if combined_path.exists():
    combined = pd.read_csv(combined_path)
else:
    if not year_files:
        raise FileNotFoundError("No contract graph edge files found; run scripts/build_contract_graph.py first.")
    combined = pd.concat((pd.read_csv(path) for path in year_files), ignore_index=True)

summary = {
    "rows": len(combined),
    "columns": list(combined.columns),
    "source_files": [path.name for path in year_files] if year_files else [combined_path.name],
}
summary

{'rows': 126308,
 'columns': ['procedure_id',
  'procedure_type',
  'procedure_regime',
  'notice_type',
  'notice_date',
  'lot_id',
  'lot_label',
  'lot_number',
  'lot_subject',
  'cpv_main',
  'buyer_name',
  'winner_name',
  'estimated_value',
  'estimated_currency',
  'final_value',
  'final_currency'],
 'source_files': ['contract_graph_edges_2020.csv',
  'contract_graph_edges_2021.csv',
  'contract_graph_edges_2022.csv',
  'contract_graph_edges_2023.csv',
  'contract_graph_edges_2024.csv',
  'contract_graph_edges_2025.csv']}

In [24]:
combined.head()

Unnamed: 0,procedure_id,procedure_type,procedure_regime,notice_type,notice_date,lot_id,lot_label,lot_number,lot_subject,cpv_main,buyer_name,winner_name,estimated_value,estimated_currency,final_value,final_currency
0,EKR000000172020,Nyílt eljárás,Uniós eljárásrend,Tájékoztató az eljárás eredményéről,2020-04-30,EKR000000172020_6823/2020_,EKR000000172020_6823/2020_,,NSK - Villamos energia 2020,09310000-5,Nemzeti Sportközpontok,ALTEO Energiakereskedő Zártkörűen Működő Részv...,,,715000000.0,HUF
1,EKR000000242020,Kbt. 113. § Nyílt eljárás,Nemzeti eljárásrend,Tájékoztató az eljárás eredményéről,2020-03-18,EKR000000242020_4321/2020_2,Pusztaegres,2.0,ATK- Szántóföldi Talajművelés 2020,77100000-1,Agrártudományi Kutatóközpont,Prebázis Termelő és Kutatás-Fejlesztési Kft.,,,44000000.0,HUF
2,EKR000000242020,Kbt. 113. § Nyílt eljárás,Nemzeti eljárásrend,Tájékoztató az eljárás eredményéről,2020-03-18,EKR000000242020_4321/2020_1,"Őrbottyán, Nagykovácsi, Martonvásár, Debrecen",1.0,ATK- Szántóföldi Talajművelés 2020,77100000-1,Agrártudományi Kutatóközpont,Prebázis Termelő és Kutatás-Fejlesztési Kft.,,,44000000.0,HUF
3,EKR000000312020,Nyílt eljárás,Uniós eljárásrend,Tájékoztató az eljárás eredményéről,2020-08-07,EKR000000312020_12959/2020_,EKR000000312020_12959/2020_,,SzSzBMK - Heliport üzemeltetés,63730000-5,Szabolcs-Szatmár-Bereg Megyei Kórházak és Egye...,Fire-Crew kft,,,62637300.0,HUF
4,EKR000000792020,Kbt. 113. § Nyílt eljárás,Nemzeti eljárásrend,Tájékoztató az eljárás eredményéről,2020-04-23,EKR000000792020_6296/2020_2,Nyomdai szolgáltatás nyújtása II. rész,2.0,Nyomdai szolgáltatás,79800000-2,Antall József Politika- és Társadalomtudományi...,Printing Solutions Nyomdai Szolgáltató Betéti ...,,,9516210.0,HUF
