In [1]:
from pathlib import Path
from shapely import Point
import pandas as pd
import geopandas as gpd
from tqdm import tqdm

top_level = Path.cwd()

while (top_level / "pyproject.toml").exists() is False:
    top_level = top_level.parent

parl_data_loc = (
    top_level
    / "data"
    / "packages"
    / "parliament_con_2025"
    / "parl_constituencies_2025.parquet"
)

In [2]:
codepoint_dir = top_level / "data" / "raw" / "external" / "codepo"
csv_dir = codepoint_dir / "csv"
parquet_dir = codepoint_dir / "parquet"

header_file = codepoint_dir / "header.csv"

parl_data = gpd.read_parquet(parl_data_loc).to_crs(epsg=4326)
output_loc = (
    top_level
    / "data"
    / "packages"
    / "uk_parliament_2025_postcode_lookup"
    / "postcodes_with_con.parquet"
)
all_data = []


# read in first line of header file as comma separated list
with open(header_file, "r") as f:
    header = f.readline().strip().split(",")

# for each file in csv_dir - read in as dataframe using header and write out as parquet with a new geometry column


for csv_file in tqdm(list(csv_dir.glob("*.csv"))):
    df = pd.read_csv(csv_file, names=header)
    # from Eastings,Northings, we want to create a geopandas dataframe with a geometry column of point data
    gdf = gpd.GeoDataFrame(
        df,
        geometry=gpd.points_from_xy(df["Eastings"], df["Northings"]),
        crs="EPSG:27700",
    )
    # gdf.to_parquet(parquet_dir / csv_file.with_suffix(".parquet").name)
    gdf = gdf.to_crs(epsg=4326)

    joined = gpd.sjoin(gdf, parl_data, how="left", predicate="within")[
        ["Postcode", "short_code"]
    ]
    joined = joined.rename(columns={"Postcode": "postcode"})

    all_data.append(joined)

df = pd.concat(all_data)

# sort by postcode
df = df.sort_values("postcode")

df.to_parquet(output_loc)

  0%|                                                                                                                                          | 0/120 [00:00<?, ?it/s]

  1%|█                                                                                                                                 | 1/120 [00:00<00:16,  7.30it/s]

  2%|███▎                                                                                                                              | 3/120 [00:00<00:10, 10.68it/s]

  4%|█████▍                                                                                                                            | 5/120 [00:00<00:09, 12.40it/s]

  6%|███████▌                                                                                                                          | 7/120 [00:00<00:09, 11.81it/s]

  8%|█████████▊                                                                                                                        | 9/120 [00:00<00:11, 10.03it/s]

 10%|████████████▉                                                                                                                    | 12/120 [00:00<00:08, 13.24it/s]

 12%|███████████████                                                                                                                  | 14/120 [00:01<00:08, 12.03it/s]

 13%|█████████████████▏                                                                                                               | 16/120 [00:01<00:09, 11.18it/s]

 15%|███████████████████▎                                                                                                             | 18/120 [00:01<00:08, 11.62it/s]

 17%|█████████████████████▌                                                                                                           | 20/120 [00:01<00:08, 11.73it/s]

 19%|████████████████████████▋                                                                                                        | 23/120 [00:01<00:07, 13.79it/s]

 21%|██████████████████████████▉                                                                                                      | 25/120 [00:02<00:06, 13.87it/s]

 22%|█████████████████████████████                                                                                                    | 27/120 [00:02<00:06, 15.00it/s]

 24%|███████████████████████████████▏                                                                                                 | 29/120 [00:02<00:07, 12.56it/s]

 26%|█████████████████████████████████▎                                                                                               | 31/120 [00:02<00:08, 10.66it/s]

 28%|███████████████████████████████████▍                                                                                             | 33/120 [00:02<00:07, 12.00it/s]

 29%|█████████████████████████████████████▋                                                                                           | 35/120 [00:02<00:07, 11.91it/s]

 31%|███████████████████████████████████████▊                                                                                         | 37/120 [00:03<00:06, 12.48it/s]

 32%|█████████████████████████████████████████▉                                                                                       | 39/120 [00:03<00:07, 10.92it/s]

 34%|████████████████████████████████████████████                                                                                     | 41/120 [00:03<00:06, 11.77it/s]

 36%|██████████████████████████████████████████████▏                                                                                  | 43/120 [00:03<00:07, 10.82it/s]

 38%|████████████████████████████████████████████████▍                                                                                | 45/120 [00:03<00:06, 11.22it/s]

 39%|██████████████████████████████████████████████████▌                                                                              | 47/120 [00:04<00:06, 10.66it/s]

 42%|█████████████████████████████████████████████████████▊                                                                           | 50/120 [00:04<00:05, 12.78it/s]

 43%|███████████████████████████████████████████████████████▉                                                                         | 52/120 [00:04<00:05, 13.25it/s]

 45%|██████████████████████████████████████████████████████████                                                                       | 54/120 [00:04<00:06, 10.72it/s]

 47%|████████████████████████████████████████████████████████████▏                                                                    | 56/120 [00:04<00:06, 10.00it/s]

 48%|██████████████████████████████████████████████████████████████▎                                                                  | 58/120 [00:05<00:06,  9.11it/s]

 50%|████████████████████████████████████████████████████████████████▌                                                                | 60/120 [00:05<00:06,  9.64it/s]

 52%|██████████████████████████████████████████████████████████████████▋                                                              | 62/120 [00:05<00:05,  9.95it/s]

 53%|████████████████████████████████████████████████████████████████████▊                                                            | 64/120 [00:05<00:05, 10.99it/s]

 55%|██████████████████████████████████████████████████████████████████████▉                                                          | 66/120 [00:05<00:05,  9.59it/s]

 57%|█████████████████████████████████████████████████████████████████████████                                                        | 68/120 [00:06<00:04, 10.52it/s]

 58%|███████████████████████████████████████████████████████████████████████████▎                                                     | 70/120 [00:06<00:04, 10.14it/s]

 60%|█████████████████████████████████████████████████████████████████████████████▍                                                   | 72/120 [00:06<00:04,  9.60it/s]

 62%|███████████████████████████████████████████████████████████████████████████████▌                                                 | 74/120 [00:06<00:04, 10.75it/s]

 63%|█████████████████████████████████████████████████████████████████████████████████▋                                               | 76/120 [00:06<00:03, 11.92it/s]

 65%|███████████████████████████████████████████████████████████████████████████████████▊                                             | 78/120 [00:06<00:03, 11.95it/s]

 67%|██████████████████████████████████████████████████████████████████████████████████████                                           | 80/120 [00:07<00:03, 12.57it/s]

 69%|█████████████████████████████████████████████████████████████████████████████████████████▏                                       | 83/120 [00:07<00:02, 15.19it/s]

 71%|███████████████████████████████████████████████████████████████████████████████████████████▍                                     | 85/120 [00:07<00:02, 13.75it/s]

 72%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                   | 87/120 [00:07<00:02, 12.84it/s]

 74%|███████████████████████████████████████████████████████████████████████████████████████████████▋                                 | 89/120 [00:07<00:02, 11.75it/s]

 76%|█████████████████████████████████████████████████████████████████████████████████████████████████▊                               | 91/120 [00:07<00:02, 11.49it/s]

 78%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 93/120 [00:08<00:02, 11.03it/s]

 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 95/120 [00:08<00:02, 11.40it/s]

 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎                        | 97/120 [00:08<00:01, 11.82it/s]

 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 99/120 [00:08<00:01, 12.89it/s]

 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋                    | 101/120 [00:08<00:01, 12.31it/s]

 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                  | 103/120 [00:08<00:01, 11.03it/s]

 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████               | 106/120 [00:09<00:01, 12.80it/s]

 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 108/120 [00:09<00:01, 10.97it/s]

 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 110/120 [00:09<00:00, 10.16it/s]

 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 112/120 [00:09<00:00, 11.54it/s]

 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 114/120 [00:09<00:00, 11.36it/s]

 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 116/120 [00:10<00:00, 12.62it/s]

 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 118/120 [00:10<00:00, 12.29it/s]

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 120/120 [00:10<00:00, 12.03it/s]

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 120/120 [00:10<00:00, 11.56it/s]


