# Konvertering av Bergens registeret, Person sammenkoblinger



In [1]:
from hentOgVaskData import hent_og_vask_data
import polars as pl
pl.Config.set_tbl_rows(30)

polars.config.Config

In [2]:
# leser inn Data exportert i fra Bergens Access database
# I fra den tabellen som heter "tblInnmeldte"
df = hent_og_vask_data()
# Medlems sjekk, det er viktig at dette tallet er nokså likt som rapportert in til statsforvalteren 282
print("Antall medlemmer i Bergens registeret -->", df.filter(pl.col("Kategori").str.starts_with("M"))["MedlemID"])
print("Alle data i fra excel fil -->", df)

Could not determine dtype for column 43, falling back to string


Antall medlemmer i Bergens registeret --> shape: (284,)
Series: 'MedlemID' [i64]
[
	14570
	15536
	14800
	14720
	13073
	12181
	14015
	15442
	14791
	11208
	13277
	15537
	12968
	14462
	11209
	…
	11692
	13649
	14744
	12506
	14482
	14481
	14484
	14483
	14063
	13622
	14432
	11027
	14294
	13451
	15638
]
Alle data i fra excel fil --> shape: (582, 46)
┌──────────┬────────────┬────────────┬──────────┬───┬───────────┬──────────┬───────────┬───────────┐
│ MedlemID ┆ Innmelding ┆ Er den     ┆ Menighet ┆ … ┆ UtmeldtDa ┆ DødsDato ┆ Kommune   ┆ KID-nr    │
│ ---      ┆ sdato      ┆ innmeldte  ┆ ---      ┆   ┆ to        ┆ ---      ┆ ---       ┆ ---       │
│ i64      ┆ ---        ┆ døpt ?     ┆ str      ┆   ┆ ---       ┆ str      ┆ str       ┆ str       │
│          ┆ date       ┆ ---        ┆          ┆   ┆ date      ┆          ┆           ┆           │
│          ┆            ┆ bool       ┆          ┆   ┆           ┆          ┆           ┆           │
╞══════════╪════════════╪════════════╪══════════╪

In [3]:
# Henter ut alle personer som har andre personer knyttet til seg
# Fornavn og etternavn hentes også på personen som har tilknyttninger
df_connectedMedlemer = pl.concat([
    df.filter(pl.col(c).is_not_null())
      .select(
          pl.col("FORNAVN"),
          pl.col("EFTERNAVN"),
          pl.lit(c).alias("type"),
          pl.col("MedlemID"),
          pl.col(c).alias("ConnectedMedlemID")
      )
    for c in ["SamID", "MorID", "FarID"]
])
print("Personer som er knyttet til andre personer mor, far, sambo -->", df_connectedMedlemer)

Personer som er knyttet til andre personer mor, far, sambo --> shape: (436, 5)
┌────────────────────────────────┬────────────────────┬───────┬──────────┬───────────────────┐
│ FORNAVN                        ┆ EFTERNAVN          ┆ type  ┆ MedlemID ┆ ConnectedMedlemID │
│ ---                            ┆ ---                ┆ ---   ┆ ---      ┆ ---               │
│ str                            ┆ str                ┆ str   ┆ i64      ┆ i64               │
╞════════════════════════════════╪════════════════════╪═══════╪══════════╪═══════════════════╡
│ Martin Daniel Peter            ┆ Aeschlimann        ┆ SamID ┆ 13812    ┆ 13617             │
│ Terje                          ┆ Alræk              ┆ SamID ┆ 13803    ┆ 12705             │
│ Gry Veronica                   ┆ Alsos              ┆ SamID ┆ 14800    ┆ 12729             │
│ Vahan                          ┆ Babayan            ┆ SamID ┆ 14792    ┆ 14631             │
│ Jorun                          ┆ Barane             ┆ SamID ┆ 15

In [4]:
# Finner alle ID'er på sammenknyttede personer som ikke eksisterer.
# Her er det feil i dato og dette er en del av vasken

# 1. Anti-join: IDs in connected that aren't in df
missing_ids = df_connectedMedlemer.join(
    df, 
    left_on="ConnectedMedlemID",      # Key in the left DataFrame
    right_on="MedlemID",              # Key in the right DataFrame
    how="anti"
).select(pl.col("ConnectedMedlemID").unique().alias("MedlemID"))
print("missing ids -->", missing_ids)

# Sletter alle ID'er som ikke finnes fra vår Connected liste
# Sletter alle koblinger til personer som ikke finnes i registeret
df_connectedMedlemer = df_connectedMedlemer.join(
    missing_ids,
    left_on="ConnectedMedlemID",      # Key in the left DataFrame
    right_on="MedlemID",              # Key in the right DataFrame
    how="anti"
)
print("Liste over samenkoblede personer, etter at ugyldige er slettet -->", df_connectedMedlemer)

missing ids --> shape: (35, 1)
┌──────────┐
│ MedlemID │
│ ---      │
│ i64      │
╞══════════╡
│ 11025    │
│ 11112    │
│ 11113    │
│ 11212    │
│ 11215    │
│ 11243    │
│ 11595    │
│ 11596    │
│ 11627    │
│ 11677    │
│ 12121    │
│ 12507    │
│ 12958    │
│ 13134    │
│ 13170    │
│ …        │
│ 14050    │
│ 14325    │
│ 14327    │
│ 14331    │
│ 14361    │
│ 14363    │
│ 14447    │
│ 14470    │
│ 14551    │
│ 14652    │
│ 14743    │
│ 15444    │
│ 15445    │
│ 15485    │
│ 15533    │
└──────────┘
Liste over samenkoblede personer, etter at ugyldige er slettet --> shape: (380, 5)
┌────────────────────────────────┬────────────────────┬───────┬──────────┬───────────────────┐
│ FORNAVN                        ┆ EFTERNAVN          ┆ type  ┆ MedlemID ┆ ConnectedMedlemID │
│ ---                            ┆ ---                ┆ ---   ┆ ---      ┆ ---               │
│ str                            ┆ str                ┆ str   ┆ i64      ┆ i64               │
╞════════════════════════

In [5]:

# Tror ikke dette blir nødvendig. Personers forbindelser blir oppdatert etter at alle
# relevante personer er lagt inn i egen ferdig vasket tabell under "df_connectedMedlemer"

# Oppdaterer df og setter alle ikke eksisterende kontakter til null
#df = df.with_columns([
#    pl.when(pl.col(c).is_in(missing_ids["MedlemID"].to_list()))
#      .then(None)
#      .otherwise(pl.col(c))
#      .alias(c)
#    for c in ["SamID", "MorID", "FarID"]
#])


In [6]:
# Henter inn fornavn og etternavn til den personen som er tilknyttet
# Denne listen benyttes til å koble alle personer i Cornerstone
# etter at alle personer er lagt inn.

# Perform the join by preparing the right side first
df_connectedMedlemer = df_connectedMedlemer.join(
    # 1. Select and rename columns from 'df' on the fly
    df.select(
        pl.col("MedlemID"),  # The join key must be included
        pl.col("FORNAVN").alias("Connected_FORNAVN"),
        pl.col("EFTERNAVN").alias("Connected_EFTERNAVN")
    ),
    left_on="ConnectedMedlemID",
    right_on="MedlemID",
    how="left"  # Using 'left' is safer to not lose rows from the left table
)
print("Liste over samenkoblede personer, brukes til konvertering av relasjoner -->", df_connectedMedlemer)

Liste over samenkoblede personer, brukes til konvertering av relasjoner --> shape: (380, 7)
┌───────────────┬───────────────┬───────┬──────────┬───────────────┬───────────────┬───────────────┐
│ FORNAVN       ┆ EFTERNAVN     ┆ type  ┆ MedlemID ┆ ConnectedMedl ┆ Connected_FOR ┆ Connected_EFT │
│ ---           ┆ ---           ┆ ---   ┆ ---      ┆ emID          ┆ NAVN          ┆ ERNAVN        │
│ str           ┆ str           ┆ str   ┆ i64      ┆ ---           ┆ ---           ┆ ---           │
│               ┆               ┆       ┆          ┆ i64           ┆ str           ┆ str           │
╞═══════════════╪═══════════════╪═══════╪══════════╪═══════════════╪═══════════════╪═══════════════╡
│ Martin Daniel ┆ Aeschlimann   ┆ SamID ┆ 13812    ┆ 13617         ┆ Drude         ┆ Isene         │
│ Peter         ┆               ┆       ┆          ┆               ┆               ┆               │
│ Terje         ┆ Alræk         ┆ SamID ┆ 13803    ┆ 12705         ┆ Torild        ┆ Alræk         │