Merge pull request #13 from moj-analytical-services/trim_names

trim names before split
moj-analytical-services · Jul 26, 2021 · 8f7c69a · 8f7c69a
2 parents 6276a8d + d4d8ecb
commit 8f7c69a
Showing 1 changed file with 2 additions and 1 deletion.
diff --git a/splink_data_standardisation/names.py b/splink_data_standardisation/names.py
@@ -20,6 +20,7 @@ def standardise_names(df:DataFrame, name_cols: list, drop_orig:bool=True):
     df = df.withColumn('name_concat', expr(f"concat_ws(' ', {name_col_joined})"))
     df = df.withColumn('name_concat', expr('lower(name_concat)'))
     df = df.withColumn('name_concat', expr("regexp_replace(name_concat, '[\\-\\.]', ' ')"))
+    df = df.withColumn('name_concat', expr("trim(name_concat)"))
     df = df.withColumn('name_arr', expr("split(name_concat, ' ')"))
     df = df.withColumn('surname_std', expr(f"case when {surname_col_name} is not null then element_at(name_arr,-1) else null end"))
     df = df.withColumn('forename1_std', expr("case when size(name_arr) > 1 then element_at(name_arr,1) else null end"))
@@ -31,4 +32,4 @@ def standardise_names(df:DataFrame, name_cols: list, drop_orig:bool=True):
     if drop_orig:
         for n in name_cols:
             df = df.drop(n)
-    return df
+    return df