In [6]:
import pandas as pd
import yaml

input_file = '../data/02_cleaned_articles.csv'

df = pd.read_csv(input_file)
with open('../config/dpa_rules.yaml', 'r', encoding='utf-8') as f:
    rules = yaml.safe_load(f)

print("--- Data and Rules Loaded Successfully ---")
df.info()

--- Data and Rules Loaded Successfully ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 592294 entries, 0 to 592293
Data columns (total 7 columns):
 #   Column            Non-Null Count   Dtype 
---  ------            --------------   ----- 
 0   urn               592294 non-null  object
 1   version           592294 non-null  int64 
 2   version_created   592294 non-null  object
 3   title             592294 non-null  object
 4   dateline_content  556676 non-null  object
 5   texts             592294 non-null  object
 6   word_count        592294 non-null  int64 
dtypes: int64(2), object(5)
memory usage: 31.6+ MB


In [7]:
print("--- First 10 Titles in the DataFrame ---")
print(df['title'].head(10))

--- First 10 Titles in the DataFrame ---
0    Feuerwerk und Geläut von Big Ben: Londoner fei...
1    «Welcome 2019»: Friedliche Riesenparty am Bran...
2                                    Neuerscheinungen 
3    Perfides Spiel hinter den Kulissen: Robert Gal...
4    Worte sind frei - «Morgengrauen» von Selahatti...
5    «Ein Jahrhundert in Bewegung»: Fontane als Rep...
6    Verletzter Del Potro verpasst auch Australian ...
7    Göring-Eckardt: Bundesbehörden nur noch in Ost...
8    Alternde Rockstars: Kiss werden die Kostüme zu...
9    Hans für Dienstpflicht für junge Männer und Fr...
Name: title, dtype: object


In [8]:
s_mult_art = '|'.join(rules['multi_article_split_titles'])

print("--- Regex pattern being used to find multi-part articles ---")
print(s_mult_art)

mult_art_mask = df['title'].astype(str).str.contains(s_mult_art, na=False, case=False)
num_matches = mult_art_mask.sum()

print(f"\n--- DEBUGGING RESULTS ---")
print(f"Number of titles that matched the multi-part article pattern: {num_matches}")

# Display the unique titles that it found
if num_matches > 0:
    print("\n--- Matched Titles ---")
    print(df[mult_art_mask]['title'].unique())

--- Regex pattern being used to find multi-part articles ---
dpa-Nachrichtenüberblick|Nachrichtenüberblick|Kurznachrichten Wirtschaft|Kurnachrichten Wirtschaft|Analysten-Einstufungen|ANALYSTEN-EINSTUFENGEN

--- DEBUGGING RESULTS ---
Number of titles that matched the multi-part article pattern: 8003

--- Matched Titles ---
['dpa-Nachrichtenüberblick PANORAMA, Dienstag, 01.01.2019 - 16.45 Uhr'
 'dpa-Nachrichtenüberblick POLITIK, Dienstag, 1.1.2019 - 18.00 Uhr'
 'dpa-Nachrichtenüberblick PANORAMA, Mittwoch, 2.01.2019 - 5.00 Uhr' ...
 'dpa-Nachrichtenüberblick POLITIK, Samstag, 30. Dezember 2023, 18 Uhr'
 'dpa-Nachrichtenüberblick PANORAMA, Sonntag, 31.12.2023, 16.30 Uhr'
 'dpa-Nachrichtenüberblick POLITIK, Sonntag, 31. Dezember 2023, 18 Uhr']
