# Stammdatenanalyse (Gefahrengut)

In diesem Notebook wird das Gefahrengut in den Stammdaten analysiert. Dabei werden nur Spalten des Gefahrenguts berücksichtigt.

----

## Einrichtung

In diesem Schritt werden benötigte Module installiert und die notwendigen Daten für unsere Analyse geladen

### Installieren der Module

Installieren der Python-Abhänigkeiten (falls noch nicht durchgeführt):

In [None]:
!pip install -r ../requirements.txt

Hinzufügen benötigter Python Module:

In [None]:
import os # Operating System utilities (Path manipulation, ...)
import requests # For GET requests, used to download the un-number list from wikipedia
import pandas as pd # Pandas, work with tables as dataframes (xlsx, csv...)
import re # Regular expressions, used in designation analysis
import openpyxl # For saving and writing to xlsx files while preserving original formatting
import matplotlib.pyplot as plt # Plotting of graphs

from collections import Counter # 
from dotenv import load_dotenv, dotenv_values # Used to load environment variables
from rapidfuzz.fuzz import partial_ratio # Fuzzy algorithm (used in desgination analysis)

Laden der Umgebungsvariablen:

In [None]:
load_dotenv()
data_path = os.getenv("DATA_PATH")
root_path = os.getenv("ROOT_PATH")

### Laden der UN-Nummer Liste

Als Datenbasis wird die UN-Nummer Liste von [Wikipedia](https://de.wikipedia.org/wiki/Liste_der_UN-Nummern) verwendet. Es sei hierbei noch zu erwähnen, dass
es hierfür auch Datenbanken und Tabellen gibt (teilweise Gebührenpflichtig). Die Liste auf Wikipedia
kann aber mit wenig aufwand in **Pandas** verwendet werden.

In [None]:
un_numbers_html_path = os.path.join(data_path, 'un_numbers_wikipedia.html')

if not os.path.exists(un_numbers_html_path):
    try:
        print("Downloading UN number table from Wikipedia...")

        response = requests.get("https://de.wikipedia.org/wiki/Liste_der_UN-Nummern")
        response.raise_for_status()  # Raise error if download failed

        # Save to file
        with open(un_numbers_html_path, "w", encoding="utf-8") as f:
            f.write(response.text)

        print(f"Saved HTML to {un_numbers_html_path}")

    except Exception as e:
        print(f"Failed to fetch and save the HTML page: {e}")

un_numbers_tables = pd.read_html(un_numbers_html_path)
un_numbers_df = pd.concat(un_numbers_tables).reset_index(drop=True)
un_numbers_designation_col = un_numbers_df['Bezeichnung']

Dataframe als Tabelle darstellen (`#` entfernen):

In [None]:
#un_numbers_df

### Laden der Stammdaten

Die Stammdaten liegen in Form eines Excel Dokuments vor und enthalten verschiedene Fehler, die es gilt zu erkennen
und zu behben. Diese Tabelle bildet unsere Datenbasis und wird in den einzelnen Schritten genauer analysiert.

Der folgende Prozess lädt das Excel Dokument in einen Dataframe. Mit diesem können die Daten effizienter bearbeitet werden.
Durch das beachtliche Größe der Tabelle kann dies je nach Hardware einen kurzen Moment dauern.

Es sei hier auch noch erwähnt, dass die ersten Zeilen der Tabelle nicht relevant für die Analyse sind.
Es handelt sich hier um Header die zum Zweck der Übersichtlichkeit vorhanden sind. Diese Ignorieren wir daher.

In [None]:
masterdata_path = os.path.join(data_path, 'stammdaten.xlsx')

# openpyxl allows to preserve the original formating, which later comes in handy when writing the changes to a file
wb = openpyxl.load_workbook(masterdata_path)
ws = wb['Tabelle1']  # The table 'tab' in Excel

# As mentioned: Data starts at row 4, so cells 1-3 can be cleaned
for row in ws.iter_rows(min_row=4, max_row=ws.max_row):
    for cell in row:
        cell.value = None

full_df = pd.read_excel(masterdata_path, header=None)
# Just load necessary data to the dataframe starting at the 3rd row
skipped_info = full_df.iloc[:2]
masterdata_df = full_df.iloc[2:]
masterdata_df.columns = masterdata_df.iloc[0]  # Use the first data row as header aka. col discriptors 'Material-Bezeichnung'
masterdata_df = masterdata_df[1:].reset_index(drop=True)
masterdata_designation_col = masterdata_df['Material-Bezeichnung']

Dataframe als Tabelle darstellen (`#` entfernen):

In [None]:
#masterdata_df

----

## Bezeichnungsanalyse

In der Bezeichnungsanalyse wird die Spalte **'Material-Bezeichnung'** der Stammdaten betrachtet. Hier soll anhand der Bezeichnung
untersucht werden ob ein Gefahrengut vorliegt oder nicht. Dabei werden Schlüsselwörter der Stammdaten mit Schlüsselwörtern den 
Bezeichnungen der UN-Nummer Liste verglichen. Hierbei handelt es sich um einen explorativen Ansatz.

### Analyse der Bezeichnungsfelder

In dieser Analyse sollen semantische Beziehungen von Feldern der **'Material-Bezeichnung'** in den
Stammdaten mit den Bezeichnern der UN-Nummern hergestellt werden.

Durch das Erstellen der Beziehungen können dann Materialien der Modulgruppen den UN-Nummern zugeordnet werden.

Hierbei sei allerdings erwähnt das Materialbezeichner nicht 100%-tig auf die Bezeichnungen der UN-Nummern
zugeordnet werden können. Außerdem kann durch diese Methode auch nicht der Kontext betrachtet werden.

Für ein effizienteres Verarbeiten der Daten ist es notwendig ein gewisses Grundrauschen zu entfernen.
Mit Grundrauschen sind vorallem Bindewörter gemeint die sich in den Bezeichnungsfelder beider
Tabellen befinden.

Hiefür werden zuerst die häufigkeit der verwendeter Wörter ermittelt:

In [None]:
masterdata_designation_words = []
un_numbers_designation_words = []

# Normalization function for a single text entry
def normalize_text(text):
    if pd.isna(text):
        return []
    cleaned = (
        text.lower()
        .replace('ae', 'ä')
        .replace('oe', 'ö')
        .replace('ue', 'ü')
        .replace('.', '')
        .replace(',', '')
    )
    return cleaned.split()

def plot_wc(title, all_words):
    # Count word frequencies
    word_counts = Counter(all_words)
    top_n = 50
    top_words = word_counts.most_common(top_n)
    words, counts = zip(*top_words) # Prepare words for plotting
    # Plotting
    plt.figure(figsize=(12, 6))
    plt.bar(words, counts, color='steelblue')
    plt.xticks(rotation=45, ha='right')
    plt.ylabel("Häufigkeit")
    plt.title(f"Die {top_n} häufigsten Wörter in {title}")
    plt.tight_layout()
    plt.show()

# Apply normalization and collect words
masterdata_designation_words.extend(
    masterdata_designation_col
        .dropna()
        .apply(normalize_text)
        .explode()
)

un_numbers_designation_words.extend(
    un_numbers_designation_col
        .dropna()
        .apply(normalize_text)
        .explode()
)

plot_wc("Stammdaten", masterdata_designation_words)
plot_wc("UN-Nummern", un_numbers_designation_words)

### Bezeichnungsbereinigung

In diesem Schritt werden Worte herausgefiltert die für die Beziehung der beiden Bezeichnungsfeldern keine bedeutung haben.
Hierzu wurde manuell eine Liste an sogenannten `stop_words` definiert.

Ist die Filterung abgeschlossen erhält man Listen von Keywords der Bezeichnungsfelder jeder Tabelle (`un_keywords_col`& `maserdata_keywords_col`).

In [None]:
stop_words = {
    'und', 'mit', 'für', 'von', 'der', 'die', 'das', 'ein', 'eine',
    'in', 'an', 'auf', 'im', 'dem', 'des', 'zu', 'am', 'aus', 'kopf',
    'vst', 'stg', 'nag', 'oder', 'auch', 'ist', 'als', 'auch',
    'nicht', 'einer', 'klassen', 'anderen', 'über', 'einem', 'sind',
    'offen', 'sonstigen', 'sonstiges', 'einschließlich', 'zugesetzt',
    'enthalten', 'mit', 'ohne', 'als', '°C', '%', 'masse-%', 'typ',
    'r', 'gegenstände', 'zerleger', 'vst', 'li', 're', 'stg', 'halter',
    'mbn', 'vo', 'ece', 'ob', 'au', 'mi', 'row', 'f', 'fertige', 'frei',
    'höchstens', 'stoffe', 'stoffen', 'zündtemperatur', 'anderweitig',
    'aufgeführt', 'ausstoß-', 'zuordnen', 'zuzuordnen', 'weniger',
    'all', 'hand', 'ext', 'season', 'headunit', 'verstk', 'abdeckung',
    'hinweisschild', 'batteriemgmt', 'a-mid', 'asien', 'rohrleitung',
    'reifen', 'unter', 'zur', 'mehr', 'twn', 'isr', 'amg'
}

def sanitize_text(text):
    if not isinstance(text, str):
        return set()  # or return "" if you want string back
        
    text = (
        text.lower()
        .replace('ae', 'ä')
        .replace('oe', 'ö')
        .replace('ue', 'ü')
        .replace('li-ion', 'lithium-ionen')
        .replace('bat.', 'batterie')
        .replace('.', '')
        .replace(',', '')
        .replace('(', '')
        .replace(')', '')
    )

    #TODO: cleanup abrv. consisting of letters and dots: e.g., z.B., n.a.g.
    #text = re.sub(r'\b(?:[a-zA-Z]\.){2,}', '', text)

    #TODO: remove ',' '.' from words "fest," -> "fest"
    #text = re.sub(r'[.,]', '', text)

    words = set(text.split())
    cleaned_words = {
        word for word in words
        if word not in stop_words
        and not re.search(r'\d', word)  # remove digits from words
        and len(word) >= 3
    }

    return cleaned_words

masterdata_keywords_col = masterdata_designation_col.apply(sanitize_text)
un_keywords_col = un_numbers_designation_col.apply(sanitize_text)

plot_wc("Stammdaten Schhlüsselwortliste", masterdata_keywords_col.explode())
plot_wc("UN-Nummer Schlüsselwortliste", un_keywords_col.explode())

In [None]:
#masterdata_keywords_col

In [None]:
#un_keywords_col

### Erstellen der Beziehung

Durch das Vergleichen jedes einzelnen Schlüsselworts aus der **'Material-Bezeichnung'** mit allen Schlüsselwörtern
der UN-Nummern Bezeichnung kann festgestellt werden welche Zeilen welchen der UN-Nummern Liste ähneln.

Bei diesem Verfahren wird $m \times n$ angewendet. Es ergbit sich daher eine schlechte Laufzeitkomplexität.

Was zusätzlich die effizienz beinträchtigt ist der verwendete Fuzzy-Algorithmus der gleiche Substrings der Schlüsselwörter Ermittelt.

In [None]:
def find_keyword_matches(masterdata_keywords_col, un_keywords_col):
    match_data = []

    for master_idx, master_words in masterdata_keywords_col.items():
        matched_un_indices = set()
        matched_words = set()

        for un_idx, un_words in un_keywords_col.items():
            local_match = set()

            for mw in master_words:
                for uw in un_words:
                    if len(mw) >= 4 and len(uw) >= 4 and (mw in uw or uw in mw):
                        local_match.add(f"{mw} <-> {uw}")
                    elif partial_ratio(mw, uw) > 85:
                        local_match.add(f"{mw} <~> {uw}")

            if local_match:
                matched_un_indices.add(un_idx)
                matched_words.update(local_match)

        if matched_un_indices:
            match_data.append({
                "master_idx": master_idx,
                "un_indices": sorted(matched_un_indices),
                "master_keywords": ", ".join(sorted(master_words)),
                "matched_words": ", ".join(sorted(matched_words))
            })

    return pd.DataFrame(match_data)

<div style="border: 1px solid #1976D2; padding: 10px; border-radius: 5px; background-color: #E8F1FA; margin-right: 100px; margin-left: 100px;">
    <strong>ℹ️ Info:</strong> Vorgang kann etwas dauern! Zum starten <code>#</code> entfernen.
</div>

In [None]:
#matches_df = find_keyword_matches(masterdata_keywords_col, un_keywords_col)
#matches_df

----

## Fehlererkennung & Behebung

In diesem Abschnitt sollen Unregelmäßigkeiten in den Stammdaten erkannt & behoben werden

### Erkennenung von Unregelmäßigkeiten

Es sollen nun Unregelmäßigkeiten beim Gefahrengut erkannt werden. Dabei werden nur die für das Gefahrengut relevanten Spalten betrachtet.

Hierfür schauen wir uns zuerst an ob in der Spalte **'Art_IdentNr'** ob der Wert `UN` gesetzt ist.
Ist dies der Fall, nehmen wir aus der Spalte **'Material-Bezeichnung'** der gleichen Zeile das erste Wort.

Mit diesem Wort werden alle nachträglichen Reihen der **'Material-Bezeichnung'** die mit dem gleichen Wort beginnen, durchsucht.
Ist hierbei die Spalte **'Art_IdentNr'** nicht mit dem Wert `UN` gesetzt so haben wir eine Unregelmäßigkeit festgestellt.

Dieses Verfahren wird mithilfe von Masken umgesetzt bei denen gesetzte und ungesetzt Zeilen der Spalte **'Art_IdentNr'** verundet werden.

Die Zeilen der Gruppen bei denen Unregelmäßigkeiten vorkommen werden dargestellt. Bei Korrektheit sind die Zeilen grün gefärbt.
Zeilen in denen eine mögliche Diskrepanz vorliegt sind rot gefärbt.

Hierbei haben wir die Annahme getroffen, dass die Daten mit ausgefüllter **'Art_IdentNr'** korrekt ausgefüllt wurden.

In [None]:
masterdata_df['Art_IdentNr'] = masterdata_df['Art_IdentNr'].astype(str)
masterdata_df['1. Teilwort'] = masterdata_df['Material-Bezeichnung'].str.split().str[0]

grouped = masterdata_df.groupby('1. Teilwort')
rows = []
inconsistent_first_words = []

for first_word, group in grouped:
    un_mask = group['Art_IdentNr'] == 'UN'
    non_un_mask = group['Art_IdentNr'] != 'UN'

    has_un = un_mask.any()
    has_non_un = non_un_mask.any()

    # Only collect groups where both 'UN' and non-'UN' exist (inconsistent)
    if has_un and has_non_un:
        inconsistent_first_words.append(first_word)
        for idx, row in group.iterrows():
            is_correct = row['Art_IdentNr'] == 'UN'
            row_dict = row.to_dict()
            row_dict['Korrektheit'] = is_correct
            row_dict['Ursprungsindex'] = idx  # Keep old line numbers (even though not displayed)
            rows.append(row_dict)
def highlight_correct(row):
    styles = [''] * len(row)
    if row['Korrektheit']:
        # Find index of 'Bezeichnung' column and color only that cell
        col_idx = row.index.get_loc('Korrektheit')
        styles[col_idx] = 'background-color: #478523; color: #FFFFFF'
    else:
        col_idx = row.index.get_loc('Korrektheit')
        styles[col_idx] = 'background-color: #CE3E69; color: #FFFFFF'
    return styles

def display_df(vis_df):
    display(
        vis_df[['1. Teilwort',
                'Material-Bezeichnung',
                'Art_IdentNr',
                'IdentNr',
                'Klasse',
                'GG_Vorschrift See',
                'Verp.Methode See',
                'GG_Vorschrift Luft',
                'Verp.Methode Luft',
                'Korrektheit']]
            .style
            .apply(highlight_correct, axis=1)
            .format({
                'IdentNr': '{:.0f}',
                'Klasse': '{:.1f}',
                'Verp.Methode See': '{:.0f}',
                'Verp.Methode Luft': '{:.0f}'
            })
            .set_table_styles([
                {'selector': 'table',
                 'props': [('table-layout', 'fixed'), ('width', '100%')]},
                {'selector': 'th, td',
                 'props': [('overflow', 'hidden'), 
                       ('text-overflow', 'ellipsis'),
                       ('white-space', 'nowrap'),
                       ('font-size', '12px')]}  # Adjust font size here
            ])
            .set_properties(**{
                'max-width': '100px',  # Optional: Limit cell width
                'white-space': 'normal',  # or 'nowrap'
                'font-size': '12px'  # Adjust globally
            })
        
    )

vis_df = pd.DataFrame(rows)
vis_df = vis_df.sort_values(by=['1. Teilwort', 'Korrektheit'], ascending=[True, False])
display_df(vis_df)

### Ausfüllen fehlender Werte

Die zuvor gefundenen leeren Zeilen können nun mit den Werten aus der gleichen **Wortgruppe** aufgefüllt werden.
Eine Wortgruppe wird vom **1. Teilwort** festgelegt und umschließt jedes Materialbezeichnungsfeld welches dieses besitzt.

Man sieht, dass die Fehlenden Zeilen mit Werten aus der gemeinsamen Wortgruppe ausgefüllt werden. Das geschieht aber nur 
unter der Annahme das bereits ausgefüllte Zeilen korrekt ausgefüllt wurden und keine Fehler enthalten.

In [None]:
rows = []

for first_word in inconsistent_first_words:
    group = grouped.get_group(first_word)

    # Find a valid reference row: must be 'UN' and not NaN in the target columns
    valid_source_rows = group[
        (group['Art_IdentNr'] == 'UN') &
        (group['IdentNr'].notna()) &
        (group['Klasse'].notna())
    ]

    if valid_source_rows.empty:
        print(f"No fully populated 'UN' row found for group '{first_word}'")
        continue

    # Use the first fully valid row as the source of truth
    correct_row = valid_source_rows.iloc[0]
    correct_ident = correct_row['IdentNr']
    correct_klasse = correct_row['Klasse']
    correct_gg_vorschrift_see = correct_row['GG_Vorschrift See']
    correct_verp_methode_see = correct_row['Verp.Methode See']
    correct_gg_vorschrift_luft = correct_row['GG_Vorschrift Luft']
    correct_verp_methode_luft = correct_row['Verp.Methode Luft']

    for idx, row in group.iterrows():
        row_dict = row.to_dict()
        row_dict['Ursprungsindex'] = idx  # Preserve original line number

        if row['Art_IdentNr'] != 'UN':
            row_dict['Art_IdentNr'] = 'UN'
            if pd.isna(row['IdentNr']):
                row_dict['IdentNr'] = correct_ident
            if pd.isna(row['Klasse']):
                row_dict['Klasse'] = correct_klasse
            if pd.isna(row['GG_Vorschrift See']):
                row_dict['GG_Vorschrift See'] = correct_gg_vorschrift_see
            if pd.isna(row['Verp.Methode See']):
                row_dict['Verp.Methode See'] = correct_verp_methode_see
            if pd.isna(row['GG_Vorschrift Luft']):
                row_dict['GG_Vorschrift Luft'] = correct_gg_vorschrift_luft
            if pd.isna(row['Verp.Methode Luft']):
                row_dict['Verp.Methode Luft'] = correct_verp_methode_luft
            row_dict['Korrektheit'] = False
        else:
            row_dict['Korrektheit'] = True

        rows.append(row_dict)

vis_df = pd.DataFrame(rows)
display_df(vis_df)

### Speichern der Korrektur

Der letzte Schritt ist es nun die bearbeiteten Daten zurück in eine Tabelle zu schreiben.
Hierbei kommt uns zu gute dass wir mit **Openpyxl** alle Formatierungen der Ursprünglichen
Tabelle beibehalten haben.

Es wird unser Dataframe iterativ in das Worksheet der Tabelle geschrieben.

In [None]:
for _, row in vis_df.iterrows():
    idx = row['Ursprungsindex']
    masterdata_df.loc[idx, 'Art_IdentNr'] = row['Art_IdentNr']
    masterdata_df.loc[idx, 'IdentNr'] = row['IdentNr']
    masterdata_df.loc[idx, 'Klasse'] = row['Klasse']
    masterdata_df.loc[idx, 'GG_Vorschrift See'] = row['GG_Vorschrift See']
    masterdata_df.loc[idx, 'Verp.Methode See'] = row['Verp.Methode See']
    masterdata_df.loc[idx, 'GG_Vorschrift Luft'] = row['GG_Vorschrift Luft']
    masterdata_df.loc[idx, 'Verp.Methode Luft'] = row['Verp.Methode Luft']

start_row = 4
for i, row in masterdata_df.iterrows():
    for j, value in enumerate(row):
        ws.cell(row=start_row + i, column=j + 1, value=value)

masterdata_path_corrected = os.path.join(data_path, 'stammdaten_korrektur.xlsx')
wb.save(masterdata_path_corrected)