In [7]:
# Mit diesem Code sollen alle einzelnen Berufe aus dem Jahr 1900 herausgefunden werden.

# Da die Daten zum Jahr 1900 noch nicht indexiert sind, wie bspw. jene fürs Jahr 1925, braucht es diesen Code.
# Der gesamte Code liest eine oder mehrere TSV-Dateien (Tab-separierte Werte) ein und zählt, wie oft bestimmte Zeichenketten in einer bestimmten Spalte auftreten, vorausgesetzt, 
# dass das Jahr in einer anderen Zeile den Wert '1900' enthält.

# Mit diesem Code werden die notwendigen reader importiert, damit das TSV (Tab Seperated Value - also Daten, die durch Leerschläge getrennt sind) lesbar wird
# und Regular Expressions, also die strings (Zeichenketten, also einzelne Worte und Zahlen) durchsucht werden können.

import csv
import re

# Die Funktion count_strings_in_tsv_files nimmt drei Argumente entgegen: 
# - file_paths: Eine Liste von Dateipfaden zu den TSV-Dateien, die analysiert werden sollen.
# - column_name: Der Name der Spalte, in der die Zeichenketten gezählt werden sollen.
# - encoding: Das Zeichenkodierungsformat der Dateien, standardmäßig 'utf-8'.
# Ein leeres Wörterbuch namens string_counts wird erstellt, um die Zählungen der Zeichenketten zu speichern.

def count_strings_in_tsv_files(file_paths, column_name, encoding='utf-8'):
    string_counts = {}
    
# Die Funktion durchläuft jede Datei in der , weiter unten, übergebenen Dateipfad.
# Die Datei wird geöffnet und zeilenweise eingelesen.
# Für jede Zeile (row) in der TSV-Datei wird überprüft, ob das Jahr den Wert '1900' enthält.
# Wenn das Jahr '1900' ist, wird der Inhalt der angegebenen Spalte (column_name) in der aktuellen Zeile in seine einzelnen Bestandteile aufgeteilt, die durch Kommas getrennt sein könnten.
# In dieser Spalte befinden sich auch die Berufe.
# Für jedes einzelne Element in den aufgeteilten Inhalten wird eine Bereinigung durchgeführt, um alle Zahlen aus der Zeichenkette zu entfernen.
# Wenn das bereinigte Element nicht leer ist, wird es im Zählwörterbuch string_counts aktualisiert (also, Vorkommnis +1 addiert) oder hinzugefügt.


    for file_path in file_paths: 
        with open(file_path, 'r', encoding=encoding) as tsvfile:
            tsvreader = csv.DictReader(tsvfile, delimiter='\t')
            for row in tsvreader:
                year = row.get('Year', '')
                if '1900' in year:
                    content = row.get(column_name, '')
                    for item in content.split(','):
                        clean_item = re.sub(r'\d+', '', item.strip())
                        if clean_item:
                            if clean_item in string_counts:
                                string_counts[clean_item] += 1
                            else:
                                string_counts[clean_item] = 1

# Nun wird das Wörterbuch (string_counts) zurückgegeben, das die Zählungen der bereinigten Zeichenketten enthält.
                                
    return string_counts

# Nun wird der, im Code oben, erwähnte Dateipfad definiert, sowie die zu untersuchende Zeile (column_name). Die zuvor definierte Funktion wird aufgerufen, anhand der Argumente (file_paths und column name)
# und das Ergebnis in der Variabel (result) gespeichert.

file_paths = ['C:/Users/dkilc/OneDrive - Universitaet Bern/Neu/Desktop/Studium/DH_WORK/Telefonbuch/a1.tsv']
column_name = 'AggregatedContent'
result = count_strings_in_tsv_files(file_paths, column_name)

# Nun werden die Resultate (result) durchgezählt und sortiert.

sorted_result = sorted(result.items(), key=lambda x: x[1], reverse=True)

# Diese Code zeigt nun die 400 häufigsten Zeichenketten an, unter denen sich auch die Berufe befinden. Dabei wird die Zeichenkette und die Häufigkeit angezeigt.

for string, count in sorted_result[:400]:
    print(f"{string}: {count} Mal")

J.: 2039 Mal
A.: 1451 Mal
E.: 934 Mal
H.: 800 Mal
G.: 754 Mal
F.: 675 Mal
C.: 459 Mal
Emil: 398 Mal
R.: 355 Mal
Dr.: 350 Mal
Fritz: 311 Mal
Ed.: 310 Mal
W.: 306 Mal
L.: 289 Mal
M.: 284 Mal
Fr.: 271 Mal
Gebr.: 264 Mal
Louis: 258 Mal
Joh.: 244 Mal
Th.: 242 Mal
Alb.: 240 Mal
Albert: 232 Mal
Carl: 229 Mal
Jean: 211 Mal
Hans: 205 Mal
Paul: 198 Mal
Jakob: 197 Mal
B.: 196 Mal
S.: 189 Mal
Hch.: 186 Mal
Ad.: 185 Mal
Karl: 184 Mal
Jules: 179 Mal
P.: 176 Mal
Ch.: 174 Mal
Henri: 172 Mal
Otto: 170 Mal
.: 169 Mal
Alfred: 157 Mal
Adolf: 154 Mal
K.: 147 Mal
Gebrüder: 145 Mal
Frau: 141 Mal
Wwe.: 140 Mal
Jos.: 140 Mal
Aug.: 139 Mal
Jak.: 137 Mal
Ernst: 134 Mal
J. J.: 132 Mal
Rud.: 129 Mal
Hermann: 118 Mal
Charles: 117 Mal
 Rue Léopold Robert: 116 Mal
Jb.: 115 Mal
Arnold: 106 Mal
Friedr.: 104 Mal
Emile: 104 Mal
Joli.: 103 Mal
Rob.: 103 Mal
frères: 103 Mal
Franz: 102 Mal
Gustav: 101 Mal
fils: 101 Mal
Metzger: 94 Mal
Joseph: 93 Mal
Dr. med.: 92 Mal
Max: 91 Mal
D.: 89 Mal
Heinrich: 89 Mal
Sohn: 87 Mal
& Co.

In [15]:
# Dieser Code erstellt ein neues, leeres Wörterbuch.
grouped_result = {}

# Dieser Code zählt einzelnen Wortketten am Anfang jeder Zeile durch. Wenn die ersten vier Zeichen
# dieselben sind wie bereits im Wörterbuch vorhanden, wird es der Gruppe hinzugefügt. Wenn es noch
# keine Gruppe mit diesen vier Zeichen am Anfang gibt, wird eine neue Gruppe erstellt.
# Vier Zeichen hat sich durch ein paar Tests als ideale Länge herausgestellt, da so Metzgerei und
# Metzgerbeispielsweise in der selben Gruppe landen.

for string, count in sorted_result:
    key = string[:4]
    if key in grouped_result:
        grouped_result[key].append((string, count))
    else:
        grouped_result[key] = [(string, count)]

# Es wird nochmals ein neues, leeres Wörterbuch erstellt.
group_total_counts = {}

# Nun werden alle einzelnen Einträge in den Gruppend durchgezählt.
for key, values in grouped_result.items():
    total_count = sum(count for _, count in values)
    group_total_counts[key] = total_count

# Und als Gruppe mit Anzahl einträgen dargestellt.
for key, values in grouped_result.items():
    print(f"Gruppe: {key} ({group_total_counts[key]} Einträge total)")
    #for string, count in values:
    #    print(f"{string}: {count} Mal") Dieser Code würde die einzelnen EInträge in den Gruppen
    # anzeigen. Dies ist aber mehr verwirrend als hilfreich.
    print()

Gruppe: J. (2039 Einträge total)

Gruppe: A. (1451 Einträge total)

Gruppe: E. (934 Einträge total)

Gruppe: H. (800 Einträge total)

Gruppe: G. (754 Einträge total)

Gruppe: F. (675 Einträge total)

Gruppe: C. (459 Einträge total)

Gruppe: Emil (688 Einträge total)

Gruppe: R. (355 Einträge total)

Gruppe: Dr. (350 Einträge total)

Gruppe: Frit (429 Einträge total)

Gruppe: Ed. (310 Einträge total)

Gruppe: W. (306 Einträge total)

Gruppe: L. (289 Einträge total)

Gruppe: M. (284 Einträge total)

Gruppe: Fr. (271 Einträge total)

Gruppe: Gebr (582 Einträge total)

Gruppe: Loui (367 Einträge total)

Gruppe: Joh. (297 Einträge total)

Gruppe: Th. (242 Einträge total)

Gruppe: Alb. (284 Einträge total)

Gruppe: Albe (309 Einträge total)

Gruppe: Carl (350 Einträge total)

Gruppe: Jean (273 Einträge total)

Gruppe: Hans (302 Einträge total)

Gruppe: Paul (279 Einträge total)

Gruppe: Jako (241 Einträge total)

Gruppe: B. (196 Einträge total)

Gruppe: S. (189 Einträge total)

Gruppe: Hch. 