In [2]:
# Mit diesem Code sollen alle einzelnen Berufe aus dem Jahr 1950 herausgefunden werden.

# Da die Daten zum Jahr 1950 ebenfalls noch nicht indexiert sind, wie bspw. jene fürs Jahr 1925, braucht es diesen Code.
# Der gesamte Code liest eine oder mehrere TSV-Dateien (Tab-separierte Werte) ein und zählt, wie oft bestimmte Zeichenketten in einer bestimmten Spalte auftreten, vorausgesetzt, 
# dass das Jahr in einer Zeile den Wert '1950' enthält.

# Mit diesem Code werden die notwendigen reader importiert, damit das TSV (Tab Seperated Value - also Daten, die durch Leerschläge getrennt sind) lesbar wird
# und Regular Expressions, also die strings (Zeichenketten, also einzelne Worte und Zahlen) durchsucht werden können.

import csv
import re

# Die Funktion count_strings_in_tsv_files nimmt drei Argumente entgegen: 
# - file_paths: Eine Liste von Dateipfaden zu den TSV-Dateien, die analysiert werden sollen.
# - column_name: Der Name der Spalte, in der die Zeichenketten gezählt werden sollen.
# - encoding: Das Zeichenkodierungsformat der Dateien, standardmäßig 'utf-8'.
# Ein leeres Wörterbuch namens string_counts wird erstellt, um die Zählungen der Zeichenketten zu speichern.

def count_strings_in_tsv_files(file_paths, column_name, encoding='utf-8'):
    string_counts = {}

# Die Funktion durchläuft die Datei in dem, weiter unten übergebenen Dateipfad.
# Die Datei wird geöffnet und zeilenweise eingelesen.
# Für jede Zeile (row) in der TSV-Datei wird überprüft, ob das Jahr den Wert '1950' enthält.
# Wenn das Jahr '1950' ist, wird der Inhalt der angegebenen Spalte (column_name) in der aktuellen Zeile in seine einzelnen Bestandteile aufgeteilt, die durch Kommas getrennt sein könnten.
# In dieser Spalte befinden sich auch die Berufe.
# Für jedes einzelne Element in den aufgeteilten Inhalten wird eine Bereinigung durchgeführt, um alle Zahlen aus der Zeichenkette zu entfernen.
# Wenn das bereinigte Element nicht leer ist, wird es im Zählwörterbuch string_counts aktualisiert (also, Vorkommnis +1 addiert) oder hinzugefügt.

    
    for file_path in file_paths:
        with open(file_path, 'r', encoding=encoding) as tsvfile:
            tsvreader = csv.DictReader(tsvfile, delimiter='\t')
            for row in tsvreader:
                year = row.get('Year', '')
                if '1950' in year:
                    content = row.get(column_name, '')
                    for item in content.split(','):
                        clean_item = re.sub(r'\d+', '', item.strip())
                        if clean_item:
                            if clean_item in string_counts:
                                string_counts[clean_item] += 1
                            else:
                                string_counts[clean_item] = 1
                                
# Nun wird das Wörterbuch (string_counts) zurückgegeben, das die Zählungen der bereinigten Zeichenketten enthält.

    return string_counts

# Nun wird der, im Code oben, erwähnte Dateipfad definiert, sowie die zu untersuchende Zeile (column_name). Die zuvor definierte Funktion wird aufgerufen, anhand der Argumente (file_paths und column name)
# und das Ergebnis in der Variabel (result) gespeichert.

file_paths = ['C:/Users/dkilc/OneDrive - Universitaet Bern/Neu/Desktop/Studium/DH_WORK/Telefonbuch/c4.tsv', 'C:/Users/dkilc/OneDrive - Universitaet Bern/Neu/Desktop/Studium/DH_WORK/Telefonbuch/c5.tsv', 'C:/Users/dkilc/OneDrive - Universitaet Bern/Neu/Desktop/Studium/DH_WORK/Telefonbuch/c8.tsv']  # Add your file paths here
column_name = 'AggregatedContent'
result = count_strings_in_tsv_files(file_paths, column_name)

# Nun werden die Resultate (result) durchgezählt und sortiert.

sorted_result = sorted(result.items(), key=lambda x: x[1], reverse=True)

# Diese Code zeigt nun die 200 häufigsten Zeichenketten an, unter denen sich auch die Berufe befinden. Dabei wird die Zeichenkette und die Häufigkeit angezeigt.

for string, count in sorted_result[:200]:
    print(f"{string}: {count} occurrences")

 : 26515 occurrences
  : 395 occurrences
 ): 378 occurrences
  (  ): 240 occurrences
IO : 111 occurrences
 IO: 111 occurrences
 OI: 66 occurrences
  Landwirt: 56 occurrences
OI : 49 occurrences
    : 44 occurrences
  (  ) Wenn keine Antwort: 36 occurrences
  Bundesbahnen Schweiz. Stationsbüro: 33 occurrences
  siehe Fortsetzung: 29 occurrences
   : 27 occurrences
.: 27 occurrences
  Damensalon: 17 occurrences
 (  ): 17 occurrences
Yverdon: 15 occurrences
  Wenn keine Antwort: 15 occurrences
  (  ) Gemeindekanzlei: 15 occurrences
  (  ) Bundesbahnen Schweiz.: 15 occurrences
  Handlung: 15 occurrences
  f   : 14 occurrences
  l   : 14 occurrences
  Bankbeamter: 13 occurrences
  Landw.: 13 occurrences
Aigle (bis zur Automatisierung): 12 occurrences
Langnau (Emmental): 12 occurrences
  Schreinerei: 12 occurrences
Schwyz: 11 occurrences
  Angestellter: 11 occurrences
): 11 occurrences
 ': 10 occurrences
Ò : 10 occurrences
  Lehrer: 10 occurrences
  (  ) Betreibungsamt: 10 occurrences
  Stat

In [13]:
# Dieser Code erstellt ein neues, leeres Wörterbuch.
grouped_result = {}

# Dieser Code zählt einzelnen Wortketten am Anfang jeder Zeile durch. Wenn die ersten vier Zeichen
# dieselben sind wie bereits im Wörterbuch vorhanden, wird es der Gruppe hinzugefügt. Wenn es noch
# keine Gruppe mit diesen vier Zeichen am Anfang gibt, wird eine neue Gruppe erstellt.
# Vier Zeichen hat sich durch ein paar Tests als ideale Länge herausgestellt, da so Metzgerei und
# Metzgerbeispielsweise in der selben Gruppe landen.

for string, count in sorted_result:
    key = string[:4]
    if key in grouped_result:
        grouped_result[key].append((string, count))
    else:
        grouped_result[key] = [(string, count)]

# Es wird nochmals ein neues, leeres Wörterbuch erstellt.
group_total_counts = {}

# Nun werden alle einzelnen Einträge in den Gruppend durchgezählt.
for key, values in grouped_result.items():
    total_count = sum(count for _, count in values)
    group_total_counts[key] = total_count

# Und als Gruppe mit Anzahl einträgen dargestellt.
for key, values in grouped_result.items():
    print(f"Gruppe: {key} ({group_total_counts[key]} Einträge total)")
    #for string, count in values:
    #    print(f"{string}: {count} Mal") Dieser Code würde die einzelnen EInträge in den Gruppen
    # anzeigen. Dies ist aber mehr verwirrend als hilfreich.
    print()

Gruppe:   (26515 Einträge total)

Gruppe:    (395 Einträge total)

Gruppe:  ) (378 Einträge total)

Gruppe:   (  (10478 Einträge total)

Gruppe: IO  (111 Einträge total)

Gruppe:  IO (111 Einträge total)

Gruppe:  OI (66 Einträge total)

Gruppe:   La (1155 Einträge total)

Gruppe: OI  (49 Einträge total)

Gruppe:      (347 Einträge total)

Gruppe:   Bu (1073 Einträge total)

Gruppe:   si (61 Einträge total)

Gruppe:     (27 Einträge total)

Gruppe: . (27 Einträge total)

Gruppe:   Da (401 Einträge total)

Gruppe:  (   (206 Einträge total)

Gruppe: Yver (30 Einträge total)

Gruppe:   We (3267 Einträge total)

Gruppe:   Ha (5420 Einträge total)

Gruppe:   f  (40 Einträge total)

Gruppe:   l  (103 Einträge total)

Gruppe:   Ba (1644 Einträge total)

Gruppe: Aigl (26 Einträge total)

Gruppe: Lang (29 Einträge total)

Gruppe:   Sc (4365 Einträge total)

Gruppe: Schw (25 Einträge total)

Gruppe:   An (1097 Einträge total)

Gruppe: ) (11 Einträge total)

Gruppe:  ' (10 Einträge total)

Gruppe