# Data Preparation

### Anmerkung
Das Skript basiert auf Tim Feldmüllers Anwendung von TWEC, die unter dem folgenden GitLab-Link aufgerufen werden kann: https://gitlab.uzh.ch/zukoko/sommerschule-2023/-/tree/master/C5-Distributionelle-Semantik/TWEC_Clustering/scripts?ref_type=heads 

In [None]:
pip install -r requirements.txt

### Vergleich zwischen Quellen
Im unteren Beispiel kann eine .csv Datei eingelesen werden, welche die Texte nach der *text_source* sortiert. Je länger die Liste, desto länger dauert die Berechnung.

In [None]:
import pandas as pd

# Specify the path to your CSV file
csv_file_path = "./subcorpus_tp1.csv"  # Update with the actual file path

# Load the CSV file using pandas
df = pd.read_csv(csv_file_path, sep='\t')

# Define search words for each corpus as a list
corpora = ['FAZ', 'BILD']  # Add as many as needed

# Initialize a dictionary to store text content for each corpus
sentences_corpus = {corpus: [] for corpus in corpora}

# Loop through each row in the DataFrame
for index, row in df.iterrows():
    channel_id = row['text_source']
    message = row['text_content']
    
    # Check and store messages for each corpus
    for corpus in corpora:
        if corpus in channel_id:
            sentences_corpus[corpus].append(message)

### Vergleich zwischen Zeiträumen
Im unteren Beispiel kann eine .csv Datei eingelesen werden, welche die Texte nach dem Metadatum *text_date* sortiert. Je länger die Liste, desto länger dauert die Berechnung. Man kann verschiedene Zeiträume setzen, welche die betreffende Fragestellung beleuchtet.

In [None]:
import pandas as pd
from datetime import datetime

# Function to parse dates
def parse_date(date_str):
    for fmt in ('%d-%m-%Y', '%Y-%m'):
        try:
            return datetime.strptime(date_str, fmt)
        except ValueError:
            pass
    raise ValueError('no valid date format found')

# Define your time frames as a dictionary with corpus names as keys
time_frames = {
    'korpus1': (parse_date('01-01-2020'), parse_date('31-01-2020')),
    'korpus2': (parse_date('01-09-2010'), parse_date('30-09-2010')),
    'korpus3': (parse_date('01-09-1992'), parse_date('30-09-1992')),
    # Add more time frames as needed
}

# Initialize your sentences_corpus dictionary
sentences_corpus = {key: [] for key in time_frames.keys()}

# Specify the path to your CSV file
csv_file_path = "./subcorpus_tp1.csv"  # Update with the actual file path

# Load your DataFrame
df = pd.read_csv(csv_file_path, sep='\t')  # Replace with your actual file path

# Loop through each row in the DataFrame
for index, row in df.iterrows():
    try:
        channel_date = parse_date(row['text_date'])
    except ValueError:
        continue  # Skip rows with invalid date formats

    message = row['text_content']

    # Check each corpus defined in time_frames
    for corpus_name, (start_date, end_date) in time_frames.items():
        if start_date <= channel_date <= end_date:
            sentences_corpus[corpus_name].append(message)

In [None]:
import pandas as pd
from datetime import datetime

# Function to parse dates
def parse_date(date_str):
    for fmt in ('%d-%m-%Y', '%Y-%m'):
        try:
            return datetime.strptime(date_str, fmt)
        except ValueError:
            pass
    raise ValueError('no valid date format found')

# Define your time frames as a dictionary with corpus names as keys
time_frames = {
    'korpus1': (parse_date('01-01-2020'), parse_date('31-01-2020')),
    'korpus2': (parse_date('01-09-2010'), parse_date('30-09-2010')),
    'korpus3': (parse_date('01-09-1992'), parse_date('30-09-1992')),
    # Add more time frames as needed
}

# Initialize your sentences_corpus dictionary
sentences_corpus = {key: [] for key in time_frames.keys()}

# Specify the path to your CSV file
csv_file_path = "./subcorpus_tp1.csv"  # Update with the actual file path

# Load your DataFrame
df = pd.read_csv(csv_file_path, sep='\t')  # Replace with your actual file path

# Loop through each row in the DataFrame
for index, row in df.iterrows():
    try:
        channel_date = parse_date(row['text_date'])
    except ValueError:
        continue  # Skip rows with invalid date formats

    message = row['text_content']

    # Check each corpus defined in time_frames
    for corpus_name, (start_date, end_date) in time_frames.items():
        if start_date <= channel_date <= end_date:
            sentences_corpus[corpus_name].append(message)

### Vergleich zwischen Korpora

In [None]:

import pandas as pd
# Specify the path to your CSV file
import os

csv_file_name = "telegram_data.csv"  # Update with the actual file name
csv_file_path = os.path.join(os.getcwd(), csv_file_name)

# Define lists to store text content
sentences_korpus1 = []

# Load the CSV file using pandas
df = pd.read_csv(csv_file_path)

# Loop through each row in the DataFrame
for index, row in df.iterrows():
    channel_id = row['channel_id']
    message = row['message']
    sentences_korpus1.append(message)

In [None]:
# Specify the path to your CSV file

csv_file_name = "subcorpus_tp1.csv"  # Update with the actual file name
csv_file_path = os.path.join(os.getcwd(), csv_file_name)

# Define lists to store text content
sentences_korpus2 = []

# Load the CSV file using pandas
df = pd.read_csv(csv_file_path, sep='\t', low_memory=False)

# Loop through each row in the DataFrame
for index, row in df.iterrows():
    message = row['text_content']
    sentences_korpus2.append(message)


### Tokenization
Hier findet eine Tokenisierung der Daten mithilfe von *nltk* oder *spacy* statt.

In [None]:
from nltk import word_tokenize

# Assuming you have a dictionary of sentences for each corpus
#sentences_corpus = {'korpus1': ['hallo'], 'korpus2': ['hoi']}

# Initialize a dictionary to store tokenized sentences for each corpus
tokenized_corpus = {corpus: [] for corpus in sentences_corpus}

# Tokenize sentences for each corpus
for corpus, sentences in sentences_corpus.items():
    for sent in sentences:
        if type(sent) is str:
            tokenized_corpus[corpus].append(word_tokenize(sent, language="german"))
# Save the tokenized sentences to separate files for each corpus
for corpus, tokenized_sentences in tokenized_corpus.items():
    with open(f"./data/sentences_{corpus}.txt", "w") as f:
        for sent in tokenized_sentences:
            f.write(" ".join(sent) + "\n")

# Optionally, save all tokenized sentences in a single file
with open("./data/all_sentences.txt", "w") as f:
    for tokenized_sentences in tokenized_corpus.values():
        for sent in tokenized_sentences:
            f.write(" ".join(sent) + "\n")


In [None]:
import spacy

# Load the German language model
nlp = spacy.load("de_core_news_sm")

# Assuming you have a dictionary of sentences for each corpus
# sentences_corpus = {'korpus1': [...], 'korpus2': [...], ...}

# Initialize a dictionary to store tokenized sentences for each corpus
tokenized_corpus = {corpus: [] for corpus in sentences_corpus}

# Tokenize sentences for each corpus using spaCy
for corpus, sentences in sentences_corpus.items():
    for sent in sentences:
        if type(sent) is str:
            doc = nlp(sent)
            tokenized_sentence = [token.text for token in doc]
            tokenized_corpus[corpus].append(tokenized_sentence)

# Save the tokenized sentences to separate files for each corpus
for corpus, tokenized_sentences in tokenized_corpus.items():
    with open(f"../data/sentences_{corpus}.txt", "w") as f:
        for sent in tokenized_sentences:
            f.write(" ".join(sent) + "\n")

# Optionally, save all tokenized sentences in a single file
with open("../data/all_sentences.txt", "w") as f:
    for tokenized_sentences in tokenized_corpus.values():
        for sent in tokenized_sentences:
            f.write(" ".join(sent) + "\n")


### Dictionary mit Frequenzen

In [None]:
# Eine Hilfsfunktion, die ein Dictionary nach seinen Werten sortiert
def sort_dict(dic, reverse=True):
    return dict(sorted(dic.items(), key=lambda item: item[1], reverse=reverse))


# Mit dieser Funktion können wir eine für TWEC aufbereitete Textdatei einlesen, die enthaltenen Types auszählen lassen und bekommen ein nach Frequenz sortiertes
# Dictionary zurück
def get_word_frequencies(path_to_txt):
    frequencies = {}

    with open(path_to_txt, "r") as f:
        for line in f.readlines():
            for word in line.split():
                if word in frequencies:
                    frequencies[word] += 1
                else:
                    frequencies[word] = 1

    return sort_dict(frequencies)
print("done")

In [None]:
# Assuming you have a function get_word_frequencies(file_path) defined

# List of corpus names
# Initialize a dictionary to store frequency dictionaries for each corpus
freqs = {}

# Create frequency dictionaries for each corpus

for corpus, sentences in sentences_corpus.items():
    file_path = f"./data/sentences_{corpus}.txt"
    freqs[corpus] = get_word_frequencies(file_path)

print("done")


# TWEC

Das Initialisieren von TWEC passiert hier. Wir legen fest, wie viele Dimensionen unsere Word Embeddings haben sollen (size) -> 200–300 sind übliche Werte wie frequent sie mindestens sein müssen (min_count) -> hier nur auf 3 gesetzt, da das Testkorpus sehr klein ist. Es empfehlen sich generell eher höhere Werte, da für sehr niedrigfrequente Wörter nicht genug Informationen erlernbar sind, um sie gut im Vektorraum abbilden zu können wie viele Wörter links und rechts jedes Wortes werden berücksichtigt beim Training (window) -> ähnlich einem Kollokationsfenster, 5 – 6 sind übliche Werte wie viele CPU-Kerne sollen genutzt werden für das Training -> hier automatisch bestimmt (einer weniger als verfügbar)

In [None]:
from twec.twec import TWEC
import multiprocessing

min_count = 5
aligner = TWEC(
    size=300, min_count=min_count, window=6, workers=multiprocessing.cpu_count() - 1
)
print("done")

Nun trainieren wir den sogenannten Kompass auf dem Gesamtkorpus. Dieses Kompassmodell dient danach dazu, auch die Vektorräume von Teilkorpora auf die gleiche Art ausrichten zu können, sodass alle Modelle den gleichen Vektorraum nutzen


In [None]:
aligner.train_compass("./data/all_sentences.txt", overwrite=True)

### Compass

In [None]:
# Das Training ist fertig und wir können das fertige Modell einlesen
from gensim.models.word2vec import Word2Vec

compass = Word2Vec.load("model/compass.model")

# ... und testweise einen Vektor abfragen
compass.wv.most_similar("Volk")

### Slices

In [None]:
# Jetzt geht es an das Training der Subkorpus-Modelle bzw. 'Slices'
# Mit dem For-Loop können wir das Training durchführen, wir müssen nur darauf achten,
# dass wir die Textdateien für das Training nach dem Muster sentences_METADATUM.txt benannt haben
# und die Metadaten in der Liste slices genauso aufführen
# Es passiert außerdem auch ein weiterer Schritt: Und zwar wird von TWEC an dieser Stelle, anders als beim Training des Kompass,
# keine Filterung nach dem Parameter min_count mehr vorgenommen. Daher erstellen wir die TXT Files neu, speichern sie mit dem Suffix _min_count
# und lassen alle Wörter aus, die wir nicht mit einer Mindestfrequenz in unseren Frequency Dictionaries finden
slices = []
for corpus, i in sentences_corpus.items():
    slices.append(corpus)
for slice in slices:
    path_input = f"./data/sentences_{slice}.txt"
    path_output = path_input.replace(".txt", "_min_count.txt")
    with open(path_input, "r") as f:
        with open(path_output, "a") as f_out:
            for sentence in f.readlines():
                min_count_tokens = []
                for word in sentence.split():
                    if freqs[slice][word] >= min_count:
                        min_count_tokens.append(word)
                f_out.write(" ".join(min_count_tokens) + "\n")

    aligner.train_slice(path_output, save=True)

### Speichern der Modelle

In [None]:
from gensim.models.word2vec import Word2Vec
import numpy

model_korpus1 = Word2Vec.load("./model/sentences_korpus1_min_count.model")
model_korpus2 = Word2Vec.load("./model/sentences_korpus2_min_count.model")
model_korpus3 = Word2Vec.load("./model/sentences_korpus3_min_count.model")
# weitere Slices können hinzugefügt werden
"""
model_korpusX = Word2Vec.load("./model/sentences_korpusX_min_count.model")

"""

In [None]:
# Jetzt können wir diesen Vektor in den korpus-Modellen abfragen
model_korpus1.wv.most_similar(['Volk'])

In [None]:
model_korpus3.wv.most_similar(['Volk'])

## Vergleiche

Mit der Funktion time_machine() können wir diese Schritte bündeln und z.B. abfragen, welches Wort in einem Korpus (Zeit oder Medium) äquivalent zu einem Wort in einem anderen Korpus ist.


In [None]:
import lib
lib.time_machine(model_korpus1, model_korpus3, "Volk")

In [None]:
import lib
lib.time_machine(model_korpus3, model_korpus1, "Volk")

Mit diesem Befehl können wir alle einzelnen Vektoren unseres Modells als Liste abfragen und sie in der Variable word_vectors speichern.

Bei anderen Versionen von Word2Vec kann der Befehl auch model.wv[model.wv.key_to_index] lauten

In [None]:
words = model_korpus1.wv.vocab.keys()
word_vectors = model_korpus1.wv[words]
print("Anzahl der zu clusternden Vektoren:", len(word_vectors))

Diese Zelle dient nur dazu, ein Sample aus den Vektoren zu erstellen, damit die Berechnung nicht zu lange dauert.
Wir nutzen dafür nochmal unsere Funktion get_word_frequencies() und berechnen dann nur Cluster für alle
- Vektoren mit einer Häufigkeit >= 100

In [None]:
from lib import get_word_frequencies

freqs = {}
freqs["korpus1"] = get_word_frequencies("./data/sentences_korpus1.txt")

min_count = 30

words = []
for word in model_korpus1.wv.vocab.keys():
    if freqs["korpus1"][word] >= 80:
        words.append(word)

word_vectors = model_korpus1.wv[words]

print(len(word_vectors))

Die Anzahl der Cluster k muss festgelegt werden. Wir können verschiedene Einstellungen ausprobieren
oder die Anzahl der Cluster nach der Anzahl der Types in unserem Korpus richten, wie hier können wir verschiedene Werte ausprobieren 
- finegranular vs. big picture 


In [None]:
k = int(len(word_vectors) * 0.024)

In [None]:
from sklearn import cluster

kmeans = cluster.KMeans(n_clusters=k) #k
kmeans.fit(word_vectors)

Sie sind in der gleichen Reihenfolge gelistet wie die übergebenen Vektoren in unserer Variable words und wir können sie mit zip() zu einem dictionary zusammenfassen

In [None]:
word_cluster = dict(zip(words, kmeans.labels_))
print(word_cluster)

Wir speichern die Zuordnung der Cluster zu ihren Mittelpunkten (Centroids) im Vektorraum

In [None]:
cluster_centroid = dict(
    zip(range(len(kmeans.cluster_centers_)), kmeans.cluster_centers_)
)

Nun können wir unsere Daten in einer tabellarischen Struktur zusammenbringen. Dafür vermerken wir für jedes Wort sein Cluster in einer Spalte und in einer weiteren Spalte berechnen wir für jedes Wort seine Cosinusdistanz (bzw. Cosinus-Ähnlichkeit) zum Mittelpunkt des Clusters


In [None]:
import pandas as pd
from scipy.spatial import distance

df = pd.DataFrame(word_cluster.items(), columns=["word", "cluster"])
df["sim"] = [
    1 - distance.cosine(model_korpus1[word], cluster_centroid[word_cluster[word]])
    for word in df["word"]
]
df = df.sort_values(by=["cluster", "sim"], ascending=[True, False])

So sieht das Ergebnis aus. mit pd.to_csv("datei/pfad.csv") könnten wir die Tabelle so sichern

In [None]:
df.head(50)
df.to_csv("cluster.csv")

Für eine bessere Übersicht möchten wir noch eine Zuordnung der Cluster-IDs zu den enthaltenen Wörtern in einem dictionary haben. Die Wörter sind dabei nach ihrer Cosinus-Ähnlichkeit zum jeweiligen Centroid sortiert

In [None]:
cluster_words = {}

for i, row in df.iterrows():
    if row["cluster"] in cluster_words:
        cluster_words[row["cluster"]].append(row["word"])
    else:
        cluster_words[row["cluster"]] = [row["word"]]

print(cluster_words[1])
print(cluster_words[2])

Und außerdem brauchen wir statt der numerischen IDs interpretierbare Labels Dazu erstellen wir eine Zusammenstellung von Cluster-ID zu einem Label, das aus den drei zentralsten Wörtern des Clusters, also den ersten drei Wörtern der Liste, besteht.

In [None]:
import csv
cluster_label = {}

for cluster, words in cluster_words.items():
    cluster_label[cluster] = "|".join(words[:10])
cluster_label
"""
# Specify the CSV file name
csv_file = 'data.csv'

# Open the CSV file in write mode
with open(csv_file, 'w', newline='') as csvfile:
    fieldnames = cluster_label[0].keys()  # Use the keys from the dictionary as column headers

    # Create a DictWriter object
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)

    # Write the header row
    writer.writeheader()

    # Write the data
    writer.writerows(cluster_label)

print(f'Data has been written to {csv_file}')
"""

Möchten wir nun z.B anhand eines Wortes wissen, mit welchen anderen Wörtern es ein Cluster teilt, können wir das wie folgt abfragen word_cluste["korpus2"] gibt uns die Cluster-ID zurück, die wir dann im dicionary cluster_words abfragen.

In [None]:
cluster_words[word_cluster["Volk"]]

Diese Funktion berechnet das Modell. Wir übergeben den Pfad zum Word-Embedding-Modell, das geclustert werden soll, die Anzahl der Cluster k sowie optional einen Pfad zum Sichern des fertigen kmeans-Modells. Wird hier kein Pfad übergeben, wird das Modell im gleichen Ordner wie das WE-Modell gesichert. Außerdem können wir optional eine Mindestfrequenz für die Types des Korpus sowie ein entsprechendes Dictionary, in dem diese ausgezählt sind, übergeben. Ein Funktionsaufruf zum trainieren unseres obigen Modells  könnte so aussehen:

In [None]:
import lib
from sklearn import cluster

kmeans = lib.compute_kmeans("model/sentences_korpus2_min_count.model", k=k, min_count=100)
kmeans2 = lib.compute_kmeans("model/sentences_korpus1_min_count.model", k=k, min_count=100)

In [None]:
word_cluster, cluster_words, cluster_centroid, cluster_label = lib.load_kmeans("model/sentences_korpus2_min_count.model.kmeans.pkl", "model/sentences_korpus2_min_count.model")
word_cluster2, cluster_words2, cluster_centroid2, cluster_label2 = lib.load_kmeans("model/sentences_korpus1_min_count.model.kmeans.pkl", "model/sentences_korpus1_min_count.model")

So wie wir zu einzelnen Wörtern nächste Nachbarn abfragen können, können wir das auch zu den Clustern, indem wir den Centroid der Cluster verwenden dafür modifizieren wir unsere time_machine Funktion, sodass wir ihr entweder ein Wort oder einen Vektor übergeben können.

In [None]:
def time_machine(model1, model2, word_or_vec):
    if type(word_or_vec) == str:
        embedding = model1[word_or_vec]
    else:
        embedding = word_or_vec
    return model2.wv.most_similar([embedding])

centroid = cluster_centroid2[word_cluster2["Solidarität"]]
time_machine(model_korpus1, model_korpus2, centroid)

In [None]:
centroid = cluster_centroid[word_cluster["Solidarität"]]
time_machine(model_korpus2, model_korpus1, centroid)

### Ähnliche Cluster berechnen

In [None]:
lib.get_most_similar_clusters(model_korpus1["Solidarität"], cluster_centroid2, cluster_label2)


### Entfernte Clusters

In [None]:
import numpy as np

lib.get_most_distant_clusters(
    model_korpus1, cluster_words, cluster_label, model_korpus2
)


### Semantische Achse


In [None]:
import lib
antonym_list = [
("gut", "schlecht"),
]

word_list = ['gut', 'schlecht']

cos_sim = lib.we_basics('./model/sentences_korpus1_min_count.model', antonym_list, word_list)
lib.plot_cosine_similarity(cos_sim, antonym_list, word_list)
cos_sim = lib.we_basics('./model/sentences_korpus3_min_count.model', antonym_list, word_list)
lib.plot_cosine_similarity(cos_sim, antonym_list, word_list)

In [None]:
import lib
antonym_list = [
("gut", "schlecht"),
]

antonym_list_2 = [
('Liebe', 'Hass')
    # ... (Other antonym pairs)
]
word_list = ['Solidarität']
cos_sim = lib.we_basics('./model/compass.model', antonym_list, word_list)
lib.plot_cosine_similarity2(cos_sim, cos_sim, antonym_list=antonym_list, antonym_list2=antonym_list_2, word_list=word_list)