In [16]:
import pandas as pd
import numpy as np
from gensim.models import Word2Vec
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from sklearn.neighbors import NearestNeighbors
from sklearn.cluster import MiniBatchKMeans

from collections import Counter 
from sklearn.metrics import silhouette_samples, silhouette_score
import os
import random
import re

SEED = 42
random.seed(SEED)
np.random.seed(SEED)

Lemmatizing was used in the Preprocessing now we will do word embedding
https://stackoverflow.com/questions/23877375/word2vec-lemmatization-of-corpus-before-training

In [2]:
df = pd.read_csv('data/p_content.csv')
df1 = df[['ID_GodotObject','content','titletext']]
print(df1.shape)
df1.head()

(103, 3)


Unnamed: 0,ID_GodotObject,content,titletext
0,2000115059032,medizinisch Personal Umgang Labor müssen Probe...,Maskenpflicht medizinisch Personal Umgang Coro...
1,2000116305030,Einführung Maskenpflicht Regierung verschärfen...,schrittweise Einführung Maskenpflicht Öffentli...
2,2000116325081,Ende Sicht Regierung setzen Maske bei Einkauf ...,Regierung setzen Maske bei Einkauf Test Freist...
3,2000116346340,Supermarkt spätestens ab Montag Entscheidung M...,Maskenpflicht Supermarkt spätestens ab Montag ...
4,2000116371728,Clemens Auer italienisch spanisch Verhältnis v...,Sonderbeauftragter Clemens Auer italienisch sp...


The model produces high-dimensional vectors, where the size parameter sets the number of dimensions. The optimal number of dimensions depends on the size of the dataset. In our case, 100 dimensions seem to be working very well. min_count parameter controls the minimum frequency of words.



https://dylancastillo.co/nlp-snippets-cluster-documents-using-word2vec/


## Apply function to remove duplicates

In [3]:
text_columns = ["content", "titletext"]
df1["merged_text"] = df1[text_columns].apply(lambda x: " | ".join(x), axis=1)
df1["tokens"] = df1["merged_text"].map(lambda x: x.split())

# Remove duplicated after preprocessing
_, idx = np.unique(df1["tokens"], return_index=True)
df1 = df1.iloc[idx, :]

print(df1.shape)
df1.head()
                

(103, 5)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df1["merged_text"] = df1[text_columns].apply(lambda x: " | ".join(x), axis=1)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df1["tokens"] = df1["merged_text"].map(lambda x: x.split())


Unnamed: 0,ID_GodotObject,content,titletext,merged_text,tokens
84,2000128312219,50 Teilnehmer begräbnissen letzter Abschied se...,VfGH 50 Teilnehmer begräbnissen unverhältnismäßig,50 Teilnehmer begräbnissen letzter Abschied se...,"[50, Teilnehmer, begräbnissen, letzter, Abschi..."
37,2000120217222,Ampel Wien bleiben Orang acht neu Bezirk Orang...,neu Ampel Wien bleiben Orang acht neu Bezirk O...,Ampel Wien bleiben Orang acht neu Bezirk Orang...,"[Ampel, Wien, bleiben, Orang, acht, neu, Bezir..."
7,2000116717900,Anton bleiben Quarantan fast fünfte freiwillig...,Paznaun Anton bleiben Quarantan fast fünfte fr...,Anton bleiben Quarantan fast fünfte freiwillig...,"[Anton, bleiben, Quarantan, fast, fünfte, frei..."
48,2000122442386,Antwort wie vieler Mensch Weihnachten Silveste...,wie vieler Mensch Weihnachten Silvester Werkta...,Antwort wie vieler Mensch Weihnachten Silveste...,"[Antwort, wie, vieler, Mensch, Weihnachten, Si..."
67,2000124163685,Anzeige Samstag Polizei nehmen fünf Person fes...,Anzeige Samstag Wien,Anzeige Samstag Polizei nehmen fünf Person fes...,"[Anzeige, Samstag, Polizei, nehmen, fünf, Pers..."


### Check for common words

In [19]:
docs = df1["merged_text"].values
tokenized_docs = df1["tokens"].values
ids = df1["ID_GodotObject"].values
vocab = Counter()
for token in tokenized_docs:
    vocab.update(token)
    
vocab.most_common(10)


[('der', 808),
 ('werden', 246),
 ('Foto', 244),
 ('in', 221),
 ('ab', 204),
 ('Wien', 201),
 ('gelten', 198),
 ('sein', 197),
 ('Maskenpflicht', 194),
 ('mehr', 191)]

### Generate Vectors from document

In [20]:
def vectorize(list_of_docs, model):
    """Generate vectors for list of documents using a Word Embedding

    Args:
        list_of_docs: List of documents
        model: Gensim's Word Embedding

    Returns:
        List of document vectors
    """
    features = []

    for tokens in list_of_docs:
        zero_vector = np.zeros(model.vector_size)
        vectors = []
        for token in tokens:
            if token in model.wv:
                try:
                    vectors.append(model.wv[token])
                except KeyError:
                    continue
        if vectors:
            vectors = np.asarray(vectors)
            avg_vec = vectors.mean(axis=0)
            features.append(avg_vec)
        else:
            features.append(zero_vector)
    return features

In [21]:
model = Word2Vec(sentences=tokenized_docs, vector_size=100, workers=1, seed=42)
model.wv.most_similar("Maske")

[('der', 0.9998356699943542),
 ('in', 0.9998061060905457),
 ('bei', 0.999804675579071),
 ('werden', 0.9998003840446472),
 ('mehr', 0.9997920989990234),
 ('geben', 0.9997724890708923),
 ('dürfen', 0.9997721314430237),
 ('neu', 0.9997711181640625),
 ('können', 0.9997584223747253),
 ('bleiben', 0.9997560381889343)]

In [22]:
vectorized_docs = vectorize(tokenized_docs, model=model)
len(vectorized_docs), len(vectorized_docs[0])

['50', 'Teilnehmer', 'begräbnissen', 'letzter', 'Abschied', 'sein', 'weder', 'substituierbar', 'begründen', 'VfGH', 'verhältnismäßig', 'indes', 'Maskenpflicht', 'Handel', 'Wien', 'der', 'Verfassungsgerichtshof', 'VfGH', 'mehrere', 'Entscheidung', 'Beschwerde', 'Zusammenhang', 'treffen', 'Stattgegebe', 'VfGH', 'Beschwerde', 'begräbnissen', 'der', 'Beschränkung', '50', 'Teilnehmer', 'unverhältnismäßig', 'befinden', 'Höchstrichter', 'Auswirkung', 'Entscheidung', 'freilich', 'mehr', 'Schwerer', 'Eingriff', 'Recht', 'Privatleben', 'der', 'zweiter', 'verfassungswidrig', 'erklären', 'Bestimmung', 'enthalten', 'längst', 'mehr', 'Kraft', 'ein', 'Oberösterreicherin', 'können', 'Begräbnis', 'Tante', 'teilnehmen', 'Teil', 'Verordnung', 'angefochten', 'ab', '26', 'Dezember', '2020', 'Woche', 'Kraft', 'der', 'Beschränkung', 'VfGH', 'gesamthaft', 'Betrachtung', 'unverhältnismäßig', 'zwar', 'verfolgt', 'Maßnahme', 'legitim', 'Ziel', 'geeignet', 'jedoch', 'letzter', 'Verabschiedung', 'nahestehend', 've

(103, 100)

In [17]:
def mbkmeans_clusters(X, k, mb=500, print_silhouette_values=False):
    """Generate clusters.

    Args:
        X: Matrix of features.
        k: Number of clusters.
        mb: Size of mini-batches. Defaults to 500.
        print_silhouette_values: Print silhouette values per cluster.

    Returns:
        Trained clustering model and labels based on X.
    """
    km = MiniBatchKMeans(n_clusters=k, batch_size=mb).fit(X)
    print(f"For n_clusters = {k}")
    print(f"Silhouette coefficient: {silhouette_score(X, km.labels_):0.2f}")
    print(f"Inertia:{km.inertia_}")

    if print_silhouette_values:
        sample_silhouette_values = silhouette_samples(X, km.labels_)
        print(f"Silhouette values:")
        silhouette_values = []
        for i in range(k):
            cluster_silhouette_values = sample_silhouette_values[km.labels_ == i]
            silhouette_values.append(
                (
                    i,
                    cluster_silhouette_values.shape[0],
                    cluster_silhouette_values.mean(),
                    cluster_silhouette_values.min(),
                    cluster_silhouette_values.max(),
                )
            )
        silhouette_values = sorted(
            silhouette_values, key=lambda tup: tup[2], reverse=True
        )
        for s in silhouette_values:
            print(
                f"    Cluster {s[0]}: Size:{s[1]} | Avg:{s[2]:.2f} | Min:{s[3]:.2f} | Max: {s[4]:.2f}"
            )
    return km, km.labels_

In [18]:
clustering, cluster_labels = mbkmeans_clusters(X=vectorized_docs, k=5, print_silhouette_values=True)
df_clusters = pd.DataFrame({
    "text": docs,
    "tokens": [" ".join(text) for text in tokenized_docs],
    "cluster": cluster_labels
})

For n_clusters = 5
Silhouette coefficient: 0.52
Inertia:0.19440440707167328
Silhouette values:
    Cluster 0: Size:18 | Avg:0.54 | Min:0.10 | Max: 0.69
    Cluster 2: Size:17 | Avg:0.53 | Min:0.15 | Max: 0.69
    Cluster 3: Size:40 | Avg:0.51 | Min:0.02 | Max: 0.74
    Cluster 1: Size:23 | Avg:0.50 | Min:0.05 | Max: 0.72
    Cluster 4: Size:5 | Avg:0.49 | Min:0.36 | Max: 0.62
