
# Clustering text documents using k-means

Note: as k-means is optimizing a non-convex objective function, it will likely
end up in a local optimum. Several runs with independent random init might be
necessary to get a good convergence.



In [1]:
# Based on Clustering text document using k-means from SciKit-learn
# Author: Peter Prettenhofer <peter.prettenhofer@gmail.com>
#         Lars Buitinck
# License: BSD 3 clause

from sklearn.decomposition import TruncatedSVD
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import Normalizer
from sklearn import metrics

from sklearn.cluster import KMeans, MiniBatchKMeans

import pandas as pd
from time import time

import numpy as np
import re
import nltk
from nltk.corpus import stopwords
%matplotlib inline

Load email content.

In [2]:
# Content email in excel file with two columns: Number and Tekst
df = pd.read_excel('top4.xlsx')
text = [str(inhoud) for inhoud in df.Tekst]

In [3]:
text[4]

'---------- Doorgestuurd bericht ----------Van: &quot;Marcel Jaspers&quot; &lt;mrcljsprs@gmail.com&gt;Datum:  jun.  :Onderwerp: Fwd: Details ING BankierenAan: &lt;info@rdw.nl&gt;Cc: ---------- Doorgestuurd bericht ---------- Van: &quot;CTW Logistics bv&quo'

In [4]:
### Manier 2
# Dit levert voor elke mail een lijst. Alle lijsten samen zitten weer in een lijst.
# Woord en herkomst blijven hier verbonden
cleanedText=[]
stop = set(stopwords.words(['english','dutch']))
for mail in text:
    words = nltk.word_tokenize(mail)
    words=[word.lower() for word in words if word.isalpha()]
    words=' '.join([word for word in words if word not in stop])
    cleanedText.append(words)

In [5]:
cleanedText[1:4]

['volgende documenten horen hoofddocument brief rdw email politie voorbeeld foto tape kenteken politie abbf',
 'doorgestuurd bericht onderwerp vvk online datum wed jun klantenservice rdw lt info gt info hermanvanrijssen geachte aanvraag ontvangen klan',
 'doorgestuurd bericht quot ctw logistics bv quot lt info gt datum jun onderwerp details ing bankieren quot mrcljsprs quot lt mrcljsprs gt cc']

In [17]:
tf = TfidfVectorizer(analyzer='word', min_df = 0.1, max_df = 0.7)

In [18]:
tfidf_matrix =  tf.fit_transform(cleanedText)
feature_names = tf.get_feature_names() 

In [20]:
feature_names

['aanhef',
 'aanvraag',
 'achternaam',
 'adres',
 'afdeling',
 'afzender',
 'amaan',
 'auto',
 'bedrijfsnaam',
 'bedrijfsnummer',
 'belangrijk',
 'bellen',
 'benieuwd',
 'bereiken',
 'bericht',
 'bestemd',
 'bijlage',
 'binnen',
 'buitenland',
 'burgerservicenummer',
 'computer',
 'contactgegevens',
 'correctie',
 'correctiegegevens',
 'dank',
 'datum',
 'deel',
 'deelname',
 'dhr',
 'dienstverlening',
 'documenten',
 'erg',
 'ervaringhet',
 'foute',
 'foutieve',
 'gaan',
 'gaat',
 'geachte',
 'geadresseerde',
 'gegevens',
 'graag',
 'groet',
 'hartelijk',
 'heer',
 'helaas',
 'helpen',
 'hieronder',
 'huisnummer',
 'info',
 'informatie',
 'instaan',
 'juiste',
 'juni',
 'kenteken',
 'kentekencard',
 'klanten',
 'klantenservice',
 'klanttevredenheidsonderzoek',
 'klik',
 'kunt',
 'land',
 'lezen',
 'link',
 'maandag',
 'medewerker',
 'meesturen',
 'meldcode',
 'mevrouw',
 'minuut',
 'mogelijk',
 'naam',
 'nederland',
 'nederlandtelefoonnummer',
 'nemen',
 'nieuwe',
 'online',
 'onterec

In [None]:
## Performing dimensionality reduction using LSA
#print("Performing dimensionality reduction using LSA")
#t0 = time()
# Vectorizer results are normalized, which makes KMeans behave as
# spherical k-means for better results. Since LSA/SVD results are
# not normalized, we have to redo the normalization.
#svd = TruncatedSVD(opts.n_components)
#normalizer = Normalizer(copy=False)
#lsa = make_pipeline(svd, normalizer)

#X = lsa.fit_transform(X)

#print("done in %fs" % (time() - t0))

#explained_variance = svd.explained_variance_ratio_.sum()
#print("Explained variance of the SVD step: {}%".format(int(explained_variance * 100)))

#print()
## end LSA

Do the actual clustering


In [22]:
##minibatch Kmeans
#km = MiniBatchKMeans(n_clusters=true_k, init='k-means++', n_init=1,
#                     init_size=1000, batch_size=1000, verbose=b_verbose)
##end minibatch

##Kmeans
km = KMeans(n_clusters=10, init='k-means++', max_iter=100, n_init=1)
##end Kmenas

In [32]:
print("Clustering sparse data with %s" % km)

new_mat=km.fit_transform(tfidf_matrix)

print()

Clustering sparse data with KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=100,
    n_clusters=10, n_init=1, n_jobs=1, precompute_distances='auto',
    random_state=None, tol=0.0001, verbose=0)



In [39]:
new_mat[10:20]

array([[ 1.18480374,  1.24542608,  0.98367816,  1.30021765,  1.19801725,
         1.38351354,  1.24148673,  1.35478434,  1.23704725,  1.18828111],
       [ 0.99471414,  1.19223727,  1.07308781,  1.38757149,  1.26826166,
         1.24145193,  1.30741364,  1.35955818,  1.25772056,  1.19074804],
       [ 1.23319193,  1.21870503,  0.99299077,  1.36215416,  1.31380985,
         1.37915718,  1.30792094,  1.13128891,  1.24042131,  1.18884384],
       [ 1.24336916,  1.1993023 ,  1.07178   ,  1.33646887,  1.27174461,
         1.36589336,  1.31296173,  1.28023005,  1.26153345,  1.21222153],
       [ 1.22824801,  1.25664976,  0.97414176,  1.38851207,  1.22209963,
         1.38322408,  1.15156847,  1.21998995,  1.22859247,  1.18203341],
       [ 1.22824801,  1.25664976,  0.97414176,  1.38851207,  1.22209963,
         1.38322408,  1.15156847,  1.21998995,  1.22859247,  1.18203341],
       [ 1.25067406,  1.26419532,  0.98281383,  1.3889653 ,  1.25942215,
         1.38383904,  1.10086598,  1.3610516 

In [40]:
#print("Homogeneity: %0.3f" % metrics.homogeneity_score(labels, km.labels_))
#print("Completeness: %0.3f" % metrics.completeness_score(labels, km.labels_))
#print("V-measure: %0.3f" % metrics.v_measure_score(labels, km.labels_))
#print("Adjusted Rand-Index: %.3f"
#      % metrics.adjusted_rand_score(labels, km.labels_))
print("Silhouette Coefficient: %0.3f"
      % metrics.silhouette_score(tfidf_matrix, km.labels_, sample_size=1000))

print()


#if not opts.use_hashing:
print("Top terms per cluster:")

#    if opts.n_components:
#        original_space_centroids = svd.inverse_transform(km.cluster_centers_)
#        order_centroids = original_space_centroids.argsort()[:, ::-1]
#    else:
order_centroids = km.cluster_centers_.argsort()[:, ::-1]

terms = tf.get_feature_names()
for i in range(10):
    print("Cluster %d:" % i, end='')
    for ind in order_centroids[i, :10]:
        print(' %s' % terms[ind], end='')
print()

Silhouette Coefficient: 0.330

Top terms per cluster:
Cluster 0: voertuig rdw kunt wij vragen graag gaat auto informatie staatCluster 1: adres land plaats burgerservicenummer nederland contactgegevens voorletters achternaam meesturen vraagCluster 2: rdw aanvraag info gegevens bericht vin vriendelijke groet geachte perCluster 3: tellerstand registratie datum juiste foutieve reden correctie foute correctiegegevens toelichtingCluster 4: rdw kunt wij vragen graag wilt ontvangen vriendelijke groet staatCluster 5: opmerkingen straatnaam meldcode huisnummer aanhef dhr voertuig bedrijfsnaam woonplaats voorlettersCluster 6: waar afdeling naam oorspronkelijk bericht info woonplaats pmaan amaan postcodeCluster 7: vin opmerkingen documenten ontvangen kentekencard straatnaam meldcode huisnummer woonplaats telefoonnummerCluster 8: naam aanhef vraag kenteken ontvangen auto adres aanvraag binnen groetCluster 9: naam waar afdeling adres bedrijfsnummer telefoonnummer vraag woonplaats graag postcode


In [53]:
for ind in order_centroids[0, :10]:
    print(terms[ind])

voertuig
rdw
kunt
wij
vragen
graag
gaat
auto
informatie
staat
