# Vorlesung: Clustering von Text-Daten

Eingelesen wird eine Liste mit Beschreibungen von Kameras. Für die Daten zu Typ, Format, Baujahr und Objektiv-Typ, soll ein Merkmals-Vektor erzeugt werden. 

In [52]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.manifold import TSNE  
from sklearn.decomposition import TruncatedSVD
import matplotlib.pyplot as plt

import hdbscan

In [49]:
%matplotlib inline

In [50]:
dfKameras= pd.read_excel('KameraKatalog.xls')

In [51]:
dfKameras.dropna(axis=1,how='all').head()

Unnamed: 0,Katalog-Nr.,Modellbezeichnung,Typ,Format,Baujahr,Baujahrende,Objektiv,Wechselobjektiv,Objektivanschluss,Verschluß,Verschlußbezeichnung,Verschlusszeit,Erläuterungen,US$,Unnamed: 43,Unnamed: 46
0,SPZ0200,Bravolette Nr. 6580,Rollfilm,6x9,1908.0,,Periskop,,,Einfach-Verschluss,Einfach-Verschluss,,"Met.-Box-Kamera, wie vor.",94.0,,
1,KOD2740,Flush Back Kodak No.3,Rollfilm,3 1/4x4 1/4,1909.0,1915.0,Rapid Rectilinear,,,B&L Auto,B&L Automat,,"Box-Falt-Kam, horiz. 48 Aufn, Platten od. Roll...",585.0,,
2,BRU0055,Paris Mod. II,Platten,13x18,1837.0,,WO,Wechselobjektiv,,,,,"Nußbaum, dopp. Ausz., kon.Balgen, Messing, Zah...",293.0,,
3,STH0050,Daguerreotypie-Kamera,Daguerreotypie,8x11,1839.0,,Steinheil,,,,,,"Holz-Box-Kamera f0r Rollfilm, Geheimkamera ...",749.0,,
4,CHE0005,Chevalier Daguerreotypie,Platten,"8,2x19,8",1840.0,,Chevalier Achromat,,,,,,,,,


Um den Dataframe zu reduzieren, wählen wir die gewünschten Spalten aus.

In [7]:
dfKamRed = dfKameras[['Typ','Format','Baujahr','Objektiv']]

In [8]:
dfKamRed.head()

Unnamed: 0,Typ,Format,Baujahr,Objektiv
0,Rollfilm,6x9,1908.0,Periskop
1,Rollfilm,3 1/4x4 1/4,1909.0,Rapid Rectilinear
2,Platten,13x18,1837.0,WO
3,Daguerreotypie,8x11,1839.0,Steinheil
4,Platten,"8,2x19,8",1840.0,Chevalier Achromat


In [64]:
dfKam1900 = dfKamRed[dfKamRed['Baujahr'] < 1900.0]

## Erzeugen des Wort Vektors

Das Paket scikit-learn bietet ein für unsere Zwecke passendes Tool: den CountVectorizer. Hiermit werden Listen von Sätzen nach den enthaltenen Wörtern in Zahlenreihen umgewandelt. Jeder Satz wird dann zu einer Zeile einer Matrix.

In [55]:
vectorizer = CountVectorizer(max_features=300)

Um die Funktion nutzen zu können, müssen wir erst NaN Einträge entfernen und alle Einträge in Strings umwandeln.

In [65]:
dfKam = dfKam1900.dropna()

In [66]:
types = dfKam['Typ'].apply(str).values 
formats = dfKam['Format'].apply(str).values
baujahre = dfKam['Baujahr'].apply(str).values
objektive = dfKam['Objektiv'].apply(str).values

Nun erzeugen wir künstlich Sätze, in dem wir für jede Zeile aus allen Einträgen der Spalten einen zusammenhängenden String bilden.

In [67]:
corpus = [a + ' ' + b + ' ' + c + ' '+d for a,b,c,d in zip(types,formats,baujahre,objektive)]

Aus dieser Satz-Liste können wir nun eine dünn besetzte Matrix bilden. Sonst würde durch die Menge der Datenpunkte der Speicherplatz nicht reichen. 

In [68]:
X = vectorizer.fit_transform(corpus)

In [69]:
X

<1204x300 sparse matrix of type '<class 'numpy.int64'>'
	with 5945 stored elements in Compressed Sparse Row format>

## Clustering

In [70]:
clusterer = hdbscan.HDBSCAN(metric='euclidean',min_cluster_size=5, min_samples=5, gen_min_span_tree=True)
clusterer.fit(X)

HDBSCAN(algorithm='best', allow_single_cluster=False, alpha=1.0,
    approx_min_span_tree=True, core_dist_n_jobs=4, gen_min_span_tree=True,
    leaf_size=40, match_reference_implementation=False,
    memory=Memory(cachedir=None), metric='euclidean', min_cluster_size=5,
    min_samples=5, p=None)