Übersicht Algorithmen
1. Naive Bayes-Klassifikation
2. Lineare Regression
3. Support Vector Machine
4. Entscheidungsbaum / Random Forest
5. Hauptkomponentenanalyse
6. Manifold Learning
7. K-Means Clustering
8. Gauß’sche Mixture-Modelle
9. Kerndichteschätzung

Generell wichtige Anforderungen:
-Qualität der Daten: Die Daten sollten von guter Qualität sein, d.h., sie sollten frei von zu vielen fehlenden Werten, Ausreißern oder fehlerhaften Einträgen sein.
-Verständnis der Daten: Ein grundlegendes Verständnis der Daten und ihres Kontextes ist wichtig, um sicherzustellen, dass die Ergebnisse korrekt interpretiert werden.
-Skalierung der Merkmale: Es ist hilfreich, die Merkmale zu skalieren, insbesondere wenn sie unterschiedliche Maßeinheiten oder Größenordnungen haben.
-Fehlende Daten: Modelle können empfindlich auf fehlende Daten reagieren. Es ist wichtig, fehlende Daten angemessen zu behandeln, sei es durch Imputation oder durch Entfernen von Datensätzen mit fehlenden Werten.
-Ausreißer: Manche Modelle können empfindlich auf Ausreißer reagieren, da diese die Schätzung der Mittelwerte und Kovarianzen der Komponenten beeinflussen können. Es kann notwendig sein, Ausreißer zu identifizieren und zu behandeln.

Naive Bayes-Klassifikation - Klassifizierung
Das Bayessche Klassifikationsverfahren, oft auch als Naive-Bayes-Klassifikator bezeichnet, ist ein statistischer Ansatz zur Klassifizierung, um Vorhersagen über die Zugehörigkeit von Objekten zu bestimmten Klassen zu treffen.
Dabei handelt es sich um eine Gleichung, die die Beziehung zwischen bedingten
Wahrscheinlichkeiten statistischer Größen beschreibt.
Bei der Bayes-Klassifikation möchten wir anhand der beobachteten Merkmale die
Wahrscheinlichkeit eines Labels ermitteln.

Die Annahme einer Gaußverteilung der Daten ohne Kovarianz zwischen den Dimensionen ist
eine besonders schnelle Möglichkeit, ein einfaches Modell zu erstellen.

Anforderung:
Wir können dieses Modell anpassen, indem wir einfach den Mittelwert und die
Standardabweichung der Punkte eines Labels berechnen – mehr ist für die Definition eines
solchen Modells nicht erforderlich.
-Merkmalsunabhängigkeit
-Verteilungsannahmen: Für bestimmte Varianten des Naive-Bayes, wie den Gaußschen Naive-Bayes, ist es wichtig, dass die Verteilung der kontinuierlichen Merkmale in jeder Klasse ungefähr normal (gaußförmig) ist.


Beispiel:

In [None]:
In[1]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
In[2]:
from sklearn.datasets import make_blobs
X, y = make_blobs(100, 2, centers=2, random_state=2, cluster_std=1.5)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='RdBu');

Lineare Regression - Zusammenhang zwischen einer abhängigen Variablen und einer oder mehreren unabhängigen Variablen zu modellieren. 
Verlauf der Daten veranschaulichen
Bei der einfachen linearen Regression wird eine Beziehung zwischen genau zwei Variablen untersucht: einer unabhängigen Variablen (x) und einer abhängigen Variablen (y). Die Beziehung wird durch eine gerade Linie dargestellt, die durch die Datenpunkte gelegt wird, um den Zusammenhang zwischen x und y zu modellieren.

ein lineares Regressionsmodell ein guter Ausgangspunkt für Regressionsaufgaben. Diese
Modelle sind so beliebt, weil sie sich sehr schnell anpassen lassen und auch sehr gut verständlich sind.
Die einfachste Form einer linearen Regression (die Anpassung einer Geraden an die Daten) dürfte
Ihnen geläufig sein, solche Modelle können aber auch erweitert werden, um einem komplizierteren
Verhalten der Daten Rechnung zu tragen.

Geht auch mehrdimensional:
Bei der multiplen linearen Regression wird die Beziehung zwischen einer abhängigen Variablen und zwei oder mehr unabhängigen Variablen untersucht. Das Modell versucht, eine Hyperebene zu finden, die am besten zu den Datenpunkten passt.
Der LinearRegression-Schätzer kann auch mit mehrdimensionalen linearen Modellen der Form
y = a0 + a1x1 + a2x2 + ... umgehen, die mehrere x-Werte enthalten. Geometrisch entspricht das in drei
Dimensionen dem Anpassen einer Ebene an räumliche Punkte oder in höheren Dimensionen dem
Anpassen einer Hyperebene an mehrdimensionale Punkte.
Die Multidimensionalität solcher Regressionen erschwert es, sie zu visualisieren.

Das Nutzen linearer Regressionen mit Basisfunktionen macht die Modelle zwar flexibler, es kann jedoch
auch sehr schnell zu einer Überanpassung führen.

Trick:
Um eine lineare Regression an nichtlineare Beziehungen zwischen den Variablen anzupassen, können
Sie den Trick nutzen, die Daten entsprechend einer Basisfunktion zu transformieren. Beachten Sie, dass es sich noch immer um ein lineares Modell handelt – die Linearität bezieht sich
darauf, dass die Koeffizienten an niemals miteinander multipliziert oder durcheinander geteilt werden.
Faktisch haben wir die eindimensionalen x-Werte in eine höhere Dimension projiziert, sodass sich der
lineare Fit an kompliziertere Beziehungen zwischen x und y anpassen kann.

Anforderungen:
Linearität: Die wichtigste Annahme ist, dass eine lineare Beziehung zwischen den unabhängigen Variablen und der abhängigen Variablen besteht. Das bedeutet, dass eine Änderung in einer unabhängigen Variablen zu einer proportionalen Änderung in der abhängigen Variablen führt.
Unabhängigkeit der Beobachtungen: Die Beobachtungen sollten unabhängig voneinander sein. In Zeitreihendaten beispielsweise kann diese Annahme verletzt sein, da aufeinanderfolgende Beobachtungen oft korreliert sind.
Homoskedastizität: Die Varianz der Residuen (die Unterschiede zwischen den beobachteten und den durch das Modell vorhergesagten Werten) sollte für alle Werte der unabhängigen Variablen konstant sein. Wenn die Varianz der Residuen mit den unabhängigen Variablen variiert, spricht man von Heteroskedastizität, was zu Problemen bei der Schätzung und Interpretation führen kann.
Normalverteilung der Fehlerterme: Für viele statistische Tests und Intervallschätzungen ist es erforderlich, dass die Residuen normalverteilt sind. Dies ist besonders wichtig, wenn die Stichprobengröße klein ist.
Keine oder geringe Multikollinearität: Wenn es starke Korrelationen zwischen zwei oder mehr unabhängigen Variablen gibt, kann dies zu Problemen bei der Bestimmung des Einflusses jeder unabhängigen Variablen auf die abhängige Variable führen.
Ausreißer: Ausreißer können die Ergebnisse der linearen Regression stark beeinflussen, da sie die Schätzung der Regressionskoeffizienten verzerren können. Es ist wichtig, die Daten auf Ausreißer zu überprüfen und geeignete Maßnahmen zu ergreifen.
Angemessene Stichprobengröße: Um zuverlässige Schätzungen zu erhalten, ist eine ausreichend große Stichprobe erforderlich. Die erforderliche Stichprobengröße hängt von der Anzahl der unabhängigen Variablen und der Komplexität des Modells ab.
Messgenauigkeit: Die Variablen sollten genau und konsistent gemessen werden. Messfehler können zu verzerrten Schätzungen und falschen Schlussfolgerungen führen.
Additivität: Die Effekte der unabhängigen Variablen auf die abhängige Variable sollten additiv sein. Das bedeutet, dass der Gesamteffekt auf die abhängige Variable die Summe der einzelnen Effekte ist.


In [None]:
In[2]:
rng = np.random.RandomState(1)
x = 10 * rng.rand(50)
y = 2 * x - 5 + rng.randn(50)
plt.scatter(x, y);


In[3]:
from sklearn.linear_model import LinearRegression
model = LinearRegression(fit_intercept=True)
model.fit(x[:, np.newaxis], y)
xfit = np.linspace(0, 10, 1000)
yfit = model.predict(xfit[:, np.newaxis])
plt.scatter(x, y)
plt.plot(xfit, yfit);

In[5]:
rng = np.random.RandomState(1)
X = 10 * rng.rand(100, 3)
y = 0.5 + np.dot(X, [1.5, -2., 1.])
model.fit(X, y)
print(model.intercept_)
print(model.coef_)
Out[5]:
0.5
[ 1.5 -2. 1. ]

In[6]:
from sklearn.preprocessing import PolynomialFeatures
x = np.array([2, 3, 4])
poly = PolynomialFeatures(3, include_bias=False)
poly.fit_transform(x[:, None])
Out[6]:
array([[ 2., 4., 8.], [ 3., 9., 27.], [ 4., 16., 64.]])

Support Vector Machines - Klassifikationen und Regressionen
zB Punkte in Klassen farblich unterteilen
Jetzt geht es um diskriminative Klassifikationen: Anstatt die Klassen zu modellieren, versuchen wir,
eine Gerade oder eine Kurve (in zwei Dimensionen) bzw. eine Mannigfaltigkeit (in mehreren
Dimensionen) zu finden, mit der sich die Klassen voneinander trennen lassen.

Ein linearer diskriminativer Klassifikator würde versuchen, eine Gerade zu finden, mit der sich die beiden
Punktmengen voneinander trennen lassen, und somit ein Klassifikationsmodell erzeugen.
Bei zweidimensionalen Aufgaben, wie der hier gezeigten, kann man dies von Hand erledigen.
Problem: Es gibt mehr als eine Gerade, mit der sich die beiden Klassen perfekt voneinander trennen
lassen.

Support Vector Machines bieten eine Möglichkeit, diesen Sachverhalt zu verbessern, der folgende Idee
zugrunde liegt: Anstatt eine einfache ausdehnungslose Gerade zwischen die Klassen zu legen, können
wir entlang der Linie einen Randbereich bestimmter Breite zeichnen, den sogenannten Margin, der bis
zum nächsten Punkt reicht.

Anforderungen:
Skalierung der Merkmale: SVMs sind sehr empfindlich gegenüber der Skalierung der Eingabedaten. Die Leistung des Modells kann erheblich beeinträchtigt werden, wenn die Merkmale nicht ordnungsgemäß skaliert sind, da SVMs versuchen, den größtmöglichen Margin zwischen den Klassen zu finden. Merkmale mit größeren Wertebereichen könnten unverhältnismäßig stark gewichtet werden.

Auswahl der Kernel-Funktion: Die Wahl des Kernels ist entscheidend, da sie bestimmt, wie SVMs die Daten im höherdimensionalen Raum abbilden. Die Entscheidung, ob ein linearer, polynomialer, radialer Basisfunktions- (RBF) oder ein anderer Kernel verwendet wird, sollte auf der Natur der Daten und des Problems basieren.

Hyperparameter-Tuning: SVMs haben kritische Hyperparameter wie den Regularisierungsparameter (C) und die Kernel-Parameter (z.B. Gamma im RBF-Kernel), die sorgfältig abgestimmt werden müssen, um eine optimale Leistung zu erzielen. Die richtige Einstellung dieser Parameter ist entscheidend für die Effektivität des Modells.

Umgang mit unausgewogenen Datensätzen: SVMs können bei unausgewogenen Datensätzen zu Verzerrungen neigen. Die Anpassung der Klassen-Gewichte oder die Anwendung von Sampling-Methoden kann erforderlich sein, um eine faire Repräsentation beider Klassen im Modell zu gewährleisten.

Empfindlichkeit gegenüber Ausreißern: SVMs können empfindlich auf Ausreißer reagieren, insbesondere weil sie die Entscheidungsgrenze auf der Grundlage der am nächsten liegenden Punkte (Support Vektoren) festlegen. Ausreißer können die Position der Entscheidungsgrenze erheblich beeinflussen.

Entscheidungsbäume und Random Forests - MÜSSEN IN ARBEIT!!
Random Forests gehören zu den
sogenannten Ensemblemethoden– Verfahren, die darauf beruhen, die Ergebnisse von einem
Ensemble einfacherer Schätzer zusammenzutragen. Das etwas Überraschende an
Ensemblemethoden ist, dass das Ergebnis mehr ist als die Summe der Teile. Beispielsweise kann die
Mehrheitsentscheidung einer Reihe von Schätzern ein Resultat ergeben, das besser ist als alle
Ergebnisse der einzelnen Schätzer.
Entscheidungsbäume sind ein besonders intuitives Verfahren, Objekte zu klassifizieren: Sie stellen
einfach eine Reihe von Fragen, deren Hauptaugenmerk auf die Klassifikation gerichtet sind.
Der binäre Aufbau ist äußerst effizient: Bei einem gut durchdachten Baum wird die Anzahl der
verbleibenden Optionen durch die Beantwortung jeder Frage in etwa halbiert, sodass selbst bei einer
großen Anzahl von Klassen schnell nur noch einige wenige Möglichkeiten zur Auswahl stehen.

Der Trick besteht natürlich darin, zu entscheiden, welche Fragen bei den einzelnen Schritten gestellt
werden.
Bei Entscheidungsbäumen, die für das Machine Learning konzipiert sind, werden die Fragen im
Allgemeinen so formuliert, dass sie die Daten entlang einer der Koordinatenachsen aufteilen.
Jeder Baumknoten unterteilt die Daten also anhand eines Schwellenwerts eines der Merkmale in zwei
Gruppen.
Overfitting: Entscheidungsbäume neigen dazu, sich an die Trainingsdaten zu überanpassen (Overfitting), besonders wenn der Baum sehr tief ist. Dies kann durch Techniken wie Baumbeschneidung oder Festlegung einer maximalen Tiefe des Baumes gemildert werden.


Im letzten Abschnitt haben wir Random Forests im Kontext der Klassifikation betrachtet. Random
Forests sind jedoch auch für Regressionen geeignet (die stetige statt kategoriale Werte liefern). Der
hierfür geeignete Schätzer heißt RandomForestRegressor, und die Syntax ist der bisherigen sehr
ähnlich.
Ein Random Forest ist eine Ensemble-Methode, die mehrere Entscheidungsbäume während des Trainingsprozesses erstellt und deren Vorhersagen kombiniert.
Reduzierung von Overfitting: Durch die Kombination der Vorhersagen von vielen Bäumen reduzieren Random Forests das Risiko des Overfittings, das bei einzelnen Entscheidungsbäumen auftritt.

Anforderungen:
Entscheidungsbäume:
Merkmalsvorbereitung: Während Entscheidungsbäume sowohl numerische als auch kategoriale Daten verarbeiten können, müssen kategoriale Daten oft in eine geeignete numerische Form umgewandelt werden.
Skalierung: Im Gegensatz zu vielen anderen Algorithmen benötigen Entscheidungsbäume keine Skalierung der Merkmale. Sie sind invariant gegenüber der Skalierung der Eingabedaten.
Overfitting: Entscheidungsbäume neigen dazu, sich an die Trainingsdaten zu überanpassen, besonders wenn keine Beschränkungen für die Baumtiefe oder die Mindestanzahl von Stichproben pro Blatt festgelegt werden.

Random Forests:
Größe des Datensatzes: Random Forests benötigen in der Regel einen größeren Datensatz, um effektiv zu sein, da sie auf dem Prinzip des Ensemble-Lernens basieren, bei dem mehrere Bäume aus verschiedenen Teilen des Datensatzes erstellt werden.
Diversität der Daten: Für eine optimale Leistung ist es wichtig, dass die Daten eine gewisse Diversität aufweisen. Random Forests profitieren von der Vielfalt in den Daten, da dies zu einer Vielzahl von Bäumen im Ensemble führt. Ausreißer und fehlende Daten: Random Forests sind im Allgemeinen robuster gegenüber Ausreißern und können besser mit fehlenden Daten umgehen als einzelne Entscheidungsbäume.
Unausgewogene Datensätze: Random Forests können mit unausgewogenen Datensätzen umgehen, aber es kann notwendig sein, Techniken wie das Anpassen der Klassen-Gewichte oder Oversampling/Undersampling anzuwenden, um eine Verzerrung zu vermeiden.
Rechenressourcen: Da Random Forests mehrere Entscheidungsbäume erstellen und kombinieren, können sie rechenintensiver sein, insbesondere bei großen Datensätzen oder einer großen Anzahl von Bäumen.

In [None]:
In[2]:
from sklearn.datasets import make_blobs
X, y = make_blobs(n_samples=300, centers=4, random_state=0, cluster_std=1.0)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='rainbow');


#Hilfsfunktion, die uns die Visualisierung der Ausgabe des Klassifikators
In[5]:
def visualize_classifier(model, X, y, ax=None, cmap='rainbow'):
ax = ax or plt.gca()
# Ausgabe der Trainingsdatenpunkte
ax.scatter(X[:, 0], X[:, 1], c=y, s=30, cmap=cmap, clim=(y.min(), y.max()), zorder=3)
ax.axis('tight')
ax.axis('off')
xlim = ax.get_xlim()
ylim = ax.get_ylim()
# Anpassen des Schätzers
model.fit(X, y)
xx, yy = np.meshgrid(np.linspace(*xlim, num=200), np.linspace(*ylim, num=200))
Z = model.predict(np.c_[xx.ravel(), yy.ravel()]).reshape(xx.shape)
# Farbiges Diagramm der Ergebnisse erstellen
n_classes = len(np.unique(y))
contours = ax.contourf(xx, yy, Z, alpha=0.3, levels=np.arange(n_classes + 1) - 0.5, cmap=cmap, clim=(y.min(), y.max()), zorder=1)
ax.set(xlim=xlim, ylim=ylim)
In[5]:
visualize_classifier(DecisionTreeClassifier(), X, y)

Hauptkomponentenanalyse (PCA) - unüberwacht - Dimensionsreduktionsalgorithmus
Es werden keine Labels erkannt! 
Ist schnell und effektiv.
sie kann auch für Visualisierung, Rauschunterdrückung, Merkmalsextraktion, Merkmalserstellung und vieles mehr verwendet werden.

Dimensionalitätsreduktion: Der Hauptzweck der PCA ist die Reduzierung der Dimensionalität eines Datensatzes, während so viel der Variabilität (Information) wie möglich beibehalten wird. Dies wird erreicht, indem man neue, unkorrelierte Variablen (Hauptkomponenten) findet, die die größten Varianzen entlang ihrer Achsen aufweisen.

Hauptkomponenten: Die Hauptkomponenten sind lineare Kombinationen der ursprünglichen Variablen. Die erste Hauptkomponente hat die größte Varianz, die zweite Hauptkomponente ist orthogonal zur ersten und hat die zweitgrößte Varianz, und so weiter.

Varianzerhaltung: PCA zielt darauf ab, die Daten in eine geringere Anzahl von Dimensionen zu transformieren, wobei die Hauptkomponenten so gewählt werden, dass sie den größten Teil der Varianz in den ursprünglichen Daten erfassen.

Anwendungen: PCA wird in vielen Bereichen eingesetzt, darunter Bildverarbeitung, Marktforschung, Genomik, Finanzanalyse und mehr, um Muster in Daten zu erkennen, Daten zu visualisieren, Rauschen zu reduzieren oder vorverarbeitete Daten für andere maschinelle Lernverfahren bereitzustellen.

Interpretation: Die Interpretation der Hauptkomponenten kann nicht immer eindeutig sein, da sie Linearkombinationen der ursprünglichen Variablen sind. In einigen Fällen können sie jedoch sinnvolle Einblicke in die Struktur der Daten bieten.

Limitationen: PCA ist effektiv bei der Identifizierung linearer Beziehungen, aber sie kann nichtlineare Beziehungen in den Daten übersehen. Außerdem kann die Reduzierung der Dimensionalität zu einem Informationsverlust führen, was bei der Entscheidung, wie viele Hauptkomponenten beibehalten werden sollen, berücksichtigt werden muss.

Wenn hochdimensionale Daten vorliegen, führt man zunächst meist eine Hauptkomponentenanalyse zur
Visualisierung der Beziehungen zwischen den Datenpunkten durch, um die entscheidende Varianz in
den Daten zu erkennen und um die intrinsische Dimensionalität zu verstehen (durch Erstellen eines
Diagramms der erklärten Varianz). Natürlich ist eine PCA nicht für alle hochdimensionalen Datenmengen
geeignet, sie bietet jedoch eine unkomplizierte und effiziente Möglichkeit, Einblick in hochdimensionale
Daten zu gewinnen.
Der größte Schwachpunkt der Hauptkomponentenanalyse ist, dass sie sehr empfindlich auf Ausreißer in
den Daten reagiert. Aus diesem Grund wurden viele sehr robuste PCA-Varianten entwickelt, die nach
und nach Datenpunkte entfernen, die sich durch die anfänglichen Komponenten nur schlecht
beschreiben lassen.
Scikit-Learn enthält eine Reihe interessante PCA-Varianten wie RandomizedPCAund SparsePCA, die
beide auch Teil des Submoduls sklearn.decompositionsind. Die bereits bekannte RandomizedPCA
verwendet ein nicht deterministisches Verfahren zur schnellen Näherung der ersten paar
Hauptkomponenten sehr hochdimensionaler Daten, SparsePCAhingegen führt einen
Regularisierungsterm ein, der eine dünne Besetzung der Hauptkomponenten erzwingt.

Anforderugen:
Voraussetzungen: Für die effektive Anwendung der PCA sollten die Daten standardisiert werden, insbesondere wenn die Merkmale unterschiedliche Maßeinheiten oder sehr unterschiedliche Varianzen aufweisen.

Skalierung der Merkmale: Die Merkmale sollten auf eine gemeinsame Skala gebracht werden, insbesondere wenn sie unterschiedliche Maßeinheiten oder Größenordnungen haben. Dies wird in der Regel durch Standardisierung erreicht, bei der jedes Merkmal so skaliert wird, dass es einen Mittelwert von 0 und eine Standardabweichung von 1 hat.

Linearität: PCA setzt voraus, dass die Beziehungen zwischen den Merkmalen linear sind. Sie ist am effektivsten, wenn die Hauptkomponenten lineare Kombinationen der ursprünglichen Merkmale darstellen können.

Große Varianz: PCA ist besonders nützlich, wenn es eine beträchtliche Varianz in den Daten gibt. Die Methode sucht nach Hauptkomponenten, die die größtmögliche Varianz erfassen. Wenn alle Variablen ähnlich sind oder nur eine geringe Varianz aufweisen, ist der Nutzen der PCA begrenzt.

Große Stichprobengröße: Eine ausreichend große Stichprobengröße ist wünschenswert, um stabile Schätzungen der Kovarianz- bzw. Korrelationsmatrix zu gewährleisten. Eine Faustregel ist, dass die Stichprobengröße deutlich größer sein sollte als die Anzahl der Merkmale.

Keine oder geringe Multikollinearität: Obwohl PCA oft verwendet wird, um Multikollinearität zu reduzieren, können extrem hohe Korrelationen zwischen Merkmalen die Interpretation der Hauptkomponenten erschweren.

Ausreißer: Ausreißer können die Ergebnisse der PCA stark beeinflussen, da sie die Kovarianz- oder Korrelationsstruktur der Daten verzerren können. Es ist wichtig, die Daten auf Ausreißer zu überprüfen und diese gegebenenfalls zu behandeln.

Normalverteilung der Merkmale: Obwohl dies keine strenge Voraussetzung ist, liefert PCA tendenziell bessere Ergebnisse, wenn die Merkmale annähernd normalverteilt sind, da die Kovarianz- und Korrelationsmatrizen in diesem Fall repräsentativer für die Daten sind.

In [None]:
In[1]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()


In[2]:
rng = np.random.RandomState(1)
X = np.dot(rng.rand(2, 2), rng.randn(2, 200)).T
plt.scatter(X[:, 0], X[:, 1])
plt.axis('equal');

In[3]:
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
pca.fit(X)
Out[3]:
PCA(copy=True, n_components=2, whiten=False)



In[4]:
print(pca.components_)
Out[4]:
[[ 0.94446029 0.32862557]
[ 0.32862557 -0.94446029]]
In[5]:
print(pca.explained_variance_)
Out[5]:
[ 0.75871884 0.01838551]

In[6]:
def draw_vector(v0, v1, ax=None):
ax = ax or plt.gca()
arrowprops=dict(arrowstyle='->', linewidth=2, shrinkA=0, shrinkB=0)
ax.annotate('', v1, v0, arrowprops=arrowprops)
# Daten ausgeben
plt.scatter(X[:, 0], X[:, 1], alpha=0.2)
for length, vector in zip(pca.explained_variance_, pca.components_):
v = vector * 3 * np.sqrt(length)
draw_vector(pca.mean_, pca.mean_ + v)
plt.axis('equal');

Manifold Learning - Dimensionsreduktionsalgorithmus - für Daten in nichtlineare Beziehungen 
Die PCA ist zwar flexibel, schnell und leicht interpretierbar, funktioniert aber nicht besonders gut, wenn inden Daten nichtlineare Beziehungen vorhanden sind. Daher Manifold Learning!
Manifold Learning, auch als nichtlineare Dimensionsreduktion bekannt, ist ein Ansatz im Bereich des maschinellen Lernens, der darauf abzielt, die Struktur und die Beziehungen in komplexen, hochdimensionalen Daten zu verstehen und zu vereinfachen. Im Gegensatz zu linearen Techniken wie der Hauptkomponentenanalyse (PCA), die auf linearen Transformationen basieren, kann Manifold Learning nichtlineare Strukturen in den Daten erfassen.

Anforderungen:
Repräsentativität der Daten: Die Daten sollten die zugrundeliegende Struktur des Problems gut repräsentieren. Manifold Learning zielt darauf ab, die inhärente Struktur in den Daten zu entdecken, was nur möglich ist, wenn die Daten diese Struktur auch tatsächlich widerspiegeln.

Angemessene Stichprobengröße: Eine ausreichende Menge an Daten ist erforderlich, um die Struktur des Manifolds zuverlässig zu erfassen. Zu wenige Daten können zu einer unzureichenden oder verzerrten Darstellung des Manifolds führen.

Skalierung der Merkmale: Obwohl dies nicht immer erforderlich ist, kann die Skalierung oder Normalisierung der Merkmale dazu beitragen, dass alle Merkmale gleichmäßig zur Analyse beitragen, insbesondere wenn sie unterschiedliche Maßeinheiten oder Größenordnungen haben.

Nichtlineare Beziehungen: Manifold Learning ist besonders nützlich, wenn die Daten nichtlineare Beziehungen enthalten, die mit linearen Methoden wie der PCA nicht erfasst werden können.

Dimensionalität der Daten: Manifold Learning ist besonders geeignet für Daten mit hoher Dimensionalität, bei denen die Annahme gilt, dass die Daten auf einem niedrigerdimensionalen Manifold liegen.

Keine oder geringe Multikollinearität: Obwohl Manifold Learning dazu beitragen kann, Multikollinearität zu reduzieren, können extrem hohe Korrelationen zwischen Merkmalen die Fähigkeit des Verfahrens, die wahre Struktur in den Daten zu entdecken, beeinträchtigen.

In [None]:
In[1]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import numpy as np

In[3]:
X = make_hello(1000)
colorize = dict(c=X[:, 0], cmap=plt.cm.get_cmap('rainbow', 5))
plt.scatter(X[:, 0], X[:, 1], **colorize)
plt.axis('equal');

k-Means-Clustering - Clustering-Algorithmus
Clustering-Algorithmen versuchen, anhand der Eigenschaften der
Daten eine optimale Aufteilung der Datenpunkte in unterschiedliche Gruppen vorzunehmen (Zuordnung zu diskreten Labels).

Der k-Means-Algorithmus sucht in einer ungekennzeichneten multidimensionalen Datenmenge nach
einer vorgegebenen Anzahl von Clustern. Dabei kommt ein einfacher Satz von Regeln zum Einsatz, die
beschreiben, wie eine optimale Aufteilung aussieht:
• Das Zentrum eines Clusters ist das arithmetische Mittel aller zum Cluster zugehörigen
Datenpunkte.
• Der Abstand eines Punkts zum Zentrum des eigenen Clusters ist geringer als der Abstand zu den
Zentren anderer Cluster.
Diese beiden Annahmen sind die Grundlage des k-Means-Modells.
Zunächst erstellen wir eine zweidimensionale Datenmenge, die vier verschiedene Anhäufungen von
Punkten enthält. Um hervorzuheben, dass es sich um einen unüberwachten Algorithmus handelt, lassen
wir in der Visualisierung die Labels weg (siehe nächste Abbildung).

Das Schöne daran ist, dass der k-Means-Algorithmus die Zuweisung der Punkte zu den Clustern ganz ähnlich
vornimmt, wie wir es mit bloßem Auge tun (zumindest in diesem einfachen Fall). Aber Sie werden sich vielleicht
fragen, wie der Algorithmus die Cluster so schnell findet. Schließlich wächst die Zahl der Kombinationen möglicher
Cluster-Zuweisungen exponentiell mit der Anzahl der Datenpunkte – eine vollständige Suche wäre sehr, sehr
rechenaufwendig. Erfreulicherweise ist eine solche vollständige Suche aber gar nicht notwendig. Stattdessen
verwendet das k-Means-Verfahren einen iterativen Ansatz, der als Expectation-Maximization-Algorithmus (kurz
EM-Algorithmus) bezeichnet wird.

Expectation-Maximization (EM) ist ein leistungsfähiger Algorithmus, der in der Data Science in verschiedenen
Kontexten auftaucht. k-Means ist eine besonders einfache und gut verständliche Anwendung dieses Algorithmus, den
wir nun kurz betrachten. Kurz und bündig gesagt, wird beim EM-Ansatz folgendermaßen verfahren:
1. Zufällige Auswahl einiger Cluster-Zentren.
2. Wiederholung der nächsten beiden Schritte, bis das Verfahren konvergiert.
a) Expectation-Schritt: Den Punkten wird das nächstgelegene Cluster-Zentrum zugeordnet.
b) Maximization-Schritt: Den Cluster-Zentren wird der Mittelwert zugewiesen.
Der Expectation-Schritt (E-Schritt) heißt so, weil wir die Erwartung, zu welchem Cluster die verschiedenen Punkte
gehören, bei diesem Schritt aktualisieren. Und der Maximization-Schritt (M-Schritt) trägt seinen Namen, weil wir eine
Gütefunktion maximieren, die den Ort der Cluster-Zentren festlegt. In diesem Fall wird die Maximierung dadurch
erzielt, dass wir einen einfachen Mittelwert der Daten in den Clustern berechnen. Typischerweise führt jede
Wiederholung des Expectation- und Maximization-Schritt zu einer verbesserten Abschätzung der Cluster-
Eigenschaften.

Probleme: 
Schlechte Konvergenz: Zwar ist sichergestellt, dass der EM-Algorithmus das Ergebnis bei jedem Schritt verbessert, es ist aber nicht
garantiert, dass er die beste globale Lösung findet.

Anzahl der Cluster vorher festlegen: Dass man im Vorhinein die Anzahl der Cluster festlegen muss, ist beim k-Means-Algorithmus mit EM-Verfahren
ebenfalls problematisch – er kann die Anzahl nicht anhand der Daten ermitteln.

Lineare Clustergrenzen: Die grundlegenden Annahmen des k-Means-Modells (Punkte sind ihrem eigenen Cluster- Zentrum näher als anderen
Cluster-Zentren) führen oft dazu, dass der Algorithmus nur schlecht funktioniert, wenn die Cluster komplizierte
Formen besitzen.
Die Grenzen zwischen k-Means-Clustern sind immer linear, daher funktioniert das Verfahren bei komplizierteren
Grenzen nicht.

Langsam bei großer Anzahl von Mustern: Da der Algorithmus bei jeder Iteration auf sämtliche Punkte der Datenmenge zugreifen muss, ist er relativ langsam,
wenn die Anzahl der Datenpunkte groß ist.

Anforderungen:
Die Anzahl der Cluster (k) muss im Voraus festgelegt werden.
Der Algorithmus funktioniert am besten bei Clustern, die in etwa gleich groß und kugelförmig sind.
Er ist empfindlich gegenüber Ausreißern und Rauschen, da diese die Berechnung der Clusterzentren stark beeinflussen können.

Skalierung der Merkmale: Die Merkmale sollten auf eine gemeinsame Skala gebracht werden, da k-Means auf der euklidischen Distanz basiert. Unterschiedliche Maßstäbe der Merkmale können zu Verzerrungen führen, da Merkmale mit größeren Wertebereichen einen unverhältnismäßig großen Einfluss auf die Clusterbildung haben können.

Homogene Varianz: k-Means geht davon aus, dass alle Cluster eine ähnliche Varianz haben. Wenn einige Cluster deutlich dichter sind als andere, kann dies die Leistung des Algorithmus beeinträchtigen.

In [None]:
In[1]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns; sns.set() # für Diagrammstile
import numpy as np

In[2]:
from sklearn.datasets import make_blobs
X, y_true = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)
plt.scatter(X[:, 0], X[:, 1], s=50);

In[3]:
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=4)
kmeans.fit(X)
y_kmeans = kmeans.predict(X)

In[4]:
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='black', s=200, alpha=0.5);

In[5]:
from sklearn.metrics import pairwise_distances_argmin
def find_clusters(X, n_clusters, rseed=2):
# 1. Zufällige Auswahl der Cluster
rng = np.random.RandomState(rseed)
i = rng.permutation(X.shape[0])[:n_clusters]
centers = X[i]
while True:
# 2a. Labels anhand der nächstgelegenen
# Cluster-Zentren zuweisen
labels = pairwise_distances_argmin(X, centers)
# 2b. Neue Zentren aus Mittelwert errechnen
new_centers = np.array([X[labels == i].mean(0) for i in range(n_clusters)])
# 2c. Konvergenz prüfen
if np.all(centers == new_centers):
break
centers = new_centers
return centers, labels
centers, labels = find_clusters(X, 4)
plt.scatter(X[:, 0], X[:, 1], c=labels, s=50, cmap='viridis');

Gauß’sche Mixture-Modelle - "Clustering-Algorithmus" - Erweiterung der dem k-Means-Algorithmus

Das im letzten Abschnitt vorgestellte k-Means-Modell ist einfach und relativ gut verständlich, aber eben diese
Einfachheit kann bei der Anwendung zu Problemen führen. Insbesondere die nicht probabilistische Natur des k-
Means-Verfahrens und die Verwendung eines simplen Abstands vom Cluster-Zentrum führen in der Praxis in vielen
Fällen zu schlechten Ergebnissen. In diesem Abschnitt betrachten wir das Gauß’sche Mixture-Modell (GMM), das
man als Erweiterung der dem k-Means-Algorithmus zugrunde liegenden Idee auffassen kann, das aber auch als
leistungsfähiges Werkzeug für Abschätzungen jenseits des einfachen Clusterings dient.

GMM wird zwar oft als Clustering-Algorithmus eingestuft, ist aber grundsätzlich ein Algorithmus zur
Dichteschätzung. Das soll heißen, dass das Ergebnis eines GMM-Fits an irgendwelche Daten technisch gesehen
kein Clustering-Modell, sondern ein generatives probabilistisches Modell ist, das die Verteilung der Daten
beschreibt.

Komponenten: Ein GMM setzt sich aus mehreren Gaußschen (normalverteilten) Komponenten zusammen. Jede Komponente repräsentiert eine Subpopulation und wird durch ihre eigene Mittelwert (Mittelwertvektor im mehrdimensionalen Raum) und Kovarianz charakterisiert.

Wahrscheinlichkeitsbasierte Zugehörigkeit: Im Gegensatz zu k-Means, das jedem Datenpunkt genau einem Cluster zuordnet, weist GMM jedem Datenpunkt eine Wahrscheinlichkeit zu, zu jeder der Gaußschen Komponenten zu gehören. Diese Wahrscheinlichkeiten geben an, wie wahrscheinlich es ist, dass ein Datenpunkt von einer bestimmten Komponente generiert wurde.

Flexibilität: GMMs sind flexibler als k-Means, da sie nicht nur die Zentren der Cluster, sondern auch deren Form und Größe (über die Kovarianz der Komponenten) modellieren. Dies ermöglicht es GMMs, mit elliptischen und überlappenden Clustern umzugehen.

Hinter den Kulissen ist ein GMM einem k-Means-Modell sehr ähnlich. Es verwendet einen Expectation-
Maximization-Ansatz und funktioniert qualitativ folgendermaßen:
1. Auswahl der Anfangsbedingungen für Ort und Form.
2. Wiederholung der nächsten beiden Schritte, bis das Verfahren konvergiert.
a) Expectation-Schritt: Gewichtungen berechnen, die ein Maß für die Wahrscheinlichkeit sind, dass ein Punkt zu einem Cluster
gehört.
b) Maximization-Schritt: Ort, Normalisierung und Form der Cluster unter Berücksichtigung aller Datenpunkte aktualisieren; dabei
wird von den Gewichtungen Gebrauch gemacht.
Auf diese Weise wird jedem Cluster eine Sphäre zugeordnet, die als eindeutige harte Grenze dient, aber auf einem
geglätteten Gaußmodell beruht. Wie der k-Means-Ansatz mit EM übersieht auch dieser Algorithmus manchmal die
globale optimale Lösung, daher werden in der Praxis mehrere zufällig ausgewählte Anfangsbedingungen
verwendet.

Wie viele Komponenten?
Die Tatsache, dass das GMM ein generatives Modell ist, ermöglicht uns, die optimale Anzahl der Komponenten
für eine gegebene Datenmenge zu berechnen. Ein generatives Modell stellt eine Wahrscheinlichkeitsverteilung für
die Datenmenge dar, wir können es also dazu nutzen, die Wahrscheinlichkeiten der Daten zu ermitteln, und dabei
eine Kreuzvalidierung einsetzen, um eine Überanpassung zu verhindern.
Eine weitere Möglichkeit, einer Überanpassung Rechnung zu tragen, ist eine Korrektur der
Modellwahrscheinlichkeiten anhand analytischer Kennwerte, etwa des Akaike- (AIC) oder des bayesschen
Informationskriteriums (BIC). Tatsächlich sind in Scikit-Learns GMM-Schätzer bereits Methoden integriert, die diese
Werte berechnen, daher ist es ganz einfach, den Ansatz zu verfolgen.


Anfordeungen:
Normalverteilte Subpopulationen: GMMs gehen davon aus, dass die Daten aus einer Mischung von mehreren normalverteilten Subpopulationen bestehen. Die Methode ist am effektivsten, wenn diese Annahme zumindest annähernd zutrifft.

Bestimmung der Komponentenanzahl: Die Anzahl der Gaußschen Komponenten im Modell muss im Voraus festgelegt werden. Methoden wie das Bayesianische Informationskriterium (BIC) können dabei helfen, aber eine gewisse Kenntnis oder Annahme über die Struktur der Daten ist nützlich.

In [None]:
In[1]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import numpy as np

Kerndichteschätzung - Dichteschätzer - Alternative zu Histogrammen

Wie Sie wissen, ist ein Dichteschätzer ein Algorithmus, der eine D-dimensionale Datenmenge entgegennimmt und
eine Abschätzung der D-dimensionalen Wahrscheinlichkeitsverteilung der Daten liefert, aus der die Datenmenge
stammt. Der GMM-Algorithmus erreicht das durch die Repräsentierung der Dichte als gewichtete Summe von
Gaußverteilungen.
Die Kerndichteschätzung (engl. Kernel Density Estimation, kurz KDE) ist ein Algorithmus, der die dem GMM
zugrunde liegende Idee gewissermaßen konsequent zu Ende führt: Er verwendet eine Mischung, die für jeden
Datenpunkt eine Gaußkomponente enthält, was einen im Wesentlichen unparametrisierten Dichteschätzer ergibt.

Im Fall eindimensionaler Daten sind Sie vermutlich schon mit einem
einfachen Dichteschätzer vertraut: dem Histogramm. Ein Histogramm unterteilt die Daten in diskrete
Wertebereiche (sogenannte Bins), zählt die Anzahl der Punkte, die zu einem Wertebereich gehören, und visualisiert
das Ergebnis auf verständliche Weise.

Das Problem bei der Aufteilung in Bins gleicher Breite beruht auf der Tatsache, dass die Höhe des Bausteinstapels
oft nicht die tatsächliche Dichte nahe gelegener Punkte widerspiegelt, sondern auch von der zufälligen Lage von
Punkten im Verhältnis zu den Bins abhängt. Diese fehlende Übereinstimmung von Punkten und Bausteinen ist eine
mögliche Ursache für das schlechte Ergebnis der Histogramme.

Die geglättete Kurve mit den Beiträgen einer Gaußverteilung an den Orten der Eingabepunkte vermittelt eine sehr viel
genauere Vorstellung von der Form der Datenverteilung, die darüber hinaus eine deutlich geringere Varianz besitzt
(also weniger empfindlich auf Änderungen in der Stichprobe reagiert).

Scikit-Learnn ist dabei hilfreich.

Nichtparametrisch: Im Gegensatz zu parametrischen Methoden, die eine spezifische Verteilungsform annehmen (wie Normalverteilung), macht KDE keine Annahmen über die Form der Verteilung. Dies macht sie flexibel und nützlich für explorative Datenanalyse.

Kernfunktionen: KDE funktioniert, indem sie um jeden Datenpunkt eine Kernfunktion (oder Fensterfunktion) platziert und dann alle diese Funktionen überlagert, um eine glatte Schätzung der Dichtefunktion zu erhalten. Häufig verwendete Kernfunktionen sind der Gaußsche Kern (Normalverteilung) und der Epanechnikov-Kern.

Bandbreite: Ein kritischer Parameter bei der KDE ist die Bandbreite (oder Fensterbreite). Die Bandbreite steuert, wie glatt die geschätzte Dichtefunktion ist. Eine zu kleine Bandbreite führt zu einer übermäßig zackigen Schätzung (Overfitting), während eine zu große Bandbreite die Daten zu sehr glättet und Details verlieren kann (Underfitting).

Vergleich mit Histogrammen: KDE kann als eine fortgeschrittene Alternative zu Histogrammen angesehen werden. Während Histogramme die Daten in diskrete Bins einteilen, liefert KDE eine kontinuierliche Dichteschätzung, die oft eine intuitivere Darstellung der Datenverteilung bietet.

Bei der Kerndichteschätzung ist die Auswahl der Bandbreite von entscheidender Bedeutung. Sie ist die
Stellschraube, die bei der Abschätzung der Dichte den Kompromiss zwischen Bias und Varianz regelt: Eine zu
schmale Bandbreite führt zu einer Abschätzung mit hoher Varianz (es kommt zu einer Überanpassung), bei der
das Vorhandensein oder die Abwesenheit nur eines einzelnen Punkts schon einen großen Unterschied bedeutet.
Eine zu weite Bandbreite hingegen führt zu einer Abschätzung mit großem Bias (es kommt zu einer
Unteranpassung), wobei die Struktur in den Daten durch den weiten Kern verwässert wird.

Bandbreite ermitteln!

Probleme:
Die Position der Bins beeinflusst die Interpretation

Anforderungen:
Multivariate Daten: Bei der Anwendung von KDE auf multivariate Daten ist es wichtig, dass die Dimensionalität der Daten nicht zu hoch ist, da KDE in höheren Dimensionen an Effektivität verlieren kann (Fluch der Dimensionalität).

Bandbreitenwahl: Die Wahl der Bandbreite ist entscheidend für die Qualität der Dichteschätzung. Eine zu kleine Bandbreite kann zu einer übermäßig zackigen Schätzung führen, während eine zu große Bandbreite wichtige Details der Datenstruktur glätten kann.

In [None]:
In[1]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import numpy as np

In[2]:
def make_data(N, f=0.3, rseed=1):
rand = np.random.RandomState(rseed)
x = rand.randn(N)
x[int(f * N):] += 5
return x
x = make_data(1000)

In[9]:
from scipy.stats import norm
x_d = np.linspace(-4, 8, 1000)
density = sum(norm(xi).pdf(x_d) for xi in x)
plt.fill_between(x_d, density, alpha=0.5)
plt.plot(x, np.full_like(x, -0.1), '|k', markeredgewidth=1)
plt.axis([-4, 8, -0.2, 5]);