# Einführung in Machine Learning

Diese Einführung ist auf **Deutsch** geschrieben, um deutschsprachigen interessierten Lesern in Machine Learning mit Python eine Alternative zu all den anderen auf Englisch verfassten Einführungen im Internet und in Sachbüchern anbieten und sich somit von den anderen Lernmaterialien abheben zu können; zu bestimmten Begriffen werden aber stattdessen von den englischen Übersetzungen Gebrauch gemacht, da diese in der Regel international in der Python-Community verwendet werden und somit deren Kenntnis bei eigenständiger weiterführender Recherche im Internet (wie z.B. bei Lösung eines Problems) sehr hilfreich sein können (bzw. in manchen Fällen sogar unabdingbar sein kann). Darüber hinaus dient diese Zusammenfassung mir selbst auch als eine Möglichkeit bestehendes Wissen zu verfestigen und die Möglichkeit wahrzunehmen, anderen Lesern klar und verständlich die wichtigsten Konzepte vermitteln zu können.

Die in dieser Einführung aufgeführten Abschnitte orientieren sich primär an folgendem **Buch** und werden bei Möglichkeit durch eigene Code-Beispiele und Datensätze erweitert: 

![image.png](attachment:image.png)

## Einführung
### Was ist Machine Learning eigentlich?
In **Machine Learning** geht es in erster Linie darum Wissen aus Daten zu extrahieren; in der Regel handelt es sich hierbei um relativ große und komplexe Datensätze, bei denen herkömmliche statistische Verfahren oftmals an ihre Grenzen stoßen (was wir unter "herkömmlich" verstehen, wir weiter unten erklärt). Zu diesem Zweck werden fortgeschrittenere Konzepte in einem holistischen Verfahren aus verschiedenen Disziplinen (wie z.B. der Statistik, der Künstlichen Intelligenz und der Informatik) zusammengeführt; ein alternativer Begriff für Methoden dieser Art lautet *Statistical Learning*, also "statistisches Lernen". Was genau wir in diesem Fall unter "Lernen" verstehen und wie dieses Konzept mathematisch ausgedrückt werden kann, wird im weiteren Verlauf eingehend erläutert werden.

Es gibt viele **Anwendungsfelder**, in denen Machine Learning (ML) erfolgreich eingesetzt werden kann. Zwei sehr gute aktuelle und für die meisten Leser anschauliche Beispiele betreffen das Einkaufen online auf Amazon und das Streamen von Filmen und Serien auf Netflix: Zum einen beruht der Mechanismus, mit denen dem Konsumenten online auf **Amazon** Vorschläge zu möglicherweise interessanten anderen Produkten gemacht werden, auf Kriterien bzw. Informationen, die dem jeweiligen Konsumenten zugeordnet werden können. Ein Beispiel wäre, dass in der Vergangenheit getätigte Einkäufe herangezogen werden, um ihm passende Vorschläge zu unterbreiten; wenn der Konsument beispielsweise oft über Amazon Bücher eingekauft hat und er sozusagen als ein Konsument klassifiziert werden kann, der allgemein ein hohes Interesse am Lesen aufweist, so dürfte es naheliegen, dass Vorschläge zu anderen Büchern und verwandten Genres die Wahrscheinlichkeit erhöhen werden, dass er durch die zielgerichtete Werbung einen weiteren Kauf auf Amazon tätigen wird. Eine ganz ähnliche Logik erfolgt in **Netflix**: beruhend auf dem was der Zuschauer in der Vergangenheit angeschaut hat, erscheint es zielführend Vorschläge zu Filmen und Serien zu zu unterbreiten, die der Vorliebe bzw. den Lieblingsgenres des Zuschauers aller Voraussicht nach entsprechen. Und dies wiederum beruht auf der Annahme, dass dasjenige Genre, welches besonders oft gestreamt worden ist (z.B. Horrorfilme), im Gegensatz zu anderen Genres präferiert wird. 

Ein wichtiger **Vorteil** von Machine Learning im Vergleich zu anderen Verfahren beruht zum Beispiel darauf, dass die oben genannten Beispiele präzise mathematisch ausformuliert und automatisiert werden können. Prinzipiell ließen sich die vorher erwähnten automatischen Vorschläge auch manuell definieren, indem in Abhängigkeit einer bestimmten Bedingung (z.B. ob der Zuschauer in Netflix eine ganz bestimmte Serie gesehen hat) ein bestimmmter Mechanismus in Gang gesetzt wird (wenn der Film "Star Wars" gestreamt wurde, so schlage aufgrund des gleichen Genres den Film "Star Trek" vor). Aufgrund der Vielschichtigkeit und Komplexität der Datengrundlage würde aber ein manuelles Vorgehen jedoch sehr zeitintensiv ausfallen und die Wahrscheinlichkeit erhöhen, dass der Programmierer selbst nicht alle eventuellen Bedingungen korrekt zusammenfassen kann (er müsste im Grunde genommen alle Informationen zu Filmen selber durchgehen, manuell "katalogisieren" und darüber hinaus die sich hieraus ergebende Präferenz für einen jeden möglichen Zuschauer zusammenfassen), so dass die unterbreiteten Vorschläge in Netflix ungenau ausfallen dürften; zusätzlich erscheint insbesondere der letzte Schritt mit einer manuellen Vorgehensweise als relativ unpraktikabel, was auch erklärt, dass sich solche Vorschläge-unterbreitenden-Mechanismen (sogenannte *Recommender Systems*) in der Informatik erst mit der weiteren Verbreitung und Erforschung von Machine Learning-Algorithmen durchgesetzt haben konnten. Mit Machine Learning hingehen lässt sich dieser Ansatz jedoch systematisch und automatisiert für einen jeden Zuschauer angehen, so dass Vorschläge deutlich genauer und präziser ausfallen.

Machine Learning lässt sich klassischerweise unter folgenden Gesichtspunkten charakterisieren, und zwar ob es sich hierbei um sogenannte "überwachte" oder "nicht-überwachte" Methoden handelt; überwacht bzw. ***supervised*** steht hierbei für die Tatsache, dass der Programmierer dem zugrunde liegenden Algorithmus genaue Vorgaben macht wie er die einzuspeisenden Informationen weiterverarbeitet (also quasi wie er "lernen" soll). Im Gegensatz dazu können nicht-überwachte bzw. ***unsupervised*** Methoden die Art und Weise wie die Informationen weiterverarbeitet werden sollen aus dem Datensatz selber extrahieren bzw. schließen. Eine genaue Darstellung der Unterschiede vorzunehmen ist wichtig und wird im weiteren Verlauf detailliert beschrieben.

Wir können somit zusammenfassen, dass es sich bei Machine Learning somit um ganz bestimmte mathematische Funktionen handelt, die auch als Algorithmen bezeichnet werden können und für die es ganz unterschiedliche theoretische Ansätze gibt. Eine für Python-Anwender relativ einfache Möglichkeit Machine Learning zu betreiben, besteht darin vom **Python-Paket *scikit-learn*** Gebrauch zu machen, welches eine große Anzahl von vorinstallierten Algorithmen enthält und somit direkt angewendet werden kann und in einem separaten Abschnitt eingehend beschrieben wird; für fortgeschrittene Anwender besteht bei Bedarf aber auch die Möglichkeit neue ML-Algorithmen selbst manuell zu definieren, die z.B. Ergebnis neuer Forschung sind.

### Ein erstes Beispiel
In diesem Beispiel mit dem Python-Paket *scikit-learn* werden einige wichtige Konzepte und Begrifflichkeiten eingeführt, die dem Leser einen ersten Überblick zur praktischen Anwendung geben sollen.

Hierfür werden wir von einem bereits vorliegenden Datensatz Gebrauch machen, welches Informationen zu Schwertlilien enthält und aufgrund der simplen Struktur oft in Einführungen und zum Testen von neuen Algorithmen eingesetzt wird:

![image.png](attachment:image.png) 
&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp; *Photo taken by Danielle Langlois in July 2005 at the Forillon National Park of Canada, Quebec, Canada.*

