# Einf√ºhrung in Machine Learning

Diese Einf√ºhrung ist auf **Deutsch** geschrieben, um deutschsprachigen interessierten Lesern in Machine Learning mit Python eine Alternative zu all den anderen auf Englisch verfassten Einf√ºhrungen im Internet und in Sachb√ºchern anbieten und sich somit von den anderen Lernmaterialien abheben zu k√∂nnen; zu bestimmten Begriffen werden aber stattdessen von den englischen √úbersetzungen Gebrauch gemacht, da diese in der Regel international in der Python-Community verwendet werden und somit deren Kenntnis bei eigenst√§ndiger weiterf√ºhrender Recherche im Internet (wie z.B. bei L√∂sung eines Problems) sehr hilfreich sein k√∂nnen (bzw. in manchen F√§llen sogar unabdingbar sein kann). Dar√ºber hinaus dient diese Zusammenfassung mir selbst auch als eine M√∂glichkeit bestehendes Wissen zu verfestigen und die M√∂glichkeit wahrzunehmen, anderen Lesern klar und verst√§ndlich die wichtigsten Konzepte vermitteln zu k√∂nnen.

Die in dieser Einf√ºhrung aufgef√ºhrten Abschnitte orientieren sich prim√§r an folgendem **Buch** und werden bei M√∂glichkeit durch eigene Code-Beispiele und Datens√§tze erweitert: 

![image.png](attachment:image.png)

## Einf√ºhrung
### Was ist Machine Learning eigentlich?
In **Machine Learning** geht es in erster Linie darum Wissen aus Daten zu extrahieren; in der Regel handelt es sich hierbei um relativ gro√üe und komplexe Datens√§tze, bei denen herk√∂mmliche statistische Verfahren oftmals an ihre Grenzen sto√üen (was wir unter "herk√∂mmlich" verstehen, wir weiter unten erkl√§rt). Zu diesem Zweck werden fortgeschrittenere Konzepte in einem holistischen Verfahren aus verschiedenen Disziplinen (wie z.B. der Statistik, der K√ºnstlichen Intelligenz und der Informatik) zusammengef√ºhrt; ein alternativer Begriff f√ºr Methoden dieser Art lautet *Statistical Learning*, also "statistisches Lernen". Was genau wir in diesem Fall unter "Lernen" verstehen und wie dieses Konzept mathematisch ausgedr√ºckt werden kann, wird im weiteren Verlauf eingehend erl√§utert werden.

Es gibt viele **Anwendungsfelder**, in denen Machine Learning (ML) erfolgreich eingesetzt werden kann. Zwei sehr gute aktuelle und f√ºr die meisten Leser anschauliche Beispiele betreffen das Einkaufen online auf Amazon und das Streamen von Filmen und Serien auf Netflix: Zum einen beruht der Mechanismus, mit denen dem Konsumenten online auf **Amazon** Vorschl√§ge zu m√∂glicherweise interessanten anderen Produkten gemacht werden, auf Kriterien bzw. Informationen, die dem jeweiligen Konsumenten zugeordnet werden k√∂nnen. Ein Beispiel w√§re, dass in der Vergangenheit get√§tigte Eink√§ufe herangezogen werden, um ihm passende Vorschl√§ge zu unterbreiten; wenn der Konsument beispielsweise oft √ºber Amazon B√ºcher eingekauft hat und er sozusagen als ein Konsument klassifiziert werden kann, der allgemein ein hohes Interesse am Lesen aufweist, so d√ºrfte es naheliegen, dass Vorschl√§ge zu anderen B√ºchern und verwandten Genres die Wahrscheinlichkeit erh√∂hen werden, dass er durch die zielgerichtete Werbung einen weiteren Kauf auf Amazon t√§tigen wird. Eine ganz √§hnliche Logik erfolgt in **Netflix**: beruhend auf dem was der Zuschauer in der Vergangenheit angeschaut hat, erscheint es zielf√ºhrend Vorschl√§ge zu Filmen und Serien zu zu unterbreiten, die der Vorliebe bzw. den Lieblingsgenres des Zuschauers aller Voraussicht nach entsprechen. Und dies wiederum beruht auf der Annahme, dass dasjenige Genre, welches besonders oft gestreamt worden ist (z.B. Horrorfilme), im Gegensatz zu anderen Genres pr√§feriert wird. 

Ein wichtiger **Vorteil** von Machine Learning im Vergleich zu anderen Verfahren beruht zum Beispiel darauf, dass die oben genannten Beispiele pr√§zise mathematisch ausformuliert und automatisiert werden k√∂nnen. Prinzipiell lie√üen sich die vorher erw√§hnten automatischen Vorschl√§ge auch manuell definieren, indem in Abh√§ngigkeit einer bestimmten Bedingung (z.B. ob der Zuschauer in Netflix eine ganz bestimmte Serie gesehen hat) ein bestimmmter Mechanismus in Gang gesetzt wird (wenn der Film "Star Wars" gestreamt wurde, so schlage aufgrund des gleichen Genres den Film "Star Trek" vor). Aufgrund der Vielschichtigkeit und Komplexit√§t der Datengrundlage w√ºrde aber ein manuelles Vorgehen jedoch sehr zeitintensiv ausfallen und die Wahrscheinlichkeit erh√∂hen, dass der Programmierer selbst nicht alle eventuellen Bedingungen korrekt zusammenfassen kann (er m√ºsste im Grunde genommen alle Informationen zu Filmen selber durchgehen, manuell "katalogisieren" und dar√ºber hinaus die sich hieraus ergebende Pr√§ferenz f√ºr einen jeden m√∂glichen Zuschauer zusammenfassen), so dass die unterbreiteten Vorschl√§ge in Netflix ungenau ausfallen d√ºrften; zus√§tzlich erscheint insbesondere der letzte Schritt mit einer manuellen Vorgehensweise als relativ unpraktikabel, was auch erkl√§rt, dass sich solche Vorschl√§ge-unterbreitenden-Mechanismen (sogenannte *Recommender Systems*) in der Informatik erst mit der weiteren Verbreitung und Erforschung von Machine Learning-Algorithmen durchgesetzt haben konnten. Mit Machine Learning hingehen l√§sst sich dieser Ansatz jedoch systematisch und automatisiert f√ºr einen jeden Zuschauer angehen, so dass Vorschl√§ge deutlich genauer und pr√§ziser ausfallen.

Machine Learning l√§sst sich klassischerweise unter folgenden Gesichtspunkten charakterisieren, und zwar ob es sich hierbei um sogenannte "√ºberwachte" oder "nicht-√ºberwachte" Methoden handelt; √ºberwacht bzw. ***supervised*** steht hierbei f√ºr die Tatsache, dass der Programmierer dem zugrunde liegenden Algorithmus genaue Vorgaben macht wie er die einzuspeisenden Informationen weiterverarbeitet (also quasi wie er "lernen" soll). Im Gegensatz dazu k√∂nnen nicht-√ºberwachte bzw. ***unsupervised*** Methoden die Art und Weise wie die Informationen weiterverarbeitet werden sollen aus dem Datensatz selber extrahieren bzw. schlie√üen. Eine genaue Darstellung der Unterschiede vorzunehmen ist wichtig und wird im weiteren Verlauf detailliert beschrieben.

Wir k√∂nnen somit zusammenfassen, dass es sich bei Machine Learning somit um ganz bestimmte mathematische Funktionen handelt, die auch als Algorithmen bezeichnet werden k√∂nnen und f√ºr die es ganz unterschiedliche theoretische Ans√§tze gibt. Eine f√ºr Python-Anwender relativ einfache M√∂glichkeit Machine Learning zu betreiben, besteht darin vom **Python-Paket *scikit-learn*** Gebrauch zu machen, welches eine gro√üe Anzahl von vorinstallierten Algorithmen enth√§lt und somit direkt angewendet werden kann und in einem separaten Abschnitt eingehend beschrieben wird; f√ºr fortgeschrittene Anwender besteht bei Bedarf aber auch die M√∂glichkeit neue ML-Algorithmen selbst manuell zu definieren, die z.B. Ergebnis neuer Forschung sind.

### Ein erstes Beispiel
In diesem Beispiel mit dem Python-Paket *scikit-learn* werden einige wichtige Konzepte und Begrifflichkeiten eingef√ºhrt, die dem Leser einen ersten √úberblick zur praktischen Anwendung geben sollen.

Hierf√ºr werden wir von einem bereits vorliegenden Datensatz Gebrauch machen, welches Informationen zu Schwertlilien enth√§lt und aufgrund der simplen Struktur oft in Einf√ºhrungen und zum Testen von neuen Algorithmen eingesetzt wird:

![image.png](attachment:image.png) 
&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp; *Photo taken by Danielle Langlois in July 2005 at the Forillon National Park of Canada, Quebec, Canada.*

