In [None]:
from traitlets.config.manager import BaseJSONConfigManager
path = "~/.jupyter/nbconfig"
cm = BaseJSONConfigManager(config_dir=path)
cm.update('rise', {
              'theme': 'solarized',
              'transition': 'slide', # none/fade/slide/convex/concave/zoom
              'start_slideshow_at': 'selected',
              'scroll': 'false',
              'history': 'false' ,
              'progress': 'true',
              'autolaunch': 'false',
              'enable_chalkboard': 'true'
})

# Machine Learning und die Softwareentwicklung

## Data Hierarchy of Needs
<a href="https://yanirseroussi.com/2014/08/17/datas-hierarchy-of-needs/"><img src="images/hierarchy.jpg" height="70%" width="70%"/></a>

### Measure, Structure, Store

#### Measure

* So viel wie möglich

* Raw, atomic data, keine Aggregation

* Bugs in App -> Buggy Data

* Auch Labels sammeln, wenn verfügbar

* Datenqualität auch aufzeichnen

#### Structure

* Tidy Data Principles

* IDs und foreign keys auch abspeichern

* Meta-Infos nicht vergessen (Code-Tabellen, Wertebereiche, ...)

#### Store

* Zentral und sicher speichern

* Speichermedium passend zu
 * Datengrösse
 * Performance-Anforderungen
 * eventuell bereits bestehender Data-Pipeline

* Own your data!

### Process and Query

#### Process

* Null-Werte richtig behandeln

* Ausreisser begründen

#### Query

* API für die Abfrage zur Verfügung stellen

* Daten in Data Pipeline integrieren

### Report and visualise

* Software Entwickler nur am Rande involviert

### Predict

* Trainierte Modelle in Applikation verwenden
 * Inhouse produzierte Modelle
 * Extern produzierte Modelle

#### Beispiele von verfügbaren trainierten Modellen

##### Object recognition

* Allgemeine Objekte (1000 Klassen)

* Gesichter

* Szenerien, Horizont

* Text, Barcodes

##### Natural language

* Sprach-Identifikation

* Parts of speech (Nomen, Verben, …)

* Segments (Absätze, Sätze)

* Named entities (Personen, Orte, Organisationen, …)

##### Beispiel CoreML in Xcode 9

Entwicklungs-Frameworks bieten die Möglichkeit, Modelle in eigene Applikationen einzubinden

> Core ML lets you integrate a broad variety of machine learning model types into your app. In addition to supporting extensive deep learning with over 30 layer types, it also supports standard models such as tree ensembles, SVMs, and generalized linear models. ... You can run machine learning models on the device so data doesn’t need to leave the device to be analyzed.

[Apple’s official documentation about Core ML](https://developer.apple.com/machine-learning/)

##### Beispiel Accord.net

<a href="http://accord-framework.net/"><img src="images/accord-logo.png" height="50%" width="50%"/></a>

> The Accord.NET Framework is a .NET machine learning framework combined with audio and image processing libraries completely written in C#. It is a complete framework for building production-grade computer vision, computer audition, signal processing and statistics applications even for commercial use. 

##### Beispiel H<sub>2</sub>O für Java

<a href="http://docs.h2o.ai/h2o/latest-stable/h2o-docs/welcome.html#java-users"><img src="images/h2o.png" height="50%" width="50%"/></a>

> H<sub>2</sub>O is an open source, in-memory, distributed, fast, and scalable machine learning and predictive analytics platform that allows you to build machine learning models on big data and provides easy productionalization of those models in an enterprise environment. H<sub>2</sub>O’s core code is written in Java.

#### Transfer Learning

* In trainierten Modellen gespeichertes "Wissen" für verwandte Anwendungen nutzen 

* Für Objekterkennung trainierte Convolutional Neural Networks z.B. haben Features wie _horizontale Kanten_, _grüne Flächen_, _Kreise_ usw. gelernt.

* Solche low-level Features sind für viele Arten von Bilderkennung hilfreich

Beispiel:

* Inception ist trainiert, 1000 verschiedene Objekte zu erkennen und frei verfügbar

* Will man andere, eigene Klassen erkennen, behält man die oberen, unspezifischen Layer bei...

* ...und trainiert mit dem eigenen Datensatz nur die unteren, spezifischen Layer neu

## Machine Learning as a Service (MLaaS)

Die angebotenen Dienste lassen sich einerseits gruppieren nach den Daten, auf die sie ausgerichtet sind:

* Tabellarische, iid verteilte Daten

* Tabellarische Zeitreihen

* Textdaten im Rohformat

* Bilddaten im Rohformat

Dann kann auch gruppiert werden nach der Art des Dienstes:

* Full Stack Services (Data exploration bis Prediction)

* APIs

* Speziallösungen

### MLaaS: Full Stack Services 1/3

* Daten oder Link hochladen

* Analysieren (Visualisieren, Summary Statistics, Clustering, Anomaly detection)

* Transformieren und verknüpfen

### MLaaS: Full Stack Services 2/3

* Targetvariable und Metrik festlegen

* Automatisch und parallelisiert:
 * Feature engineering
 * Algorithmen und Hyperparameter durchprobieren

### MLaaS: Full Stack Services 3/3

* Dashboard zur Analyse der Resultate

* Trainiertes Model via API für Prediction

#### Beispiele

##### Datarobot
(iid, Zeitreihen, Text)

<a href="https://www.datarobot.com/"><img src="images/datarobot.png" height="70%" width="70%"/></a>

##### BigML
(iid und Text)

<a href="https://bigml.com/"><img src="images/bigml.png" height="70%" width="70%"/></a>

##### H<sub>2</sub>O Driverless AI
(iid, Text, Zeitreihen)

<a href="https://www.h2o.ai/products/h2o-driverless-ai/"><img src="images/h2odriverlessai.png" height="70%" width="70%"/></a>

##### Microsoft Azure Machine Learning Studio
(iid)

<a href="https://azure.microsoft.com/en-us/services/machine-learning-studio/"><img src="images/azure.jpg" height="70%" width="70%"/></a>

##### Amazon Machine Learning
(iid)

<a href="https://aws.amazon.com/de/aml/"><img src="images/aws.png" height="70%" width="70%"/></a>

##### Vize
(Bilder)
<a href="https://vize.ai/"><img src="images/vize.png" height="70%" width="70%"/></a>

##### Monkeylearn
(text)

<a href="https://monkeylearn.com/"><img src="images/monkeylearn.png" height="70%" width="70%"/></a>

##### Watson

<a href="https://www.ibm.com/watson/"><img src="images/watson.png" height="70%" width="70%"/></a>

Und was ist mit Google?

* Google Prediction API, seit 30. April 2018 deprecated

* Google ML Engine ist low-level und auf Spezialisten ausgerichtet

* The new kid on the block: [Google AutoML](https://cloud.google.com/automl/), zur Zeit noch Alpha und unterstützt bisher nur Bilddaten

### MLaaS: APIs

#### Beispiele

##### Google Cloud Machine Learning

<a href="https://cloud.google.com/ml-engine/"><img src="images/googleml.png" height="70%" width="70%"/></a>

##### Microsoft Azure Cognitive Services

<a href="https://azure.microsoft.com/en-us/services/cognitive-services/"><img src="images/cognitive.jpg" height="70%" width="70%"/></a>

##### Natural Language Processing

<a href="https://www.cortical.io"><img src="images/cortical.png" height="70%" width="70%"/></a>

##### Face detection & recognition

<img src="images/kairos1.png" height="20%" width="20%"/>

<a href="https://www.kairos.com/"><img src="images/kairos2.png" height="50%" width="50%"/></a>

##### Recommendation

<img src="images/richrelevance1.png" height="20%" width="20%"/>

<a href="http://www.richrelevance.com/"><img src="images/richrelevance2.png" height="60%" width="60%"/></a>

##### Computer Vision

<a href="https://www.clarifai.com/"><img src="images/clarifai.png" height="70%" width="70%"/></a>

##### Sentiment analysis

<img src="images/paralleldots1.png" height="20%" width="20%"/>
<a href="https://www.paralleldots.com/sentiment-analysis"><img src="images/paralleldots2.png" height="60%" width="60%"/></a>

### MLaaS: Speziallösungen

* Drei interessante Beispiele

##### Amazon Sagemaker

<a href="https://aws.amazon.com/de/sagemaker/"><img src="images/aws.png" height="70%" width="70%"/></a>

##### Datenanalyse und Vorbereitung

<img src="images/trifacta1.png" height="20%" width="20%"/>

<a href="https://www.trifacta.com/"><img src="images/trifacta2.png" height="60%" width="60%"/></a>

##### Crowdsourced annotation

<a href="https://www.crowdflower.com/"><img src="images/crowdflower.png" height="70%" width="70%"/></a>