In [None]:
from traitlets.config.manager import BaseJSONConfigManager
path = "~/.jupyter/nbconfig"
cm = BaseJSONConfigManager(config_dir=path)
cm.update('rise', {
              'theme': 'solarized',
              'transition': 'slide', # none/fade/slide/convex/concave/zoom
              'start_slideshow_at': 'selected',
              'scroll': 'false',
              'history': 'false' ,
              'progress': 'true',
              'autolaunch': 'false',
              'enable_chalkboard': 'true'
})

# Was ist Machine Learning?

* ...

## Definitionen aus dem Netz

> The field of machine learning is concerned with the question of how to construct computer programs that automatically improve with experience.

Tom Mitchell in seinem Buch *Machine Learning*

> Machine Learning is the training of a model from data that generalizes a decision against a performance measure.

Jason Brownlee

> To paraphrase provocatively, "machine learning is statistics minus any checking of models and assumptions".

Brian D. Ripley in [R's fortune package](https://cran.r-project.org/web/packages/fortunes/vignettes/fortunes.pdf)

> Ability of a machine to improve its own performance through the use of a software that employs artificial intelligence techniques to mimic the ways by which humans seem to learn, such as repetition and experience.

[businessdictionary.com](http://www.businessdictionary.com/definition/machine-learning.html)

> The concept that a computer program can learn and adapt to new data without human interference. Machine learning is a field of artificial intelligence that keeps a computer’s built-in algorithms current regardless of changes in the worldwide economy.

[Investopedia](http://www.investopedia.com/terms/m/machine-learning.asp#ixzz4mjIPmsSa )

> Field of study that gives "computers the ability to learn without being explicitly programmed".

[Arthur Samuel (1959)](https://www.cims.nyu.edu/~munoz/files/ml_optimization.pdf)

> A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P if its performance at tasks in T, as measured by P, improves with experience E.

Tom Mitchell

> … study and construction of algorithms that can learn from and make predictions on data … through building a model from sample inputs.

[Wikipedia](https://en.wikipedia.org/wiki/Machine_learning)

##  Zusammenfassung

* Das Gebiet ist riesig, eine Definition ist schwer

* Definitionen beziehen sich vor allem auf ein Teilgebiet, dem *Supervised Learning*

* Es folgt ein Versuch einer eigenen Definition

##### Machine Learning - Versuch einer Definition

Erstellung eines Algorithmus, der ein Modell abbildet...

...und dessen Parameter durch Training mit relevanten Beispieldaten anpasst...

... um Voraussagen über bisher unbekannte Daten machen zu können...

...welche in Bezug auf eine gegebene Metrik optimiert sind.

## Gründe für den Hype

<img src="images/diag_more_data.svg" height="70%" width="70%"/>

<img src="images/diag_more_processingpower.svg" height="60%" width="60%"/>

<img src="images/diag_data_plus_cpu.svg" height="80%" width="80%"/>

## Anwendung

### Face detection

* Input: Ein Bild

* Output: Bounding boxes um Gesichter herum

Ohne Machine Learning umgesetzt:

* ...

Mit Machine Learning umgesetzt:

* Algorithmus lernt (=adaptiert Parameter) aus Beispielen von Gesichtern und Nicht-Gesichtern

* Eigenschaften von Gesichtern werden automatisch definiert

* Umgesetzt z.B. mit Haar Cascades oder Convolutional Neural Networks

<img src="images/workshop.jpg" height="70%" width="70%"/>

In [None]:
%matplotlib inline
import numpy as np
from PIL import Image, ImageDraw
import matplotlib.pyplot as plt
import face_recognition as fr

image = fr.load_image_file("images/workshop.jpg")
after = Image.fromarray(image)
draw = ImageDraw.Draw(after)
face_locations = fr.face_locations(image, 2) # or use model='cnn'

for face_location in face_locations:
    y0, x1, y1, x0 = face_location
    draw.line([(x0, y0), (x1, y0), (x1, y1), (x0, y1), (x0, y0)],
              fill='red', width=2) # adjust width for image resolution
print("done")

In [None]:
fig = plt.figure(figsize = (14,14))
ax = fig.add_subplot(111)
ax.imshow(np.asarray(after))

# Bereiche des Machine Learnings

* Machine Learning wird in drei grobe Bereiche unterteilt,

* basierend auf der Art des Feedbacks, welches für das Lernen zur Verfügung steht

<img src="images/bereiche.svg" height="80%" width="80%"/>

## Supervised Learning

* Ziel: Prediction

* Klassifizierung: Vorhersage einer vorgegebenen Kategorie

* Regression: Vorhersage eines (kontinuierlichen) numerischen Werts

### Supervised Learning - Input

* Trainingsdaten aus gleichartigen Samples mit
  * Inputvektor mit *Features*
  * *Label* (auch: Target, Dependent Variable)

 * Testdaten, gleiche Struktur wie Trainingsdaten aber ohne Label

* Parametrisierbarer Algorithmus (*Hypothese*)

* Metrik, welche reale und vom Algorithmus vorhergesagte Werte des *Labels* vergleicht

### Supervised Learning - Output

* Parameter des (gegebenen) Algorithmus, so dass der Algorithmus bezüglich Metrik optimiert ist

* Vorhersage (Prediction)

### Supervised Learning – Beispiel

* Ziel: Vorhersage des Verkaufspreises einer Immobilie

* Wir haben also ein Regressionsproblem

#### Supervised Learning - Beispiel

Trainingsdaten:

<table style="width:80%;font-size: 0.4em;">
    <tr>
        <th>Sample ID</th>
        <th style="background-color: palegreen;">Fläche ($x_1$)</th>
        <th style="background-color: palegreen;">Anzahl Zimmer ($x_2$)</th>
        <th style="background-color: palegreen;">Heizungstyp ($x_3$)</th>
        <th style="background-color: paleturquoise;"><b>Preis ($y$)</b></th>
    </tr>
    <tr>
        <td>1</td>
        <td>150</td>
        <td>5.5</td>
        <td>3</td>
        <td style="background-color: paleturquoise;"><b>900000</b></td>
    </tr>
    <tr>
        <td>2</td>
        <td>225</td>
        <td>6.5</td>
        <td>1</td>
        <td style="background-color: paleturquoise;"><b>1300000</b></td>
    </tr>
    <tr>
        <td>3</td>
        <td>720</td>
        <td>8.5</td>
        <td>2</td>
        <td style="background-color: paleturquoise;"><b>1700000</b></td>
    </tr>
    <tr>
        <td>...</td>
        <td>...</td>
        <td>...</td>
        <td>...</td>
        <td style="background-color: paleturquoise;"><b>...</b></td>
    </tr>
    <tr>
        <td>50000</td>
        <td>120</td>
        <td>5.5</td>
        <td>1</td>
        <td style="background-color: paleturquoise;"><b>800000</b></td>
    </tr>
</table>

<span style="background-color: palegreen;">Features</span><br/>
<span style="background-color: paleturquoise;">Target</span>

#### Supervised Learning - Beispiel
Testdaten:

<table style="width:80%;font-size: 0.4em;">
    <tr>
        <th>Sample ID</th>
        <th style="background-color: palegreen;">Fläche ($x_1$)</th>
        <th style="background-color: palegreen;">Anzahl Zimmer ($x_2$)</th>
        <th style="background-color: palegreen;">Heizungstyp ($x_3$)</th>
        <th><b>Preis ($\hat{y}$)</b></th>
    </tr>
    <tr>
        <td>50001</td>
        <td>124</td>
        <td>4.5</td>
        <td>1</td>
        <td>?</td>
    </tr>
    <tr>
        <td>50002</td>
        <td>160</td>
        <td>5.5</td>
        <td>3</td>
        <td>?</td>
    </tr>
    <tr>
        <td>50003</td>
        <td>540</td>
        <td>6.5</td>
        <td>3</td>
        <td>?</td>
    </tr>
    <tr>
        <td>...</td>
        <td>...</td>
        <td>...</td>
        <td>...</td>
        <td>...</td>
    </tr>
    <tr>
        <td>51000</td>
        <td>140</td>
        <td>5.5</td>
        <td>2</td>
        <td>?</td>
    </tr>
</table>

<span style="background-color: palegreen;">Features</span><br/>

Wie Trainingsdaten aber ohne Spalte *Preis* (ohne Label).


#### Supervised Learning - Beispiel

Parametrisierbarer Algorithmus:

Lineare Regression: $\hat{y} = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_3$

#### Supervised Learning - Beispiel

Metrik:

Root Mean Squared Error: $\textrm{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y^{(i)} - \hat{y}^{(i)})^2}$

$n$: Anzahl Trainings-Samples

$y^{(i)}$: Erzielter Verkaufspreis für Trainings-Sample $i$

$\hat{y}^{(i)}$: Prognose Verkaufspreis gem. aktuellen Parameter $\beta$

#### Supervised Learning - Beispiel

<br/>
<table style="width:80%;font-size: 0.4em;">
    <tr>
        <th>Sample ID</th>
        <th style="background-color: palegreen;">Fläche ($x_1$)</th>
        <th style="background-color: palegreen;">Anzahl Zimmer ($x_2$)</th>
        <th style="background-color: palegreen;">Heizungstyp ($x_3$)</th>
        <th style="background-color: paleturquoise;"><b>Preis ($y$)</b></th>
    </tr>
    <tr>
        <td>1</td>
        <td>150</td>
        <td>5.5</td>
        <td>3</td>
        <td style="background-color: paleturquoise;"><b>900000</b></td>
    </tr>
    <tr>
        <td>2</td>
        <td>225</td>
        <td>6.5</td>
        <td>1</td>
        <td style="background-color: paleturquoise;"><b>1300000</b></td>
    </tr>
    <tr>
        <td>3</td>
        <td>720</td>
        <td>8.5</td>
        <td>2</td>
        <td style="background-color: paleturquoise;"><b>1700000</b></td>
    </tr>
    <tr>
        <td>...</td>
        <td>...</td>
        <td>...</td>
        <td>...</td>
        <td style="background-color: paleturquoise;"><b>...</b></td>
    </tr>
    <tr>
        <td>50000</td>
        <td>120</td>
        <td>5.5</td>
        <td>1</td>
        <td style="background-color: paleturquoise;"><b>800000</b></td>
    </tr>
</table>

$\hat{y} = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_3$

$\textrm{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y^{(i)} - \hat{y}^{(i)})^2}$

Ermitteln der "besten" Parameter $\beta_i$ durch geeigneten Algorithmus, z.B. Gradient Descent

## Unsupervised Learning

* Kein Label/Target vorhanden, nur die Features

* Clustering: Bildung von Gruppen von "ähnlichen" Samples

* Dimensionality Reduction: Anzahl Features durch Ersetzen mit "Gleichwertigen" reduzieren

* Es gibt noch viele weitere Methoden

### Unsupervised Learning – Beispiele für Clustering

* Market Segmentation

* Anomaly Detection, z.B. Fraud Detection

* Social Network Analysis, z.B. Bilden von Communities

### Clustering – Beispiel KMeans

* KMeans Clustering am Beispiel des Iris Datasets (code von [Scikit-Learn](http://scikit-learn.org/stable/auto_examples/cluster/plot_cluster_iris.html#sphx-glr-auto-examples-cluster-plot-cluster-iris-py))

In [None]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris() # iris.data = Features
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df.head()

In [None]:
# Anzahl Clusters (bei unsupervised learning nicht bekannt!)
set(iris.target) # iris.target = Label

In [None]:
# Code source: Gaël Varoquaux
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn.cluster import KMeans

np.random.seed(5)

def plot_clusters(est, X):
    fig = plt.figure(1, figsize=(8, 6))
    plt.clf()
    ax = Axes3D(fig, rect=[0, 0, .95, 1], elev=48, azim=134)

    plt.cla()
    est.fit(X)
    labels = est.labels_

    ax.scatter(X[:, 3], X[:, 0], X[:, 2], c=labels.astype(np.float))

    ax.w_xaxis.set_ticklabels([])
    ax.w_yaxis.set_ticklabels([])
    ax.w_zaxis.set_ticklabels([])
    ax.set_xlabel('Petal width')
    ax.set_ylabel('Sepal length')
    ax.set_zlabel('Petal length')
    plt.show()

In [None]:
# "korrekte" Anzahl von Cluster erraten
plot_clusters(KMeans(n_clusters=3), iris.data)

In [None]:
# "falsche" Anzahl von Cluster erraten
plot_clusters(KMeans(n_clusters=8), iris.data)

## Reinforcement Learning

* Software-Agenten agieren in einer Umgebung, um eine definierte Belohnung über die Zeit zu maximieren.

* Diese generische Problemstellung wird in diversen Gebieten erforscht, u.a. in der Spieltheorie, der Schwarm-Intelligenz und bei Genetischen Algorithmen.

### Reinforcement Learning 

* Unterscheidet sich zu Supervised Learning durch das Fehlen von Input/Output-Paaren und folglich der expliziten Korrektur von suboptimalen Entscheidungen.

* Repräsentativ ist das Streben nach einem Gleichgewicht zwischen den Sammeln neuer Erfahrungen und dem Ausnutzen von bereits Bekanntem.

### Reinforcement Learning – Beispiele

Spiele

<img src="images/alphago.jpg" height="70%" width="70%"/>

### Reinforcement Learning – Beispiele

Roboter-Steuerung

In [None]:
from IPython.display import YouTubeVideo
YouTubeVideo("ydh_AdWZflA")

### Überschneidene Methoden

Es gibt auch Methoden, die sich nicht eindeutig zuordnen lassen oder mehrere Bereiche abdecken. 

Die zwei wichtigsten:

 * Semi-supervised Learning

 * Recommender Systems

## Semi-Supervised Learning

* Supervised Learning braucht Trainingsdaten mit Labels

* Dabei ist das Labelling oft teuer, schwierig oder zeitintensiv

* Semi-Supervised Learning kombiniert ein kleines, gelabeltes Trainingsset...

* ...mit einem grossen Anteil an Daten ohne Label

### Semi-Supervised Learning - Beispiele

* Dokumentenklassifizierung (Webseiten, Archivmaterial, …)

* Klassifizierung von Audio- und Videodaten

* Proteinsequenz-Klassifizierung

## Recommender Systems

* Sagen Präferenz oder Bewertung voraus, welche ein Benutzer einem Objekt gibt

* Vorhandene Daten sind üblicherweise extrem sparse

* Häufiges Problem: Cold-Start

* Verwendet Supervised und Unsupervised Learning

### Recommender Systems - Beispiele

<img src="images/amazonlogo.png" height="20%" width="20%"/>

<img src="images/parship.jpg" height="20%" width="20%"/>

<img src="images/contentplatforms.jpg" height="20%" width="20%"/>

## Anwendungen

* …

### Fraud detection

<img src="images/siftscience.png" height="70%" width="70%"/>

<img src="images/siftscience2.png" height="70%" width="70%"/>

* Ein API, um Transaktionsdaten zu übergeben
* Fraud Level Prediction kommt zurück
* Historische und aktuelle Trainingsdaten auf Kundensystemen schon vorhanden
* Kundenspezifische und globale Trainingsdaten
* Wert des Dienstes direkt an Gewinn des Kunden gekoppelt
* Aber:
 * Class imbalance (zu wenig negative Beispiele)
 * [Privacy]( https://siftscience.com/developers/docs/curl/events-api/reserved-events/create-order)

### Medizin

* Symptomerkennung

* Genetik (mit Krankheiten assoziierte Gene finden)

* Epidemie-Vorhersage

<a href="https://www.kaggle.com/c/diabetic-retinopathy-detection"><img src="images/seizure.png" height="70%" width="70%"/></a>
<img src="images/seizure2.png" height="50%" width="50%"/>

<a href="https://www.kaggle.com/c/diabetic-retinopathy-detection"><img src="images/diabeticretinopathy.png" height="70%" width="70%"/></a>
<img src="images/diabeticretinopathy2.png" height="40%" width="40%"/>

<a href="https://www.kaggle.com/c/ultrasound-nerve-segmentation"><img src="images/nerve.png" height="70%" width="70%"/></a>
<img src="images/nerve2.png" height="70%" width="70%"/>

### Umwelt

<a href="https://www.kaggle.com/c/noaa-right-whale-recognition"><img src="images/rightwhale.png" height="70%" width="70%"/></a>
<img src="images/rightwhale2.png" height="70%" width="70%"/>

<a href="https://www.kaggle.com/c/planet-understanding-the-amazon-from-space"><img src="images/amazon1.png" height="70%" width="70%"/></a>
<img src="images/amazon2.png" height="40%" width="40%"/>

<a href="https://www.kaggle.com/c/the-nature-conservancy-fisheries-monitoring"><img src="images/fishery.png" height="70%" width="70%"/></a>
<img src="images/fishery2.jpg" height="70%" width="70%"/>

### Foto-Analyse

<a href="https://how-old.net/"><img src="images/howold.png" height="70%" width="70%"/></a>

### Fotobearbeitung

* Erkennen von guten Fotos, aussortieren von schlechten

* Foto-Verbesserung

#### Photo Lemur
<a href="https://photolemur.com/"><img src="images/photolemur.png" height="70%" width="70%"/></a>

### Medien fälschen

* [Fake Obama](http://spectrum.ieee.org/tech-talk/robotics/artificial-intelligence/ai-creates-fake-obama)

In [None]:
from IPython.display import YouTubeVideo
YouTubeVideo("MVBe6_o4cMI")

### Medien fälschen

* [Everybody Dance Now by Caroline Chan et al.](https://arxiv.org/pdf/1808.07371.pdf)

In [None]:
from IPython.display import YouTubeVideo
YouTubeVideo("PCBTZh41Ris")

### Dinge empfehlen

<table>
<tr>
<td><img src="images/amazonlogo.png" height="20%" width="20%"/></td>
<td><img src="images/spotifylogo.png" height="40%" width="40%"/></td>
</tr>
<tr>
<td><img src="images/googlebubblelogo.jpg" height="15%" width="15%"/></td>
<td><img src="images/facebooklogo.png" height="35%" width="35%"/></td>
</tr>
<tr>
<td><img src="images/youtubelogo.png" height="20%" width="20%"/></td>
<td><img src="images/netflixlogo.png" height="50%" width="50%"/></td>
</tr>
</table>

### Weitere Anwendungen 1/2

* Consumer response prediction (wer klickt, liest, kauft, zahlt vieviel, ...)

* Risk assessment (faule Kredite, Hochrisikokunden, Systemausnützer)

* Personen identifizieren (Gesicht, Stimme, Bewegung, Fingerabdruck, Retina, Surfverhalten, Gewohnheiten, ...)

* User Interface (Voice, Gesture, Lippenlesen, Machine Translation)

### Weitere Anwendungen 2/2

* Duplikate filtern ([Kaggle Quora Question Pairs](https://www.kaggle.com/c/quora-question-pairs))

* Voraussagen, welche Fragen geschlossen werden ([Kaggle Stackoverflow](https://www.kaggle.com/c/predict-closed-questions-on-stack-overflow))

* Sponsored content erkennen ([Kaggle Dato Truly Native](https://www.kaggle.com/c/dato-native))