# Jupyter Notebooks
[Jupyter notebooks](https://jupyter.org/try) bestehen aus Zellen. Dies hier ist eine [Markdown](https://daringfireball.net/projects/markdown/)-Zelle. Doppelklick auf die Zelle macht sie editierbar.  $\LaTeX$-Syntax wird auch unterstützt.
Code-Zellen hingegen sind ausführbar:

In [None]:
#Drucke einen String. Die Ausgabe erscheint in der Ausgabezelle darunter:
print("Hello World!")

# Kaggle Kernels
Kaggle Kernels sind [Jupyter notebooks](https://jupyter.org/try) in der Cloud. Viele nützliche Bibliotheken sind vorinstalliert, die Rechenkapazität wird gratis zur Verfügung gestellt.

In [None]:
#hier verwendete Bibliotheken:
import numpy as np # Matrizen, lineare Algebra
import pandas as pd # Datenverarbeitung, CSV-Input mit pd.read_csv

# Die Inputdaten liegen unter "../input/" bereit
# Klicken Sie in diese Zelle und drücken Sie Shift-Enter, um sie zu evaluieren.

import os
print(os.listdir("../input"))

# Any results you write to the current directory are saved as output.

# Scikit-Learn
[Scikit-Learn](https://scikit-learn.org) ist eine Python-Bibliothek für das maschinelle Lernen. 
- Simple and efficient tools for data mining and data analysis
- Accessible to everybody, and reusable in various contexts
- Built on NumPy, SciPy, and matplotlib
- Open source, commercially usable - BSD license

Eine wichtige Klasse ist die `Estimator`-Klasse: Deren Instanzen enthalten eine `.fit`-Methode



# Iris-Datensatz
Laden wir einen Datensatz. Der Iris-Datensatz wurde bereits in diesen Kernel hochgeladen.

![Iris.png](http://suruchifialoke.com/img/ML/iris.png)
Fisher's Iris-Datensatz mit 3 Schwertlilien-Arten: 

 - Schillernde Schwertlilie (Iris versicolor), 
 - virginische Schwertlilie (Iris virginica), 
 - Borsten-Schwertlilie (Iris setosa). 
  
Diese Blumen haben zwei Typen von Blättern- Sepalblätter und Petalblätter. Dieser Datensatz enthält die Messungen der Längen und Breiten je eines Blatts einer Blume (in Zentimetern).

In [None]:
#Liste alle Dateien im Verzeichnis "../input/iris/". Das "!" bedeutet, dass dies nicht ein Python-Befehl ist, sondern an die Kommandozeile weitergegeben wird.
!ls ../input/iris

In [None]:
#Wie sehen die ersten Textzeilen des Datensatzes aus?
#Ausrufezeichen: Kommandozeilenbefehl in der Shell (nicht in Python)
!head ../input/iris/Iris.csv

Die Daten sind komma-separiert.   
Eine Zeile entspricht einer Blume, die Spalten sind Eigenschaften der Blume.

In [None]:
#Importiere die .csv-Datei mit Pandas:
df = pd.read_csv('../input/iris/Iris.csv',index_col='Id')
df.head(7) #Zeige die ersten 7 Zeilen des Datensatzes

Die letzte Spalte ("Species") ist die Art der Blume: Diese soll vorhergesagt werden, basierend auf den 4 Messungen der Blätterlängen und -breiten. Daher trennen wir die vorherzusagende Spalte ab. Wir suchen einen Zusammenhang $y=f(X)$.

In [None]:
X = df[['SepalLengthCm','SepalWidthCm','PetalLengthCm','PetalWidthCm']]
y = df['Species']

Mit Hilfe des (überwachten) maschinellen Lernens kann ein Programm lernen, die Orchideenart $y$ auf Grund der Messungen $X$ vorherzusagen. Scikit-Learn (in Python als sklearn abgekürzt) ist eine Bibliothek mit solchen Programmen. Nehmen wir einen Entscheidungsbaum:

# Estimators API

In [None]:
#Importiere die Entscheidungsbaum-Klasse:
from sklearn.tree import DecisionTreeClassifier #scikit-learn
#Instanziiere einen Entscheidungsbaum:
isDecisionTree=True
clf = DecisionTreeClassifier()


Scikit-Learn verfügt über eine [Vielzahl von Klassifikatoren](https://scikit-learn.org/stable/documentation.html), welche alle das selbe API benutzen. 
Anstatt der obigen Zeile kann z.B. folgendes benutzt werden:

    #Einige wenige Zeilen weiter unten sind spezifisch für den DecisionTreeClassifier. isDecisionTree=False
    #überspringt die Evaluation dieser Zeilen.
    isDecisionTree=False 
    from sklearn.ensemble import RandomForestClassifier
    clf = RandomForestClassifier(n_estimators=25,max_depth=5,criterion='entropy')
    
    from sklearn.neural_network import MLPClassifier
    clf = MLPClassifier(hidden_layer_sizes=(50,), max_iter=10, alpha=1e-4,
                    solver='sgd', verbose=10, tol=1e-4, random_state=1,
                    learning_rate_init=.1)
                    
    from sklearn.svm import LinearSVC
    clf = LinearSVC(penalty='l1',loss='hinge',verbose=1,max_iter=800)

In [None]:
from sklearn.svm import SVC
clf = SVC(C=1.0,kernel='rbf',gamma=0.1)
isDecisionTree=False 

Trainiere den Klassifikator!  

In [None]:
clf.fit(X,y)

Falls soeben ein Entscheidungsbaum trainiert wurde, kann dieser mit der folgenden Zelle visualisiert werden.

In [None]:
#Lösche ev. vorhandene frühere Versionen des Outputs:
if isDecisionTree:
    from sklearn import tree
    !rm -f output.png
    tree.export_graphviz(clf,out_file='entscheidungsbaum.dot',
                         feature_names=['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm'],
                         class_names = clf.classes_)
    !dot -Tpng entscheidungsbaum.dot > output.png

* Diese Zelle enthält den Markdown-Text `![output](output.png)`. Damit wird die Datei `output.png` in das Notebook eingebunden:
 ![output](output.png)
 (Diese Ausgabe ist natürlich nur sinnvoll für einen Entscheidungsbaum. Falls weiter oben ein anderer Klassifikator gewählt wurde, macht dies wenig Sinn.

Jemand findet nun eine weitere Blume und möchte wissen, welche Art es ist. Die Messung ergibt: 

    SepalLengthCm = 4.9
    SepalWidthCm  = 3.4
    PetalLengthCm = 1.6
    PetalWidthCm  = 0.2
  

In [None]:
neue_blume_X = [4.9,3.4,1.6,0.2]

Der Entscheidungsbaum kann nun eine Vorhersage machen:

In [None]:
clf.predict([neue_blume_X])

Wie gut ist diese Vorhersage? Algorithmen des maschinellen Lernens haben die Tendenz, sich einfach alle Datenzeilen zu merken, welche Sie beim Training sehen. Echtes Lernen entsteht nur dann, wenn neue Beispiele gut erkannt werden. 

In [None]:
from sklearn.metrics import accuracy_score
yhat = clf.predict(X)
acc = accuracy_score(yhat,y)
print(f'Trainingsgenauigkeit: {acc:1.3f}')

Mit Scikit-Learn ist es leicht, einen Datensatz in einen Trainingsdatensatz und einen Testdatensatz zu teilen:

In [None]:
from sklearn.model_selection import train_test_split
Xtrain,Xtest,ytrain,ytest = train_test_split(X,y,train_size=0.8,test_size=0.2)
Xtrain.shape,ytrain.shape,Xtest.shape,ytest.shape

In [None]:
Entscheidungsbaum.fit(Xtrain,ytrain)

yhat_test = clf.predict(Xtest)

acc_test = accuracy_score(yhat_test,ytest)
print(f"Testgenauigkeit:{acc:1.3f}")

Der Klassifikator wurde nun nicht mit den Beispielen in `Xtest` trainiert. Die Testgenauigkeit ist somit ein besseres Mass für die **zentrale** Fähigkeit des Klassifikators, zu verallgemeinern.

Weitergehende Analysen des Iris- und anderer Datensätze gibt's auf Kaggle ganz viele: z.B. [hier](http://www.kaggle.com/ash316/ml-from-scratch-with-iris).  

# Kaggle

Natürlich kennt alle Welt jede einzelne Zeile des Iris-Datensatzes. Um möglichst gute Klassifikatoren zu finden, sind "allzu offene" Datensätze ungeeignet. **Kaggle** ist eine Plattform, auf der Wettbewerbe in Machine Learning veranstaltet werden können. Nur ein Teil des Datensatzes wird mit korrektem Label zur Verfügung gestellt. Für die verbleibenden Datenzeilen kann eine Vorhersage auf Kaggle hochgeladen werden. Kaggle sagt einem daraufhin, wie gut die Vorhersage war, ohne die korrekten Werte preiszugeben.

> Schauen wir uns den "[Titanic](https://www.kaggle.com/c/titanic)"-Competition an! Dazu:

 - Klicken Sie rechts auf `+Add Data` und suchen Sie den Datensatz "Titanic: Machine Learning from Disaster"
 - Klicken Sie auf "Add".
 
Der Datensatz ist nun im Kernel verfügbar:

In [None]:
!ls ../input

In [None]:
!ls ../input/titanic

In [None]:
#Wir laden den Trainings- und den Testdatensatz:
train = pd.read_csv('../input/titanic/train.csv',index_col='PassengerId')
test = pd.read_csv('../input/titanic/test.csv',index_col='PassengerId')
train.shape,test.shape

In [None]:
train.head()

1. Die Spalte "Survived" muss für den Testdatensatz vorhergesagt werden:

In [None]:
test.head()

 ### Feature Engineering

Einige Spalten dieses Datensatzes sind schwierig für einen Entscheidungsbaum! Entscheidungsbäume benötigen nummerische Werte. Was tun mit den Namen der Passagiere, was mit NaN-Werten? Ist die Spalte Tickets quantitativ oder ordinal skaliert?
Feature-Engineering ist ein wichtiger Aspekt des machinellen Lernens. Hier machen wir es uns aber einfach:

In [None]:
#Codiere die Wörter 'female' und 'male' als 0 und 1:
train['Sex'] = train['Sex'].map({'female':0,'male':1})
test['Sex'] = test['Sex'].map({'female':0,'male':1})

In [None]:
#Ersetze alle NaN ("Not-a-Number")-Werte durch Null
train_cols = ['Pclass','Fare','Sex','Age']
Xtrain = train[train_cols].fillna(0) #Noch mehr Feature-Engineering, das wir hier übergehen
Xtest = test[train_cols].fillna(0)

In [None]:
Xtrain.nunique()

In [None]:
zielspalte = 'Survived'
ytrain = train[zielspalte]

### Training

In [None]:
#Importiere die Entscheidungsbaum-Klasse:
from sklearn.tree import DecisionTreeClassifier 
#Instanziiere einen Entscheidungsbaum:
Entscheidungsbaum = DecisionTreeClassifier()
Entscheidungsbaum.fit(Xtrain,ytrain)

In [None]:
y_Vorhersage = Entscheidungsbaum.predict(Xtest)

# Submission
Um eine Vorhersage bei einem Kaggle-Wettbewerb einzureichen, genügt es, eine Datei mit den Vorhersagen zu schreiben und auf der Wettbewerbsseite hochzuladen. Für Vorhersagen, welche von Kaggle Kernels aus generiert wurden, ist das Hochladen nochmals vereinfacht (siehe weiter unten).

In [None]:
!head ../input/titanic/gender_submission.csv

In [None]:
my_submission = pd.DataFrame({'PassengerId':Xtest.index,'Survived':y_Vorhersage})
my_submission.head()

In [None]:
# Der Dateiname ist beliebig
my_submission.to_csv('submission.csv', index=False)

Um nun an dem Titanic-Wettbewerb teilzunehmen, muss das Notebook committed werden (blauer Knopf oben rechts). Anschliessend muss der Bearbeiten-Modus verlassen werden (blaues "<<" oben links). Unter Output->Output Files kann anschliessend der Knopf "Submit to Competition" benutzt werden. Man erhält eine Bewertung der eigenen Eingabe bezüglich dem Ziel des Wettbewerbs.
Weitere Tipps [hier](https://www.kaggle.com/dansbecker/submitting-from-a-kernel)

# InClass Kaggle Competition 
Auf Kaggle können Competitions erstellt werden, welche nur der eigenen Klasse zur Verfügung stehen.  
[Hier](https://www.kaggle.com/about/inclass/overview) kann mit einer eigenen Competition begonnen werden.
[Diese InClass Kaggle-Competition](https://www.kaggle.com/t/271d239fd69944d7b15b881e22122960) könnte in einer Schulklasse benutzt werden. Wir versuchen uns hier an einer univariaten Regressions-Competition: Die SchülerInnen sollen Werte einer verrauschten Funktion erraten. 


Gegeben sei die folgende "wahre" Funktion: 

In [None]:
from math import sin
import numpy as np
import matplotlib.pyplot as plt
def f(x):
    y = sin(1/(x-4))
    return y

xx = np.linspace(1,4.995,100)
y = [f(x) for x in xx]
plt.plot(xx,y,'x');