# Einführung Numpy mit Aufgaben



Im Folgenden sollen Sie die nötigen Grundlagen zur Bearbeitung der in der Vorlesung eingebettete Intelligenz genutzten Python Skripte vermittelt bekommen. 

In [37]:
import numpy as np
import scipy as sc
import sklearn as kiMagic #Abkürzungsbezeichnung

*Numpy* ist eine Bibliothek, die eine Vielzahl von numerischen Bibliotheken vereint. Dies beinhalten z.B. lineare Algebra (u.A. Matrizen), Optimierungsalgorithmen (z.B. Polynomiales Fitting, oder Mehrdimensionale Funktione), statistische und stochastische Methoden und Funktionen sowie die Möglichkeit C und C++ Code in Python Skripte zu integrieren. Es lohnt sich daher, die API von Numpy nach bestimmten Funktionen zur Lösung von Aufgaben zu untersuchen.

Grundlage für die Verarbeitung von Daten ist die Anordnung der Daten im Speicher. Python an sich bietet für die Abbildung von Vektoren (also eine Sequenz von zusammengehörigen Datenpunkten) nur die Liste an. Numpy erweitert dies, es entsteht ein sog. numpy Array.


Detaillierte Einblicke in das Numpy Array, insbesondere deren Verwendung finden Sie unter:
http://cs231n.github.io/python-numpy-tutorial/

In [39]:
pythonListe = [1,2,34]
numpyArray=np.array([1,2,34]) # Achtung: Liste ist Parameter des "Konstruktors"

print(numpyArray + 3) # Addition von 3 auf ALLE Elemente des Arrays
print(numpyArray * 0.1) # Skalierung auf 1/10tel
print(numpyArray + numpyArray)
#print(numpyArray + np.array([3,4])) # Fehler: Unterschiedliche Dimensionen

[ 4  5 37]
[0.1 0.2 3.4]
[ 2  4 68]


------
### Aufgabe:
Suchen Sie nach einer Möglichkeit, um an ein Numpy Array 
ein Elemente und mehrere Elemente anzufügen. 
Gibt es Möglichkeiten, Elemente am Anfang oder am Ende des Arrays einzufügen?


### Fragen zu arithmetischen Operatoren: 
Was ist der Unterschied zwischen 

* np.dot()
* * 
* np.cross()

Gibt es ähnliche "Probleme" für Division, Subraktion, Addition?

------

## Mehrdimensionale Numpy Arrays und Auswahl von Elementen
Numpy bietet die Möglichkeit - ähnliche wie andere Programmiersprachen, 
mehrdimensionale Arrays anzulegen.
Gerade im Bereich von Data Analytics oder Künstlicher Intelligenz 
werden mehrdimensionale Vektoren sowie - im Falle vom überwachten 
Training von Machine Learning Algorithmen - auch Klassenbezeichnungen angehängt.  

Für eine *Instanz einer Datenmenge*
sieht der Datenvektor für überwachtes Training (https://whatis.techtarget.com/de/definition/Ueberwachtes-Lernen-Supervised-Learning) wie folgt aus:

$(x_1,x_2,x_3,x_4,x_5,y)$ wobei $x_i\in\mathcal{R}$ die verschiedenen 
Werte von Merkmalen sind (z.B. Messungen, statistische 
Analyseergebnisse, Dimensionen) und $y \in \mathcal{R}$ 
oder $y \in \mathcal{N}$ eine Klassenbezeichnung ist.

Um mathematische Funktionen oder die entsprechenden KI Algorithmen 
auf diese Klassen anzuwenden, werden statt menschen lesbaren 
Bezeichnungen wie z.B. Hund, Katze, Maus ganzzahlige Klassenbezeichnungen 
verwendet (z.B. Hund = 1, Katze = 2, Maus = 3), 0 wird in der Regel 
für die sogenannte NUll Klasse verwendet, die Klasse, die Instanzen 
enthält, für die entweder keine Klassenbezeichnung enthalten ist oder 
die für Klassifikation (also der Zuordnung von Messungen zu vorher 
definierten Klassen) uninteressant ist. Wie bereits erwähnt werden die 
Klassenbezeichnungen normalerweise als letzte Komponente eines Vektors 
angehängt und darauf dann auch trainiert.

Numpy Arrays ermöglichen eine mehrdimensionale Organisation 
der Daten, sowie den Zugriff sowohl auf komplette Zeilen 
(entspricht einem Feature Vektor samt Klasse) als auch auf Spalten (Auswahl einer Komponente oder der Klassen aller Daten)

```
x1, x2, x3, x4, class
x1, x2, x3, x4, class
```

Im obigen Beispiel können Sie also alle $x1$ oder alle 
$class$ Einträge einer Variable auswählen. 

_Mehrdimensionale Arrays_ können Sie händisch erzeugen:

```
array = []
array.append(np.array([3,4,6,8]))
array.append(np.array([34,299,8348,17]))
array.append(np.array([17,84,892,1]))
array = np.array(array)
```
In diesem Beispiel wird also zuerst eine Liste erzeugt, 
in die mittels der `append` Methode der Liste ein neues 
Numpy Array eingefügt wird. am Schluss wird aus der Liste 
von Numpy Array Elemente ein numpy Array von Numpy Arrays. 
Wird ein Numpy Array aus einer Datei aufgebaut, so wird jede 
Zeile zuerst als Numpy Array (Zeile) erstellt und dann an 
die "Matrix" angefügt.

Der Zugriff auf die Elemente erfolgt dann mittels den aus 
anderen Programmiersprachen bekannten [] Klammern sowie der 
Angabe vom jeweiligen Index. 
```
array[0] # gibt das 0te Element zurück: 3,4,6,8
array[2] # gibt das 2te Element zurück: 17,84,892,1
```
Es werden hier also immer eine ganze Zeile zurück gegeben. 
Da Numpy sehr stark in Matlab (sehr ähnliche Syntax!) 
verwurzelt ist, kann man auf eine Zeil in diesem Numpy 
Array folgendermassen zugreifen:
```
array[1,0] # gibt 34 zurück
array[2,3] # gibt 1 zurück
```

Außerdem ist es oft nötig, eine ganze Zeile oder eine 
Spalte auszuwählen, die dann zur Verarbeitung genutzt werden kann:
```
zeile = array[2,:] # liefert 17,84,892,1 zurück
spalte = array[:,1] # liefert 4,299,84 zurück, aus jeder Zeile das Element 1
```
Mittels dem $:$ Operator können Sie außerdem Bereiche selektieren:
```
value = array[0,1:3]
```
Beachten Sie, dass der Startindex einbezogen wird, 
der Endindex jedoch exklusiv nicht enthalten ist (also werden die Werte zwischen $start$ und $ende-1$ zurückgeben).


In [20]:
# Hier können Sie den obigen Code ausprobieren
# Was liefert array[:,:] ?



### Aufgabe
Schreiben Sie die unten aufgeführten Funktionen , die ein Numpy Array mit $s$ Spalten und $z$ Zeilen erzeugen und mit zufälligen Werten befüllen und dann zurück geben.
* `createRandomArray(s,z)`: Nutzen Sie die oben vorgestellte Variante mit Liste von Numpy Arrays (Code in eigene Funktion packen
* `createRandomArrayVstack(s,z)` Nutzen die Numpy Funktion vstack um eine Zeile an das Rückgabe Array anzuhängen
* Rufen Sie die obigen Funktionen auf und speichern Sie sich die Rückgabewerte in einer Variable zwischen. Nutzen Sie die Numpy Funktion hstack, um ihr Zufallsarray um eine weitere Spalte von Zufallszahlen zu erweitern. Sie können hierfür die Funktion `np.random.random()`verwenden

Information zu `numpy.vstack()` finden Sie unter https://www.w3resource.com/numpy/manipulation/vstack.php

## Wertespezifische Selektion von Zeilen
Neben der Möglichkeit, ganze Spalten und Zeilen eines Arrays auszuwählen, gibt es die Möglichkeit, Einträge abhängig von den darin enthaltenen Werten zu selektieren:

```
values = array[array[:,0] > 10,:] # Speichert alle Elemente zurück,die im ersten Eintrag größer als 10 sind.
```
Beachten Sie dabei, dass im ersten Teil des Booleschen Ausdruckes `array[:,0] > 10` die GESAMTE Spalte ausgewählt wird und überprüft wird. Der Boolesche Ausdruck gibt eine Liste von Booleschen Werten ([true,false, false, false, true,...]) zurück, die dann im äußeren Term die entsprechenden Zeilen auswählt. $:$ entspricht also einer Liste, die nur true enthält und somit alle Einträge auswählt.

### Aufgabe
Schreiben Sie eine Funktion `getRandomIntMatrix`.
Die Funktion erstellt ein Numpy Array, 100 Zeile, 10 Spalten, 
jede Zeile besteht dabei aus 9 zufälligen Integer Zahlen zwischen 0 und 99, der erste Eintrag soll die Zeilennummer sein.
* Speichern Sie gerade und ungerade Zeilennummern in 2 separaten Variablen und geben Sie diese auf der Konsole aus
* Speichern Sie alle Zeilen, deren Summe über die zufälligen Zahlen größer als 200 ist

Anmerkung: Packen Sie die `getRandomIntMatrix` sowie den zugehörigen Aufruf in einen separaten Zellenbereich. Ansonsten ändern Sie bei jeder Ausführung ihre Zufallsmatrix, was das Debugging schwieriger macht. Es gibt außerdem in numpy Hilfsfunktionen für Addition, Multiplikation usw.
