# NumPy für effektive numerische Datenmanipulation
<br><br><br><img width=600 height=200 class="imgright" src="Images/Numbers.jpg"><br><br><br>
Es ist nun an der Zeit, von unseren bewußt simplifizierten "selbstgestrickten" Beispielen für maschinelles Lernen, die zum Verständnis der grundlegenden Techniken dienen sollten, zur Benutzung der sehr leistungsfähigen vorhandenen Module überzugehen, die eine ernsthafte Beschäftigung mit ML erst möglich machen. Nicht zuletzt haben diese umfangreichen und frei verfügbaren Module mit einfacher Einbindung in Pythonprogramme dazu beigetragen, aus Python <b>die</b> Sprache für ML zu machen. Mit dem weitgespannten und einfach einzusetzenden Angebot von ML-Methoden machen sie den Programmcode wesentlich übersichtlicher und vermindern drastisch die Laufzeit und den Speicherbedarf. Andererseits benötigt man zum richtigen Einsatz der Module eine Menge Zusatzwissen, gelegentlich versperrt der Umgang damit den Blick auf das wirklich Grundlegende und vermittelt eine Pseudosicherheit bei der Interpretation der Ergebnisse, die eventuell aber methodisch nicht korrekt erzeugt wurden. Die wichtigsten Module und deren Zusammenhang wird unten dagestellt.<br><br><br>


<img width=800 height=500 class="imgright" src="Images/MLModule.png">

Ein grosser Teil eines ML-Programms beschäftigt sich mit der Vorbereitung und Manipulation der Daten für den eigentlichen Lernalgorithmus. Hierfür sind NumPy und Pandas eine große Hilfe. Im eigentlichen ML-Programm ist dann die Einbindung der Daten perfekt und mit Matplotlib kann man sehr elegant den Ablauf und die Ergebnisse visualisieren. Bevor wir scikit-learn (allgemein) und Keras (für deep learning) als ML- Module nutzen, werden wir uns mit den vorher genannten Hilfsmodulen beschäftigen. Man muß hierzu aber anmerken, daß jedes dieser Module so umfangreich ist, daß eine auch nur mittelgradig vertiefte Betrachtung im Rahmen dieses Tutorials nicht möglich ist. Wir müssen also an der Oberfläche bleiben und nur das Essentielle betrachten. Speziell mit NumPy müssen wir uns jedoch trotz dieser Einschränkung etwas ausführlicher beschäftigen. Es sollte danach zumindest möglich sein, Code aus dem ML - Bereich im Hinblick auf die Anwendung von NumPy zu verstehen.

Der Name stammt von "Numerical Python". Das umfangreiche und kostenlose Modul ist nicht Teil der "Kerndistribution" von Python, wie sie z.B. von "Python.org" downloadbar ist. In der Anaconda - Distribution, die auch unsere Jupyter-Notebooks bereithält, ist es jedoch enthalten. Man muß es sonst von http://www.numpy.org/ downloaden und installieren. Das wichtigste Merkmal von NumPy ist, daß es effiziente Arrays anbietet. Diese Struktur ist in fast allen Programmiersprachen enthalten und ist ein Container, um Daten eines bestimmten Typs zu speichern und darauf mit numerischen Indizes zuzugreifen. Die NumPy Arrays können auch mehrdimensional sein. Das Modul ist überwiegend in C implementiert und daher auch deutlich schneller als das Kernpython, was solche Arrays nicht kennt, sondern wo man auf Listen zurückgreifen müsste. Diese sind Universalcontainer, die beliebige Objekte speichern können, aber haben deshalb deutlich mehr Speicherbedarf und sind langsamer im Zugriff. Gerade für grosse Datenmengen, wie sie in der KI oft vorkommen, ist NumPy daher fast unentbehrlich. Die Beschränkung aller Elemente des Arrays auf einen Datentyp lässt sich für sogenannte "Strukturierte Arrays" spaltenweise aufheben, sodaß auch diese Einschränkung nur relativ ist. (Wir werden darauf in diesem Tutorial nicht weiter eingehen).

Wie erzeugen wir NumPy-Arrays? Zunächst müssen wir NumPy importieren. Dies geschieht üblicherweise mit einem Alias, um lästige Schreibarbeit zu vermeiden. Dann können wir die Array-Elemente direkt eingeben oder Python-Listen oder -Tupel in Numpy-Arrays umwandeln.

In [1]:
import numpy as np  # typischer Alias np
a=np.array([1,2,3])
L=["b","ce","d"]
T=(1.2,3.2,4.5)
b=np.array(L)
c=np.array(T)
print(f" a: {a}  type: {type(a)} Direkteingabe")
print(f" b: {b} aus Python Liste,bei Ausgabe keine Kommata als Trenner!")
print(f" c: {c} aus Python Tupel") 
d=np.array(["a",2,3]) 
print(f" d: {d} bei gemischten Typen der Elemente werden alle in strings überführt!")

 a: [1 2 3]  type: <class 'numpy.ndarray'> Direkteingabe
 b: ['b' 'ce' 'd'] aus Python Liste,bei Ausgabe keine Kommata als Trenner!
 c: [1.2 3.2 4.5] aus Python Tupel
 d: ['a' '2' '3'] bei gemischten Typen der Elemente werden alle in strings überführt!


Ähnlich wie in vielen anderen Sprachen kann auch in NumPy-Arrays der Typ der Elemente festgelegt werden, hier gibt es dazu  die dtype-Angabe . Es gibt entsprechende numpy-dtype Abkürzungen wie numpy.int8, numpy.single, numpy.double, numpy.bool... und viele mehr.(s. https://numpy.org/doc/stable/) Der Hauptzweck dieser Deklarationen ist es, den Speicherbedarf zu minimieren, ein numpy.int16 benötigt zum Beipiel 2 Bytes pro gespeichertem Element, numpy.int32 braucht 4 Bytes, numpy.single für kleinere Floats braucht jeweils 4 Bytes ...
Falls man keine Typdeklarationn vorgibt, erschliesst NumPy aus den Array-Elementen den notwendigen Grundtyp und nimmt dann jeweils die größte notwendige Variante dieses Typs. Es versteht sich von selbst, daß man mit der Wahl z.B. von int8 auch die maximale Grösse der Integer-Zahl beschränkt, die im Array gespeichert werden kann, hier auf -128 bis +127 entsprechend der Grösse eines Bytes bei einer Vorzeichenzahl.
Falls also der Speicherbedarf nicht zu kritisch ist, kann man am Einfachsten die Default-Werte verwenden.<br> Es ist auch möglich den Typ z.B. mit dtype="int8" zuzuordnen. Auch eine Abfrage des Typs ist so möglich (s.u).<br> Auf Array-Elemente greift man mit dem Index zu, wie auch beim Kernpython möglich.

In [3]:
print("Integer mit np.int8 definiert ist ein Byte (256 einzelne Zahlen möglich) lang und kann Vorzeichen haben \n ")
for i in range(0,255):
    a = np.array([i], np.int8) #bis 127 positiv, dann negativ
    print(a[0],end=",")

aa = np.array([2,3,4],dtype="single") #Typzuordnung mit dtype
print(f"\n\n Array mit floats {aa}\n")
print(f" dtype zur Typbestimmung ganzes Array: {aa.dtype}  Element: {aa[1].dtype}")

b = np.array([1.2,34.7,-566796967.3]) #automatische Typzuordnung mit Maximal-Grösse
print(f"\n Float mit default: {b}")

c = np.array([1,2,274634625656]) #automatische Typzuordnung mit Maximal-Grösse
print(f"\n Integer mit default: {c} Man erkennt, daß der grösste Eintrag den Typ bestimmt.")

d = np.array(["Hallo","uhpuhfpuwhfpuhfrfpweifqpw9zfp9qiugfwqrgrgergergegergergegpqu","Ende"]) #automatische Zuordnung 
print(f"\n Strings : {d[1]}")


Integer mit np.int8 definiert ist ein Byte (256 einzelne Zahlen möglich) lang und kann Vorzeichen haben 
 
0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79,80,81,82,83,84,85,86,87,88,89,90,91,92,93,94,95,96,97,98,99,100,101,102,103,104,105,106,107,108,109,110,111,112,113,114,115,116,117,118,119,120,121,122,123,124,125,126,127,-128,-127,-126,-125,-124,-123,-122,-121,-120,-119,-118,-117,-116,-115,-114,-113,-112,-111,-110,-109,-108,-107,-106,-105,-104,-103,-102,-101,-100,-99,-98,-97,-96,-95,-94,-93,-92,-91,-90,-89,-88,-87,-86,-85,-84,-83,-82,-81,-80,-79,-78,-77,-76,-75,-74,-73,-72,-71,-70,-69,-68,-67,-66,-65,-64,-63,-62,-61,-60,-59,-58,-57,-56,-55,-54,-53,-52,-51,-50,-49,-48,-47,-46,-45,-44,-43,-42,-41,-40,-39,-38,-37,-36,-35,-34,-33,-32,-31,-30,-29,-28,-27,-26,-25,-24,-23,-22,-21,-20,-19,-18,-17,-16,-15,-14,-1

Eine besonders elegante und oft genutzte Eigenschaft der NumPy-Arrays ist, daß man Operationen über das ganze Array durchführen kann, ohne dafür Schleifen zu verwenden. Wir wandeln hier ein komplettes Array von Celsius-Werte in ein Fahrenheit Array um.


In [4]:
celsius=np.array([23,37,100]) #celsius array
fahrenheit= celsius * 9 / 5 + 32   #Die Operation wird über das ganze Array durchgeführt.
print(fahrenheit)

[ 73.4  98.6 212. ]


Wir können dadurch Funktionen schreiben, die sowohl einzelne Argumente verändern können als auch ganze Arrays, dies wird in ML oft genutzt.

In [5]:
def general_add(x):
    return x+3

print(general_add(3))
print(general_add(np.array([1,2,3,4])))

6
[4 5 6 7]


Um  ein Array zu erzeugen und es mit Nullen oder Einsen zu füllen gibt es die Methoden ```numpy.zeros``` resp. ```numpy.ones```.


In [6]:
b=np.zeros(5) #default float
print(b)
c=np.zeros(5,dtype="int32")
print(c)
d=np.ones(5) #default float
print(d)

[0. 0. 0. 0. 0.]
[0 0 0 0 0]
[1. 1. 1. 1. 1.]


Eine weitere Möglichkeit, NumPy-Arrays zu erzeugen, stellen die ```arange``` oder  ```linspace``` Methoden dar. Dabei entspricht die ```arange```-Methode der ```range```-Konstruktion im Kernpython, es werden aber NumPy-Arrays und keine range-Objekte zurückgegeben. Die Syntax ist:<br>
<b>numpy.arange(start, stop, step, dtype=...)</b><br> Dabei ist es wie im Kernpython möglich, nur den stop zu verwenden, oder start und stop, oder alle 3 Parameter.
Aber NumPy erlaubt auch nicht-Integer Werte für den step.

In [7]:
a = np.arange(0.5,6.1,.8) #ohne dtype erschliesst NumPy ,daß es sich um floats handelt
print(a)
print(a.size) #gibt Arraygrösse zurück


[0.5 1.3 2.1 2.9 3.7 4.5 5.3]
7


Die linspace-Methode erzeugt eine Anzahl ```num``` von gleichverteilten Zahlen in einem Array im Intervall ```start,stop```. Dabei bestimmt der Parameter ```endpoint```, falls er auf False gesetzt wird, das der letzte Wert vor stop endet, sonst ist stop einbegriffen. 
<br><b> linspace(start,stop,num=50,endpoint=True,retstep=False)</b>
Die entsprechenden Default-Werte sind in der Definition zu sehen. Der retstep Parameter sorgt dafür, dass auch der Abstand zwischen 2 benachbarten Elementen des Arrays ausgegeben wird:

In [8]:
print(np.linspace(0,10),"\n") #default mit 50 Werten ,stop ist inbegriffen
print(np.linspace(0,10,20,False),"\n") #20 Werte , Endpunkt ausgeschlossen
print(np.linspace(1,5,30,False,True)) #30 Werte , Endpunkt ausgeschlossen , zweites Element des Ausgabetupels gibt Abstand
                                      #zwischen 2 Elementen an

[ 0.          0.20408163  0.40816327  0.6122449   0.81632653  1.02040816
  1.2244898   1.42857143  1.63265306  1.83673469  2.04081633  2.24489796
  2.44897959  2.65306122  2.85714286  3.06122449  3.26530612  3.46938776
  3.67346939  3.87755102  4.08163265  4.28571429  4.48979592  4.69387755
  4.89795918  5.10204082  5.30612245  5.51020408  5.71428571  5.91836735
  6.12244898  6.32653061  6.53061224  6.73469388  6.93877551  7.14285714
  7.34693878  7.55102041  7.75510204  7.95918367  8.16326531  8.36734694
  8.57142857  8.7755102   8.97959184  9.18367347  9.3877551   9.59183673
  9.79591837 10.        ] 

[0.  0.5 1.  1.5 2.  2.5 3.  3.5 4.  4.5 5.  5.5 6.  6.5 7.  7.5 8.  8.5
 9.  9.5] 

(array([1.        , 1.13333333, 1.26666667, 1.4       , 1.53333333,
       1.66666667, 1.8       , 1.93333333, 2.06666667, 2.2       ,
       2.33333333, 2.46666667, 2.6       , 2.73333333, 2.86666667,
       3.        , 3.13333333, 3.26666667, 3.4       , 3.53333333,
       3.66666667, 3.8       , 3.9

Man kann NumPy Arrays auch aus einer Funktion befüllen. Hier wird lambda benutzt. Der zweite Parameter (z.B.: (4,4)) gibt an, wie der ```shape``` des Ergebnis-Arrays aussehen soll, und damit welche Werte für die Paramater der Funktion durchlaufen werden sollen. Zum ```shape``` eines Arrays später mehr.

In [9]:
#Numpy Array aus Funktion erstellen
    
a = np.fromfunction(lambda i, j: i * j, (4, 5), dtype = float) #4 Reihen, 5 Spalten
    
print(f" Das Array a: \n\n {a}\n")

def sum_indices(x, y, z):
    return x + 2*y + 3*z #Tiefe laüft mit x, Reihen mit 2* y , Spalten mit 3*z

# Umwandeln in  vektorizierte lambda function
f = sum_indices
fv = np.vectorize(f)
res = np.fromfunction(fv, (3, 5, 4)) #Tiefe 0-2, Reihen 0-5 , Spalten 0-4
print(f" Ein Array aus 3 2dimensionalen Arrays mit jeweils 5 Reihen und 4 Spalten.\n\n {res}")

def polynom_3(x):
    return x**3 + 5 * x**2 - 3 * x + 7

g = polynom_3
gv = np.vectorize(g)
np.fromfunction(gv,(5,)) #Tupel!

 Das Array a: 

 [[ 0.  0.  0.  0.  0.]
 [ 0.  1.  2.  3.  4.]
 [ 0.  2.  4.  6.  8.]
 [ 0.  3.  6.  9. 12.]]

 Ein Array aus 3 2dimensionalen Arrays mit jeweils 5 Reihen und 4 Spalten.

 [[[ 0.  3.  6.  9.]
  [ 2.  5.  8. 11.]
  [ 4.  7. 10. 13.]
  [ 6.  9. 12. 15.]
  [ 8. 11. 14. 17.]]

 [[ 1.  4.  7. 10.]
  [ 3.  6.  9. 12.]
  [ 5.  8. 11. 14.]
  [ 7. 10. 13. 16.]
  [ 9. 12. 15. 18.]]

 [[ 2.  5.  8. 11.]
  [ 4.  7. 10. 13.]
  [ 6.  9. 12. 15.]
  [ 8. 11. 14. 17.]
  [10. 13. 16. 19.]]]


array([  7.,  10.,  29.,  70., 139.])

Mehrdimensionale Arrays sind natürlich auch möglich. Die Dimensionen des Arrays können über numpy.shape abgefragt und auch gesetzt werden. Bei der shape Angabe ist die erste Zahl die Anzahl der Reihen, die zweite Zahl die Anzahl der Spalten und bei dreidimensionalen Arrays wird diesen beiden die Anzahl der Elemente in der Tiefe, der 3. Dimension, vorangestellt. Diese Reihenfolge spiegelt sich auch in der Benennung der Dimensionen wieder die als axis bezeichnet werden, so steht bei 3dimensionalen Arrays axis=0 für Reihenfolge der Unterarrays, axis=1 für die Reihen axis=2 für die Spalten der zweidimensionalen Unterarrays. Man kann mit shape auch ein Array in den Dimensionen umstrukturieren. Dabei muß natürlich weiderum dieselbe Summe an Plätzen für alle Elemente bereitgestellt werden.

In [10]:
my_array=np.array(
        [[1,2,3],
         [4,5,6],
         [7,8,9],
         [-1,-2,-3]])
print(f" Shape des 2 dimensionalen Arrays {np.shape(my_array)}\n")
my_array.shape=(2,6)
print(f" 2 dimensionales Array nach reshaping \n {my_array[0]} \n {my_array[1]}\n")
my_3dim_array=np.array([                   #Tiefe 4, also 4 2dimensionale Arrays, jeweils 2 Reihen, jeweils 3 Spalten
                        [[1,2,3],
                        [4,5,6]],
    
                        [[-2,-3,-4],
                        [-5,-6,-7]],
    
                        [[10,20,30],
                        [40,50,60]],
    
                        [[-1,-2,-3],
                        [-4,-5,-6]],

                        ])
print(f" Shape des 3d Arrays {my_3dim_array.shape}")   
print(my_3dim_array.size) #alle Elemente
print(my_3dim_array[0].size) #ein Unterarray   

 Shape des 2 dimensionalen Arrays (4, 3)

 2 dimensionales Array nach reshaping 
 [1 2 3 4 5 6] 
 [ 7  8  9 -1 -2 -3]

 Shape des 3d Arrays (4, 2, 3)
24
6


Die Indizierung eines NumPy-Arrays läuft für einzelne Elemente über die Aneinanderreihung der (nullbasierten) Indizes in den einzelnen Dimensionen in der Reihenfolge, die auch shape verwendet.
Dabei gibt es die Möglichkeit dies mit der Aufreihung der Indizes in dieser Art zu machen:<br>
my_3dim_array\[3,1,0\], welches effektiver ist als die Alternative: <br>
my_3dim_array\[3][1][0\].


In [11]:
print(my_3dim_array[3,1,0]) # 2dimensionales Array Tiefe 3 ,davon Reihe 1 und Spalte 0
print(my_3dim_array[3][1][0]) 


-4
-4


Auch der übliche Teilbereichs-Operator ist bei NumPy-Arrays verwendbar. Bei eindimensionalen Arrays folgt er mit <b>[start:stop:step]</b> der Kernpython Syntax. 

In [12]:
one_dim_array=np.array([0,1,2,3,4,5,6])
print(one_dim_array[1:5:2])
print(one_dim_array[:4])
print(one_dim_array[4:])
print(one_dim_array[:]) #Kopie


[1 3]
[0 1 2 3]
[4 5 6]
[0 1 2 3 4 5 6]


Bei mehrdimensionalen Arrays werden die jeweiligen Teilbereiche der einzelnen Dimensionen durch Kommata getrennt, also <b> [start:stop:step] der ersten Dimension, start:stop:step der zweiten Dimension...]</b>, wobei für die einzelnen Teilbereiche wieder die übliche Syntax gilt.

<b>Wollen wir den fettgedruckten Bereich ausschneiden aus </b><br><br>
my_3dim_array=np.array(\[<br><br>
                        [[1,2,3],<br>
                        [4,5,6]],<br>   
                        [[-2,-3,-4],<br>
                        [-5,-6,-7]],<br>    
                        [[10,<b>20,30</b>],<br>
                        [40,<b>50,60</b>]],<br>    
                        [[-1,<b>-2,-3</b>],<br>
                        [-4,<b>-5,-6</b>]],<br>
                        \])<br><br>
 <b>wollen wir haben: Teilarray Nr 2 und 3, davon jeweils beide Reihen und jeweils Spalte 1 und 2.</b>


In [13]:
my_3dim_array[2:,:,1:]

array([[[20, 30],
        [50, 60]],

       [[-2, -3],
        [-5, -6]]])

Das Kopieren von Arrays geht mit <b>numpy.copy(my_array) oder my_array.copy(). </b>


In [14]:
my_array=np.array([1,2,3])
new_array=np.copy(my_array)
new_array1=my_array.copy()

Beim Einsatz von Numpy-Arrays im ML Bereich werden häufig Arrays miteinander verknüpft oder Dimensionen von Arrays verändert. Wir zeigen nun kurz die wichtigsten Techniken hierzu. Zunächst geht es um die Reduktion der Dimensionen eines mehrdimensionalen Arrays auf eine Dimension. Wir möchten also ein "flachees" Array erzeugen, indem wir Teile des mehrdimensionalen Arrays zusammenführen. Hierzu gibt es drei Methoden: ```flatten```, ```ravel``` und ```reshape```. Wir verdeutlichen diese wieder an unserem 3d Array:<br>
my_3dim_array=np.array(\[<br><br>
                        [[1,2,3],<br>
                        [4,5,6]],<br>   
                        [[-2,-3,-4],<br>
                        [-5,-6,-7]],<br>    
                        [[10,<20,30],<br>
                        [40,50,60]],<br>    
                        [[-1,-2,-3],<br>
                        [-4,-5,-6]],<br>
                        \])<br>
Zunächst demonstrieren wir die Methode "flatten". Diese erzeugt eine eindimensionale Kopie des Originalarrays, die Reihenfolge der Sortierung in das neue Array kann über den Parameter "order" bestimmt werden, für den wir die wichtigsten Beispiele zeigen. (Für genaue Erklärung der Optionen bitte in der Hilfe nachschauen).

In [15]:
flat_array = my_3dim_array.flatten()
print(flat_array)
flat_array = my_3dim_array.flatten(order="F") #durch diesen Parameter kann man die Sortierreihenfolge ändern "C" ist default
print(flat_array)

[ 1  2  3  4  5  6 -2 -3 -4 -5 -6 -7 10 20 30 40 50 60 -1 -2 -3 -4 -5 -6]
[ 1 -2 10 -1  4 -5 40 -4  2 -3 20 -2  5 -6 50 -5  3 -4 30 -3  6 -7 60 -6]


"ravel" liefert ebenfalls ein eindimensionales Array zurück, und erstellt keine Kopie sondern eine angepasste Ansicht des Ausgangsarrays, auch hier gibt es den Parameter "order" für die Reihenfolge.

In [16]:
print(my_3dim_array.ravel()) #inplace



[ 1  2  3  4  5  6 -2 -3 -4 -5 -6 -7 10 20 30 40 50 60 -1 -2 -3 -4 -5 -6]


Wann sollten wir also ```ravel``` und wann ```flatten``` benutzen? ```ravel``` ist schneller, weil es nur eine Ansicht des Arrays liefert , ```flatten``` macht eine Kopie des Originalarrays, Änderungen des Originalarrays wirken sich auf diese Kopie nicht aus.

In [17]:
my_3dim_array=np.array([                  
                        [[1,2,3],
                        [4,5,6]],
    
                        [[-2,-3,-4],
                        [-5,-6,-7]],
    
                        [[10,20,30],
                        [40,50,60]],
    
                        [[-1,-2,-3],
                        [-4,-5,-6]],

                        ])

rav = my_3dim_array.ravel()
rav[5]=1234567890

print(my_3dim_array) #das Element 1,1,1 des Originalarrays ist verändert
print(rav)

[[[         1          2          3]
  [         4          5 1234567890]]

 [[        -2         -3         -4]
  [        -5         -6         -7]]

 [[        10         20         30]
  [        40         50         60]]

 [[        -1         -2         -3]
  [        -4         -5         -6]]]
[         1          2          3          4          5 1234567890
         -2         -3         -4         -5         -6         -7
         10         20         30         40         50         60
         -1         -2         -3         -4         -5         -6]


In [18]:
my_3dim_array=np.array([                  
                        [[1,2,3],
                        [4,5,6]],
    
                        [[-2,-3,-4],
                        [-5,-6,-7]],
    
                        [[10,20,30],
                        [40,50,60]],
    
                        [[-1,-2,-3],
                        [-4,-5,-6]],

                        ])

flat = my_3dim_array.flatten()
flat[5]=1234567890

print(my_3dim_array) #das Element 1,1,1 des Originalarrays ist unverändert, da flat eine Kopie ist
print(flat)

[[[ 1  2  3]
  [ 4  5  6]]

 [[-2 -3 -4]
  [-5 -6 -7]]

 [[10 20 30]
  [40 50 60]]

 [[-1 -2 -3]
  [-4 -5 -6]]]
[         1          2          3          4          5 1234567890
         -2         -3         -4         -5         -6         -7
         10         20         30         40         50         60
         -1         -2         -3         -4         -5         -6]


Mit "reshape" kann man die Dimensionen eines Array ändern immer dann, wenn das Produkt der Dimensionslängen für das reshape- Array gleich dem des Originalarray ist. Es erzeugt eine Kopie.

In [19]:
my_3dim_array=np.array([                  
                        [[1,2,3],
                        [4,5,6]],
    
                        [[-2,-3,-4],
                        [-5,-6,-7]],
    
                        [[10,20,30],
                        [40,50,60]],
    
                        [[-1,-2,-3],
                        [-4,-5,-6]],

                        ])

# shape ist 4,2,3: Produkt ist 24

print(f" 12 * 2  \n {my_3dim_array.reshape(12,2)}") # Produkt ebenfalls 24
print("-"*80)
print(f" 24   \n {my_3dim_array.reshape(24)}") # ebenfalls 24 !!!  aber 1 Reihe !!!
print("-"*80)
print(f" 24 * 1   \n {my_3dim_array.reshape(24,1)}") # Produkt ebenfalls 24 !!! 24 Reihen  1 Spalte !!!

 12 * 2  
 [[ 1  2]
 [ 3  4]
 [ 5  6]
 [-2 -3]
 [-4 -5]
 [-6 -7]
 [10 20]
 [30 40]
 [50 60]
 [-1 -2]
 [-3 -4]
 [-5 -6]]
--------------------------------------------------------------------------------
 24   
 [ 1  2  3  4  5  6 -2 -3 -4 -5 -6 -7 10 20 30 40 50 60 -1 -2 -3 -4 -5 -6]
--------------------------------------------------------------------------------
 24 * 1   
 [[ 1]
 [ 2]
 [ 3]
 [ 4]
 [ 5]
 [ 6]
 [-2]
 [-3]
 [-4]
 [-5]
 [-6]
 [-7]
 [10]
 [20]
 [30]
 [40]
 [50]
 [60]
 [-1]
 [-2]
 [-3]
 [-4]
 [-5]
 [-6]]


Das Zusammenführen oder Konkatenieren ist bei eindimensionalen Arrays einfach und intuitiv. Man beachte allerdings, daß die zusammenzuführenden Arrays als Tupel eingegeben werden müssen. Die einfache Benutzung von "+" als überladener Operator geht hingegen nicht.

In [20]:
my_array_a=np.array([1,2,3,4,5])
my_array_b=np.array([6,7])
new_array=np.concatenate((my_array_a,my_array_b)) # Achtung Eingabe der Arrays als Tupel
print(new_array)
#print(my_array_a + my_array_b) #dies geht hingegen nicht

[1 2 3 4 5 6 7]


Bei mehrdimensional Arrays muss man die gewünschte Achse der Zusammenführung mit dem "axis" Parameter angeben, grundsätzlich müssen die Arrays den gleichen shape haben.

In [21]:
a = np.arange(12)
b = np.arange(12,24)
new_a = a.reshape(3,4) # 3 Reihen , 4 Spalten
new_b = b.reshape(3,4)
print(f" a: {a}")  # Ursprungsarray
print(f" b: {b}")  # Ursprungsarray 
print("-"*80)
print(f" a reshaped:\n {new_a}\n") #reshaped
print("-"*80)
my_3dim_0=np.concatenate((new_a,new_b),axis=0)
print(f" a und b entlang Achse 0 zusammengeführt:\n{my_3dim_0}\n") #die einzelnen Teilarrays werden entlang der Reihen, axis 0 bei 2 Dimensionen, zusammengefasst
print("-"*80)
my_3dim_1=np.concatenate((new_a,new_b),axis=1)
print((f" a und b entlang Achse 1 zusammengeführt:\n{my_3dim_1}\n")) # die einzelnen Teilarrays werden entlang der Spalten, axis 1 bei 2 Dimensionen, zusammengefasst

                
                         

 a: [ 0  1  2  3  4  5  6  7  8  9 10 11]
 b: [12 13 14 15 16 17 18 19 20 21 22 23]
--------------------------------------------------------------------------------
 a reshaped:
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]

--------------------------------------------------------------------------------
 a und b entlang Achse 0 zusammengeführt:
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]]

--------------------------------------------------------------------------------
 a und b entlang Achse 1 zusammengeführt:
[[ 0  1  2  3 12 13 14 15]
 [ 4  5  6  7 16 17 18 19]
 [ 8  9 10 11 20 21 22 23]]



Man kann so auch Vektoren (als eindimensionale Arrays) mit ```concatenate``` zusammenführen. Andererseits möchte man oft in ML Vektoren zusammenfassen (zum Beispiel, wenn man alle Features von allen Samples zusammenbringen möchte) und in ein Array mit einer oder mehreren Zusatzspalte/n oder -reihe/n für den/die hinzugefügten Vektor/en speichern. Dafür gibt es das häufig verwendete ```dstack``` , ```row_stack``` oder ```column_stack```. Auch hier müssen die Vektoren als Tupel eingegeben werden.

In [22]:
v1=np.array([1,2,3,4,5])
v2=np.array([6,7,8,9,10])
new_array= np.concatenate((v1,v2)) # Bildung eines neuen eindimensionalen Arrays aus v1 und v2
print(f"einfaches Konkatenieren:\n {new_array}\n")
print(f"Spaltenweise in 2d Array:\n {np.column_stack((v1,v2))}\n") # Zusatzspalte für 2.Vektor
print(f"Reihenweise in 2d Array:\n {np.row_stack((v1,v2))}\n") # Zusatzreihe für 2.Vektor
print(f"Spaltenweise zusammengefasst und als erstes Teilarray in 3d Array:\n {np.dstack((v1,v2))}") # lege v1 und v2 zusammen in 2d Array und nimm dies als ersten Eintrag eines 3d Arrays
np.dstack((v1,v2)).shape

einfaches Konkatenieren:
 [ 1  2  3  4  5  6  7  8  9 10]

Spaltenweise in 2d Array:
 [[ 1  6]
 [ 2  7]
 [ 3  8]
 [ 4  9]
 [ 5 10]]

Reihenweise in 2d Array:
 [[ 1  2  3  4  5]
 [ 6  7  8  9 10]]

Spaltenweise zusammengefasst und als erstes Teilarray in 3d Array:
 [[[ 1  6]
  [ 2  7]
  [ 3  8]
  [ 4  9]
  [ 5 10]]]


(1, 5, 2)

Nachdem wir uns bisher mit der Erzeugung und den Dimensionen von NumPy-Arrays beschäftigt haben, wollen wir jetzt die Operationen vorstellen, die mit diesen Arrays durchgeführt werden können. Sie stellen einen sehr wertvollen Teil der Arbeit mit Numpy dar. Für ML ist vor allem der elegante Umgang mit Matrizen (als 2dimensionale Arrays implementiert) essentiell.
Bereits zu Beginn des Kapitels hatten wir ein Array mit einem Skalar, hier einem einfachen numerischen Ausdruck, verknüpft. Ausserdem hatten wir eine einfache Funktion gezeigt, die sowohl mit Arrays als auch mit Skalaren arbeiten kann.

In [23]:
celsius=np.array([23,37,100])
fahrenheit= celsius * 9 / 5 + 32   #Die Operation wird über das ganze Array durchgeführt.
print(fahrenheit)


[ 73.4  98.6 212. ]


In [24]:
def general_add(x):
    return x+3

print(general_add(3))
print(general_add(np.array([1,2,3,4])))

6
[4 5 6 7]


Arrays lassen sich auch sehr einfach filtern nach bestimmten Konditionen mit numpy.where.
Zunächst kommt dabei die Bedingung, dann woraus die Elemente genommen werden sollen, wenn die Bedingung stimmt (hier a). Als letztes woraus die Elemente stammen sollen, falls die Bedingung False ergibt (hier b):

In [25]:
a=np.arange(10)
b=np.arange(20,30)
a_gefiltert = np.where(a<5, a,b)
print(a_gefiltert)

[ 0  1  2  3  4 25 26 27 28 29]


Wollen wir statt mit Skalaren zu arbeiten, <b>zwei Arrays</b> miteinander numerisch verknüpfen, <b>werden die jeweils vergleichbaren Elemente der Arrays miteinander verrechnet</b> und können dann in ein neues Array abgespeichert werden. Wir zeigen dies hier für Addition, Division, Modulo als Beispiele mit eindimensionalen Arrays.

In [26]:
my_arr_1=np.array([10,20,30,40])
my_arr_2=np.array([1,3,5,7])
print(my_arr_1+my_arr_2)
print(my_arr_1/my_arr_2)
print(my_arr_1%my_arr_2)

[11 23 35 47]
[10.          6.66666667  6.          5.71428571]
[0 2 0 5]


Auch die Matrizenmultiplikation und die Erstellung eines Skalarproduktes sind mit Numpy denkbar einfach. (Dies wird häufig benötigt, um z.B. Features mit ihren zugehörigen Gewichten zu multiplizieren und das Ergebnis zu summieren (sogennate gewichtete Summe), um den Vorhersagewert zu produzieren, wie wir es z.B. in unserem Kategorisierer getan haben. In NumPy geht dies in einer Zeile. X ist hierbei die Matrix aller Features aller Fallbeispiele, W die Matrix aller zugehörigen Gewichte der einzelnen Features. Man muss dann nur <b>np.dot(X.T,W)</b> schreiben und hat als Ergebniss den kompletten y_vor (Vorhersage) Vektor. Dies nur, um zu zeigen, wieviel einfacher der Code wird, bei Einbindung von NumPy. Später viel mehr dazu.) 

Nun müssen wir (wegen der begrenzten Zeit) die mathematische Vorgehensweise bei der Vektor- und Matrizenmultiplikation voraussetzen. 

In [27]:
#Vektor dot Produkt
a=np.array([5]) #Skalar
b=np.array([6]) #Skalar
c=np.array([12,24]) #eindimensionales Array
d=np.array([2,3]) #eindimensionales Array
print(f" Skalarmultiplikation: {np.dot(a,b)}") #Achtung hier Eingabe Komma-getrennt einzeln, nicht als Tupel wie in concatenate ...Warum? Who knows?
#print(np.dot(a,c)) #hier passen die Dimensionen nicht
print(f" Dotmultiplikation von Vektoren: {np.dot(c,d)}") # 2*12+3*24

 Skalarmultiplikation: 30
 Dotmultiplikation von Vektoren: 96


Bei zweidimensionalen Arrays kann man eine Matrizenmultiplikation durchführen (Dimensionen müssen passen):

In [28]:
a2_dim=np.array([
    [3,4],
    [5,6],
    [7,8]
])
print(a2_dim.shape)
b2_dim=np.array([
    [10,20,30],
    [40,50,60]
])
print(b2_dim.shape) #sahpes passen , Ergebniss 3 x 3
print(np.dot(a2_dim,b2_dim))
print(np.matmul(a2_dim,b2_dim)) #hier dot und matmul identisch, unterscheiden sich, wenn Matrizenelemte selber Arrays sind

(3, 2)
(2, 3)
[[190 260 330]
 [290 400 510]
 [390 540 690]]
[[190 260 330]
 [290 400 510]
 [390 540 690]]


Man kann auch Identitätsmatrizen erzeugen und Matrizen transponieren. 


In [29]:
X=np.array([
    [1,2,3,4],
    [5,6,7,8]
])
print(X)
print(X.T) #transponiert
print(np.identity(4)) #Identitätsmatrix 4 * 4

[[1 2 3 4]
 [5 6 7 8]]
[[1 5]
 [2 6]
 [3 7]
 [4 8]]
[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


Eine wichtige Methode, die beim ML häufig genutzt wird ist np.unique. Dieses zählt in einem np.array dias Vorkommen aller Elemente und gibt die  gefundenen Elemente und deren Anzahl als 2 numpy arrays aus. <br>
numpy.unique(ar, return_index=False, return_inverse=False, return_counts=False, axis=None)<br> Mit return_index kann man sich ausgeben lassen, wo das erste Vorkommen der gefundenen Elemente in dem Ausgangsarray ist.

In [52]:
test_array=np.array([1,2,1,3,2,4,1,2,5])
elems,index,number=np.unique(test_array,return_index=True,return_counts=True)
print(f" Das Array: {test_array}")
print(f" Die Elemente: {elems}  Index des ersten Vorkommens: {index}   Häufigkeiten: {number}")

 Das Array: [1 2 1 3 2 4 1 2 5]
 Die Elemente: [1 2 3 4 5]  Index des ersten Vorkommens: [0 1 3 5 8]   Häufigkeiten: [3 3 1 1 1]


An dieser Stelle wissen wir genug über NumPy, um unseren binären Klassifizierer mit NumPy-Arrays zu erstellen und zu zeigen, wieviel übersichtlicher der Code wird. Damit können wir vielleicht die Motivation, Numpy zu lernen erhalten. Hier haben wir im Übrigen alle 3 Features aus unserer Autodatei verwendet. Noch nicht gesehen haben wir lediglich np.loadtxt zum Einlesen eines Textfiles, wozu wir sofort kommen. Wenn man die Funktionsdefinitionsstrings ausser acht lässt, sieht man, wie wenig Code nötig ist. Man benötigt, wenn man vom Testen absieht nur 16 Zeilen Code.

In [2]:
#binärer Klassifikator

import numpy as np 
import warnings
warnings.filterwarnings("ignore")

def erstelle_y_vor(X, g):
    """erstellt die Gewichtete Summe: feature1*Gewicht1+ feature2*Gewicht2 ... für alle Samples
    X Array mit allen Features von allen Samples 2 dim, g Array aller Gewichte 1 dim """
    gewichtete_summe = np.dot(X, g)
    return mache_sigmoid(gewichtete_summe)


def runde_auf_0_und_1(X, g):
    """ rundet die Ergebnisse für die Ausgabe auf 1 oder 0"""
    return np.round(erstelle_y_vor(X, g))


def leite_Fehlerfunktion_ab(X, Y, g):
    """multipliziert die Matrizen für X mit allen Features für alle Samples, transponiert diese Matrix zum 
    multiplizieren und betimmt davon den mittleren Wert """
    return (np.dot(X.T, (erstelle_y_vor(X, g) - Y))/X.shape[0])


def trainiere(X, Y, anzahl, lernrate):
    """lässt den Trainingsvorgang über anzahl Schritte laufen, optimiert die Gewichtsmatrix entsprechend
    der Ableitung der Fehlerfunktion
    """
    w = np.zeros((X.shape[1], 1)) #X.shape[1] 4 Spalten 
    for i in range(anzahl):        
        w -= leite_Fehlerfunktion_ab(X, Y, w) * lernrate
    return w

def berechne_Fehler(X, Y, g):
    """Bestimmt die logarithmische Fehlerfunktion aus den y_vor Werten,
    die mit erstelle_y_vor produziert wurden und mit den wahren Y Werten,
    die im eindimensionalen Array Y gespeichert sind
    """
    y_vor = erstelle_y_vor(X, g)    
    return -np.average(Y * np.log(y_vor)+(1 - Y) * np.log(1 - y_vor))


    
def mache_sigmoid(a):
    """erzeugt den Wert der Sigmoid Funktion
    """
    return 1 / (1 + np.exp(-a))
    
    
    
    
    

def teste_ergebnis(X, Y, g):
    """Berechne den Prozentsatz richtiger Ergebnisse"""
    gesamtzahl = Y.size   
    richtige = np.sum(runde_auf_0_und_1(X, g) == Y)
    erfolgsrate = richtige * 100 / gesamtzahl
    print(f"Richtig sind: {richtige:2d} von: {gesamtzahl:2d} , das sind: {richtige/gesamtzahl * 100:5.2f} Prozent" )
    print("Die sigmoid Funktion muss mit sehr grossen und kleinen Werten umgehen, deshalb die Warnung.")
    print("NumPy fängt den Fehler ab und arbeitet weiter, math würde abbrechen")
          

# Aufbereitung der Daten
f1, f2, f3,  y = np.loadtxt("Data/Autos2.txt", skiprows=1,unpack=True) #Features und Labels
X = np.column_stack((np.ones(f1.size), f1, f2 , f3))
Y = y.reshape(y.size, 1)

w = trainiere(X, Y, anzahl=1000, lernrate=0.01)

# Test
teste_ergebnis(X, Y, w)

Richtig sind: 40 von: 50 , das sind: 80.00 Prozent
Die sigmoid Funktion muss mit sehr grossen und kleinen Werten umgehen, deshalb die Warnung.
NumPy fängt den Fehler ab und arbeitet weiter, math würde abbrechen


Sehr elegant lassen sich auch Vergleichsoperatoren auf Arrays anwenden und dann Boolsche Arrays zurückgeben.

Arrays lassen sich sortieren und filtern, letzteres kann man durch sogenannte "Fancy-Indizierung" durchführen, wobei der Index durch einen logischen Ausdruck ersetzt wird und dann nur Elemente zurückgegeben werden, für die diese Bedingung "True" liefert.

In [31]:

a=np.array([4,2,6])
a.sort()
a

array([2, 4, 6])

In [32]:
a[a<5] #Filtern mit einem logischen Ausdruck als Index


array([2, 4])

Eine wichtige Methode ist np.where. numpy.where(condition, [x, y, ]) Hier wird je nachdem, ob condition False oder True ist der erste Ausdruck zurückgegeben oder der zweite. 

In [55]:
x=np.array([1,2,3])

np.where(x>2,x,0)

array([0, 0, 3])

Nun zum Lesen und Schreiben von Daten-Files in Verbindung mit NumPy.  
<br> Wir erstellen zuerst ein Textfile und lesen es dann ein.

In [33]:
x = np.array([[1,2,3],[2,3,4]])
np.savetxt("Data/Test.txt",x)


Diese Datei hat den folgtenden Inhalt:<br>
1.000000000000000000e+00 2.000000000000000000e+00 3.000000000000000000e+00<br>
2.000000000000000000e+00 3.000000000000000000e+00 4.000000000000000000e+00


Wir können aber den Typ der Daten bestimmen, die abgelegt werden, und auch, ob wir ein Trennzeichen wollen.

In [34]:
x = np.array([[1,2,3],[2,3,4]])
np.savetxt("Data/Test.txt",x,fmt="%4d")

Nun erhalten wir:<br>
   1    2    3<br>
   2    3    4

In [35]:
x = np.array([[1,2,3],[2,3,4]])
np.savetxt("Data/Test.txt",x,fmt="%4d",delimiter=",") #erzeugt Trenzeichen

Nun erhalten wir:<br>
   1,    2,    3<br>
   2,    3,    4

Laden können wir die Datei mit np.loadtxt().

In [36]:
y = np.loadtxt("Data/Test.txt",delimiter=",")
print(y)

[[1. 2. 3.]
 [2. 3. 4.]]


Eine interessante Möglichkeit ist, eine oder mehrere Überschriftszeilen nicht zu übernehmen mit ```skiprows```.
Hätten wir z.B. diese Datei:<br>
Kosten  Gewinn  KundenNr<br>
1234    2345    12345<br>
3452    4323    34523<br>
  ...

Mit <b>np.loadtxt("DieseDatei.txt",skiprows=1)</b> vermeiden wir, daß die erste Reihe als Daten übernommen wird.

Mit <b>unpack=True</b> kann man die Spalten des eingelesenen Arrays entpacken in einzelne Felder.

In [37]:
y1,y2,y3 = np.loadtxt("Data/Test.txt",delimiter=",",unpack=True)
print(y1)
print(y2)
print(y3)

[1. 2.]
[2. 3.]
[3. 4.]


Damit möchten wir jetzt dieses sehr lange Kapitel abschliessen und hoffen, daß Sie einen Eindruck der vielfältigen Möglichkeiten von NumPy bekommen haben, für weitere Informationen verweisen wir auf die NumPy Dokumentation, das Buch "Numerisches Python" von B. Klein oder die Webseite https://python-course.eu/numpy.php.