# NumPy
[NumPy](https://numpy.org/) ist eine Bibliothek zur Verarbeitung und Berechnung von grossen Vektoren, Arrays, ...

Numpy basiert auf Arrays von Zellen gleichen Typs (!). Sie werden in reservierten Bereichen im Arbeitsspeicher gehalten und sind sehr schnell. Die meisten Operatoren können unmittelbar auf die einzelnen Zellen angewendet werden, ohne dass per loop durch diese iteriert werden muss. 

Bei den meisten Operationen werden keine Datenkopien gezogen, sondern unmittelbar in den Speicherzellen gearbeitet. D.h. es muss besonders auf Nebeneffekte bei der datenmanipulation geachtet werden.

In [1]:
# Ein einfaches Numpy Beispiel - 1 Mio. Multiplikationen als Numpy.Array und als Liste 
import numpy as np
import time

my_arr = np.arange(1000000)
my_list = list(range(1000000))

In [2]:
# Listen Multiplikation als Iteration
start = time.time()
my_list2 =[]
for x in my_list:
    my_list2.append(x*2)
end = time.time()
print (f"List Iteration-Multiplikation: {(end-start)*1000} ms")

List Iteration-Multiplikation: 135.93339920043945 ms


In [3]:
# Numpy Multiplikation ohne Iteration (Vektorisieren)
start = time.time()
my_arr2 = my_arr*2
end = time.time()
print (f"Numpy Multiplikation: {(end-start)*1000} ms")

Numpy Multiplikation: 2.9363632202148438 ms


## NumPy Arrays
Arrays sind die zentralen Elemente für NumPy. Ein Array kann beliebig viele Dimensionen haben und die Zellen müssen den gleichen Datentyp aufweisen.

[NumPy Datentypen](https://numpy.org/devdocs/user/basics.types.html) orientieren sich an den C Datentypen un unterscheiden sich daher von den Python Typen:
- np.bool_
- np.int32
- np.int64
- np.float64
- ...

Effizient ist besonders die Initiierung eines Arrays in der kompletten Grösse, da dann der Speicherbereich entsprechend reserviert wird (ein Append ist aber trotzdem möglich).

In [4]:
# Casten aus iterierbaren Datentypen
data_x = [8, 5, 9, 4, 2]
data_arr_x = np.array(data_x)
print(data_arr_x)
print (f"Dimension: {data_arr_x.ndim}")
print (f"Shape: {data_arr_x.shape}")
print (f"Dataype: {data_arr_x.dtype}")

[8 5 9 4 2]
Dimension: 1
Shape: (5,)
Dataype: int32


In [5]:
# auch mit mehreren Dimensionen möglich
data_x, data_y, data_z = [8, 5, 9, 4, 2], [9, 3, 2, 8, 1], [3, 4, 8, 1, 1]
data_xyz = tuple(zip(data_x, data_y, data_z))
data_arr_xyz = np.array(data_xyz)
print(data_arr_xyz)
print (f"Dimension: {data_arr_xyz.ndim}")
print (f"Shape: {data_arr_xyz.shape}")
print (f"Datatype: {data_arr_xyz.dtype}")

[[8 9 3]
 [5 3 4]
 [9 2 8]
 [4 8 1]
 [2 1 1]]
Dimension: 2
Shape: (5, 3)
Datatype: int32


In [6]:
# ... und auch mit anderen Datentypen
data_xyz_time = list(zip(((8.3,9.4,3.2),(6.2,4.3,4.0), (7.6,4.1,3.2), (8.4,5.2,2.1), (7.1,0.6,2.3)), data_xyz))
data_arr_xyz_time = np.array(data_xyz_time)
print(data_arr_xyz_time)
print (f"Dimension: {data_arr_xyz_time.ndim}")
print (f"Shape: {data_arr_xyz_time.shape}")
print (f"Datatype: {data_arr_xyz_time.dtype}")

[[[8.3 9.4 3.2]
  [8.  9.  3. ]]

 [[6.2 4.3 4. ]
  [5.  3.  4. ]]

 [[7.6 4.1 3.2]
  [9.  2.  8. ]]

 [[8.4 5.2 2.1]
  [4.  8.  1. ]]

 [[7.1 0.6 2.3]
  [2.  1.  1. ]]]
Dimension: 3
Shape: (5, 2, 3)
Datatype: float64


In [7]:
# Weitere Erzeugungsarten:
# leeres Array (Speicher reserviert ohne Wertzuweisung): 
leer = np.empty((2,3,3))
print (f"leer: {leer}")
# Nuller-Array:
zeros = np.zeros((5))
print (f"zeros: {zeros}")
# Default Belegung
defaults = np.full((3,2), 5)
print (f"defaults: {defaults}")
# Zufalls Array
rand = np.random.rand(2,2,2)
print (f"Zufallszahlen: {rand}")


leer: [[[6.23042070e-307 4.67296746e-307 1.69121096e-306]
  [1.06810268e-306 7.56587585e-307 1.37961302e-306]
  [1.05699242e-307 8.01097889e-307 1.78020169e-306]]

 [[7.56601165e-307 1.02359984e-306 1.33510679e-306]
  [2.22522597e-306 1.78019761e-306 1.11260144e-306]
  [6.89812281e-307 2.22522596e-306 9.34603679e-307]]]
zeros: [0. 0. 0. 0. 0.]
defaults: [[5 5]
 [5 5]
 [5 5]]
Zufallszahlen: [[[0.64560558 0.68137967]
  [0.43487254 0.50217978]]

 [[0.28361541 0.35032687]
  [0.7372486  0.76824612]]]


## Operatoren
Eine besondere Stärke von NumPy liegt in der Anwendung von Operatoren auf jedes (oder ausgewählte) Elemente eines Arrays **ohne** Iteratoren. Diese Eigenschaft wird *Vektorisierung* genannt (im Hintergrund läuft eine viel schnellere C Schleife).
- Skalare Operatoren (einfache Rechenoperationen für jedes Element)
- unäre Operatoren
- binäre Operatoren 

In [8]:
# Skalare Operationen
new_x = data_arr_x *3
print (f"old numpy array: {data_arr_x}")
print (f"new numpy array: {new_x}")

old numpy array: [8 5 9 4 2]
new numpy array: [24 15 27 12  6]


In [9]:
# unäre operatoren
print ("Unäre Operatoren")
print (f"Square:  {np.square(new_x)}")
print (f"Squareroot:  {np.sqrt(new_x)}")
print (f"Floor von Sqrt: {np.floor(np.sqrt(new_x))}")
print (f"Sinus:  {np.sin(new_x)}")
print ("...")

# oder eigene Funktionen
print ("Eigene unäre Funktionen")
def eins_plus (x):
    return x+1
print (f"Eine unäre Funktion: {eins_plus(new_x)}")
un_funk = lambda x:x**2-1
print (f"Eine Lambda Funktion:  {un_funk(new_x)}")
print("...")

# binäre operatoren
print ("Binäre Operatoren")
print (f"Add:  {np.add(new_x, data_arr_x)}")
print (f"Maximum: {np.maximum(new_x, data_arr_x)}")
print (f"Greater Equal: {np.greater_equal(new_x, data_arr_x)}")
print (f"Less: {np.less(new_x, data_arr_x)}")
print (f"XOR: {np.logical_xor(np.less(new_x, data_arr_x),np.greater_equal(new_x, data_arr_x))}")
print ("...")

def fast_a_plus_b (x,y):
    return x+y-1
print (f"Eine binäre Funktion: {fast_a_plus_b(new_x, data_arr_x)}")
bi_funk = lambda x,y:x+y-1

print (f"Eine Lambda Funktion:  {bi_funk(new_x, data_arr_x)}")
print("...")

Unäre Operatoren
Square:  [576 225 729 144  36]
Squareroot:  [4.89897949 3.87298335 5.19615242 3.46410162 2.44948974]
Floor von Sqrt: [4. 3. 5. 3. 2.]
Sinus:  [-0.90557836  0.65028784  0.95637593 -0.53657292 -0.2794155 ]
...
Eigene unäre Funktionen
Eine unäre Funktion: [25 16 28 13  7]
Eine Lambda Funktion:  [575 224 728 143  35]
...
Binäre Operatoren
Add:  [32 20 36 16  8]
Maximum: [24 15 27 12  6]
Greater Equal: [ True  True  True  True  True]
Less: [False False False False False]
XOR: [ True  True  True  True  True]
...
Eine binäre Funktion: [31 19 35 15  7]
Eine Lambda Funktion:  [31 19 35 15  7]
...


## Slicing
Slicing Operatoren sind analog zu normalen iterierbaren Datentypen. Es wird aber stets nur eine **Referenz** auf die originären Daten zurückgeliefert! Möchten Sie die Slicing Daten weiterverarbeiten ohne die Originaldaten zu verändern, müssen Sie eine Kopie erstellen (*array.copy()*).

In [11]:
# Slicing 1-D
print (f"Ursprungsdaten: {new_x}")
element = new_x[-2:-5:-2]
print (f"Beliebiges Slicing : {element}")
element *=3
print (f"Ändern des Ergebnisses : {element}")
print (f"Achtung: Geänderte Ursprungsdaten: {new_x}")

# Alternative mit Copy
element_copy = new_x[-2:-5:-2].copy()
print (f"Kopierte Elemente : {element_copy}")
element_copy *=2
print (f"Geänderte Ergebnisse im Copy Array : {element_copy}")
print (f"Unveränderte Ursprungsdaten: {new_x}")

Ursprungsdaten: [24 45 27 36  6]
Beliebiges Slicing : [36 45]
Ändern des Ergebnisses : [108 135]
Achtung: Geänderte Ursprungsdaten: [ 24 135  27 108   6]
Kopierte Elemente : [108 135]
Geänderte Ergebnisse im Copy Array : [216 270]
Unveränderte Ursprungsdaten: [ 24 135  27 108   6]


In [12]:
# Slicing Mehrdimensional
# Auswahl von Elementen entlang der ersten Dimension
print (f"Ursprungsarray: {data_arr_xyz_time}")
print (f"Einzelnes Element: \n {data_arr_xyz_time[1]}")
print (f"Mehrere Elemente: \n {data_arr_xyz_time[0:3:2]}")  

Ursprungsarray: [[[8.3 9.4 3.2]
  [8.  9.  3. ]]

 [[6.2 4.3 4. ]
  [5.  3.  4. ]]

 [[7.6 4.1 3.2]
  [9.  2.  8. ]]

 [[8.4 5.2 2.1]
  [4.  8.  1. ]]

 [[7.1 0.6 2.3]
  [2.  1.  1. ]]]
Einzelnes Element: 
 [[6.2 4.3 4. ]
 [5.  3.  4. ]]
Mehrere Elemente: 
 [[[8.3 9.4 3.2]
  [8.  9.  3. ]]

 [[7.6 4.1 3.2]
  [9.  2.  8. ]]]


In [13]:
#Auswahl von Elementen entlang der zweiten Dimension
print (f"Ursprungsarray: {data_arr_xyz_time}")
print (f"Einzelnes Element: \n {data_arr_xyz_time[:,1]}")
print (f"Mehrere Elemente: \n {data_arr_xyz_time[:,0:1]}")  

Ursprungsarray: [[[8.3 9.4 3.2]
  [8.  9.  3. ]]

 [[6.2 4.3 4. ]
  [5.  3.  4. ]]

 [[7.6 4.1 3.2]
  [9.  2.  8. ]]

 [[8.4 5.2 2.1]
  [4.  8.  1. ]]

 [[7.1 0.6 2.3]
  [2.  1.  1. ]]]
Einzelnes Element: 
 [[8. 9. 3.]
 [5. 3. 4.]
 [9. 2. 8.]
 [4. 8. 1.]
 [2. 1. 1.]]
Mehrere Elemente: 
 [[[8.3 9.4 3.2]]

 [[6.2 4.3 4. ]]

 [[7.6 4.1 3.2]]

 [[8.4 5.2 2.1]]

 [[7.1 0.6 2.3]]]


In [None]:
#Auslesen in allen Dimensionen
print (f"Ursprungsarray: {data_arr_xyz_time}")
print (f"Einzelnes Element ('Start-Ecke'): \n {data_arr_xyz_time[0,0,0]}")
print (f"Einzelnes Element ('End-Ecke'): \n {data_arr_xyz_time[-1,-1,-1]}")
print (f"Mittlere Elemente: \n {data_arr_xyz_time[1:-1,1,1:-1]}") 

Ursprungsarray: [[[8.3 9.4 3.2]
  [8.  9.  3. ]]

 [[6.2 4.3 4. ]
  [5.  3.  4. ]]

 [[7.6 4.1 3.2]
  [9.  2.  8. ]]

 [[8.4 5.2 2.1]
  [4.  8.  1. ]]

 [[7.1 0.6 2.3]
  [2.  1.  1. ]]]
Einzelnes Element ('Start-Ecke'): 
 8.3
Einzelnes Element ('End-Ecke'): 
 1.0
Mittleren Elemente: 
 [[3.]
 [2.]
 [8.]]


## Sortieren und Mengenlehre
NumPy erlaubt auch ein schnelles Soritieren der Arrays. Dabei muss natürlich angegeben werden, in welche "Richtung" sortiert wird. Das erfolgt mit Angabe der **axis**. Default ist (*axis=-1*), also entlang der letzten Dimension.

Bei **eindimensionalen Arrays** sind Methoden analog zu **Sets** möglich; also z.B. Intersect (*np.intersect1d*), eindeutige Werte (*np.unique*).

In [15]:
# eindimensionales sortieren
wuerfel1 = np.random.randint(low=1, high=7, size=(10))
print (f"Würfel 1: {wuerfel1}")
sorted = np.sort(wuerfel1)
print (f"Sort:     {sorted}")

Würfel 1: [4 3 2 1 3 3 5 5 5 1]
Sort:     [1 1 2 3 3 3 4 5 5 5]


In [17]:
# Mehrdimensionales Sortieren
kniffel_wuerfe = np.random.randint(low=1, high=7, size=(3, 6))
print(f"Kniffel Würfe: {kniffel_wuerfe}")
sorted_0 = np.sort(kniffel_wuerfe,axis=0)
print(f"Sortiert die Würfe: {sorted_0}")
sorted_1 = np.sort(kniffel_wuerfe,axis=-1)
print(f"Sortiert innerhalb der Würfe: {sorted_1}")
sorted_none = np.sort(kniffel_wuerfe,axis=None)
print(f"Elementweise: {sorted_none}")

Kniffel Würfe: [[6 3 2 5 4 1]
 [6 6 1 2 4 2]
 [5 1 4 2 4 2]]
Sortiert die Würfe: [[5 1 1 2 4 1]
 [6 3 2 2 4 2]
 [6 6 4 5 4 2]]
Sortiert innerhalb der Würfe: [[1 2 3 4 5 6]
 [1 2 2 4 6 6]
 [1 2 2 4 4 5]]
Elementweise: [1 1 1 2 2 2 2 2 3 4 4 4 4 5 5 6 6 6]


In [18]:
# Setähnliche Operatoren für eindimensionale Arrays
# Auslesen der eindeutigen Werte
eindeutig = np.unique(sorted_none)
print(f"Eindeutige Werte: {eindeutig}")

#intersect
intersect = np.intersect1d(kniffel_wuerfe[0], kniffel_wuerfe[1])
print(f"Wurf 0: {kniffel_wuerfe[0]}")
print(f"Wurf 1: {kniffel_wuerfe[1]}")
print(f"Zahlen in beiden Würfen: {intersect}")


Eindeutige Werte: [1 2 3 4 5 6]
Wurf 0: [6 3 2 5 4 1]
Wurf 1: [6 6 1 2 4 2]
Zahlen in beiden Würfen: [1 2 4 6]


## Vergleiche und Boolsches Indizieren
Neben dem Slicing können auch mit Hilfe eines **boolschen Arrays** Elemente ausgewählt werden. Dabei wird neben den Datenarray auch ein 'Boolsches Array' mit gleicher Grösse verwendet. Alles Elemente, die ein entsprechendes 'True' Element tragen werden selektiert und zurückgegeben.

Zur Erzeugung eines solchen Arrays eignen sich Vergleichsoperatoren wie '==' oder < und >.

In [19]:
import random
# Random Array
rand_array = np.random.rand(10,10)
# Stichprobenraster
select_array = np.zeros((10,10),dtype=bool)
for i in range(10):
    x, y = random.randint(0,9), random.randint(0,9)
    select_array [x,y] = True
print (f"Zufallszahlen: \n {rand_array}")
print (f"Stichprobenarray: \n {select_array}")
print (f"Stichprobenwerte: \n {rand_array[select_array]}")

Zufallszahlen: 
 [[0.56813904 0.57982881 0.23709164 0.90595802 0.29375767 0.98875179
  0.79185701 0.59798183 0.38841944 0.60560528]
 [0.69173193 0.82569785 0.83456377 0.62420551 0.80348928 0.70143399
  0.40852298 0.3378554  0.94309847 0.48430378]
 [0.15889297 0.77636164 0.83481037 0.41092422 0.57128774 0.88498572
  0.02051483 0.31876893 0.60961908 0.85811692]
 [0.89093601 0.07316966 0.36279112 0.3176254  0.96390162 0.57588553
  0.57469387 0.66375699 0.37939433 0.52438583]
 [0.42096648 0.26217948 0.83951295 0.86781153 0.68378681 0.06797171
  0.47719808 0.86642047 0.67153274 0.47981736]
 [0.25714668 0.12739747 0.90944661 0.96488557 0.92686506 0.59389655
  0.0231925  0.46782314 0.7421477  0.26948307]
 [0.72972959 0.40979256 0.39084003 0.7555666  0.21980693 0.2168147
  0.43599432 0.48493899 0.80326543 0.77464149]
 [0.55203082 0.20608382 0.61787352 0.69409485 0.59866408 0.9267859
  0.81207104 0.97086929 0.15160607 0.80127212]
 [0.3291435  0.39421758 0.01231109 0.67796558 0.48457946 0.780414

In [None]:
zahlenstrahl = np.arange(1000)
dreierreihe = (zahlenstrahl%3==0)
print (f"Dreiherreihe: {zahlenstrahl[dreierreihe]}")

## Where
Die where Funktion ermöglicht einfache logische Statements in Arrays (*np.where(Bedingung, Array/Skalar, Array/Skalar*). Jedes Element im Array wird auf eine Bedingung geprüft und dann wird der entsprechende 'Wahr' oder 'Falsch' Wert in das gleichdimensionierte Ergebnisarray eingetragen.

In [20]:
# Grösser - Kleiner
wuerfel1, wuerfel2 = np.random.randint(low=1, high=7, size=(10)), np.random.randint(low=1, high=7, size=(10))

grössteZahl = np.where(np.greater(wuerfel1,wuerfel2),wuerfel1,wuerfel2)
print (f"Würfel1:      {wuerfel1}")
print (f"Würfel2:      {wuerfel2}")
print (f"Grösste Zahl: {grössteZahl}")

Würfel1:      [6 3 1 1 2 2 6 2 6 5]
Würfel2:      [5 1 3 1 6 5 1 4 3 1]
Grösste Zahl: [6 3 3 1 6 5 6 4 6 5]


## Strukturen bearbeiten
Die **Reshape Methode** erlaubt eine sehr schnelle Umstrukturierung von Arrays. Es ist z.B. möglich ein flaches eindimensionales Array in Koordinatenlisten umzuwandeln. Dabei kann eine Dimensionsangabe mit **-1** belegt werden, d.h. diese Achse wird entsprechend gefüllt.

Ein transponiertes Array lässt sich mit **T** erzeugen.

In [21]:
# Reshape
coord_flat = (381880.543000, 5710168.931000, 381881.146000, 5710167.188000, 381884.609000, 5710160.149000, 381968.945000, 5710196.188000, 382062.619000, 5710235.243000)
original = np.array(coord_flat)
print(f"Eindimensional original {original}")
reshape = original.reshape(-1,2)
print (f"Koordinatenpaare: {reshape}")
transpose = reshape.T
print (f"Transponiert: {transpose}")
transpose.reshape(-1)

Eindimensional original [ 381880.543 5710168.931  381881.146 5710167.188  381884.609 5710160.149
  381968.945 5710196.188  382062.619 5710235.243]
Koordinatenpaare: [[ 381880.543 5710168.931]
 [ 381881.146 5710167.188]
 [ 381884.609 5710160.149]
 [ 381968.945 5710196.188]
 [ 382062.619 5710235.243]]
Transponiert: [[ 381880.543  381881.146  381884.609  381968.945  382062.619]
 [5710168.931 5710167.188 5710160.149 5710196.188 5710235.243]]


array([ 381880.543,  381881.146,  381884.609,  381968.945,  382062.619,
       5710168.931, 5710167.188, 5710160.149, 5710196.188, 5710235.243])

## Aufgabe ##

Lesen Sie die Datei 'bev_2018_2022_clean.csv' ein und beantworten Se mit Hilfe von Numpy Arrays folgende Fragen:
- Wie hat sich die Gesamtbevölkerung in Deutschland entwickelt (-> Array von 2018 bis 2022)
- Welcher Landkreis ist absolut - welcher relativ - am stärksten gewachsen (Vergleich 2022 - 2018).

Hinweise:
- Trennen Sie am besten einzelne Funktionen, um die Übersicht zu behalten (z.B. Datenlesen in Listen oder direkt Numpy Arrays; Ermitteln der Gesamtsummen; Ermitteln des absoluzen Maximalwerts, des relativen Maximalwerts)
- Beim Einlesen der Daten können Fehler auftreten - leere Zeilen und '-' anstelle einer 0. Nutzen Sie ggf. try ... exception für den Umgang
- Beachten Sie, dass Numpy nur einheitliche Datentypen in Arrays erlaubt - verwenden Sie ggf. 2 Arrays - für die Daten und für die Namen
- Nutzen Sie auch die Numpy Dokumentation:
    - [Array Erzeugung](https://numpy.org/doc/stable/reference/generated/numpy.array.html#numpy.array)
    - [numpy.sum](https://numpy.org/doc/stable/reference/generated/numpy.sum.html)
    
