# NumPy
[NumPy](https://numpy.org/) ist eine Bibliothek zur Verarbeitung und Berechnung von grossen Vektoren, Arrays, ...

Numpy basiert auf Arrays von Zellen gleichen Typs (!). Sie werden in reservierten Bereichen im Arbeitsspeicher gehalten und sind sehr schnell. Die meisten Operatoren können unmittelbar auf die einzelnen Zellen angewendet werden, ohne dass per loop durch diese iteriert werden muss. 

Bei den meisten Operationen werden keine Datenkopien gezogen, sondern unmittelbar in den Speicherzellen gearbeitet. D.h. es muss besonders auf Nebeneffekte bei der datenmanipulation geachtet werden.

In [2]:
# Ein einfaches Numpy Beispiel - 1 Mio. Multiplikationen als Numpy.Array und als Liste 
import numpy as np
import time

my_arr = np.arange(1000000)
my_list = list(range(1000000))

In [2]:
# Numpy Multiplikation ohne Iteration (Vektorisieren)
start = time.time()
my_arr2 = my_arr*2
end = time.time()
print (f"Numpy Multiplikation: {(end-start)*1000} ms")

Numpy Multiplikation: 4.936456680297852 ms


In [3]:
# Listen Multiplikation als Iteration
start = time.time()
my_list2 =[]
for x in my_list:
    my_list2.append(x*2)
end = time.time()
print (f"List Iteration-Multiplikation: {(end-start)*1000} ms")

List Iteration-Multiplikation: 329.7238349914551 ms


## NumPy Arrays
Arrays sind die zentralen Elemente für NumPy. Ein Array kann beliebig viele Dimensionen haben und die Zellen müssen den gleichen Datentyp aufweisen.

[NumPy Datentypen](https://numpy.org/devdocs/user/basics.types.html) orientieren sich an den C Datentypen un unterscheiden sich daher von den Python Typen:
- np.bool_
- np.int32
- np.int64
- np.float64
- ...

Effizient ist besonders die Initiierung eines Arrays in der kompletten Grösse, da dann der Speicherbereich entsprechend reserviert wird (ein Append ist aber trotzdem möglich).

In [12]:
# Casten aus iterierbaren Datentypen
data_x = [8, 5, 9, 4, 2]
data_arr_x = np.array(data_x)
print(data_arr_x)
print (f"Dimension: {data_arr_x.ndim}")
print (f"Shape: {data_arr_x.shape}")
print (f"Dataype: {data_arr_x.dtype}")

[8 5 9 4 2]
Dimension: 1
Shape: (5,)
Dataype: int32


In [13]:
data_y, data_z = [9, 3, 2, 8, 1], [3, 4, 8, 1, 1]
data_xyz = tuple(zip(data_x, data_y, data_z))
data_arr_xyz = np.array(data_xyz)
print(data_arr_xyz)
print (f"Dimension: {data_arr_xyz.ndim}")
print (f"Shape: {data_arr_xyz.shape}")
print (f"Datatype: {data_arr_xyz.dtype}")

[[8 9 3]
 [5 3 4]
 [9 2 8]
 [4 8 1]
 [2 1 1]]
Dimension: 2
Shape: (5, 3)
Datatype: int32


In [8]:
data_xyz_time = list(zip(((8.3,9.4,3.2),(6.2,4.3,4.0), (7.6,4.1,3.2), (8.4,5.2,2.1), (7.1,0.6,2.3)), data_xyz))
data_arr_xyz_time = np.array(data_xyz_time)
print(data_arr_xyz_time)
print (f"Dimension: {data_arr_xyz_time.ndim}")
print (f"Shape: {data_arr_xyz_time.shape}")
print (f"Datatype: {data_arr_xyz_time.dtype}")

[[[8.3 9.4 3.2]
  [8.  9.  3. ]]

 [[6.2 4.3 4. ]
  [5.  3.  4. ]]

 [[7.6 4.1 3.2]
  [9.  2.  8. ]]

 [[8.4 5.2 2.1]
  [4.  8.  1. ]]

 [[7.1 0.6 2.3]
  [2.  1.  1. ]]]
Dimension: 3
Shape: (5, 2, 3)
Datatype: float64


In [3]:
# Weitere Erzeugungsarten:
# leeres Array (Speicher reserviert ohne Wertzuweisung): 
leer = np.empty((2,3,3))
print (f"leer: {leer}")
# Nuller-Array:
zeros = np.zeros((5))
print (f"zeros: {zeros}")
# Default Belegung
defaults = np.full((3,2), 5)
print (f"defaults: {defaults}")
# Zufalls Array
rand = np.random.rand(2,2,2)
print (f"Zufallszahlen: {rand}")


leer: [[[2.00272265e-307 1.86920328e-306 1.86916390e-306]
  [6.89807188e-307 8.90071984e-308 1.42417221e-306]
  [1.37961641e-306 9.34610469e-307 1.02360867e-306]]

 [[1.42417221e-306 1.37961641e-306 1.37961234e-306]
  [1.42420617e-306 1.60219035e-306 8.01097889e-307]
  [1.33512308e-306 9.79103798e-307 1.24610927e-306]]]
zeros: [0. 0. 0. 0. 0.]
defaults: [[5 5]
 [5 5]
 [5 5]]
Zufallszahlen: [[[0.04956488 0.9185887 ]
  [0.86010574 0.24534802]]

 [[0.85025047 0.43460743]
  [0.96882647 0.6232179 ]]]


## Operatoren
Eine besondere Stärke von NumPy liegt in der Anwendung von Operatoren auf jedes (oder ausgewählte) Elemente eines Arrays **ohne** Iteratoren. Diese Eigenschaft wird *Vektorisierung* genannt (im Hintergrund läuft eine viel schnellere C Schleife).
- Skalare Operatoren (einfache Rechenoperationen für jedes Element)
- unäre Operatoren
- binäre Operatoren 

In [14]:
# Skalare Operationen
new_x = data_arr_x *3
print (f"old numpy array: {data_arr_x}")
print (f"new numpy array: {new_x}")

old numpy array: [8 5 9 4 2]
new numpy array: [24 15 27 12  6]


In [15]:
# unäre operatoren
print ("Unäre Operatoren")
print (f"Square:  {np.square(new_x)}")
print (f"Squareroot:  {np.sqrt(new_x)}")
print (f"Floor von Sqrt: {np.floor(np.sqrt(new_x))}")
print (f"Sinus:  {np.sin(new_x)}")
print ("...")

# oder eigene Funktionen
print ("Eigene unäre Funktionen")
def eins_plus (x):
    return x+1
print (f"Eine unäre Funktion: {eins_plus(new_x)}")
un_funk = lambda x:x**2-1
print (f"Eine Lambda Funktion:  {un_funk(new_x)}")
print("...")

# binäre operatoren
print ("Binäre Operatoren")
print (f"Add:  {np.add(new_x, data_arr_x)}")
print (f"Maximum: {np.maximum(new_x, data_arr_x)}")
print (f"Greater Equal: {np.greater_equal(new_x, data_arr_x)}")
print (f"Less: {np.less(new_x, data_arr_x)}")
print (f"XOR: {np.logical_xor(np.less(new_x, data_arr_x),np.greater_equal(new_x, data_arr_x))}")
print ("...")

def fast_a_plus_b (x,y):
    return x+y-1
print (f"Eine binäre Funktion: {fast_a_plus_b(new_x, data_arr_x)}")
bi_funk = lambda x,y:x+y-1

print (f"Eine Lambda Funktion:  {bi_funk(new_x, data_arr_x)}")
print("...")

Unäre Operatoren
Square:  [576 225 729 144  36]
Squareroot:  [4.89897949 3.87298335 5.19615242 3.46410162 2.44948974]
Floor von Sqrt: [4. 3. 5. 3. 2.]
Sinus:  [-0.90557836  0.65028784  0.95637593 -0.53657292 -0.2794155 ]
...
Eigene unäre Funktionen
Eine unäre Funktion: [25 16 28 13  7]
Eine Lambda Funktion:  [575 224 728 143  35]
...
Binäre Operatoren
Add:  [32 20 36 16  8]
Maximum: [24 15 27 12  6]
Greater Equal: [ True  True  True  True  True]
Less: [False False False False False]
XOR: [ True  True  True  True  True]
...
Eine binäre Funktion: [31 19 35 15  7]
Eine Lambda Funktion:  [31 19 35 15  7]
...


## Slicing
Slicing Operatoren sind analog zu normalen iterierbaren Datentypen. Es wird aber stets nur eine **Referenz** auf die originären Daten zurückgeliefert! Möchten Sie die Slicing Daten weiterverarbeiten ohne die Originaldaten zu verändern, müssen Sie eine Kopie erstellen (*array.copy()*).

In [16]:
# Slicing 1-D
element = new_x[-2:-5:-2]
print (f"Beliebiges Slicing : {element}")
element *=3
print (f"Ändern des Ergebnisses : {element}")
print (f"Achtung: Geänderte Ursprungsdaten: {new_x}")

# Alternative mit Copy
element_copy = new_x[-2:-5:-2].copy()
print (f"Kopierte Elemente : {element_copy}")
element_copy *=2
print (f"Geänderte Ergebnisse im Copy Array : {element_copy}")
print (f"Unveränderte Ursprungsdaten: {new_x}")

Beliebiges Slicing : [12 15]
Ändern des Ergebnisses : [36 45]
Achtung: Geänderte Ursprungsdaten: [24 45 27 36  6]
Kopierte Elemente : [36 45]
Geänderte Ergebnisse im Copy Array : [72 90]
Unveränderte Ursprungsdaten: [24 45 27 36  6]


In [17]:
# Slicing Mehrdimensional
# Auswahl von Elementen entlang der ersten Dimension
print (f"Ursprungsarray: {data_arr_xyz_time}")
print (f"Einzelnes Element: \n {data_arr_xyz_time[1]}")
print (f"Mehrere Elemente: \n {data_arr_xyz_time[0:3:2]}")  

Ursprungsarray: [[[8.3 9.4 3.2]
  [8.  9.  3. ]]

 [[6.2 4.3 4. ]
  [5.  3.  4. ]]

 [[7.6 4.1 3.2]
  [9.  2.  8. ]]

 [[8.4 5.2 2.1]
  [4.  8.  1. ]]

 [[7.1 0.6 2.3]
  [2.  1.  1. ]]]
Einzelnes Element: 
 [[6.2 4.3 4. ]
 [5.  3.  4. ]]
Mehrere Elemente: 
 [[[8.3 9.4 3.2]
  [8.  9.  3. ]]

 [[7.6 4.1 3.2]
  [9.  2.  8. ]]]


In [18]:
#Auswahl von Elementen entlang der zweiten Dimension
print (f"Ursprungsarray: {data_arr_xyz_time}")
print (f"Einzelnes Element: \n {data_arr_xyz_time[:,1]}")
print (f"Mehrere Elemente: \n {data_arr_xyz_time[:,0:1]}")  

Ursprungsarray: [[[8.3 9.4 3.2]
  [8.  9.  3. ]]

 [[6.2 4.3 4. ]
  [5.  3.  4. ]]

 [[7.6 4.1 3.2]
  [9.  2.  8. ]]

 [[8.4 5.2 2.1]
  [4.  8.  1. ]]

 [[7.1 0.6 2.3]
  [2.  1.  1. ]]]
Einzelnes Element: 
 [[8. 9. 3.]
 [5. 3. 4.]
 [9. 2. 8.]
 [4. 8. 1.]
 [2. 1. 1.]]
Mehrere Elemente: 
 [[[8.3 9.4 3.2]]

 [[6.2 4.3 4. ]]

 [[7.6 4.1 3.2]]

 [[8.4 5.2 2.1]]

 [[7.1 0.6 2.3]]]


In [19]:
#Auslesen in allen Dimensionen
print (f"Ursprungsarray: {data_arr_xyz_time}")
print (f"Einzelnes Element ('Start-Ecke'): \n {data_arr_xyz_time[0,0,0]}")
print (f"Einzelnes Element ('End-Ecke'): \n {data_arr_xyz_time[-1,-1,-1]}")
print (f"Mittleren Elemente: \n {data_arr_xyz_time[1:-1,1,1:-1]}") 

Ursprungsarray: [[[8.3 9.4 3.2]
  [8.  9.  3. ]]

 [[6.2 4.3 4. ]
  [5.  3.  4. ]]

 [[7.6 4.1 3.2]
  [9.  2.  8. ]]

 [[8.4 5.2 2.1]
  [4.  8.  1. ]]

 [[7.1 0.6 2.3]
  [2.  1.  1. ]]]
Einzelnes Element ('Start-Ecke'): 
 8.3
Einzelnes Element ('End-Ecke'): 
 1.0
Mittleren Elemente: 
 [[3.]
 [2.]
 [8.]]


## Sortieren und Mengenlehre
NumPy erlaubt auch ein schnelles Soritieren der Arrays. Dabei muss natürlich angegeben werden, in welche "Richtung" sortiert wird. Das erfolgt mit Angabe der **axis**. Default ist (*axis=-1*), also entlang der letzten Dimension.

Bei **eindimensionalen Arrays** sind Methoden analog zu **Sets** möglich; also z.B. Intersect (*np.intersect1d*), eindeutige Werte (*np.unique*).

In [20]:
# eindimensionales sortieren
wuerfel1 = np.random.randint(low=1, high=7, size=(10))
print (f"Würfel 1: {wuerfel1}")
sorted = np.sort(wuerfel1)
print (f"Sort:     {sorted}")

Würfel 1: [2 5 6 5 3 6 3 6 1 4]
Sort:     [1 2 3 3 4 5 5 6 6 6]


In [25]:
# Mehrdimensionales Sortieren
kniffel_wuerfe = np.random.randint(low=1, high=7, size=(3, 6))
print(f"Kniffel Würfe: {kniffel_wuerfe}")
sorted_0 = np.sort(kniffel_wuerfe,axis=0)
print(f"Sortiert die Würfe: {sorted_0}")
sorted_1 = np.sort(kniffel_wuerfe,axis=-1)
print(f"Sortiert innerhalb der Würfe: {sorted_1}")
sorted_none = np.sort(kniffel_wuerfe,axis=None)
print(f"Elementweise: {sorted_none}")

Kniffel Würfe: [[1 2 5 4 1 5]
 [2 5 5 1 5 6]
 [5 5 5 5 5 5]]
Sortiert die Würfe: [[1 2 5 1 1 5]
 [2 5 5 4 5 5]
 [5 5 5 5 5 6]]
Sortiert innerhalb der Würfe: [[1 1 2 4 5 5]
 [1 2 5 5 5 6]
 [5 5 5 5 5 5]]
Elementweise: [1 1 1 2 2 4 5 5 5 5 5 5 5 5 5 5 5 6]


In [26]:
# Setähnliche Operatoren für eindimensionale Arrays
# Auslesen der eindeutigen Werte
eindeutig = np.unique(sorted_none)
print(f"Eindeutige Werte: {eindeutig}")

#intersect
intersect = np.intersect1d(kniffel_wuerfe[0], kniffel_wuerfe[1])
print(f"Wurf 0: {kniffel_wuerfe[0]}")
print(f"Wurf 1: {kniffel_wuerfe[1]}")
print(f"Zahlen in beiden Würfen: {intersect}")


Eindeutige Werte: [1 2 4 5 6]
Wurf 0: [1 2 5 4 1 5]
Wurf 1: [2 5 5 1 5 6]
Zahlen in beiden Würfen: [1 2 5]


## Vergleiche und Boolsches Indizieren
Neben dem Slicing können auch mit Hilfe eines **boolschen Arrays** Elemente ausgewählt werden. Dabei wird neben den Datenarray auch ein 'Boolsches Array' mit gleicher Grösse verwendet. Alles Elemente, die ein entsprechendes 'True' Element tragen werden selektiert und zurückgegeben.

Zur Erzeugung eines solchen Arrays eignen sich Vergleichsoperatoren wie '==' oder < und >.

In [29]:
import random
# Random Array
rand_array = np.random.rand(10,10)
# Stichprobenraster
select_array = np.zeros((10,10),dtype=bool)
for i in range(10):
    x, y = random.randint(0,9), random.randint(0,9)
    select_array [x,y] = True
print (f"Zufallszahlen: \n {rand_array}")
print (f"Stichprobenarray: \n {select_array}")
print (f"Stichprobenwerte: \n {rand_array[select_array]}")

Zufallszahlen: 
 [[0.19364023 0.55804767 0.03159962 0.94354233 0.90938297 0.04633574
  0.48525642 0.40963781 0.58777393 0.0205495 ]
 [0.51961766 0.54742049 0.32999262 0.09607541 0.89758303 0.17000562
  0.31886252 0.08921461 0.22334256 0.2355015 ]
 [0.31203178 0.14037043 0.03673627 0.50287022 0.5004006  0.85154474
  0.49621887 0.33133997 0.18527758 0.86109259]
 [0.59747033 0.63587643 0.99610723 0.99312381 0.26090261 0.5688581
  0.97587434 0.61968703 0.48108629 0.48350523]
 [0.45292948 0.30658853 0.77918702 0.51167758 0.57475444 0.07273164
  0.55004924 0.93635948 0.64367035 0.38764289]
 [0.74734385 0.48242298 0.70079382 0.99048177 0.00169972 0.43560041
  0.45790409 0.88601484 0.88255175 0.25066937]
 [0.4376037  0.16510397 0.90600172 0.11660009 0.38707343 0.02618646
  0.8991925  0.65178049 0.54407098 0.9016626 ]
 [0.42267029 0.73309631 0.7404784  0.02793328 0.69955935 0.07773269
  0.64866827 0.36902981 0.524991   0.3506828 ]
 [0.11782744 0.80341827 0.6235411  0.96971918 0.4959306  0.43560

In [30]:
zahlenstrahl = np.arange(1000)
dreierreihe = (zahlenstrahl%3==0)
print (f"Dreiherreihe: {zahlenstrahl[dreierreihe]}")

Dreiherreihe: [  0   3   6   9  12  15  18  21  24  27  30  33  36  39  42  45  48  51
  54  57  60  63  66  69  72  75  78  81  84  87  90  93  96  99 102 105
 108 111 114 117 120 123 126 129 132 135 138 141 144 147 150 153 156 159
 162 165 168 171 174 177 180 183 186 189 192 195 198 201 204 207 210 213
 216 219 222 225 228 231 234 237 240 243 246 249 252 255 258 261 264 267
 270 273 276 279 282 285 288 291 294 297 300 303 306 309 312 315 318 321
 324 327 330 333 336 339 342 345 348 351 354 357 360 363 366 369 372 375
 378 381 384 387 390 393 396 399 402 405 408 411 414 417 420 423 426 429
 432 435 438 441 444 447 450 453 456 459 462 465 468 471 474 477 480 483
 486 489 492 495 498 501 504 507 510 513 516 519 522 525 528 531 534 537
 540 543 546 549 552 555 558 561 564 567 570 573 576 579 582 585 588 591
 594 597 600 603 606 609 612 615 618 621 624 627 630 633 636 639 642 645
 648 651 654 657 660 663 666 669 672 675 678 681 684 687 690 693 696 699
 702 705 708 711 714 717 720 723 726 

## Where
Die where Funktion ermöglicht einfache logische Statements in Arrays (*np.where(Bedingung, Array/Skalar, Array/Skalar*). Jedes Element im Array wird auf eine Bedingung geprüft und dann wird der entsprechende 'Wahr' oder 'Falsch' Wert in das gleichdimensionierte Ergebnisarray eingetragen.

In [31]:
# Grösser - Kleiner
wuerfel1, wuerfel2 = np.random.randint(low=1, high=7, size=(10)), np.random.randint(low=1, high=7, size=(10))

grössteZahl = np.where(np.greater(wuerfel1,wuerfel2),wuerfel1,wuerfel2)
print (f"Würfel1:      {wuerfel1}")
print (f"Würfel2:      {wuerfel2}")
print (f"Grösste Zahl: {grössteZahl}")

Würfel1:      [3 6 4 6 1 4 2 5 6 5]
Würfel2:      [3 5 6 2 5 5 4 2 6 2]
Grösste Zahl: [3 6 6 6 5 5 4 5 6 5]


## Strukturen bearbeiten
Die **Reshape Methode** erlaubt eine sehr schnelle Umstrukturierung von Arrays. Es ist z.B. möglich ein flaches eindimensionales Array in Koordinatenlisten umzuwandeln. Dabei kann eine Dimensionsangabe mit **-1** belegt werden, d.h. diese Achse wird entsprechend gefüllt.

Ein transponiertes Array lässt sich mit **T** erzeugen.

In [38]:
# Reshape
coord_flat = (381880.543000, 5710168.931000, 381881.146000, 5710167.188000, 381884.609000, 5710160.149000, 381968.945000, 5710196.188000, 382062.619000, 5710235.243000)

reshape = np.array(coord_flat).reshape(-1,2)
print (f"Koordinatenpaare: {reshape}")
transpose = reshape.T
print (f"Transponiert: {transpose}")
transpose.reshape(-1)

Koordinatenpaare: [[ 381880.543 5710168.931]
 [ 381881.146 5710167.188]
 [ 381884.609 5710160.149]
 [ 381968.945 5710196.188]
 [ 382062.619 5710235.243]]
Transponiert: [[ 381880.543  381881.146  381884.609  381968.945  382062.619]
 [5710168.931 5710167.188 5710160.149 5710196.188 5710235.243]]


array([ 381880.543,  381881.146,  381884.609,  381968.945,  382062.619,
       5710168.931, 5710167.188, 5710160.149, 5710196.188, 5710235.243])

## Aufgabe ##

Lesen Sie die Datei 'bev_2012_2016_clean.csv' ein und beantworten Se mit Hilfe von Numpy Arrays folgende Fragen:
- Wie hat sich die Gesamtbevölkerung in Deutschland entwickelt (-> Array von 2012 bis 2016)
- Welcher Landkreis ist absolut - welcher relativ - am stärksten gewachsen (Vergleich 2016 - 2012). Beachten Sie dabei, dass für einige Landkreise (aufgrund organisatorischer Änderungen) keine direkten Daten für 2012 vorliegen. Diese Landkreise dürfen nicht berücksichtigt werden. 

In [1]:
# Aufgabe
import numpy as np
# Öffnen der Datei 
def file_loader (filename):
    names, codes, pop = [],[],[]
    with open(filename, 'rt', encoding='utf-8') as pop_file:
        for pop_line in pop_file:
            pop_line_string = pop_line.strip()
            pop_record = pop_line_string.split(';')
            codes.append(pop_record[0])
            names.append(pop_record[1])
            pop_dev = np.array((pop_record[2], pop_record[3], pop_record[4], pop_record[5], pop_record[6]))
            pop.append(np.where(pop_dev=='-',0,pop_dev))       
    return (codes, names, pop)

file_content = file_loader('bev_2012_2016_clean.csv')
codes_array = np.array(file_content[0])
names_array = np.array(file_content[1])
pop_array = np.array(file_content[2],dtype='float64')

def gesamt_entwicklung (pop_array):
    return np.sum(pop_array, axis=0)

def absolutes_wachstum (pop_array, names_array):
    year_12 = pop_array[:,0] 
    year_16 = pop_array [:,-1]
    diff_array = np.where(year_12==0,0, year_16 - year_12)
    max_wachst = diff_array.max()
    max_kreis = names_array[diff_array==max_wachst][0]
    return (max_kreis, max_wachst)

def relatives_wachstum (pop_array, names_array):
    year_12 = pop_array[:,0] 
    year_16 = pop_array [:,-1]
    diff_array = np.where(year_12==0,0, (year_16-year_12)/(year_12)) # blöder rundungsfehler??
    max_wachst = diff_array.max()
    max_kreis = names_array[diff_array==max_wachst][0]
    return (max_kreis, max_wachst)

# Gesamtentwicklung pro Jahr
print (f"Gesamtentwicklung: {gesamt_entwicklung (pop_array)}")
print(absolutes_wachstum(pop_array, names_array))
print(relatives_wachstum(pop_array, names_array))


#print(codes_array)
#print(names_array)
#print(pop_array)


Gesamtentwicklung: [80523746. 80767463. 81197537. 82175684. 82521653.]
('Berlin', 199608.0)
('Leipzig', 0.0964791355469455)


  diff_array = np.where(year_12==0,0, (year_16-year_12)/(year_12)) # blöder rundungsfehler??
  diff_array = np.where(year_12==0,0, (year_16-year_12)/(year_12)) # blöder rundungsfehler??
