# NumPy
[NumPy](https://numpy.org/) ist eine Bibliothek zur Verarbeitung und Berechnung von grossen Vektoren, Arrays, ...

Numpy basiert auf Arrays von Zellen gleichen Typs (!). Sie werden in reservierten Bereichen im Arbeitsspeicher gehalten und sind sehr schnell. Die meisten Operatoren können unmittelbar auf die einzelnen Zellen angewendet werden, ohne dass per loop durch diese iteriert werden muss. 

Bei den meisten Operationen werden keine Datenkopien gezogen, sondern unmittelbar in den Speicherzellen gearbeitet. D.h. es muss besonders auf Nebeneffekte bei der datenmanipulation geachtet werden.

In [1]:
# Ein einfaches Numpy Beispiel - 1 Mio. Multiplikationen als Numpy.Array und als Liste 
import numpy as np
import time

my_arr = np.arange(1000000)
my_list = list(range(1000000))

In [2]:
# Numpy Multiplikation ohne Iteration (Vektorisieren)
start = time.time()
my_arr2 = my_arr*2
end = time.time()
print (f"Numpy Multiplikation: {(end-start)*1000} ms")

Numpy Multiplikation: 4.984140396118164 ms


In [3]:
# Listen Multiplikation als Iteration
start = time.time()
my_list2 =[]
for x in my_list:
    my_list2.append(x*2)
end = time.time()
print (f"List Iteration-Multiplikation: {(end-start)*1000} ms")

List Iteration-Multiplikation: 320.5873966217041 ms


## NumPy Arrays
Arrays sind die zentralen Elemente für NumPy. Ein Array kann beliebig viele Dimensionen haben und die Zellen müssen den gleichen Datentyp aufweisen.

[NumPy Datentypen](https://numpy.org/devdocs/user/basics.types.html) orientieren sich an den C Datentypen un unterscheiden sich daher von den Python Typen:
- np.bool_
- np.int32
- np.int64
- np.float64
- ...

Effizient ist besonders die Initiierung eines Arrays in der kompletten Grösse, da dann der Speicherbereich entsprechend reserviert wird (ein Append ist aber trotzdem möglich).

In [None]:
# Casten aus iterierbaren Datentypen
data_x = [8, 5, 9, 4, 2]
data_arr_x = np.array(data_x)
print(data_arr_x)
print (f"Dimension: {data_arr_x.ndim}")
print (f"Shape: {data_arr_x.shape}")
print (f"Dataype: {data_arr_x.dtype}")

In [None]:
data_y, data_z = [9, 3, 2, 8, 1], [3, 4, 8, 1, 1]
data_xyz = tuple(zip(data_x, data_y, data_z))
data_arr_xyz = np.array(data_xyz)
print(data_arr_xyz)
print (f"Dimension: {data_arr_xyz.ndim}")
print (f"Shape: {data_arr_xyz.shape}")
print (f"Datatype: {data_arr_xyz.dtype}")

In [None]:
data_xyz_time = list(zip(((8.3,9.4,3.2),(6.2,4.3,4.0), (7.6,4.1,3.2), (8.4,5.2,2.1), (7.1,0.6,2.3)), data_xyz))
data_arr_xyz_time = np.array(data_xyz_time)
print(data_arr_xyz_time)
print (f"Dimension: {data_arr_xyz_time.ndim}")
print (f"Shape: {data_arr_xyz_time.shape}")
print (f"Datatype: {data_arr_xyz_time.dtype}")

In [None]:
# Weitere Erzeugungsarten:
# leeres Array (Speicher reserviert ohne Wertzuweisung): 
leer = np.empty((2,3,3))
print (f"leer: {leer}")
# Nuller-Array:
zeros = np.zeros((5))
print (f"zeros: {zeros}")
# Default Belegung
defaults = np.full((3,2), 5)
print (f"defaults: {defaults}")
# Zufalls Array
rand = np.random.rand(2,2,2)
print (f"Zufallszahlen: {rand}")


## Operatoren
Eine besondere Stärke von NumPy liegt in der Anwendung von Operatoren auf jedes (oder ausgewählte) Elemente eines Arrays **ohne** Iteratoren. Diese Eigenschaft wird *Vektorisierung* genannt (im Hintergrund läuft eine viel schnellere C Schleife).
- Skalare Operatoren (einfache Rechenoperationen für jedes Element)
- unäre Operatoren
- binäre Operatoren 

In [None]:
# Skalare Operationen
new_x = data_arr_x *3
print (f"old numpy array: {data_arr_x}")
print (f"new numpy array: {new_x}")

In [None]:
# unäre operatoren
print ("Unäre Operatoren")
print (f"Square:  {np.square(new_x)}")
print (f"Squareroot:  {np.sqrt(new_x)}")
print (f"Floor von Sqrt: {np.floor(np.sqrt(new_x))}")
print (f"Sinus:  {np.sin(new_x)}")
print ("...")

# oder eigene Funktionen
print ("Eigene unäre Funktionen")
def eins_plus (x):
    return x+1
print (f"Eine unäre Funktion: {eins_plus(new_x)}")
un_funk = lambda x:x**2-1
print (f"Eine Lambda Funktion:  {un_funk(new_x)}")
print("...")

# binäre operatoren
print ("Binäre Operatoren")
print (f"Add:  {np.add(new_x, data_arr_x)}")
print (f"Maximum: {np.maximum(new_x, data_arr_x)}")
print (f"Greater Equal: {np.greater_equal(new_x, data_arr_x)}")
print (f"Less: {np.less(new_x, data_arr_x)}")
print (f"XOR: {np.logical_xor(np.less(new_x, data_arr_x),np.greater_equal(new_x, data_arr_x))}")
print ("...")

def fast_a_plus_b (x,y):
    return x+y-1
print (f"Eine binäre Funktion: {fast_a_plus_b(new_x, data_arr_x)}")
bi_funk = lambda x,y:x+y-1

print (f"Eine Lambda Funktion:  {bi_funk(new_x, data_arr_x)}")
print("...")

## Slicing
Slicing Operatoren sind analog zu normalen iterierbaren Datentypen. Es wird aber stets nur eine **Referenz** auf die originären Daten zurückgeliefert! Möchten Sie die Slicing Daten weiterverarbeiten ohne die Originaldaten zu verändern, müssen Sie eine Kopie erstellen (*array.copy()*).

In [None]:
# Slicing 1-D
element = new_x[-2:-5:-2]
print (f"Beliebiges Slicing : {element}")
element *=3
print (f"Ändern des Ergebnisses : {element}")
print (f"Achtung: Geänderte Ursprungsdaten: {new_x}")

# Alternative mit Copy
element_copy = new_x[-2:-5:-2].copy()
print (f"Kopierte Elemente : {element_copy}")
element_copy *=2
print (f"Geänderte Ergebnisse im Copy Array : {element_copy}")
print (f"Unveränderte Ursprungsdaten: {new_x}")

In [None]:
# Slicing Mehrdimensional
# Auswahl von Elementen entlang der ersten Dimension
print (f"Ursprungsarray: {data_arr_xyz_time}")
print (f"Einzelnes Element: \n {data_arr_xyz_time[1]}")
print (f"Mehrere Elemente: \n {data_arr_xyz_time[0:3:2]}")  

In [None]:
#Auswahl von Elementen entlang der zweiten Dimension
print (f"Ursprungsarray: {data_arr_xyz_time}")
print (f"Einzelnes Element: \n {data_arr_xyz_time[:,1]}")
print (f"Mehrere Elemente: \n {data_arr_xyz_time[:,0:1]}")  

In [None]:
#Auslesen in allen Dimensionen
print (f"Ursprungsarray: {data_arr_xyz_time}")
print (f"Einzelnes Element ('Start-Ecke'): \n {data_arr_xyz_time[0,0,0]}")
print (f"Einzelnes Element ('End-Ecke'): \n {data_arr_xyz_time[-1,-1,-1]}")
print (f"Mittleren Elemente: \n {data_arr_xyz_time[1:-1,1,1:-1]}") 

## Sortieren und Mengenlehre
NumPy erlaubt auch ein schnelles Soritieren der Arrays. Dabei muss natürlich angegeben werden, in welche "Richtung" sortiert wird. Das erfolgt mit Angabe der **axis**. Default ist (*axis=-1*), also entlang der letzten Dimension.

Bei **eindimensionalen Arrays** sind Methoden analog zu **Sets** möglich; also z.B. Intersect (*np.intersect1d*), eindeutige Werte (*np.unique*).

In [None]:
# eindimensionales sortieren
wuerfel1 = np.random.randint(low=1, high=7, size=(10))
print (f"Würfel 1: {wuerfel1}")
sorted = np.sort(wuerfel1)
print (f"Sort:     {sorted}")

In [None]:
# Mehrdimensionales Sortieren
kniffel_wuerfe = np.random.randint(low=1, high=7, size=(3, 6))
print(f"Kniffel Würfe: {kniffel_wuerfe}")
sorted_0 = np.sort(kniffel_wuerfe,axis=0)
print(f"Sortiert die Würfe: {sorted_0}")
sorted_1 = np.sort(kniffel_wuerfe,axis=-1)
print(f"Sortiert innerhalb der Würfe: {sorted_1}")
sorted_none = np.sort(kniffel_wuerfe,axis=None)
print(f"Elementweise: {sorted_none}")

In [None]:
# Setähnliche Operatoren für eindimensionale Arrays
# Auslesen der eindeutigen Werte
eindeutig = np.unique(sorted_none)
print(f"Eindeutige Werte: {eindeutig}")

#intersect
intersect = np.intersect1d(kniffel_wuerfe[0], kniffel_wuerfe[1])
print(f"Wurf 0: {kniffel_wuerfe[0]}")
print(f"Wurf 1: {kniffel_wuerfe[1]}")
print(f"Zahlen in beiden Würfen: {intersect}")


## Vergleiche und Boolsches Indizieren
Neben dem Slicing können auch mit Hilfe eines **boolschen Arrays** Elemente ausgewählt werden. Dabei wird neben den Datenarray auch ein 'Boolsches Array' mit gleicher Grösse verwendet. Alles Elemente, die ein entsprechendes 'True' Element tragen werden selektiert und zurückgegeben.

Zur Erzeugung eines solchen Arrays eignen sich Vergleichsoperatoren wie '==' oder < und >.

In [None]:
import random
# Random Array
rand_array = np.random.rand(10,10)
# Stichprobenraster
select_array = np.zeros((10,10),dtype=bool)
for i in range(10):
    x, y = random.randint(0,9), random.randint(0,9)
    select_array [x,y] = True
print (f"Zufallszahlen: \n {rand_array}")
print (f"Stichprobenarray: \n {select_array}")
print (f"Stichprobenwerte: \n {rand_array[select_array]}")

In [None]:
zahlenstrahl = np.arange(1000)
dreierreihe = (zahlenstrahl%3==0)
print (f"Dreiherreihe: {zahlenstrahl[dreierreihe]}")

## Where
Die where Funktion ermöglicht einfache logische Statements in Arrays (*np.where(Bedingung, Array/Skalar, Array/Skalar*). Jedes Element im Array wird auf eine Bedingung geprüft und dann wird der entsprechende 'Wahr' oder 'Falsch' Wert in das gleichdimensionierte Ergebnisarray eingetragen.

In [None]:
# Grösser - Kleiner
wuerfel1, wuerfel2 = np.random.randint(low=1, high=7, size=(10)), np.random.randint(low=1, high=7, size=(10))

grössteZahl = np.where(np.greater(wuerfel1,wuerfel2),wuerfel1,wuerfel2)
print (f"Würfel1:      {wuerfel1}")
print (f"Würfel2:      {wuerfel2}")
print (f"Grösste Zahl: {grössteZahl}")

## Strukturen bearbeiten
Die **Reshape Methode** erlaubt eine sehr schnelle Umstrukturierung von Arrays. Es ist z.B. möglich ein flaches eindimensionales Array in Koordinatenlisten umzuwandeln. Dabei kann eine Dimensionsangabe mit **-1** belegt werden, d.h. diese Achse wird entsprechend gefüllt.

Ein transponiertes Array lässt sich mit **T** erzeugen.

In [None]:
# Reshape
coord_flat = (381880.543000, 5710168.931000, 381881.146000, 5710167.188000, 381884.609000, 5710160.149000, 381968.945000, 5710196.188000, 382062.619000, 5710235.243000)

reshape = np.array(coord_flat).reshape(-1,2)
print (f"Koordinatenpaare: {reshape}")
transpose = reshape.T
print (f"Transponiert: {transpose}")
transpose.reshape(-1)

## Aufgabe ##

Lesen Sie die Datei 'bev_2012_2016_clean.csv' ein und beantworten Se mit Hilfe von Numpy Arrays folgende Fragen:
- Wie hat sich die Gesamtbevölkerung in Deutschland entwickelt (-> Array von 2012 bis 2016)
- Welcher Landkreis ist absolut - welcher relativ - am stärksten gewachsen (Vergleich 2016 - 2012). Beachten Sie dabei, dass für einige Landkreise (aufgrund organisatorischer Änderungen) keine direkten Daten für 2012 vorliegen. Diese Landkreise dürfen nicht berücksichtigt werden. 

In [5]:
# Aufgabe
import numpy as np


filename= 'bev_2012_2016_clean.csv'
