# Teil 9: Bibliothek `numpy`

Python-Listen sind einfach und praktisch. Allerdings nehmen Sie viel Platz und sind langsam. Auch Anzahl der Operationen an Ihnen ist limitiert. Um z.B. technische Daten zu bearbeiten eignet sich `numpy` und seine Vektoren. Numpy ist in c/Fortran geschrieben, daher sind seine Elemente kleiner und Opertionen an Ihnen schneller. 

Eine Beschreibung aller Funktionen findet man hier: https://numpy.org/doc/stable/  

Wie jede Bibliothek muss numpy erst ins IDE eingebunden sein, und danach in Programm importiert:

In [1]:
import numpy as np # as =  alias, um kürzer zu schreiben.

## numpy - Vektoren erstellen mit `np.array()` 

mit der np.array - Funktion, in der eine Liste reingeschrieben wird:

In [6]:
np.array([1,2,3])
a  = np.array([1,2,3,4,5,6,7,8])
a

array([1, 2, 3, 4, 5, 6, 7, 8])

In [8]:
a.dtype # daten typ für np

dtype('int32')

**Alle numerischen Datentypen in numpy**   
kann man in https://numpy.org/doc/stable/user/basics.types.html nachschauen.

In [11]:
b  = np.array([1,2,3,4,"a"])
b.dtype

dtype('<U11')

## numpy-Vektoren erstellen mit `np.arange()`
ähnlich wie beim Listen range(a,z,i): von a bis z je i 

In [12]:
np.arange(20, 1, -1)

array([20, 19, 18, 17, 16, 15, 14, 13, 12, 11, 10,  9,  8,  7,  6,  5,  4,
        3,  2])

In [13]:
li = list(range(20, 1, -1))
li

[20, 19, 18, 17, 16, 15, 14, 13, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2]

In [14]:
c = np.arange(2.2, 10.2,.2)
c

array([ 2.2,  2.4,  2.6,  2.8,  3. ,  3.2,  3.4,  3.6,  3.8,  4. ,  4.2,
        4.4,  4.6,  4.8,  5. ,  5.2,  5.4,  5.6,  5.8,  6. ,  6.2,  6.4,
        6.6,  6.8,  7. ,  7.2,  7.4,  7.6,  7.8,  8. ,  8.2,  8.4,  8.6,
        8.8,  9. ,  9.2,  9.4,  9.6,  9.8, 10. ])

## numpy-Vektoren erstellen mit `np.linspace()` inklusive Ende!

In [20]:
np.linspace(1,100,100) # liste 1 - 100 mit 100 elemente

array([  1.,   2.,   3.,   4.,   5.,   6.,   7.,   8.,   9.,  10.,  11.,
        12.,  13.,  14.,  15.,  16.,  17.,  18.,  19.,  20.,  21.,  22.,
        23.,  24.,  25.,  26.,  27.,  28.,  29.,  30.,  31.,  32.,  33.,
        34.,  35.,  36.,  37.,  38.,  39.,  40.,  41.,  42.,  43.,  44.,
        45.,  46.,  47.,  48.,  49.,  50.,  51.,  52.,  53.,  54.,  55.,
        56.,  57.,  58.,  59.,  60.,  61.,  62.,  63.,  64.,  65.,  66.,
        67.,  68.,  69.,  70.,  71.,  72.,  73.,  74.,  75.,  76.,  77.,
        78.,  79.,  80.,  81.,  82.,  83.,  84.,  85.,  86.,  87.,  88.,
        89.,  90.,  91.,  92.,  93.,  94.,  95.,  96.,  97.,  98.,  99.,
       100.])

## numpy-Vektoren erstellen mit `np.logspace()` (für die Exponenten...)

In [24]:
np.logspace(1,4,7) # heisst von 10**1 bis 10**4 sieben elemente

array([   10.        ,    31.6227766 ,   100.        ,   316.22776602,
        1000.        ,  3162.27766017, 10000.        ])

## numpy-Vektoren `np.zeros(n)`, `np.empty(n)` und `np.ones(n)` (gut für Startwerte)

In [25]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [29]:
np.zeros((2,2))

array([[0., 0.],
       [0., 0.]])

In [28]:
np.zeros((2,2,3))

array([[[0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.]]])

In [37]:
np.empty((2,2)) #? 

array([[0., 0.],
       [0., 0.]])

In [39]:
np.empty(2) #einfach nicht machen

array([9.42308487e-312, 7.69364040e+247])

In [41]:
np.ones((2,2)) # wie halt zeros aber mit ones

array([[1., 1.],
       [1., 1.]])

## Einheitsmatrix ``np.eye(n)``

In [45]:
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

## Operationen +-*/ an numpy Vektoren (anders als bei Listen!)

In [47]:
x = np.array([1,2,3])
y = np.array([1,2,3])
x + y

array([2, 4, 6])

In [49]:
x + 3

array([4, 5, 6])

In [51]:
x * 3

array([3, 6, 9])

In [54]:
x/2

array([0.5, 1. , 1.5])

In [53]:
# addition die zahl wird auf alle elemente addiet, multiplication zahl wird wie ein vektor multipliziert
# np.array zwar vom prnzip wie Listen aber eher wie ein Vektor zu betrachten

## Aufgabe 9.1
Erstellen Sie ein numpy-Array $z_2$ mit der gleichen Länge wie $x$ 
```python
x = np.linspace(1,10000,10000)
from timeit import default_timer as timer
```
und allen Startwerten gleich 0. Mit Hilfe der  ``for``-Schleife ändern Sie die Werte von $z_2$ auf das zweifache der Werte von $x$ und messen Sie dabei die dafür benötigte Zeit. 

In [59]:
x = np.linspace(1,10000,10000)
z2 = np.zeros(1000)
z2 = (x * 2)
z2

array([2.0000e+00, 4.0000e+00, 6.0000e+00, ..., 1.9996e+04, 1.9998e+04,
       2.0000e+04])

## Slicing (wie bei Listen)

In [66]:
a2 = np.array(([1,2,3,4],[5,6,7,8]))

In [67]:
a2[:,0]

array([1, 5])

In [69]:
# : für alle zeilen und null für die erste spalte

In [70]:
a2[1][:]

array([5, 6, 7, 8])

## Masking

In [71]:
a = np.array([1,2,3,4,5,6,7,8,9])
a > 2

array([False, False,  True,  True,  True,  True,  True,  True,  True])

In [73]:
# geht durch alle elemente durch # boolsches array als ausgabe # nur al rückgabe ist aber keine änderung von a

In [76]:
b = np.array([9,8,7,6,5,4,3,2,1])

In [77]:
a, b

(array([1, 2, 3, 4, 5, 6, 7, 8, 9]), array([9, 8, 7, 6, 5, 4, 3, 2, 1]))

In [78]:
a == b

array([False, False, False, False,  True, False, False, False, False])

In [79]:
b[a>2]

array([7, 6, 5, 4, 3, 2, 1])

In [80]:
#gibt alle werte aus ab dem index and dem a > 2 ist. kann genutzt werden um zumbeispiel gib alle werte aus b wo t > 2s

## Daten laden mit numpy

In [85]:
# liest die Datei "relHumid_TempHydro_TempBaro.txt" aus dem Unterordner "Daten", 

# überspringt die erste Zeile (Überschriften der Spalten)
data = np.loadtxt('Daten/Kälteexperiment.txt', skiprows = 1) 
data

array([[  1.  , 980.98,  12.69],
       [  2.  , 980.99,  12.7 ],
       [  3.  , 980.99,  12.75],
       ...,
       [463.  , 980.87,  19.12],
       [464.  , 980.89,  19.12],
       [465.  , 980.89,  19.13]])

In [86]:
# input der daten [i][x,y,z] i daten xyz ist zeit in 1/2s, luftdruck, Temperatur

In [89]:
data[0]

array([  1.  , 980.98,  12.69])

In [90]:
data[0][1]

980.98

Falls Sie Probleme mit den Daten laden haben, weil Python der Meinung ist, dass Sie Zeichenketten statt Zahlen in Ihrer Datei haben (z.B. Komma als Komma, statt Punkt), dann können Sie das Problem umgehen.  
Sie laden die Daten als Zeichenketten (Option `dtype = 'str'`), dannach tauschen Sie , gegen . mit `np.char.replace(data, ',' , '.')` und das ganze speichern Sie als float mit `astype(float)`  

```python
data=np.loadtxt('Daten/relHumid_TempHydro_TempBaro_Komma.txt', dtype='str', skiprows=1 )
data = np.char.replace(data,',','.').astype(float)
```

### "Ausreißer" eliminieren: durch `np.nan` ersetzten
hier die Werte 100 und 125 in der ersten Zeile

In [100]:
data2 = np.loadtxt('Daten/relHumid_TempHydro_TempBaro_Komma.txt', dtype='str', skiprows=2 )
data2 = np.char.replace(data2,',','.').astype(float)
data2

array([[77.31, 29.42, 29.08],
       [77.73, 29.46, 29.08],
       [78.14, 29.5 , 29.08],
       ...,
       [86.14, 34.54, 34.47],
       [86.14, 34.54, 34.47],
       [86.14, 34.55, 34.47]])

#### dann kann man Mittelwert, Standardabweichung, etc. mit `np.nanmean()`, `np.nanstd()` rechnen:   
Sind alle Daten OK, kann man direkt `np.mean()` oder `np.std()` anwenden.

In [97]:
np.nanmean(data2[:][2])

45.423333333333325

## Views und Copies

### view 
* erreicht durch slicing/masking
* shared buffer (nichts Neues!)
* wird geändert sobald das "Mutter"-Objekt geändert wird.
* obwohl das "Mutter"-Objekt und view andere id's haben

### copy
* erreicht durch sog. "advanced indexing"
* wird nicht geändert, auch wenn das "Mutter"-Objekt geändert wird.

**Sichere Methode: Orginal kopieren, dann zuschneiden (von der Kopie slicing machen)**, um das Orginal unabhängig zu halten.