# NumPy

NumPy steht für Numerical Python und ist eines der bekanntesten Python-Pakete für wissenschaftliches Programmieren. Die zentrale Datenstruktur in NumPy ist das mehrdimensionale Array. Dieses n-dimensionale Array (ndarray) ist eine mächtige Datenstruktur. Die Besonderheit des NumPy-Arrays ist, dass es ein mehrdimensionaler Container für homogene Daten ist. Ein Datentyp gilt also für das gesamte Array, nicht nur für bestimmte Zeilen oder Spalten!

In [None]:
import numpy as np
dataList = [[2, 9],[3, 4, 7, 10, 2],[0, 9, 3, 2, 3]] # dies ist eine Liste (Standard-Python)
array = np.array(dataList) #in ein numpy array überführen
print (array)
print (array.shape) #Dimension bestimmen

In [None]:
dataList2 = [[1,2,3],[4,5,6],[7,8,9],[10,11,12]] 
array2 = np.array(dataList2)

 <font color="red">Was iste der Unterschied zwischen array und array2 und welche Dimension hat array2?</font> 

**Schnelle Erzeugung von Arrays**  
Dies geht sehr einfach mit **np.zeros()**, **np.ones()** oder **np.rand()**

In [None]:
a1 = np.ones((5,5))
a2 = np.ones((5,5))
a3 = np.ones((5,5))

a1 + a2 + a3

**Weitere Möglichkeiten zum Erzeugen von NumPy Arrays**
mit **arange** und **linspace**.  
arange erzeugt gleichmäßig verteilte Werte innerhalb eines vorgegebenen Intervalles 
*arange([start,] stop[, step], [, dtype=None])*

In [None]:
import numpy as np
a = np.arange(1, 7)
print (a)

linspace erzeugt ein array aus einer bestimmten Anzahl gleichmäßig verteilten Werte  
*linspace(start, stop, num=50, endpoint=True, retstep=False)*

In [None]:
import numpy as np
# 50 Werte (Defaut) zwischen 1 und 7:
print(np.linspace(1, 7))
# 7 Werte zwischen 1 und 7:
print(np.linspace(1, 8, 7))
# jetzt ohne Endpunkt:
print(np.linspace(1, 8, 7, endpoint=False))

**NumPy ist deutlich schneller als klassische Python Listen oder Arrays:**  
dazu erzeugen wir eine große Liste einmal klassisch mit Python und einmal mit NumPy

In [None]:
import datetime
import numpy as np
n=5000000
#klassisch
t1 = datetime.datetime.now()
a1 = [i for i in range(0,n)] #Erzeugen eines großen Arrays
t2 =  datetime.datetime.now()
secs1 = (t2-t1).total_seconds() #timedelta bestimmen
print ("Klassisch", secs1)

t1 = datetime.datetime.now()
c = np.arange(0,n)
a2 = c.tolist()
t2 =  datetime.datetime.now()
secs2 = (t2-t1).total_seconds()
print ("Numpy", secs2)
print ("Faktor", secs1/secs2)

**Indizes und Slicing**  
- Indices: Elemente eines arrays kann man über Indizes ansprechen.
- Slicing: Mit der n:m:k-Syntax kann man Teilfelder ansprechen. Dabei ist der Startindex n enthalten, der Endindex m ist nicht mehr enthalten und k ist eine mögliche Schrittweite.



In [None]:
from IPython.display import Image
Image(filename="img/numpy_slice.png", width=400)

In [None]:
import numpy as np
a= np.array([[0,1,2,3,4,5],
    [10,11,12,13,14,15],
    [20,21,22,23,24,25],
    [30,31,32,33,34,35],
    [40,41,42,43,44,45],
    [50,51,52,53,54,55]])
a

**Arithmetische Operationen und Funktionen mit Arrays**

In [None]:
import numpy as np
# 2-dimensionales array erzeugen
A = np.arange(16).reshape(4,4)
print (A)
print (A>5) #Vergleichsoperator
print (A+10) #Summe
# Auch alle üblichen mathematischen Funktionen werden von numpy so 
# bereitgestellt, dass sie elementweise auf ein Feld wirken 
B = A+np.ones((4,4))
print (np.log10(B))
print (B.sum())
print (B.max())
print (B[:,2].max()) #Maximum der 3. Spalte


<font color="red">Testen Sie verschiedene Slices und Indizes an der obigen Matrix</font>

**Einlesen einer Datei in ein NumPy Array**

In [None]:
import numpy as np
# genfromtxt() automatically generates
# an array from the txt file
url = 'shape'
white_wines = np.genfromtxt(url, delimiter=";", skip_header=1)
# Anzahl Daten anzeigen
print (white_wines.shape)

Der o.g. Datensatz enthält Daten zu Weinqualitäten der roten und weißen Varianten des portugiesischen  „Vino Verde“ ( www.vinhoverde.pt).  
Daten von *P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis: Modeling wine preferences by data mining from physicochemical properties.*  
Datensatzbeschreibung unter:  
http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality.names

Attribute information:  

1 - fixed acidity  
2 - volatile acidity  
3 - citric acid  
4 - residual sugar  
5 - chlorides  
6 - free sulfur dioxide  
7 - total sulfur dioxide  
8 - density  
9 - pH  
10 - sulphates  
11 - alcohol  
12 - quality (score 0 - 10)  
  
  
<font color="red">Öffnen Sie Sie den Datensatz winequality-white.csv und machen Sie die folgenden Operationen...oder untersuchen die Daten mit eigenen Befehlen...z.B. selektieren Sie alle Qualitätsweine (>7) mit weniger als 12% Alkohol.</font>

<font color="red">**Weitere NumPy Aufgaben**  
Versuchen Sie die 10 Aufgaben zu lösen:
<ol>
<li>Erstellen Sie einen Nullvektor der Länge 10</li>
<li>Erstellen Sie einen Nullvektor mit dem 5. Wert gleich 1</li>
<li>Erstellen Sie einen Vektor mit Werten von 10 bis 49</li>
<li>Kehren Sie den Vektor aus 3) um – erster Wert wird letzter usw.</li>
<li>Wie bekommt man die Dokumentation zu „reshape“ über die Kommandozeile?</li> 
<li>Erstellen Sie eine 3x3 Matrix mit Werten von 0 bis 8</li>
<li>Erstellen Sie ein 3x3x3 Array mit Zufallswerten</li>
<li>Erstellen Sie ein 10x10 Array aus Zufallswerten und bestimmen Sie min() und max()</li>
<li>Erstellen Sie ein 2D Array mit Einsen am Rand und Nullen innen</li>
<li>Erstellen Sie ein 8x8 Array mit Schachbrettmuster</li>
</ol></font>