# Numerisches Rechnen mit Python und Numpy

Dieses Tutorial ist das fünfte in einer Reihe zur Einführung in die Programmierung und Datenanalyse mithilfe der Python-Programmiersprache. Diese Tutorials basieren auf einem praktischen, programmbasierten Ansatz. Der beste Weg, das Material zu erlernen, besteht darin, den Code auszuführen und mit den Beispielen zu experimentieren.

Die folgenden Themen werden in diesem Tutorial behandelt:

* [Arbeiten mit numerischen Daten](#numerische)
* [Von Python-Listen zu Numpy-Arrays wechseln](#arrays)
* [Umgang mit Numpy-Arrays](#umgang)
* [Vorteile der Verwendung von Numpy-Arrays](#vorteile)
* [Mehrdimensionale Numpy-Arrays](#mehrdimensionale)
* [Arbeiten mit CSV-Dateien](#csv-dateien)
* [Arithmetische Operationen und Broadcasting](#broadcasting)
* [Array-Indizierung und Slicing](#indizierung)
* [Andere Möglichkeiten zum Erstellen von Numpy-Arrays](#möglichkeiten)

<a id='numerische'></a>

## Arbeiten mit numerischen Daten

Die "Daten" in der *Datenanalyse* beziehen sich in der Regel auf numerische Daten, wie z. B. Aktienkurse, Verkaufszahlen, Sensormessungen, Sportergebnisse, Datenbanktabellen usw. Die [Numpy](https://numpy.org)-Bibliothek bietet spezialisierte Datenstrukturen, Funktionen und andere Tools für numerische Berechnungen in Python. Lassen Sie uns ein Beispiel durchgehen, um zu sehen, warum und wie Numpy für die Arbeit mit numerischen Daten verwendet wird.


> Nehmen wir an, wir möchten Klimadaten wie die Temperatur, den Niederschlag und die Luftfeuchtigkeit in einer Region nutzen, um festzustellen, ob die Region gut geeignet ist, um Äpfel anzubauen. Ein wirklich einfacher Ansatz dafür wäre, die Beziehung zwischen dem jährlichen Apfelertrag (Tonnen pro Hektar) und den klimatischen Bedingungen wie der Durchschnittstemperatur (in Grad Fahrenheit), dem Niederschlag (in Millimetern) und der durchschnittlichen relativen Luftfeuchtigkeit (in Prozent) als lineare Gleichung zu formulieren.
>
> `apfelertrag = w1 * temperatur + w2 * niederschlag + w3 * luftfeuchtigkeit`

Wir drücken den Ertrag an Äpfeln als gewichtete Summe der Temperatur, des Niederschlags und der Luftfeuchtigkeit aus. Offensichtlich ist dies eine Annäherung, da die tatsächliche Beziehung nicht unbedingt linear sein muss. Aber ein einfaches lineares Modell wie dieses funktioniert oft gut in der Praxis.

Auf der Grundlage einiger statistischer Analysen historischer Daten könnten wir in der Lage sein, vernünftige Werte für die Gewichte `w1`, `w2` und `w3` zu ermitteln. Hier ist ein Beispiel für einen Satz von Werten:

In [1]:
w1, w2, w3 = 0.3, 0.2, 0.5

Anhand einiger Klimadaten für eine Region können wir nun vorhersagen, wie der Apfelertrag in der Region aussehen könnte. Hier sind einige Beispieldaten:

<img src="https://i.imgur.com/TXPBiqv.png" style="width:360px;">

Zunächst können wir einige Variablen definieren, um die Klimadaten für eine Region aufzuzeichnen.

In [2]:
kanto_temp = 73
kanto_rainfall = 67
kanto_humidity = 43

Diese Variablen können wir nun in die lineare Gleichung einsetzen, um den Apfelertrag in dieser Region vorherzusagen.

In [3]:
kanto_yield_apples = kanto_temp * w1 + kanto_rainfall * w2 + kanto_humidity * w3
kanto_yield_apples

56.8

In [4]:
print("The expected yield of apples in Kanto region is {} tons per hectare.".format(kanto_yield_apples))

The expected yield of apples in Kanto region is 56.8 tons per hectare.


Um die Durchführung der obigen Berechnung für mehrere Regionen etwas zu vereinfachen, können wir die Klimadaten für jede Region als Vektor, also als Zahlenliste, darstellen.

In [5]:
kanto = [73, 67, 43]
johto = [91, 88, 64]
hoenn = [87, 134, 58]
sinnoh = [102, 43, 37]
unova = [69, 96, 70]

Die drei Zahlen in jedem Vektor repräsentieren jeweils die Temperatur-, Niederschlags- und Luftfeuchtigkeitsdaten. Der im Forum zu verwendende Gewichtungssatz kann auch als Vektor dargestellt werden.

In [6]:
weights = [w1, w2, w3]

Wir können jetzt eine Funktion `crop_yield` schreiben, um den Ertrag von Äpfeln (oder einer anderen Ernte) unter Berücksichtigung der Klimadaten und der jeweiligen Gewichte zu berechnen.

In [7]:
kanto

[73, 67, 43]

In [8]:
weights

[0.3, 0.2, 0.5]

In [9]:
for item in zip(kanto, weights):
  print(item)

(73, 0.3)
(67, 0.2)
(43, 0.5)


In [10]:
result = 0
for x, w in zip(kanto, weights):
  print(x * w)
  result += x * w
print(result) 

21.9
13.4
21.5
56.8


In [11]:
def crop_yield(region, weights):
    result = 0
    for x, w in zip(region, weights):
        result += x * w
    return result

In [12]:
crop_yield(kanto, weights)

56.8

In [13]:
crop_yield(johto, weights)

76.9

In [14]:
crop_yield(unova, weights)

74.9

<a id='arrays'></a>

## Von Python-Listen zu Numpy-Arrays wechseln

Die durch `crop_yield` (elementweise Multiplikation zweier Vektoren und Bildung einer Summe der Ergebnisse) durchgeführte Berechnung wird auch als *Skalarprodukt* der beiden Vektoren bezeichnet.

Die Numpy-Bibliothek bietet eine integrierte Funktion zum Berechnen des Skalarprodukts zweier Vektoren. Allerdings müssen die Listen zunächst in Numpy-Arrays konvertiert werden, bevor wir die Operation ausführen können. Zunächst importieren wir das Modul `numpy`. Es ist üblich, Numpy mit dem Alias `np` zu importieren.

Bevor die Numpy-Bibliothek nutzen können, müssen wir sie mit Hilfe des Python Paketverwaltungsprogramm `pip` installieren, da es ich beim Numpy um keine built-in Standardbibliothek handelt. 

In [15]:
!pip install numpy



In [16]:
import numpy as np

Numpy-Arrays können mit der Funktion `np.array` erstellt werden.

In [17]:
kanto = np.array([73, 67, 43])

In [18]:
kanto

array([73, 67, 43])

In [19]:
weights = np.array([w1, w2, w3])

In [20]:
weights

array([0.3, 0.2, 0.5])

In [21]:
type(kanto)

numpy.ndarray

In [22]:
type(weights)

numpy.ndarray

Genau wie Listen unterstützen Numpy-Arrays die Indexierungsnotation `[]`.

In [23]:
weights[0]

0.3

In [24]:
kanto[2]

43

<a id='umgang'></a>

## Umgang mit Numpy-Arrays

Wir können nun das Skalarprodukt der beiden Vektoren mit der Funktion `np.dot` berechnen

In [25]:
np.dot(kanto, weights)

56.8

Das gleiche Ergebnis können wir mit Operationen auf niedrigerer Ebene erzielen, die von Numpy-Arrays unterstützt werden: Durchführen einer elementweisen Multiplikation und Berechnen der Summe der resultierenden Zahlen.

In [26]:
(kanto * weights).sum()

56.8

Der `*`-Operator führt eine elementweise Multiplikation zweier Arrays durch (vorausgesetzt, sie haben die gleiche Größe), und die `sum` Methode berechnet die Summe der Zahlen in einem Array.

In [27]:
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])

In [28]:
arr1 * arr2

array([ 4, 10, 18])

In [29]:
arr2.sum()

15

<a id='vorteile'></a>

## Vorteile der Verwendung von Numpy-Arrays

Es gibt ein paar wichtige Vorteile bei der Verwendung von Numpy-Arrays anstelle von Python-Listen zur Bearbeitung von numerischen Daten:

- **Benutzerfreundlichkeit**: Sie können kleine, prägnante und intuitive mathematische Ausdrücke wie `(kanto * weights).sum()` schreiben, anstatt Schleifen und benutzerdefinierte Funktionen wie `crop_yield` zu verwenden.
- **Leistung**: Numpy-Operationen und -Funktionen sind intern in C++ implementiert, was sie viel schneller macht als Python-Anweisungen und -Schleifen, die zur Laufzeit interpretiert werden

Hier ist ein schneller Vergleich von Skalarprodukten, die mit Vektoren mit jeweils einer Million Elementen durchgeführt werden, und zwar mit Python-Schleifen im Vergleich zu Numpy-Arrays.

In [30]:
# Python lists
arr1 = list(range(1000000))
arr2 = list(range(1000000, 2000000))

# Numpy arrays
arr1_np = np.array(arr1)
arr2_np = np.array(arr2)

In [31]:
%%time
result = 0
for x1, x2 in zip(arr1, arr2):
    result += x1*x2
print(result)

833332333333500000
CPU times: user 94.6 ms, sys: 1.57 ms, total: 96.2 ms
Wall time: 95 ms


In [32]:
%%time
np.dot(arr1_np, arr2_np)

CPU times: user 1.29 ms, sys: 1.09 ms, total: 2.38 ms
Wall time: 1.08 ms


833332333333500000

Wie Sie sehen, ist die Verwendung von `np.dot` 100-mal schneller als die Verwendung einer `for`-Schleife. Dies macht Numpy besonders nützlich, wenn mit wirklich großen Datensätzen mit Zehntausenden oder Millionen Datenpunkten gearbeitet wird.

<a id='mehrdimensionale'></a>

## Mehrdimensionale Numpy-Arrays

Wir können nun noch einen Schritt weiter gehen und die Klimadaten für alle Regionen gemeinsam in einem einzigen zweidimensionalen Numpy-Array darstellen.

In [33]:
climate_data = np.array([[73, 67, 43],
                         [91, 88, 64],
                         [87, 134, 58],
                         [102, 43, 37],
                         [69, 96, 70]])

In [34]:
climate_data

array([[ 73,  67,  43],
       [ 91,  88,  64],
       [ 87, 134,  58],
       [102,  43,  37],
       [ 69,  96,  70]])

Wenn Sie in der High School einen Kurs über lineare Algebra besucht haben, erkennen Sie das obige zweidimensionale Array vielleicht als eine *Matrix* mit 5 Zeilen (eine für jede Region) und 3 Spalten (die Werte für Temperatur und Niederschlag enthalten). und Luftfeuchtigkeit).

<img src="https://fgnt.github.io/python_crashkurs_doc/_images/numpy_array_t.png" width="420">

Numpy-Arrays können beliebig viele Dimensionen und unterschiedliche Längen entlang jeder Dimension haben. Mit der Eigenschaft `.shape` eines Arrays können wir die Länge entlang jeder Dimension überprüfen.

In [35]:
climate_data

array([[ 73,  67,  43],
       [ 91,  88,  64],
       [ 87, 134,  58],
       [102,  43,  37],
       [ 69,  96,  70]])

In [36]:
# 2D array (matrix)
climate_data.shape

(5, 3)

In [37]:
weights

array([0.3, 0.2, 0.5])

In [38]:
# 1D array (vector)
weights.shape

(3,)

In [39]:
# 3D array 
arr3 = np.array([
                 [[11, 12, 13], 
                  [13, 14, 15]], 

                 [[15, 16, 17], 
                  [17, 18, 19.5]]
                                 ])

In [40]:
arr3.shape

(2, 2, 3)

Alle Elemente in einem Numpy-Array haben denselben Datentyp. Sie können den Datentyp eines Arrays mithilfe der Eigenschaft `.dtype` überprüfen

In [41]:
weights.dtype

dtype('float64')

In [42]:
climate_data.dtype

dtype('int64')

Wenn ein Array auch nur eine einzelne Gleitkommazahl enthält, werden alle anderen Elemente ebenfalls in Gleitkommazahlen umgewandelt.

In [43]:
arr3.dtype

dtype('float64')

In [44]:
climate_data

array([[ 73,  67,  43],
       [ 91,  88,  64],
       [ 87, 134,  58],
       [102,  43,  37],
       [ 69,  96,  70]])

Wir können nun die vorhergesagten Apfelerträge in allen Regionen berechnen, indem wir eine einzelne Matrixmultiplikation zwischen `climate_data` (einer 5x3-Matrix) und `weights` (einem Vektor der Länge 3) verwenden. So sieht es optisch aus:

<img src="https://i.imgur.com/LJ2WKSI.png" width="240">

Wir können die Funktion `np.matmul` von Numpy verwenden oder einfach den Operator `@` verwenden, um eine Matrixmultiplikation durchzuführen.

In [45]:
climate_data

array([[ 73,  67,  43],
       [ 91,  88,  64],
       [ 87, 134,  58],
       [102,  43,  37],
       [ 69,  96,  70]])

In [46]:
weights

array([0.3, 0.2, 0.5])

In [47]:
np.matmul(climate_data, weights)

array([56.8, 76.9, 81.9, 57.7, 74.9])

In [48]:
climate_data @ weights

array([56.8, 76.9, 81.9, 57.7, 74.9])

<a id='csv-dateien'></a>

## Arbeiten mit CSV-Dateien

Numpy bietet auch Hilfsfunktionen zum Lesen von und Schreiben in Dateien an. Lassen Sie uns eine Datei `climate.txt` herunterladen, die 10.000 Klimadaten (Temperatur, Niederschlag & Luftfeuchtigkeit) im folgenden Format enthält:

```
Temperatur,Niederschlag,Luftfeuchtigkeit
25,00,76,00,99,00
39,00,65,00,70,00
59,00,45,00,77,00
84,00,63,00,38,00
66,00,50,00,52,00
41,00,94,00,77,00
91,00,57,00,96,00
49,00,96,00,99,00
67,00,20,00,28,00
...
```

Diese Art der Datenspeicherung ist bekannt als *Comma Separated Values* oder CSV.

> **CSVs**: Eine Datei mit durch Kommas getrennten Werten (CSV) ist eine Textdatei, die ein Komma zur Trennung von Werten verwendet. Jede Zeile der Datei ist ein Datensatz. Jeder Datensatz besteht aus einem oder mehreren Feldern, die durch Kommas getrennt sind. Eine CSV-Datei speichert typischerweise tabellarische Daten (Zahlen und Text) im Klartext, in diesem Fall hat jede Zeile die gleiche Anzahl von Feldern. (Wikipedia)

Um diese Datei in ein Numpy-Array zu lesen, können wir die Funktion `genfromtxt` verwenden.

In [49]:
climate_data = np.genfromtxt('data/climate.txt', delimiter=',', skip_header=1)

In [50]:
climate_data

array([[25., 76., 99.],
       [39., 65., 70.],
       [59., 45., 77.],
       ...,
       [99., 62., 58.],
       [70., 71., 91.],
       [92., 39., 76.]])

In [51]:
climate_data.shape

(10000, 3)

Wir können jetzt einen Matrix-Mulplikationsoperator `@` verwenden, um den Apfelertrag für den gesamten Datensatz unter Verwendung eines gegebenen Satzes von Gewichten vorherzusagen.

In [52]:
weights = np.array([0.3, 0.2, 0.5])

In [53]:
yields = climate_data @ weights

In [54]:
yields

array([72.2, 59.7, 65.2, ..., 71.1, 80.7, 73.4])

In [55]:
yields.shape

(10000,)

Mit der Funktion [`np.concatenate`](https://numpy.org/doc/stable/reference/generated/numpy.concatenate.html) können wir nun die `yields` als vierte Spalte wieder zu `climate_data` hinzufügen .

In [56]:
climate_results = np.concatenate((climate_data, yields.reshape(10000, 1)), axis=1)

In [57]:
climate_results

array([[25. , 76. , 99. , 72.2],
       [39. , 65. , 70. , 59.7],
       [59. , 45. , 77. , 65.2],
       ...,
       [99. , 62. , 58. , 71.1],
       [70. , 71. , 91. , 80.7],
       [92. , 39. , 76. , 73.4]])

Es gibt hier ein paar Feinheiten:

* Wir müssen das Argument `axis` für `np.concatenate` bereitstellen, um die Dimension zu spezifizieren, entlang der die Konkatenation ausgeführt werden soll.

* Die zu konkatenierenden Arrays sollten die gleiche Anzahl von Dimensionen und die gleiche Länge entlang jeder Dimension haben, außer derjenigen, entlang der die Konkatenation durchgeführt wird. Wir verwenden hier die Funktion [`np.reshape`](https://numpy.org/doc/stable/reference/generated/numpy.reshape.html), um die Form von `yields` von `(10000,)` auf `(10000,1)` zu ändern.

Hier ist eine visuelle Erklärung von `np.concatenate` entlang `axis=1` (können Sie erraten, was `axis=0` ergibt?):

<img src="https://www.w3resource.com/w3r_images/python-numpy-image-exercise-58.png" width="300">

Der beste Weg, um zu verstehen, was eine Numpy-Funktion tut, besteht darin, mit ihr zu experimentieren und die Dokumentation mit der Funktion `help` zu lesen, um mehr über ihre Argumente und Rückgabewerte zu erfahren. Nutzen Sie die folgenden Zellen, um mit `np.concatenate` und `np.reshape` zu experimentieren.

In [1]:
# Tragen Sie hier Ihren Code ein!

Schreiben wir die Endergebnisse unserer obigen Berechnung mit der Funktion `np.savetxt` zurück in eine Datei, die sich im data Ordner befinden soll.

In [58]:
climate_results

array([[25. , 76. , 99. , 72.2],
       [39. , 65. , 70. , 59.7],
       [59. , 45. , 77. , 65.2],
       ...,
       [99. , 62. , 58. , 71.1],
       [70. , 71. , 91. , 80.7],
       [92. , 39. , 76. , 73.4]])

In [114]:
np.savetxt('data/climate_results.txt', 
           climate_results, 
           fmt='%.2f', 
           header='temperature,rainfall,humidity,yeild_apples', 
           comments='')

In [115]:
np.savetxt('data/climate_results_nocomments.txt', 
           climate_results, 
           fmt='%.2f', 
           header='temperature,rainfall,humidity,yeild_apples')

Die Ergebnisse werden im CSV-Format in die Datei `climate_results.txt` zurückgeschrieben.

```
Temperatur,Niederschlag,Luftfeuchtigkeit
25.00 76.00 99.00 72.20
39.00 65.00 70.00 59.70
59.00 45.00 77.00 65.20
84.00 63.00 38.00 56.80
66.00 50.00 52.00 55.80
41.00 94.00 77.00 69.60
91.00 57.00 96.00 86.70
49.00 96.00 99.00 83.40
67.00 20.00 28.00 38.10
...
```

Numpy bietet Hunderte von Funktionen zum Ausführen von Operationen an Arrays. Hier sind einige allgemeine Funktionen:


*Mathematik: `np.sum`, `np.exp`, `np.round`, arithemtische Operatoren* Array-Manipulation: `np.reshape`, `np.stack`, `np.concatenate`, `np.split`
*Lineare Algebra: `np.matmul`, `np.dot`, `np.transpose`, `np.eigvals`* Statistiken: `np.mean`, `np.median`, `np.std`, `np.max`

> **Wie finden Sie die Funktion, die Sie benötigen?** Da Numpy Hunderte von Funktionen zum Bearbeiten von Arrays bietet, kann es manchmal schwierig sein, genau das zu finden, was Sie benötigen. Der einfachste Weg, die richtige Funktion zu finden, ist eine Websuche, z. B. Die Suche nach „So verknüpfen Sie Numpy-Arrays“ führt zu [diesem Tutorial zur Array-Verkettung](https://cmdlinetips.com/2018/04/how-to-concatenate-arrays-in-numpy/).

Eine vollständige Liste der Array-Funktionen finden Sie [hier]( https://numpy.org/doc/stable/reference/routines.html).

<a id='broadcasting'></a>

## Arithmetische Operationen und Broadcasting

Numpy-Arrays unterstützen arithmetische Operatoren wie `+`, `-`, `*` usw. Sie können eine arithmetische Operation mit einer einzelnen Zahl (auch Skalar genannt) oder mit einem anderen Array derselben Form ausführen. Dadurch ist es wirklich einfach, mathematische Ausdrücke mit mehrdimensionalen Arrays zu schreiben.

In [61]:
arr2 = np.array([[1, 2, 3, 4], 
                 [5, 6, 7, 8], 
                 [9, 1, 2, 3]])

In [62]:
arr3 = np.array([[11, 12, 13, 14], 
                 [15, 16, 17, 18], 
                 [19, 11, 12, 13]])

In [63]:
arr2 + arr3

array([[12, 14, 16, 18],
       [20, 22, 24, 26],
       [28, 12, 14, 16]])

In [64]:
# Adding a scalar
arr2 + 3

array([[ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12,  4,  5,  6]])

In [65]:
# Element-wise subtraction
arr3 - arr2

array([[10, 10, 10, 10],
       [10, 10, 10, 10],
       [10, 10, 10, 10]])

In [66]:
# Division by scalar
arr2 / 2

array([[0.5, 1. , 1.5, 2. ],
       [2.5, 3. , 3.5, 4. ],
       [4.5, 0.5, 1. , 1.5]])

In [67]:
# Element-wise multiplication
arr2 * arr3

array([[ 11,  24,  39,  56],
       [ 75,  96, 119, 144],
       [171,  11,  24,  39]])

In [68]:
# Modulus with scalar or find the reminder
arr2 % 4

array([[1, 2, 3, 0],
       [1, 2, 3, 0],
       [1, 1, 2, 3]])

Numpy-Arrays unterstützen auch *Broadcasting*, was arithmetische Operationen zwischen zwei Arrays mit unterschiedlicher Anzahl an Dimensionen, aber kompatiblen Formen ermöglicht. Schauen wir uns ein Beispiel an, um zu sehen, wie es funktioniert.

In [69]:
arr2 = np.array([[1, 2, 3, 4], 
                 [5, 6, 7, 8], 
                 [9, 1, 2, 3]])

In [70]:
arr2.shape

(3, 4)

In [71]:
arr4 = np.array([4, 5, 6, 7])

In [72]:
arr4_replicate = np.array([[4, 5, 6, 7],
                           [4, 5, 6, 7],
                           [4, 5, 6, 7]])

In [73]:
arr4_replicate.shape

(3, 4)

In [74]:
arr4.shape

(4,)

In [75]:
arr2 + arr4

array([[ 5,  7,  9, 11],
       [ 9, 11, 13, 15],
       [13,  6,  8, 10]])

In [76]:
arr2 + arr4_replicate

array([[ 5,  7,  9, 11],
       [ 9, 11, 13, 15],
       [13,  6,  8, 10]])

Wenn der Ausdruck `arr2 + arr4` ausgewertet wird, wird `arr4` (das die Form `(4,)` hat) dreimal repliziert, um der Form `(3, 4)` von `arr2` zu entsprechen. Dies ist sehr nützlich, da Numpy die Replikation durchführt, ohne tatsächlich drei Kopien des Arrays mit der kleineren Dimension zu erstellen.

<img src="https://jakevdp.github.io/PythonDataScienceHandbook/figures/02.05-broadcasting.png" width="360">

Broadcasting funktioniert nur, wenn eines der Arrays so repliziert werden kann, dass es genau der Form des anderen Arrays entspricht.

In [77]:
arr5 = np.array([7, 8])

In [78]:
arr5.shape

(2,)

In [79]:
arr5_replicated = np.array([[7, 8],
                            [7, 8],
                            [7, 8]])

In [80]:
arr2 + arr5

ValueError: operands could not be broadcast together with shapes (3,4) (2,) 

Selbst wenn `arr5` im obigen Beispiel dreimal repliziert wird, stimmt es nicht mit der Form von `arr2` überein, daher kann `arr2 + arr5` nicht erfolgreich ausgewertet werden. Erfahren Sie [hier](https://numpy.org/doc/stable/user/basics.broadcasting.html) mehr über Broadcasting.

Numpy-Arrays unterstützen auch Vergleichsoperationen wie `==`, `!=`, `>` usw. Das Ergebnis ist ein Array von booleschen Werten.

In [81]:
arr1 = np.array([[1, 2, 3], [3, 4, 5]])
arr2 = np.array([[2, 2, 3], [1, 2, 5]])

In [82]:
arr1 == arr2

array([[False,  True,  True],
       [False, False,  True]])

In [83]:
(arr1 == arr2).dtype

dtype('bool')

In [84]:
arr1 != arr2

array([[ True, False, False],
       [ True,  True, False]])

In [85]:
arr1 >= arr2

array([[False,  True,  True],
       [ True,  True,  True]])

In [86]:
arr1 < arr2

array([[ True, False, False],
       [False, False, False]])

Ein häufiger Anwendungsfall hierfür ist das Zählen der Anzahl gleicher Elemente in zwei Arrays mithilfe der `sum`-Methode. Denken Sie daran, dass `True` den Wert `1` und `False` den Wert `0` ergibt, wenn boolesche Werte in arithmetischen Operationen verwendet werden.

In [87]:
(arr1 == arr2).sum()

3

<a id='indizierung'></a>

## Array-Indizierung und Slicing

Numpy erweitert die Listenindizierungsnotation von Python mithilfe von `[]` auf ziemlich intuitive Weise auf mehrere Dimensionen. Sie können eine durch Kommas getrennte Liste von Indizes oder Bereichen bereitstellen, um ein bestimmtes Element oder ein Subarray (auch Slice genannt) aus einem Numpy-Array auszuwählen.

In [88]:
arr3 = np.array([
    [[11, 12, 13, 14], 
     [13, 14, 15, 19]], 
    
    [[15, 16, 17, 21], 
     [63, 92, 36, 18]], 
    
    [[98, 32, 81, 23],      
     [17, 18, 19.5, 43]]])

In [89]:
arr3.shape

(3, 2, 4)

In [90]:
# Single element
arr3[1, 1, 2]

36.0

In [91]:
arr3[1, 1, 2]

36.0

In [92]:
arr3

array([[[11. , 12. , 13. , 14. ],
        [13. , 14. , 15. , 19. ]],

       [[15. , 16. , 17. , 21. ],
        [63. , 92. , 36. , 18. ]],

       [[98. , 32. , 81. , 23. ],
        [17. , 18. , 19.5, 43. ]]])

In [93]:
arr3[1:]    

array([[[15. , 16. , 17. , 21. ],
        [63. , 92. , 36. , 18. ]],

       [[98. , 32. , 81. , 23. ],
        [17. , 18. , 19.5, 43. ]]])

In [94]:
arr3[1:, 0:1]

array([[[15., 16., 17., 21.]],

       [[98., 32., 81., 23.]]])

In [95]:
# Subarray using ranges
arr3[1:, 0:1, :2]

array([[[15., 16.]],

       [[98., 32.]]])

In [96]:
arr3

array([[[11. , 12. , 13. , 14. ],
        [13. , 14. , 15. , 19. ]],

       [[15. , 16. , 17. , 21. ],
        [63. , 92. , 36. , 18. ]],

       [[98. , 32. , 81. , 23. ],
        [17. , 18. , 19.5, 43. ]]])

In [97]:
arr3[1:]

array([[[15. , 16. , 17. , 21. ],
        [63. , 92. , 36. , 18. ]],

       [[98. , 32. , 81. , 23. ],
        [17. , 18. , 19.5, 43. ]]])

In [98]:
arr3[1:, 1]

array([[63. , 92. , 36. , 18. ],
       [17. , 18. , 19.5, 43. ]])

In [99]:
# Mixing indices and ranges
arr3[1:, 1, 3]

array([18., 43.])

In [100]:
# Mixing indices and ranges
arr3[1:, 1, :3]

array([[63. , 92. , 36. ],
       [17. , 18. , 19.5]])

In [101]:
# Using fewer indices
arr3[1]

array([[15., 16., 17., 21.],
       [63., 92., 36., 18.]])

In [102]:
# Using fewer indices
arr3[:2, 1]

array([[13., 14., 15., 19.],
       [63., 92., 36., 18.]])

In [103]:
# Using too many indices
arr3[1,3,2,1]

IndexError: too many indices for array: array is 3-dimensional, but 4 were indexed

Die Notation und die Ergebnisse können zunächst verwirrend sein. Nehmen Sie sich also Zeit zum Experimentieren und machen Sie sich damit vertraut. Verwenden Sie die folgenden Zellen, um einige Beispiele für die Indexierung und Aufteilung von Arrays mit verschiedenen Kombinationen von Indizes und Bereichen auszuprobieren. Hier sind einige weitere Beispiele, die visuell veranschaulicht werden:

<img src="https://scipy-lectures.org/_images/numpy_indexing.png" width="360">

<a id='möglichkeiten'></a>

## Andere Möglichkeiten zum Erstellen von Numpy-Arrays

Numpy bietet außerdem einige praktische Funktionen zum Erstellen von Arrays einer gewünschten Form mit festen oder zufälligen Werten. Schauen Sie sich die [offizielle Dokumentation](https://numpy.org/doc/stable/reference/routines.array-creation.html) an oder nutzen Sie die `help`-Funktion, um mehr über die folgenden Funktionen zu erfahren.

In [104]:
# All zeros
np.zeros((3, 2))

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [105]:
# All ones
np.ones([2, 2, 3])

array([[[1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.]]])

In [106]:
# Identity matrix
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [107]:
# Random vector
np.random.rand(5)

array([0.57946642, 0.1520226 , 0.26882721, 0.59721361, 0.77004381])

In [108]:
# Random matrix
np.random.randn(2, 3) # rand vs. randn - what's the difference?

array([[ 0.22724674, -0.15781586,  0.22040568],
       [-0.69069408, -0.89697522, -0.86484168]])

In [109]:
# Fixed value
np.full([2, 3], 42)

array([[42, 42, 42],
       [42, 42, 42]])

In [110]:
# Range with start, end and step
np.arange(10, 90, 3)

array([10, 13, 16, 19, 22, 25, 28, 31, 34, 37, 40, 43, 46, 49, 52, 55, 58,
       61, 64, 67, 70, 73, 76, 79, 82, 85, 88])

In [111]:
np.arange(10, 90, 3).shape

(27,)

In [112]:
np.arange(10, 90, 3).reshape(3,3,-1)

array([[[10, 13, 16],
        [19, 22, 25],
        [28, 31, 34]],

       [[37, 40, 43],
        [46, 49, 52],
        [55, 58, 61]],

       [[64, 67, 70],
        [73, 76, 79],
        [82, 85, 88]]])

In [113]:
# Equally spaced numbers in a range
np.linspace(3, 27, 9)

array([ 3.,  6.,  9., 12., 15., 18., 21., 24., 27.])

## Weiterführende Literatur


- [Offizielles Tutorial](https://numpy.org/devdocs/user/quickstart.html)
- [Numpy-Tutorial auf W3Schools](https://www.w3schools.com/python/numpy_intro.asp)
- [Advanced Numpy (Erkundung der Interna)](http://scipy-lectures.org/advanced/advanced_numpy/index.html)