## Arrays in Python
Eigenschaften:
- linear
- statisch
- homogen

Können am einfachsten mit `numpy` abgebildet werden

In [1]:
import numpy as np

### Erstellen eines Numpy Arrays

In [2]:
arr = np.array([1, 2, 3, 4, 5])

print(F"Das Array selbst: {arr}")
print(F"Der Typ der Variable arr: {type(arr)}")
print(F"Der Typ der im Array gespeichert ist: {arr.dtype}")

Das Array selbst: [1 2 3 4 5]
Der Typ der Variable arr: <class 'numpy.ndarray'>
Der Typ der im Array gespeichert ist: int32


In [3]:
len(arr)*32

160

In [4]:
print("Memory size of numpy array in bytes:", arr.size * arr.itemsize)

Memory size of numpy array in bytes: 20


### Verändern des Datentyps der im Array gespeichert wird

In [5]:
arr2 = arr.astype(np.float64).copy()
print(F"Das Array selbst: {arr2}")
print(F"Der Typ der im Array gespeichert ist: {arr2.dtype}")

Das Array selbst: [1. 2. 3. 4. 5.]
Der Typ der im Array gespeichert ist: float64


In [6]:
len(arr2)*64

320

In [7]:
print("Memory size of numpy array in bytes:", arr2.size * arr2.itemsize)

Memory size of numpy array in bytes: 40


### "Verlängern" eines Arrays

Erzeugt einen neuen Array an einer neuen Speicheradresse!

In [8]:
print(F"Array arr hat eine Länge von: {len(arr)}")

arr2 = np.append(arr, 6.0) # append returns a new array that is copied form arr

print(F"Array arr hat eine Länge von: {len(arr)}, arr2 eine Länge von: {len(arr2)}")

print(f"hex(id(arr)) = {hex(id(arr))} | hex(id(arr2)) = {hex(id(arr2))}")

Array arr hat eine Länge von: 5
Array arr hat eine Länge von: 5, arr2 eine Länge von: 6
hex(id(arr)) = 0x1d56d144090 | hex(id(arr2)) = 0x1d57b66a490


### Werte des Arrays zuweisen
Arrays sind homogen, es können also nur Werte zugewiesen werden, die in den Datentyp des Arrays umgewandelt werden können.

In [9]:
arr[0] = 23.78
arr[3] = 17.36

arr[1] = "Hello World!"

ValueError: invalid literal for int() with base 10: 'Hello World!'

### Durch Array iterieren

In [10]:
for num in arr:
    print(num)

print(20*"-")

for num in arr:
    if num > 12:
        print(num)

23
2
3
17
5
--------------------
23
17


### 🤓 Iterieren mittels "Generator"

[Generatoren](https://wiki.python.org/moin/Generators) sind Funktionen, die ein Iterator-Objekt zurückgeben. Diese können dann mit `next()` durch-iteriert werden. Hierdurch wird vermieden, dass z.B. ein Array mit 1.000.000 Elementen im Speicher gehalten werden muss, wenn nur ein Element benötigt wird.

In [None]:
generator = (x for x in arr if x > 12)
print(type(generator))

for num in generator:
    print(num)

<class 'generator'>
23
17


Wir können uns auch selbst beliebige Generatoren schreiben:

In [None]:
def my_generator(max_number):
    number = 0
    while number < max_number:
        yield number        # yield is like return, but the generator function is not terminated
        number += 1         # the next time the generator is called, it continues after the yield statement

for i in my_generator(10):
    print(i)

0
1
2
3
4
5
6
7
8
9


### 🤓 Einsatz eines Generators, um Daten aus großer Datei in den Speicher zu laden
Generatoren können auch verwendet werden, um Daten aus einer großen Datei in den Speicher zu laden. Das ist beispielsweise nötig, wenn die Datei zu groß ist, um sie komplett in den Speicher zu laden.

Unsere Binärdatei können wir dann beispielsweise in Blöcken mit einer gewissen Anzahl an Bytes teilen und jeweils einen Block in den Speicher laden.

In [None]:
import numpy as np

def generate_fake_file(filename, amt_values):
    """Generates a file with random float32 values as binary data"""
    array = np.random.rand(amt_values).astype('float32')
    array.tofile(filename)
    return array

array = generate_fake_file("fake_really_big_file.bin", 10)
print(array)

[0.14916964 0.17900123 0.3141286  0.48434594 0.29705164 0.15213874
 0.39914307 0.49567938 0.7667555  0.6693078 ]


In [None]:
import struct

def read_in_chunks(file, chunk_size=1024):
    """Generator to read a file object in chunks of a given size in bytes"""
    while True:
        data = file.read(chunk_size)
        if not data:
            break
        yield data

with open('fake_really_big_file.bin', 'rb') as f:
    for chunk in read_in_chunks(f, chunk_size=4):
        #To something with the data
        chunk_as_float32 = struct.unpack('f', chunk)[0] # unpack converts the binary data to the specified datatype (f = float32) --> returns a tuple, we only need the first element
        print(F"Raw binary output: {chunk} --> as float: {chunk_as_float32}")

Raw binary output: b'\xed\xbf\x18>' --> as float: 0.14916963875293732
Raw binary output: b'\x19L7>' --> as float: 0.17900122702121735
Raw binary output: b'w\xd5\xa0>' --> as float: 0.3141286075115204
Raw binary output: b'1\xfc\xf7>' --> as float: 0.484345942735672
Raw binary output: b"'\x17\x98>" --> as float: 0.29705163836479187
Raw binary output: b'B\xca\x1b>' --> as float: 0.15213873982429504
Raw binary output: b'{\\\xcc>' --> as float: 0.3991430699825287
Raw binary output: b'\xb0\xc9\xfd>' --> as float: 0.4956793785095215
Raw binary output: b'\x17JD?' --> as float: 0.7667555212974548
Raw binary output: b'\xc2W+?' --> as float: 0.6693078279495239
