# Einsendeaufgabe 1: Numerische Genauigkeit und Gleichungssysteme (100 Punkte)
In dieser Aufgabe sollen Sie ein wenig mehr Erfahrung mit NumPy und numerischen Methoden gewinnen.  
Zur Erinnerung empfehle ich an dieser Stelle, die Definition der [IEEE-Flie√ükommazahlen](https://de.wikipedia.org/wiki/IEEE_754) zu wiederholen.  

## Addition von Zahlen (20 Punkte) 

Gegeben sei ein Array *array*, dass 100 mal die Zahl $10^{-16}$ enth√§lt und einmal (als ersten Eintrag) die Zahl $1$. 

In [2]:
import numpy as np

array = np.concatenate(([1], np.full(100, 1e-16)))
print(array)

[1.e+00 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16
 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16
 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16
 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16
 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16
 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16
 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16
 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16
 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16
 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16
 1.e-16]


**Aufgabe:** Addieren Sie alle Werte in `array`:
- mit der Funktion `np.sum()`
- mit einer Schleife, die von **vorne nach hinten** √ºber `array` iteriert
- mit einer Schleife, die von **hinten nach vorne** √ºber `array` iteriert

_Points:_ 6

## Addition von Zahlen im Array: Unterschiedliche Berechnungsmethoden

In dieser Aufgabe geht es um die Addition von Zahlen, die in einem Array gespeichert sind. Das Array besteht aus 101 Eintr√§gen, wobei der erste Eintrag die Zahl 1 enth√§lt und die restlichen 100 Eintr√§ge jeweils den Wert $ 1 \times 10^{-16} $ haben. Die Aufgabe besteht darin, die Summe der Werte in diesem Array auf verschiedene Arten zu berechnen: einmal mit der `np.sum()`-Funktion und zweimal unter Verwendung von Schleifen, die das Array jeweils von vorne nach hinten bzw. von hinten nach vorne durchlaufen.

In [3]:
sum_numpy = np.sum(array)
print(f"{sum_numpy=}")

sum_forward = 0.0
for x in array:
    sum_forward += x
print(f"{sum_forward=}")

sum_reverse = 0.0
for x in reversed(array):
    sum_reverse += x
print(f"{sum_reverse=}")

sum_numpy=np.float64(1.0000000000000084)
sum_forward=np.float64(1.0)
sum_reverse=np.float64(1.00000000000001)


<!-- BEGIN QUESTION -->

**Aufgabe:** Erkl√§ren Sie die Ergebnisse. Wie werden die Zahlen 1 und 1e-17 im Computer dargestellt? (ausf√ºhrliche Erl√§uterung erforderlich!)  

_Points:_ 12

## Numerische Genauigkeit von verschiedenen Additionsverfahren

### Unterschiede in der Summierung

Bei der Berechnung der Summe mit unterschiedlichen Verfahren ergeben sich leicht unterschiedliche Ergebnisse:

```python
sum_numpy   = np.float64(1.0000000000000084)
sum_forward = np.float64(1.0)
sum_reverse = np.float64(1.00000000000001)
```
Diese Unterschiede entstehen durch **Rundungsfehler** in der **Gleitkommadarstellung**, die auf der begrenzten Anzahl an Bits basiert, mit der reale Zahlen intern im Computer dargestellt werden.

---

## Gleitkommazahlen im IEEE 754 Standard

Python und NumPy verwenden standardm√§√üig `float64` (IEEE 754 Double Precision), das wie folgt aufgebaut ist:

- **1 Bit** f√ºr das Vorzeichen  
- **11 Bits** f√ºr den Exponenten  
- **52 Bits** f√ºr die Mantisse  

Insgesamt also **64 Bit**. Die reale Zahl wird durch folgende Formel dargestellt:

```
Zahl = (-1)^s ¬∑ 1.m ¬∑ 2^(e - 1023)
```

Dabei ist:

- `s` das Vorzeichenbit  
- `m` die Mantisse (ohne f√ºhrende 1)  
- `e` der gespeicherte Exponent mit **Bias** = 1023  

---

## Maschinengenauigkeit

Die kleinste Zahl, die zu `1.0` addiert werden kann, sodass sich das Ergebnis **numerisch unterscheidet**, nennt man **Maschinengenauigkeit** oder **machine epsilon** $\varepsilon_{\text{mach}}$:

```python
np.finfo(float).eps
# Ergebnis: 2.220446049250313e-16
```

Zahlen kleiner als `eps` ‚Äûverpuffen‚Äú bei der Addition zu gr√∂√üeren Zahlen wie `1.0`, da sie au√üerhalb der darstellbaren Genauigkeit der Mantisse liegen. Wenn zwei Gleitkommazahlen stark unterschiedlich gro√ü sind, kann die kleinere Zahl beim Addieren ‚Äûverschluckt‚Äú werden ‚Äì das nennt man Verlust der Signifikanz:

```python
print(1e-16 < np.finfo(float).eps)  # True
print(1.0 + 1e-16 == 1.0)           # True
```

---

## Warum liefert `sum_forward` ein anderes Ergebnis als `sum_reverse`?

Angenommen:

```python
array = np.array([1.0] + [1e-16] * 100)
```

- `sum_forward` addiert zuerst `1.0` und dann viele kleine `1e-16`. Diese einzelnen Summanden sind kleiner als `eps` und **gehen verloren**.
- `sum_reverse` addiert zuerst die kleinen `1e-16` zu einem gr√∂√üeren Zwischenwert (z.‚ÄØB. `1e-14`), der dann zu `1.0` addiert wird und sich **merklich auswirkt**.
- `sum_numpy` verwendet oft optimierte oder paarweise Additionen (`pairwise summation`), was ebenfalls zu einem etwas besseren Ergebnis f√ºhren kann.

Gleitkommazahlen sind **nicht assoziativ**, d.‚ÄØh.:

```
(a + b) + c ‚â† a + (b + c)
```

Das bedeutet, dass die Reihenfolge der Addition das Ergebnis beeinflussen kann, besonders wenn sehr kleine Zahlen in der Summe enthalten sind.

---

## Darstellung der Zahl `1.0` im IEEE‚ÄØ754-Standard

#### Mathematische Form:

$
1.0 = 1.0 \cdot 2^0 \\
\Rightarrow \text{Echter Exponent} = 0 \\
\Rightarrow \text{Gespeicherter Exponent} = 0 + \text{Bias} = 1023 = 01111111111_2
$

#### Mantisse:
- Die Zahl `1.0` entspricht im Bin√§rsystem: $ 1.000\ldots0_2 $
- Die **f√ºhrende 1 vor dem Komma** wird im IEEE 754-Format **nicht gespeichert** (implizit angenommen)
- Alle 52 Bits der Mantisse (also der Nachkommastellen) sind daher **0**

#### IEEE‚ÄØ754-Darstellung (64 Bit ‚Äì `double precision`):

```
s        e (11 Bit)             m (52 Bit)
0   01111111111   0000000000000000000000000000000000000000000000000000
```

#### Zusammenfassung:
- **Vorzeichenbit (`s`)**: `0` ‚Üí Zahl ist positiv  
- **Exponent (`e`)**: 1023 ‚Üí gespeichert als `01111111111`  
- **Mantisse (`m`)**: nur Nullen (weil keine Nachkommastellen vorhanden sind)  
- Daraus ergibt sich der dargestellte Wert:
  
$
(-1)^0 \cdot 1.0 \cdot 2^{0} = 1.0
$

---

## Darstellung der Zahl `1e-17` im IEEE‚ÄØ754-Standard

### Mathematische Zerlegung von `1e-17`

Wir suchen $m$ und $e$, sodass:

$
1e-17 = 1.m \cdot 2^{e - 1023}
$

Um das umzuformen:

1. Schreibe `1e-17` als Zweierpotenz:
   $
   1e-17 = 10^{-17} \approx 2^{-56.14}
   $

2. Runde auf:
   $
   1e-17 \approx 2^{-56}
   $

3. Daraus folgt:
   $
   1e-17 = 1.0 \cdot 2^{-56}
   \Rightarrow e_{\text{effektiv}} = -56
   \Rightarrow \text{gespeicherter Exponent} = -56 + 1023 = 967
   $

- **Vorzeichenbit ($s$)**: `0` (positiv)  
- **Exponent ($e$)**: $967$ ‚Üí bin√§r: `01111001111`  
- **Mantisse ($m$)**: Nachkommabits von `1.0` (also alles Nullen)  

Die IEEE-754-Bitfolge sieht dann so aus (in 64 Bit):
```
s        e (11 Bit)             m (52 Bit)
0   01111001111   0000000000000000000000000000000000000000000000000000
```

`1e-17` ist **kleiner** als der kleinste darstellbare Unterschied zu `1.0` im IEEE‚ÄØ754-Standard (double precision), n√§mlich:

$
\varepsilon_{\text{mach}} \approx 2^{-52} \approx 2.22 \cdot 10^{-16}
$

---

### Fazit:

- Die Zahl `1.0` kann exakt im Format IEE 754 `float64` dargestellt werden.  
- Die Zahl `1e-17` ist **zu klein** und hat eine **unendliche Bin√§rdarstellung**, was zu einer _Rundung_ f√ºhren muss. Eine pr√§zise Darstellung innerhalb der 52 Bits der Mantisse ist nicht m√∂glich. 


---

## Ab wann ist eine Summe nicht mehr darstellbar?

Eine einfache Faustregel:

> Zwei Zahlen `x` und `y` k√∂nnen exakt addiert werden, wenn  
> `| log2(x) - log2(y) | < 52` (bei `float64`)

Test in Python:

```python
def mindest_mantissenbits(x, y):
   return abs(np.log2(x) - np.log2(y))

mindest_mantissenbits(1, 1e-16) < 52  # False ‚Üí nicht exakt addierbar
```

<!-- END QUESTION -->

<!-- BEGIN QUESTION -->

**Aufgabe:** Welches Verfahren verwendet `np.sum()` f√ºr die Addition?

_Points:_ 2

## Kaskadensummation

Paarweise Summation (auch Kaskadensummation genannt) ist ein numerisch besseres Verfahren, bei dem die Werte in mehreren Schritten summiert werden. Dies bedeutet, dass Werte mit √§hnlichen Gr√∂√üen zuerst zusammengefasst werden. Dadurch wird der Fehler reduziert, der entstehen kann, wenn immer kleinere Zahlen zu einem sehr gro√üen Wert hinzugef√ºgt werden (wie es bei der sequentiellen Summation der Fall w√§re).

### Verfahren von `np.sum()`

NumPy verwendet f√ºr die Addition von Arrays ein Verfahren namens **Kaskadensummation** oder **paarweise Summation**. Dieses Verfahren reduziert Rundungsfehler im Vergleich zur sequentiellen Summation und f√ºhrt in vielen F√§llen zu einer h√∂heren Genauigkeit. `np.sum()` kann interne Optimierungen verwenden, wie z. B. parallelisierte Summation, abh√§ngig von der Gr√∂√üe des Arrays und der Hardware. In modernen Implementierungen von NumPy wird oft die `np.add.reduce()` Funktion verwendet, um die Summation durchzuf√ºhren, die im Hintergrund mit dem `ufunc`-Mechanismus arbeitet. Diese `reduce`-Methode summiert die Werte sequenziell, aber auch sie optimiert den Prozess, indem sie die Reihenfolge der Summanden variiert oder bei Bedarf parallelisiert.


Mehr Informationen zu dieser Technik gibt es auf [Wikipedia](https://en.wikipedia.org/wiki/Pairwise_summation) und in der [NumPy-Dokumentation](https://numpy.org/doc/stable/reference/generated/numpy.sum.html).

<!-- END QUESTION -->

## Grenzwerte von Funktionen (20 Punkte)

Geben sei die Funktion $f(x)=\frac{e^x-1}{x}$

Es gilt: $lim_{x \to 0}f(x) = 1$

**Aufgabe:** Schreiben Sie eine Python Funktion `f(x)`, mit deren Hilfe Sie $f(x)$ f√ºr $x= 10^{-1}, 10^{-2}, \cdots , 10^{-15}$ mit NumPy berechnen und geben Sie das Ergebnis aus.

**Aufgabe:** Berechnen Sie nun die Funktion f√ºr  $x= 10^{-16}, 10^{-17}, \cdots , 10^{-20}$

_Points:_ 8

<h2>Berechnung der Funktion f(x) = (exp(x) - 1) / x </h2>

In dieser Aufgabe soll die Funktion f(x) f√ºr x = 10<sup>-1</sup>, 10<sup>-2</sup>, ..., 10<sup>-15</sup> berechnet werden. Danach soll die Funktion f√ºr noch kleinere Werte von x, n√§mlich x = 10<sup>-16</sup>, 10<sup>-17</sup>, ..., 10<sup>-20</sup>, berechnet werden. 

Der Grenzwert der Funktion f√ºr x ‚Üí 0 ist 1. Dabei sollen m√∂gliche numerische Probleme bei sehr kleinen x beobachtet werden. Ab `1e-08` zeigt sich die abnehmende numerische Stabilit√§t deutlich dardurch, dass bei kleinerem x der Abstand des Funktionswertes zu `1.0` nicht mehr weiter abnimmt. 

In [None]:
import numpy as np

# Definition der Funktion f(x) = (e^x - 1)/x
def f(x):
        return (np.exp(x) - 1) / x

# Bereich 1: x = 10^(-1) bis 10^(-15)
# Erzeuge die Werte x = 10^(-1), 10^(-2), ..., 10^(-15)
input_numbers = np.array([10**(-i) for i in range(1, 16)])
result_limits = f(input_numbers)

#Ausgabe
for x_val, fx in zip(input_numbers, result_limits):
# Die Anwendung von zip gibt einen Iterator zur√ºck, der in der Lage ist Tupel zu erzeugen
    print(f"x = {x_val:.0e}, f(x) = {fx}")

x = 1e-01, f(x) = 1.0517091807564771
x = 1e-02, f(x) = 1.005016708416795
x = 1e-03, f(x) = 1.0005001667083846
x = 1e-04, f(x) = 1.000050001667141
x = 1e-05, f(x) = 1.000005000006965
x = 1e-06, f(x) = 1.0000004999621837
x = 1e-07, f(x) = 1.0000000494336803
x = 1e-08, f(x) = 0.999999993922529
x = 1e-09, f(x) = 1.000000082740371
x = 1e-10, f(x) = 1.000000082740371
x = 1e-11, f(x) = 1.000000082740371
x = 1e-12, f(x) = 1.000088900582341
x = 1e-13, f(x) = 0.9992007221626409
x = 1e-14, f(x) = 0.9992007221626409
x = 1e-15, f(x) = 1.1102230246251565


In [None]:
# Bereich 2: x = 10^(-16) bis 10^(-20)
input_numbers_2 = np.array([10**(-i) for i in range(16, 21)])
result_limits_2 = f(input_numbers_2)

#Ausgabe
for x_val, fx in zip(input_numbers_2, result_limits_2):
# Die Anwendung von zip gibt einen Iterator zur√ºck, der in der Lage ist Tupel zu erzeugen
    print(f"x = {x_val:.0e}, f(x) = {fx}")

x = 1e-16, f(x) = 0.0
x = 1e-17, f(x) = 0.0
x = 1e-18, f(x) = 0.0
x = 1e-19, f(x) = 0.0
x = 1e-20, f(x) = 0.0


<!-- BEGIN QUESTION -->

**Aufgabe:** Was f√§llt auf? Welche Erkl√§rung haben Sie f√ºr das Ergebnis? (Ausf√ºhrliche Erkl√§rung erforderlich) 

_Points:_ 12

<h2> Erkl√§rung des Verhaltens der Funktion bei kleinen x-Werten </h2>

F√ºr Werte von x zwischen `1e-01` bis `1e-14` liefert die Funktion erwartungsgem√§√ü Ergebnisse nahe bei **1**. Ab etwa 1e-15 treten jedoch drastische √Ñnderungen auf, die durch Rundungsfehler bei der Berechnung von `e^x - 1` bedingt sind. Besonders bei sehr kleinen x-Werten wird der Unterschied zwischen `e^x` und `1` auf dem Computer nicht mehr erkennbar, was zu fehlerhaften Ergebnissen f√ºhrt. Eine stabilere Berechnung kann durch die Verwendung der Funktion `np.expm1(x)` von NumPy erreicht werden.


Von `1e-01` bis `1e-14` ergibt die Funktion erwartungsgem√§√ü Werte, die sehr nahe bei **1** liegen.  
Doch ab etwa `1e-15` √§ndert sich das Verhalten drastisch:

x = 1e-15, f(x) = 1.1102230246251565   
x = 1e-16, f(x) = 0.0  
x = 1e-17, f(x) = 0.0  
x = 1e-18, f(x) = 0.0  
x = 1e-19, f(x) = 0.0  
x = 1e-20, f(x) = 0.0 

### Ergebnisbeobachtung

Ab etwa $x \approx 10^{-16}$ treten numerische Rundungsfehler sichtbar auf, abh√§ngig von der Maschinengenauigkeit (`float64`).

<h3> Erkl√§rung: Rundungsfehler </h3>

F√ºr sehr kleine `x` gilt n√§herungsweise:  
`exp(x) ‚âà 1 + x`

Wenn `x` so klein wird, dass `e^x` und `1` auf dem Computer **nicht mehr unterscheidbar** sind, wird der Ausdruck `e^x - 1` **numerisch ungenau** (_null_), da beide Terme sehr nah beieinander liegen ‚Üí Verlust signifikanter Stellen.

> Beispiel:  
> `x = 1e-17` ‚Üí `exp(x) ‚âà 1.00000000000000001`  
> Die Differenz `e^x - 1` ist kleiner als die **Maschinengenauigkeit** `Œµ` (Epsilon).  
> Deshalb wird `e^x - 1` vom Computer als **0.0** berechnet, da ein 64-Bit-Gleitkommawert (float64) **nicht mehr ausreichend genau** ist.

Es f√§llt auf, dass der Z√§hler ab `x = 1e-16` zu Null wird, aber der Nenner von Null verschieden bleibt, und daher ist das Gesamtergebnis gleich Null.

<h3> L√∂sung: Stabilere Berechnung mit NumPy </h3>

NumPy bietet mit `np.expm1(x)` eine spezielle Funktion an, die den Ausdruck `exp(x) - 1` **numerisch stabiler** berechnet ‚Äì insbesondere f√ºr sehr kleine `x`.

In [3]:
def f_stabil(x):
    return np.expm1(x) / x

input_numbers_3 = np.array([10**(-i) for i in range(10, 20)])
result_limits_3 = f_stabil(input_numbers_3)

#Ausgabe
for x_val, fx in zip(input_numbers_3, result_limits_3):
# Die Anwendung von zip gibt einen Iterator zur√ºck, der in der Lage ist Tupel zu erzeugen
    print(f"x = {x_val:.0e}, f(x) = {fx}")

x = 1e-10, f(x) = 1.00000000005
x = 1e-11, f(x) = 1.000000000005
x = 1e-12, f(x) = 1.0000000000005
x = 1e-13, f(x) = 1.00000000000005
x = 1e-14, f(x) = 1.000000000000005
x = 1e-15, f(x) = 1.0000000000000007
x = 1e-16, f(x) = 1.0
x = 1e-17, f(x) = 1.0
x = 1e-18, f(x) = 1.0
x = 1e-19, f(x) = 1.0


## Detaillierte Erkl√§rung der Gleitkommadarstellung und Rundungsfehler

Die Pr√§zision einer Gleitpunktzahl h√§ngt von der Mantisse ab. Diese bildet neben dem Exponenten, der Basis und dem Vorzeichen die Gleitpunktzahl.

Solange man nicht explizit davon abweicht, wird `float64` in Python und NumPy verwendet f√ºr Gleitpunktzahlen.

- Eine `float32`-Mantisse besteht aus 23 Bit und eine `float64`-Mantisse aus 52 Bit (bei 64 Bit bleiben noch 11 Bit f√ºr den Exponenten und 1 Bit f√ºr das Vorzeichen).

Bei Werten, die mehr Bits zur Darstellung ben√∂tigen als die Mantisse zur Verf√ºgung stellt, kommt es zu Rundungsfehlern, wie in den folgenden Beispielen erkl√§rt:

## Fazit zur Gleitkommadarstellung und Rundungsfehlern

Die Pr√§zision von Gleitkommazahlen ist durch die Anzahl der Bits in der Mantisse begrenzt, was zu Rundungsfehlern f√ºhrt, wenn Zahlen mit mehr erforderlichen Bits dargestellt werden m√ºssen. Besonders bei sehr kleinen Werten kann dies zu Verlusten an Genauigkeit f√ºhren, die sich durch den Einsatz stabiler Berechnungsmethoden wie z. B. `np.expm1(x)` verhindern lassen.

In [2]:
def mindest_mantissenbits(x, y):
    # Berechnet die Anzahl der ben√∂tigten Mantissenbits f√ºr eine korrekte Berechnung
    # float128 um exaktere Pr√§zision zu erm√∂glichen
    return np.abs(np.log2(np.float128(x)) - np.log2(np.float128(y)))

# Beispiel zur Darstellbarkeit float32
# Mantisse = 1 wenn dargestellte Zahl Potenz von 2, also darstellbar
x = 1
a = np.float128(2**24-1)
print(x+a, np.float32(x+a), "darstellbar?:", mindest_mantissenbits(x,a) < 23 + 1)
# Ergebnis: (16777216.0, 16777216.0, 'darstellbar?:', True)

# Beispiel zur Darstellbarkeit float32
# Dargestellte Zahl muss hier mit Mantisse von Mindestl√§nge 24 dargestellt werden, nicht m√∂glich bei float32
b = np.float128(2**24)
print(x+b, np.float64(x+b), "darstellbar?:", mindest_mantissenbits(x,b) < 23 + 1)
# Ergebnis: (16777217.0, 16777216.0, 'darstellbar?:', False)

# Diese Beispiele verdeutlichen, wie die Genauigkeit und die Darstellung von Zahlen durch die verwendete Gleitkommadarstellung beeinflusst werden.

# Weitere Beispiele zur Rundungsfehlerdarstellung
# In den folgenden Beispielen wird die Auswirkung von kleinen Zahlen in Gleitkommadarstellungen demonstriert:

# Beispiel 1 + 1e-16, vorkommend bei Summierung in Schleife von vorne
c = np.float128(1e-16)
print(x + c, np.float64(x + c), "darstellbar?:", mindest_mantissenbits(x, c) < 52 + 1)
# Ergebnis: (1.0000000000000001, 1.0, 'darstellbar?:', False)

# Beispiel 1 + 1e-16 * 100, vorkommend bei Summierung in Schleife von hinten
d = np.float128(1e-16 * 100)
print(x + d, np.float64(x + d), "darstellbar?:", mindest_mantissenbits(x, d) < 52 + 1)
# Ergebnis: (1.00000000000001, 1.00000000000001, 'darstellbar?:', True)


16777216.0 16777216.0 darstellbar?: True
16777217.0 16777217.0 darstellbar?: False
1.0000000000000001 1.0 darstellbar?: False
1.00000000000001 1.00000000000001 darstellbar?: True


## Detaillierte Erkl√§rung der Gleitkommadarstellung und Rundungsfehler

Die Pr√§zision einer Gleitpunktzahl h√§ngt von der Mantisse ab. Diese bildet neben dem Exponenten, der Basis und dem Vorzeichen die Gleitpunktzahl.

Solange man nicht explizit davon abweicht, wird `float64` in Python und NumPy verwendet f√ºr Gleitpunktzahlen.

- Eine `float32`-Mantisse besteht aus 23 Bit und eine `float64`-Mantisse aus 52 Bit (bei 64 Bit bleiben noch 11 Bit f√ºr den Exponenten und 1 Bit f√ºr das Vorzeichen).

Bei Werten, die mehr Bits zur Darstellung ben√∂tigen als die Mantisse zur Verf√ºgung stellt, kommt es zu Rundungsfehlern, wie in den folgenden Beispielen erkl√§rt:


<!-- END QUESTION -->

## Gau√ü-Verfahren und LU-Zerlegung (60 Punkte) 
Obwohl man, wie wir sehen werden, lineare Gleichungssysteme einfach mit SciPy l√∂sen kann, wollen wir in dieser Aufgabe  einmal selbst eine sogenannte LU-Zerlegung bzw. das Gau√ü-Verfahren implementieren. Au√üerdem werden wir diesen Code auch sp√§ter noch verwenden, wenn wir uns mit Performance-Optimierung und Parallelisierung besch√§ftigen.

Das Gau√ü-Verfahren ist ein wichtiges Verfahren zum L√∂sen von linearen Gleichungssystemen, wir gehen hier schrittweise mit der Implementierung vor.

**Aufgabe:** Implementieren Sie die Funktion `b_solve` zur L√∂sung einer Dreiecksgleichung der Form:

$\left[ {\begin{array}{cccc} 
a_{11} & a_{12} & \cdots & a_{1n}\\ 
0 & a_{22} & \cdots & a_{2n}\\ 
\vdots & \vdots & \ddots & \vdots \\ 
0 & 0 & \cdots & a_{nn}\\ 
\end{array} } \right] \left[{\begin{array}{c}  
x_1\\ 
x_2\\ 
\vdots\\ 
x_n\\ 
\end{array}}\right] =  
\left[{\begin{array}{c}  
b_1\\ 
b_2\\ 
\vdots\\ 
b_n\\ 
\end{array}}\right]$ 

Hier beginnt man mit der L√∂ung der letzten Zeile, denn es gilt:

$x_n = b_n/a_{nn} $
und dann

$x_{n-1} =  (b_{n-1}-a_{(n-1),n}*x_{n})/a_{(n-1),(n-1)}$

$x_{n-2} =  (b_{n-2}-(a_{(n-2),n}*x_{n}+a_{(n-2),(n-1)}*x_{n-1})/a_{(n-2),(n-2)}$


*Hinweis*: Achten Sie darauf, dass ihr Code nicht nur korrekt, sondern auch effizient ist. 

_Points:_ 12

<span style="color:blue">

  <h2>R√ºckw√§rtssubstitution</h2>

Im Folgenden wird eine Funktion zur L√∂sung eines linearen Gleichungssystems mit einer oberen Dreiecksmatrix implementiert. Diese sogenannte R√ºckw√§rtssubstitution stellt einen zentralen Schritt im Rahmen des Gau√ü-Verfahrens dar. Dabei wird die L√∂sung des Systems zeilenweise von unten nach oben bestimmt. Die Implementierung legt besonderen Wert auf numerische Stabilit√§t und Effizienz. 

Die Funktion `b_solve` implementiert eine effiziente R√ºckw√§rtssubstitution zur L√∂sung eines linearen Gleichungssystems mit oberer Dreiecksmatrix ‚Äì kompakt, direkt und ohne √ºberfl√ºssigen Overhead.

</span>

In [2]:
import numpy as np

def b_solve(A, b):
    """L√∂st ein lineares Gleichungssystem Ax = b wobei A eine obere Dreiecksmatrix ist"""

    x = np.zeros_like(b, dtype=np.float64)  # Vektor f√ºr die L√∂sung, initialisiert mit Nullen
    A = A.astype(np.float64)  # Sicherstellen, dass mit floats gerechnet wird
    b = b.astype(np.float64) 
    
    # R√ºckw√§rtssubstitution
    for i in range(len(b) - 1, -1, -1):  
        # Berechnung der Summe der Produkte der bekannten x-Werte
        summation = np.dot(A[i, i + 1:], x[i + 1:]) # hier wird die Vektorisierung, die numpy zur Verf√ºgung stellt, benutzt, um die Effizienz zu erh√∂hen
        x[i] = (b[i] - summation) / A[i, i]  # Berechnung des aktuellen x[i]
    return x

In [3]:
# Test zur Korrektheit der Funktion b_solve

# A als obere Dreiecksmatrix zuf√§llig erschaffen
rng = np.random.default_rng(seed=123)
n = 5
A = rng.random((n, n))
for i in range(n):
    A[i+1:, i] = 0.    
b = rng.random(n) # zuf√§lliger Vektor b
x = b_solve(A, b) # Berechnung von x mit der Funktion b_solve

#Test , np.allclose pr√ºft auf approximale Gleichheit in Gleitpunktzahlen
assert np.allclose(np.dot(A, x), b), "Ergebnisse weichen zu stark ab"
print("Test bestanden. Ax = b, x =", x) 

Test bestanden. Ax = b, x = [ 0.1427651  -1.25919492 -1.89656567 -1.0508303   3.39340802]


**Aufgabe:** Implementieren Sie die LU-Zerlegung einer Matrix mit Pivotisierung.  
Die Funktion `lu_decomposition` soll die Matrizen L und U berechnen.  
Zu Beginn wird der Funktion eine Matrix A √ºbergeben.  


Implementieren Sie die Funktion "in-place", d.h. die Ergebnisse f√ºr L und U werden direkt in A geschrieben.  
Dabei wird die urspr√ºngliche Matrix √ºberschrieben.  
Die Funktion gibt den Pivot-Vektor zur√ºck, der die folgende Form haben sollte:

$ 
P=\left[{\begin{array}{ccc} 
0 & 1& 0\\ 
0 & 0& 1\\ 
1 & 0& 0\\ 
\end{array} } \right] \Rightarrow \left[{\begin{array}{c}  
1\\ 
2\\ 
0\\ 
\end{array}}\right] 
$ 

D.h. es wird nur der Index des Wertes in jeder Zeile gespeichert, der nicht Null ist.

Wenn man dies macht, kann man sp√§ter f√ºr die L√∂sung einfach den Vektor `bc = b[P]` verwenden, um auch $b$ richtig zu pivotisieren.  

Hinweise: 
- Die Pivot-Zeile l√§sst sich am einfachsten mit `np.argmax` finden. Die Zeile mit dem h√∂chsten Betrag k√∂nnen Sie mit `np.abs` finden.

- Tauschen zweier Elemente in einem NumPy Array: `v[[a, b]] = v[[b, a]]`

- Versuchen Sie, die interne Vektorisierung von NumPy im Eliminationsschritt zu nutzen. Verwenden Sie dazu die Slicing-Syntax, um die innerste Schleife zu ersetzen.

_Points:_ 15

<span style="color: blue;">
  <h2>LU-Zerlegung mit Pivotisierung</h2>


Im folgenden Code wird die LU-Zerlegung einer Matrix A mit Pivotisierung implementiert. Die Matrix A wird in-place in die Form A = LU zerlegt, wobei U die obere Dreiecksmatrix inklusive der Diagonalen ist. L ist der Teil darunter wobei L eigentlich auf ihrer eigenen Diagonale stets den Wert 1 enth√§lt, was hier jodoch nicht beachtet werden muss. Zus√§tzlich wird ein Pivot-Vektor zur√ºckgegeben, der die Zeilenvertauschung anzeigt. Die Berechnung erfolgt in-place und nutzt NumPy f√ºr effiziente Vektorisierung.
</span>

In [4]:
def lu_decomposition(A):
    """L und U Matrix werden innerhalb von A Matrix berechnet und der Pivot-Vektor wird ausgegeben"""
    
    n = A.shape[0]
    P = np.arange(n)
    for k in range(n):
        
        # Pivotisierung: Index der Zeile mit gr√∂√ütem Betrag in Spalte k finden
        pivot_index = np.argmax(np.abs(A[k:n, k])) + k
        if A[pivot_index, k] == 0:
            raise ValueError("Matrix ist singul√§r.")
            
        # Zeilen tauschen in A
        if pivot_index != k:
            A[[k, pivot_index], :] = A[[pivot_index, k], :]
            P[[k, pivot_index]] = P[[pivot_index, k]]
        
        A[k+1:n, k] /= A[k, k]    # Berechnung L unterhalb der Diagonale        
        A[k+1:n, k+1:n] -= np.outer(A[k+1:n, k], A[k, k+1:n])    # Berechnung U obere Dreiecksmatrix inklusive Diagonale

    return P #Pivot-Vektor

<!-- BEGIN QUESTION -->

**Aufgabe:** Schreiben Sie eine Funktion `custom_solve`, welche mit Hilfe von `lu_decomposition` ein lineares Gleichungssystem der Form $A*x=b$ l√∂st.  

Hinweis: Versuchen Sie, die interne Vektorisierung von NumPy zu nutzen. Verwenden Sie dazu die Slicing-Syntax, um die innerste Schleife zu ersetzen.

_Points:_ 12

<span style="color: blue;">
  <h2>L√∂sen mit custom_solve</h2>

Zuerst stellt die Funktion custom_solve sicher, dass Matrix A und Vektor b im float Datentyp vorliegen. Die Berechnungen werden ansonsten scheitern wenn ein Array im Datentyp integer vorliegt. Unter Verwendung der Funktion lu_decomposition wird die LU-Zerlegung von A vorgenommen. Hierbei musste A zur Sicherstellung des Datentyps kopiert werden, wird aber danach w√§rend der Zerlegung in-place ver√§ndert. Diese Ver√§nderungen sind nur innerhalb der Funktion sichtbar. Eine zus√§tzliche Funktion l_solve dient dazu mittels Vorw√§rtssubstitution Ly = b[P] zu l√∂sen. Danach kann die bekannte Funktion b_solve verwendet werden um Ux = y zu l√∂sen. Hierbei wird nur der jeweils relevante Teil des ver√§nderten A verwendet wodurch die Funktionen sowohl speicher- als auch recheneffizient arbeiten.

</span>

In [5]:
def l_solve(A, y):
    """L√∂sen von Ly = b[P] mit Vorw√§rtssubstitution. L ist untere Dreiecksmatrix mit Einheitsdiagonale"""
    
    # b[P] wird direkt als Parameter y √ºbergeben und inplace berechnet
    n = y.shape[0]   
    # Vorw√§rtssubstitution
    for i in range(n):        
        y[i] -= np.dot(A[i,:i], y[:i])
    return y

def custom_solve(A, b):
    """L√∂st ein lineares Gleichungssystem Ax = b mittels LU-Zerlegung und gib Vektor x aus"""   
    
    A = A.astype(np.float64)    # Sicherstellen, dass mit floats gerechnet wird
    b = b.astype(np.float64)
    
    P = lu_decomposition(A)    # Pivot-Vektor und A (welches LU-Zerlegung enth√§lt) werden berechnet   
    y = l_solve(A, b[P])    # Ly = b[P] wird gel√∂st f√ºr y     
    x = b_solve(A, y)    # Ux = y wird gel√∂st f√ºr x    
    return x

<!-- END QUESTION -->

<!-- BEGIN QUESTION -->

**Aufgabe:** Schreiben Sie eine Testfunktion, die √ºberpr√ºft, ob die L√∂sung ihrer Implementierung des Gau√ü-Verfahrens richtig ist.  
Testen Sie Gleichungssysteme der Gr√∂√üe $16 \times 16$, $32\times 32$ und $64 \times 64$.

Sie k√∂nnen zum Vergleich die SciPy Funktion `linalg.solve` verwenden:

_Points:_ 6

In [6]:
import scipy.linalg as linalg

def test_custom_solve(n):
    rng = np.random.default_rng(seed=123)
    A = rng.random((n, n))
    b = rng.random(n)
    linalg_x = linalg.solve(A, b)    
    custom_x = custom_solve(A, b)

    #sicherstellen, dass Ergebnisse gleich sind, float-Unpr√§zision ignorieren
    assert np.allclose(linalg_x, custom_x), f"Ergebnisse weichen zu stark ab bei Dimension {n}"    
    print(f"Test bestanden f√ºr Dimension {n} x {n}")



# Vergleicht Ergebnisse von custom_solve mit linalg.solve mittels assert-Bedingung
for n in [16, 32, 64]:
    test_custom_solve(n)

Test bestanden f√ºr Dimension 16 x 16
Test bestanden f√ºr Dimension 32 x 32
Test bestanden f√ºr Dimension 64 x 64


<!-- END QUESTION -->

**Aufgabe:** Wir wollen nun weiter die *fertigen* SciPy Funktionen betrachten. Mit den Funktionen `lu` und `lu_factor` aus dem Packet `scipy.linalg `  k√∂nnen Sie eine LU-Dekomposition durchf√ºhren [[1]](https://docs.scipy.org/doc/scipy/reference/generated/scipy.linalg.lu_factor.html#scipy.linalg.lu_factor) und [[2]](https://docs.scipy.org/doc/scipy/reference/generated/scipy.linalg.lu.html).  
Beide Funktionen haben unter anderem den Parameter `overwrite_a`, der `False` oder `True` sein kann. 

Evaluieren Sie die Performance (Laufzeit) der LU-Zerlegung einer 4096x4096 Matrix, wenn Sie jeweils die Funktionen `lu_factor` und `lu` mit `overwrite_a = True` oder `overwrite_a = False` verwenden.

In der Liste `minimums` sollen die minimalen Laufzeiten in folgender Reihenfolge stehen:
1. `lu_factor` mit `overwrite_a = False`
2. `lu_factor` mit `overwrite_a = True`
3. `lu` mit `overwrite_a = False`
4. `lu` mit `overwrite_a = True`

Hinweis: Da die Matrix A bei der Verwendung von `overwrite_a = True` ver√§ndert wird, kann es zu einer Vereinfachung der Berechnung kommen, wenn die Funktion mehrfach nacheinander ausgef√ºhrt wird. Aus diesem Grund muss die `timeit` Funktion [repeat](https://docs.python.org/3/library/timeit.html#timeit.repeat) mit `repeat = 2` und `number = 1`  verwendet werden. Die Matrix wird im `setup` Parameter erstellt (aus Zufallswerten mit dem vorgegebenen "random number generator").

_Points:_ 6

<span style="color: blue;">
  <h2>Laufzeitenanalyse mit repeat</h2>

Die Laufzeitenanalyse zeigt, dass lu_faktor leicht schneller ist als lu.
Die Verwendung von overwrite_a=True f√ºhrt zu leicht besseren (niedrigeren) Resultaten.    
Jeh nach System k√∂nnen die Laufzeiten variieren.

</span>

In [16]:
from scipy.linalg import lu_factor, lu
from timeit import repeat

n = 4096
number = 1
repetitions = 2
rng = np.random.default_rng(seed=123)

# Liste der verwendeten Funktiosaufrufe
f_list = ["lu_factor(A, overwrite_a=False)", "lu_factor(A, overwrite_a=True)", "lu(A, overwrite_a=False)", "lu(A, overwrite_a=True)"]

# spezialisierte repeat Funktion wird vorbereitet
repeat_lambda = lambda x: repeat(x, setup="A = rng.random((n, n))", repeat=repetitions, number=number, globals=globals())

minimums = [min(repeat_lambda(x)) for x in f_list]    # alle k√ºrzesten Ausf√ºhrungszeiten werden in minimums gespeichert            

print(f"{"Funktionsaufruf":<31}  min. Laufzeit") 
for f, m in zip(f_list, minimums):
    print(f"{f:<31}: {m:.6f}")

Funktionsaufruf                  min. Laufzeit
lu_factor(A, overwrite_a=False): 9.653751
lu_factor(A, overwrite_a=True) : 9.650221
lu(A, overwrite_a=False)       : 10.153045
lu(A, overwrite_a=True)        : 10.113514


**Aufgabe:** Untersuchen Sie den Speicherverbrauch der 4 Varianten mit memray.

Um den Einfluss der anderen Berechnungen zu minimieren, empfehlen wir hier, die Berechnungen in eine neue Datei zu schreiben und mit `!` in einer Code-Zelle memray's Command-Line Interface zu verwenden. 

Am besten tracen Sie nur die LU Funktion mit einem Context Manager!
Verwenden Sie jeweils folgende Dateinamen als `file_name` Parameter in `memray.Tracker`:

- lu_inplace.bin
- lu_notinplace.bin
- lu_factor_inplace.bin
- lu_factor_notinplace.bin

Beantworten Sie bitte die folgenden Fragen:
* Welche Version verwendet am meisten Speicher? 
* Bei welcher Version ist der Speicherverbrauch am konstantesten? 

_Points:_ 9

<span style="color: blue;">
  <h2>Analyse des Speicherverbrauch mit memray</h2>

Im ersten Schritt werden alle ausf√ºhrbaren .py files erstellt. Hierzu werden die Inhalte nacheinander in eigene files mittels file I/O context manager "with open(...) as ..." geschrieben. Dies w√§re auch einzeln mittels line magic %file file_name gefolgt vom Inhalt m√∂glich gewesen, ist so aber effizienter. Damit mit memray gearbeitet werden kann, muss das Paket installiert und importierbar sein. Es wurde version 1.17.1 verwendet. Danach k√∂nnen alle .py files ausgef√ºhrt werden. (Auch einzeln m√∂glich mit line magic beginnend mit "!") Memray erstellt dabei die .bin files. Diese enthalten die Infos zum Speicherbedarf. Falls sie schon im Verzeichnis existieren, m√ºssen sie zuvor gel√∂scht werden mit z.B einem rm Befehl. Alle Speicherverbr√§uche der Funktionen werden in einer Zelle aufgef√ºhrt, k√∂nnen aber auch einzeln mit memray command line Interaktion ausgelesen werden.
</span>

In [14]:
# Liste mit Namen der sp√§teren .bin files
file_names = ["lu_inplace.bin", "lu_notinplace.bin", "lu_factor_inplace.bin", "lu_factor_notinplace.bin"]

# diese Funktion gibt spezifischen Inhalt eines zu erstellenden .py files wieder
text_lambda = lambda file_name:\
f"""
import numpy as np
from scipy.linalg import lu_factor, lu
import memray

n = 4096
rng = np.random.default_rng(seed=123)
A = rng.random((n, n))

with memray.Tracker("{file_name}", native_traces=True):
    lu{"_factor" if "_factor" in file_name else ""}(A, overwrite_a={"_inplace" in file_name})
"""

# alle .py files werden erstellt
for bin_name in file_names:
    file_name = bin_name.replace(".bin", ".py")
    with open(file_name, "w") as file:        
        file.write(text_lambda(bin_name))
        print("file erstellt:", file_name)

file erstellt: lu_inplace.py
file erstellt: lu_notinplace.py
file erstellt: lu_factor_inplace.py
file erstellt: lu_factor_notinplace.py


In [None]:
pip install memray==1.17.1

Note: you may need to restart the kernel to use updated packages.


In [15]:
import memray, os

#alle .py files werden ausgef√ºhrt in python3 um .bin Dateien zu erstellen
for file_name in file_names:    
    os.system(f"python3 {file_name.replace(".bin", ".py")}")



In [15]:
#Speichernutzung wird aus allen .bin files gelesen und hier zusammengefasst
for file_name in ["lu_inplace.bin", "lu_notinplace.bin", "lu_factor_inplace.bin", "lu_factor_notinplace.bin"]:
    reader = memray.FileReader(file_name)
    mem_use = 0

    for allocation in reader.get_allocation_records():
        mem_use += allocation.size

    print(f"Speichernutzung von {file_name[:-4]} : {round(mem_use / 2**20)}MB") 

Speichernutzung von lu_inplace : 432MB
Speichernutzung von lu_notinplace : 560MB
Speichernutzung von lu_factor_inplace : 176MB
Speichernutzung von lu_factor_notinplace : 176MB


<span style="color: blue;">
  <h2>Analyse Speicherverbrauch Ergebnisse</h2>

Die Funktionen mit Version lu_factor verwenden konstant nur 176MB an Speicher.

Funktionen mit Version lu verwenden deutlich mehr Speicher mit 432MB "inplace" und sogar 560MB "notinplace".

Der Speicherbedarf kann auf unterschiedlichen Systemen unterschiedlich ausfallen.
</span>

In [16]:
#Auch die command-line Funktion von memray kann verwendet werden
# √§quivalent zu !memray stats lu_inplace.bin
os.system("memray stats lu_inplace.bin")

[2K  [36mComputing statistics...[0m [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [35m100%[0m [36m0:00:00[0m--:--[0m
[1A[2Küìè [1mTotal allocations:[0m
	16

üì¶ [1mTotal memory allocated:[0m
	432.136MB

üìä [1mHistogram of allocation size:[0m
	min: 32.000B
	----------------------------------------
	< 147.000B : 2 ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá
	< 675.000B : 0 
	< 3.031KB  : 3 ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá
	< 13.929KB : 1 ‚ñá‚ñá‚ñá‚ñá‚ñá
	< 63.999KB : 5 ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá
	< 294.066KB: 0 
	< 1.320MB  : 0 
	< 6.063MB  : 0 
	< 27.858MB : 1 ‚ñá‚ñá‚ñá‚ñá‚ñá
	<=128.000MB: 4 ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá
	----------------------------------------
	max: 128.000MB

üìÇ [1mAllocator type distribution:[0m
	 MALLOC: 13
	 CALLOC: 2
	 MMAP: 1

ü•á [1mTop [0m[1;36m5[0m[1m largest allocatin

0

In [21]:
#command-line Befehl zum L√∂schen aller erstellten files
os.system("rm -rf lu_* memray-*")

0