In [53]:
import memray
import numpy as np
import os
from IPython.display import HTML, display
from numpy           import array
from scipy           import linalg
from scipy.linalg    import lu, lu_factor
from timeit          import repeat

# Einsendeaufgabe 1: Numerische Genauigkeit und Gleichungssysteme (100 Punkte)
In dieser Aufgabe sollen Sie ein wenig mehr Erfahrung mit NumPy und numerischen Methoden gewinnen.  
Zur Erinnerung empfehle ich an dieser Stelle, die Definition der [IEEE-Flie√ükommazahlen](https://de.wikipedia.org/wiki/IEEE_754) zu wiederholen.  

## Addition von Zahlen (20 Punkte) 

Gegeben sei ein Array *array*, dass 100 mal die Zahl $10^{-16}$ enth√§lt und einmal (als ersten Eintrag) die Zahl $1$. 

In [54]:

array = np.concatenate(([1], np.full(100, 1e-16)))
print(array) 

[1.e+00 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16
 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16
 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16
 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16
 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16
 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16
 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16
 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16
 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16
 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16 1.e-16
 1.e-16]


**Aufgabe:** Addieren Sie alle Werte in `array`:
- mit der Funktion `np.sum()`
- mit einer Schleife, die von **vorne nach hinten** √ºber `array` iteriert
- mit einer Schleife, die von **hinten nach vorne** √ºber `array` iteriert

_Points:_ 6

<div style="color: brown; background-color: #f5f5dc; padding: 5px; border-radius: 5px;" title="Ahmed">
    
## Addition von Zahlen im Array: Unterschiedliche Berechnungsmethoden

In dieser Aufgabe geht es um die Addition von Zahlen, die in einem Array gespeichert sind. Das Array besteht aus 101 Eintr√§gen, wobei der erste Eintrag die Zahl 1 enth√§lt und die restlichen 100 Eintr√§ge jeweils den Wert $ 1 \times 10^{-16} $ haben. Die Aufgabe besteht darin, die Summe der Werte in diesem Array auf verschiedene Arten zu berechnen: einmal mit der `np.sum()`-Funktion und zweimal unter Verwendung von Schleifen, die das Array jeweils von vorne nach hinten bzw. von hinten nach vorne durchlaufen.

<divv>

In [55]:
sum_forward = 0.0
for x in array:
    sum_forward += x
print(f"Summe mit Schleife: {sum_forward=}")

sum_reverse = 0.0
for x in reversed(array):
    sum_reverse += x
print(f"Summe mit umgekehrter Schleife: {sum_reverse=}")

sum_numpy = np.sum(array)
print(f"Summe mit np.sum: {sum_numpy=}")

Summe mit Schleife: sum_forward=np.float64(1.0)
Summe mit umgekehrter Schleife: sum_reverse=np.float64(1.00000000000001)
Summe mit np.sum: sum_numpy=np.float64(1.0000000000000084)


<!-- BEGIN QUESTION -->

**Aufgabe:** Erkl√§ren Sie die Ergebnisse. Wie werden die Zahlen 1 und 1e-17 im Computer dargestellt? (ausf√ºhrliche Erl√§uterung erforderlich!)  

_Points:_ 12

<div style="color: brown; background-color: #f5f5dc; padding: 5px; border-radius: 5px;" title="Ahmed">
    

## Numerische Genauigkeit von verschiedenen Additionsverfahren

### Unterschiede in der Summierung

Bei der Berechnung der Summe mit unterschiedlichen Verfahren ergeben sich leicht unterschiedliche Ergebnisse:

```python
sum_numpy   = np.float64(1.0000000000000084)
sum_forward = np.float64(1.0)
sum_reverse = np.float64(1.00000000000001)
```
Diese Unterschiede entstehen durch **Rundungsfehler** in der **Gleitkommadarstellung**, die auf der begrenzten Anzahl an Bits basiert, mit der reale Zahlen intern im Computer dargestellt werden.

---

## Gleitkommazahlen im IEEE 754 Standard

Python und NumPy verwenden standardm√§√üig `float64` (IEEE 754 Double Precision), das wie folgt aufgebaut ist:

- **1 Bit** f√ºr das Vorzeichen  
- **11 Bits** f√ºr den Exponenten  
- **52 Bits** f√ºr die Mantisse  

Insgesamt also **64 Bit**. Die reale Zahl wird durch folgende Formel dargestellt:

```
Zahl = (-1)^s ¬∑ 1.m ¬∑ 2^(e - 1023)
```

Dabei ist:

- `s` das Vorzeichenbit  
- `m` die Mantisse (ohne f√ºhrende 1)  
- `e` der gespeicherte Exponent mit **Bias** = 1023  

---

## Maschinengenauigkeit

Die kleinste Zahl, die zu `1.0` addiert werden kann, sodass sich das Ergebnis **numerisch unterscheidet**, nennt man **Maschinengenauigkeit** oder **machine epsilon** $\varepsilon_{\text{mach}}$:

```python
np.finfo(float).eps
# Ergebnis: 2.220446049250313e-16
```

Zahlen kleiner als `eps` ‚Äûverpuffen‚Äú bei der Addition zu gr√∂√üeren Zahlen wie `1.0`, da sie au√üerhalb der darstellbaren Genauigkeit der Mantisse liegen. Wenn zwei Gleitkommazahlen stark unterschiedlich gro√ü sind, kann die kleinere Zahl beim Addieren ‚Äûverschluckt‚Äú werden ‚Äì das nennt man Verlust der Signifikanz:

```python
print(1e-16 < np.finfo(float).eps)  # True
print(1.0 + 1e-16 == 1.0)           # True
```

---

## Warum liefert `sum_forward` ein anderes Ergebnis als `sum_reverse`?

Angenommen:

```python
array = np.array([1.0] + [1e-16] * 100)
```

- `sum_forward` addiert zuerst `1.0` und dann viele kleine `1e-16`. Diese einzelnen Summanden sind kleiner als `eps` und **gehen verloren**.
- `sum_reverse` addiert zuerst die kleinen `1e-16` zu einem gr√∂√üeren Zwischenwert (z.‚ÄØB. `1e-14`), der dann zu `1.0` addiert wird und sich **merklich auswirkt**.
- `sum_numpy` verwendet oft optimierte oder paarweise Additionen (`pairwise summation`), was ebenfalls zu einem etwas besseren Ergebnis f√ºhren kann.

Gleitkommazahlen sind **nicht assoziativ**, d.‚ÄØh.:

```
(a + b) + c ‚â† a + (b + c)
```

Das bedeutet, dass die Reihenfolge der Addition das Ergebnis beeinflussen kann, besonders wenn sehr kleine Zahlen in der Summe enthalten sind.

---

## Darstellung der Zahl `1.0` im IEEE‚ÄØ754-Standard

#### Mathematische Form:

$
1.0 = 1.0 \cdot 2^0 \\
\Rightarrow \text{Echter Exponent} = 0 \\
\Rightarrow \text{Gespeicherter Exponent} = 0 + \text{Bias} = 1023 = 01111111111_2
$

#### Mantisse:
- Die Zahl `1.0` entspricht im Bin√§rsystem: $ 1.000\ldots0_2 $
- Die **f√ºhrende 1 vor dem Komma** wird im IEEE 754-Format **nicht gespeichert** (implizit angenommen)
- Alle 52 Bits der Mantisse (also der Nachkommastellen) sind daher **0**

#### IEEE‚ÄØ754-Darstellung (64 Bit ‚Äì `double precision`):

|      s      |   e (11 Bit)   |                    m (52 Bit)                          |
|-------------|----------------|--------------------------------------------------------|
|     `0`     |  `01111111111` | `0000000000000000000000000000000000000000000000000000` |

#### Zusammenfassung:
- **Vorzeichenbit (`s`)**: `0` ‚Üí Zahl ist positiv  
- **Exponent (`e`)**: 1023 ‚Üí gespeichert als `01111111111`  
- **Mantisse (`m`)**: nur Nullen (weil keine Nachkommastellen vorhanden sind)  
- Daraus ergibt sich der dargestellte Wert:
  
$
(-1)^0 \cdot 1.0 \cdot 2^{0} = 1.0
$

---

## Darstellung der Zahl `1e-17` im IEEE‚ÄØ754-Standard (Double Precision)

### Mathematische Zerlegung von `1e-17`

### Ziel: Darstellung in der Form

Wir suchen $m$ und $e$, sodass:

$1e-17 = 1.m \cdot 2^{e - 1023}$

### Schritt 1: Umwandlung in Zweierpotenz

Zun√§chst schreiben wir `1e-17` in etwa als Zweierpotenz:

$1e-17 = 10^{-17} \approx (2^{3.321928094887354...})^{-17}\approx 2^{-3.321928094887354... \cdot 17} \approx 2^{-56.47}$

Das bedeutet:

$1e-17 \in (2^{-57}, 2^{-56})$

### Schritt 2: Rundung auf n√§chstliegende Zweierpotenz

Da `1e-17` bzw. $2^{-56.47}$ n√§her an $2^{-57}$ liegt, weil:

$\lvert 2^{-56.47}-2^{-57} \rvert = \lvert  \frac{1}{2^{56.47}} - \frac{1}{2^{57}} \rvert < \lvert  \frac{1}{2^{56.47}} - \frac{1}{2^{56}} \rvert= \lvert 2^{-56.47} - 2^{-56} \rvert$

gilt:

$1e-17 \approx 1.m \cdot 2^{-57}$

### Schritt 3: Exponent berechnen

Der effektive Exponent ist:

$e_{\text{effektiv}} = -57$

Im IEEE 754 Double Precision wird der **Exponent mit Bias 1023** gespeichert:

$e_{\text{gespeichert}} = -57 + 1023 = 966$

In Bin√§r:

$966_{10} = 01111000110_2$

### Schritt 4: Berechnung der Mantisse

Es gilt $1e-17 \approx 1.m \cdot 2^{-57}$ und somit $1.m = \frac{1e-17}{2^{-57}} = 1.4411518807585587...$

Wir nehmen die Nachkommastellen von `1.44115188...` und wandeln sie in Bin√§r um. 

Wir schreiben `1e-17` in bin√§rer Normalform:

$1e-17 = 1.0111000011101111010101000110010001101101010010010110\dots_2 \cdot 2^{-57}$

Die Mantisse sind **die 52 Bits nach dem Komma** (die f√ºhrende $1.$ wird nicht gespeichert):

### Schritt 5: Zusammensetzung der IEEE-754-Bitfolge

| Feld        | Wert                                                         |
|-------------|--------------------------------------------------------------|
| Vorzeichen  | `0` (da positiv)                                             |
| Exponent    | `01111000110` (`11` Bit f√ºr `966`)                           |
| Mantisse    | `0111000011101111010101000110010001101101010010010110`       |


### Gesamter 64-Bit-IEEE-754-Code (Bin√§r)

Die IEEE-754-Bitfolge sieht wie folgt aus (in 64 Bit):
|      s      |   e (11 Bit)   |                    m (52 Bit)                          |
|-------------|----------------|--------------------------------------------------------|
|     `0`     |  `01111000110` | `0111000011101111010101000110010001101101010010010110` |

---
### Fazit:

- Die Zahl `1.0` kann exakt im Format IEE 754 `float64` dargestellt werden.  
- Die Zahl `1e-17` ist **zu klein** und hat eine **unendliche Bin√§rdarstellung**, was zu einer _Rundung_ f√ºhren muss. Eine pr√§zise Darstellung innerhalb der 52 Bits der Mantisse ist nicht m√∂glich

</div>
-

<!-- END QUESTION -->

<!-- BEGIN QUESTION -->

**Aufgabe:** Welches Verfahren verwendet `np.sum()` f√ºr die Addition?

_Points:_ 2

<div style="color: brown; background-color: #f5f5dc; padding: 5px; border-radius: 5px;" title="Ahmed">

## Kaskadensummation

Paarweise Summation (auch Kaskadensummation genannt) ist ein numerisch besseres Verfahren, bei dem die Werte in mehreren Schritten summiert werden. Dies bedeutet, dass Werte mit √§hnlichen Gr√∂√üen zuerst zusammengefasst werden. Dadurch wird der Fehler reduziert, der entstehen kann, wenn immer kleinere Zahlen zu einem sehr gro√üen Wert hinzugef√ºgt werden (wie es bei der sequentiellen Summation der Fall w√§re).

### Verfahren von `np.sum()`

NumPy verwendet f√ºr die Addition von Arrays ein Verfahren namens **Kaskadensummation** oder **paarweise Summation**. Dieses Verfahren reduziert Rundungsfehler im Vergleich zur sequentiellen Summation und f√ºhrt in vielen F√§llen zu einer h√∂heren Genauigkeit. `np.sum()` kann interne Optimierungen verwenden, wie z. B. parallelisierte Summation, abh√§ngig von der Gr√∂√üe des Arrays und der Hardware. In modernen Implementierungen von NumPy wird oft die `np.add.reduce()` Funktion verwendet, um die Summation durchzuf√ºhren, die im Hintergrund mit dem `ufunc`-Mechanismus arbeitet. Diese `reduce`-Methode summiert die Werte sequenziell, aber auch sie optimiert den Prozess, indem sie die Reihenfolge der Summanden variiert oder bei Bedarf parallelisiert.


Mehr Informationen zu dieser Technik gibt es auf [Wikipedia](https://en.wikipedia.org/wiki/Pairwise_summation) und in der [NumPy-Dokumentation](https://numpy.org/doc/stable/reference/generated/numpy.sum.html).

</div>

<!-- END QUESTION -->

## Grenzwerte von Funktionen (20 Punkte)

Geben sei die Funktion $f(x)=\frac{e^x-1}{x}$

Es gilt: $lim_{x \to 0}f(x) = 1$

**Aufgabe:** Schreiben Sie eine Python Funktion `f(x)`, mit deren Hilfe Sie $f(x)$ f√ºr $x= 10^{-1}, 10^{-2}, \cdots , 10^{-15}$ mit NumPy berechnen und geben Sie das Ergebnis aus.

**Aufgabe:** Berechnen Sie nun die Funktion f√ºr  $x= 10^{-16}, 10^{-17}, \cdots , 10^{-20}$

_Points:_ 8

<div style="color: brown; background-color: #f5f5dc; padding: 5px; border-radius: 5px;" title="Ahmed">

<h2>Berechnung der Funktion f(x) = (exp(x) - 1) / x </h2>

In dieser Aufgabe soll die Funktion f(x) f√ºr x = 10<sup>-1</sup>, 10<sup>-2</sup>, ..., 10<sup>-15</sup> berechnet werden. Danach soll die Funktion f√ºr noch kleinere Werte von x, n√§mlich x = 10<sup>-16</sup>, 10<sup>-17</sup>, ..., 10<sup>-20</sup>, berechnet werden. 

Der Grenzwert der Funktion f√ºr x ‚Üí 0 ist 1. Dabei sollen m√∂gliche numerische Probleme bei sehr kleinen x beobachtet werden.

</div>

In [56]:
# Definition der Funktion f(x) = (e^x - 1)/x
def f(x):
        return (np.exp(x) - 1) / x

# Bereich 1: x = 10^(-1) bis 10^(-15)
# Erzeuge die Werte x = 10^(-1), 10^(-2), ..., 10^(-15)
input_numbers = np.array([10**(-i) for i in range(1, 16)])
result_limits = f(input_numbers)

#Ausgabe
for x_val, fx in zip(input_numbers, result_limits):
# Die Anwendung von zip gibt einen Iterator zur√ºck, der in der Lage ist Tupel zu erzeugen
    print(f"x = {x_val:.0e}, f(x) = {fx}")

x = 1e-01, f(x) = 1.0517091807564771
x = 1e-02, f(x) = 1.005016708416795
x = 1e-03, f(x) = 1.0005001667083846
x = 1e-04, f(x) = 1.000050001667141
x = 1e-05, f(x) = 1.000005000006965
x = 1e-06, f(x) = 1.0000004999621837
x = 1e-07, f(x) = 1.0000000494336803
x = 1e-08, f(x) = 0.999999993922529
x = 1e-09, f(x) = 1.000000082740371
x = 1e-10, f(x) = 1.000000082740371
x = 1e-11, f(x) = 1.000000082740371
x = 1e-12, f(x) = 1.000088900582341
x = 1e-13, f(x) = 0.9992007221626409
x = 1e-14, f(x) = 0.9992007221626409
x = 1e-15, f(x) = 1.1102230246251565


In [57]:
# Bereich 2: x = 10^(-16) bis 10^(-20)
input_numbers_2 = np.array([10**(-i) for i in range(16, 21)])
result_limits_2 = f(input_numbers_2)

#Ausgabe
for x_val, fx in zip(input_numbers_2, result_limits_2):
# Die Anwendung von zip gibt einen Iterator zur√ºck, der in der Lage ist Tupel zu erzeugen
    print(f"x = {x_val:.0e}, f(x) = {fx}")

x = 1e-16, f(x) = 0.0
x = 1e-17, f(x) = 0.0
x = 1e-18, f(x) = 0.0
x = 1e-19, f(x) = 0.0
x = 1e-20, f(x) = 0.0


<!-- BEGIN QUESTION -->

**Aufgabe:** Was f√§llt auf? Welche Erkl√§rung haben Sie f√ºr das Ergebnis? (Ausf√ºhrliche Erkl√§rung erforderlich) 

_Points:_ 12

<div style="color: brown; background-color: #f5f5dc; padding: 5px; border-radius: 5px;" title="Ahmed">
    
<h2> Erkl√§rung des Verhaltens der Funktion bei kleinen x-Werten </h2>

F√ºr Werte von x zwischen `1e-01` bis `1e-14` liefert die Funktion erwartungsgem√§√ü Ergebnisse nahe bei **1**. Ab etwa 1e-15 treten jedoch drastische √Ñnderungen auf, die durch Rundungsfehler bei der Berechnung von `e^x - 1` bedingt sind. Besonders bei sehr kleinen x-Werten wird der Unterschied zwischen `e^x` und `1` auf dem Computer nicht mehr erkennbar, was zu fehlerhaften Ergebnissen f√ºhrt. Eine stabilere Berechnung kann durch die Verwendung der Funktion `np.expm1(x)` von NumPy erreicht werden.


Von `1e-01` bis `1e-14` ergibt die Funktion erwartungsgem√§√ü Werte, die sehr nahe bei **1** liegen.  Doch ab etwa `1e-15` √§ndert sich das Verhalten drastisch:

`x = 1e-15, f(x) = 1.1102230246251565`

`x = 1e-16, f(x) = 0.0`

`x = 1e-17, f(x) = 0.0`  
...

**Bei genauerer Betrachtung** sieht man, dass bereits ab `1e-08` praktisch keine Ann√§herung mehr an den Soll-Grenzwert stattfindet. Die Berechnung "divergiert numerisch".

| Ph√§nomen                    | Beschreibung                                                                |
|-----------------------------|------------------------------------------------------------------------------|
| Katastrophale [Ausl√∂schung]( https://de.m.wikipedia.org/wiki/Ausl%C3%B6schung_%28numerische_Mathematik%29 )   | Verlust signifikanter Ziffern durch Subtraktion √§hnlicher Zahlen             |
| Numerische Instabilit√§t     | Instabiles Verhalten bei kleinen √Ñnderungen der Eingabe                      |
| Rundungsfehlerakkumulation  | Anh√§ufung von Maschinenfehlern durch viele Rechenoperationen                 |
| (Numerische) Divergenz      | Umgangssprachlich, wenn das Ergebnis sich vom Sollwert entfernt              |

### Ergebnisbeobachtung

Ab etwa $x \approx 10^{-16}$ treten numerische Rundungsfehler sichtbar auf, abh√§ngig von der Maschinengenauigkeit (`float64`).

<h3> Erkl√§rung: Rundungsfehler </h3>

F√ºr sehr kleine `x` gilt n√§herungsweise:  
`exp(x) ‚âà 1 + x`

Wenn `x` so klein wird, dass `e^x` und `1` auf dem Computer **nicht mehr unterscheidbar** sind, wird der Ausdruck `e^x - 1` **numerisch ungenau** (_null_), da beide Terme sehr nah beieinander liegen ‚Üí Verlust signifikanter Stellen.

> Beispiel:  
> `x = 1e-17` ‚Üí `exp(x) ‚âà 1.00000000000000001`  
> Die Differenz `e^x - 1` ist kleiner als die **Maschinengenauigkeit** `Œµ` (Epsilon).  
> Deshalb wird `e^x - 1` vom Computer als **0.0** berechnet, da ein 64-Bit-Gleitkommawert (float64) **nicht mehr ausreichend genau** ist.

<h3> L√∂sung: Stabilere Berechnung mit NumPy </h3>

NumPy bietet mit `np.expm1(x)` eine spezielle Funktion an, die den Ausdruck `exp(x) - 1` **numerisch stabiler** berechnet ‚Äì insbesondere f√ºr sehr kleine `x`.

</div>

In [58]:
def f_stabil(x):
    return np.expm1(x) / x

input_numbers_3 = np.array([10**(-i) for i in range(10, 20)])
result_limits_3 = f_stabil(input_numbers_3)

#Ausgabe
for x_val, fx in zip(input_numbers_3, result_limits_3):
# Die Anwendung von zip gibt einen Iterator zur√ºck, der in der Lage ist Tupel zu erzeugen
    print(f"x = {x_val:.0e}, f(x) = {fx}")

x = 1e-10, f(x) = 1.00000000005
x = 1e-11, f(x) = 1.000000000005
x = 1e-12, f(x) = 1.0000000000005
x = 1e-13, f(x) = 1.00000000000005
x = 1e-14, f(x) = 1.000000000000005
x = 1e-15, f(x) = 1.0000000000000007
x = 1e-16, f(x) = 1.0
x = 1e-17, f(x) = 1.0
x = 1e-18, f(x) = 1.0
x = 1e-19, f(x) = 1.0


<div style="color: brown; background-color: #f5f5dc; padding: 5px; border-radius: 5px;" title="Ahmed">

## Detaillierte Erkl√§rung der Gleitkommadarstellung und Rundungsfehler

Die Pr√§zision einer Gleitpunktzahl h√§ngt von der Mantisse ab. Diese bildet neben dem Exponenten, der Basis und dem Vorzeichen die Gleitpunktzahl.

Solange man nicht explizit davon abweicht, wird `float64` in Python und NumPy verwendet f√ºr Gleitpunktzahlen. Eine `float32`-Mantisse besteht aus 23 Bit und eine `float64`-Mantisse aus 52 Bit (bei 64 Bit bleiben noch 11 Bit f√ºr den Exponenten und 1 Bit f√ºr das Vorzeichen). Bei Werten, die mehr Bits zur Darstellung ben√∂tigen als die Mantisse zur Verf√ºgung stellt, kommt es zu Rundungsfehlern, wie in den folgenden Beispielen erkl√§rt:

## Fazit zur Gleitkommadarstellung und Rundungsfehlern

Die Pr√§zision von Gleitkommazahlen ist durch die Anzahl der Bits in der Mantisse begrenzt, was zu Rundungsfehlern f√ºhrt, wenn Zahlen mit mehr erforderlichen Bits dargestellt werden m√ºssen. Besonders bei sehr kleinen Werten kann dies zu Verlusten an Genauigkeit f√ºhren, die sich durch den Einsatz stabiler Berechnungsmethoden wie z. B. `np.expm1(x)` verhindern lassen.

</div>

In [59]:
def mindest_mantissenbits(x, y):
    # Berechnet die Anzahl der ben√∂tigten Mantissenbits f√ºr eine korrekte Berechnung
    # float128 um exaktere Praezision zu ermoeglichen
    return np.abs(np.log2(np.float128(x)) - np.log2(np.float128(y)))

# Beispiel zur Darstellbarkeit float32
# Mantisse = 1 wenn dargestellte Zahl Potenz von 2, also darstellbar
x = 1
a = np.float128(2**24-1)
print(x + a, np.float32(x+a), "darstellbar?:", mindest_mantissenbits(x,a) < 23 + 1)
# Ergebnis: (16777216.0, 16777216.0, 'darstellbar?:', True)

# Beispiel zur Darstellbarkeit float32
# Dargestellte Zahl muss hier mit Mantisse von Mindestlaenge 24 dargestellt werden, nicht moeglich bei float32
b = np.float128(2**24)
print(x + b, np.float64(x+b), "darstellbar?:", mindest_mantissenbits(x,b) < 23 + 1)
# Ergebnis: (16777217.0, 16777216.0, 'darstellbar?:', False)

# Diese Beispiele verdeutlichen, wie die Genauigkeit und die Darstellung von Zahlen durch die verwendete Gleitkommadarstellung beeinflusst werden.

# Weitere Beispiele zur Rundungsfehlerdarstellung
# In den folgenden Beispielen wird die Auswirkung von kleinen Zahlen in Gleitkommadarstellungen demonstriert:

# Beispiel 1 + 1e-16, vorkommend bei Summierung in Schleife von vorne
c = np.float128(1e-16)
print(x + c, np.float64(x + c), "darstellbar?:", mindest_mantissenbits(x, c) < 52 + 1)
# Ergebnis: (1.0000000000000001, 1.0, 'darstellbar?:', False)

# Beispiel 1 + 1e-16 * 100, vorkommend bei Summierung in Schleife von hinten
d = np.float128(1e-16 * 100)
print(x + d, np.float64(x + d), "darstellbar?:", mindest_mantissenbits(x, d) < 52 + 1)
# Ergebnis: (1.00000000000001, 1.00000000000001, 'darstellbar?:', True)


16777216.0 16777216.0 darstellbar?: True
16777217.0 16777217.0 darstellbar?: False
1.0000000000000001 1.0 darstellbar?: False
1.00000000000001 1.00000000000001 darstellbar?: True


<!-- END QUESTION -->

## Gau√ü-Verfahren und LU-Zerlegung (60 Punkte) 
Obwohl man, wie wir sehen werden, lineare Gleichungssysteme einfach mit SciPy l√∂sen kann, wollen wir in dieser Aufgabe  einmal selbst eine sogenannte LU-Zerlegung bzw. das Gau√ü-Verfahren implementieren. Au√üerdem werden wir diesen Code auch sp√§ter noch verwenden, wenn wir uns mit Performance-Optimierung und Parallelisierung besch√§ftigen.

Das Gau√ü-Verfahren ist ein wichtiges Verfahren zum L√∂sen von linearen Gleichungssystemen, wir gehen hier schrittweise mit der Implementierung vor.

**Aufgabe:** Implementieren Sie die Funktion `b_solve` zur L√∂sung einer Dreiecksgleichung der Form:

$\left[ {\begin{array}{cccc} 
a_{11} & a_{12} & \cdots & a_{1n}\\ 
0 & a_{22} & \cdots & a_{2n}\\ 
\vdots & \vdots & \ddots & \vdots \\ 
0 & 0 & \cdots & a_{nn}\\ 
\end{array} } \right] \left[{\begin{array}{c}  
x_1\\ 
x_2\\ 
\vdots\\ 
x_n\\ 
\end{array}}\right] =  
\left[{\begin{array}{c}  
b_1\\ 
b_2\\ 
\vdots\\ 
b_n\\ 
\end{array}}\right]$ 

Hier beginnt man mit der L√∂ung der letzten Zeile, denn es gilt:

$x_n = b_n/a_{nn} $
und dann

$x_{n-1} =  (b_{n-1}-a_{(n-1),n}*x_{n})/a_{(n-1),(n-1)}$

$x_{n-2} =  (b_{n-2}-(a_{(n-2),n}*x_{n}+a_{(n-2),(n-1)}*x_{n-1})/a_{(n-2),(n-2)}$


*Hinweis*: Achten Sie darauf, dass ihr Code nicht nur korrekt, sondern auch effizient ist. 

_Points:_ 12

<div style="color: darkblue; background-color: #e0f7ff; padding: 5px; border-radius: 5px;" title="Toni">

# L√∂sung linearer Gleichungssysteme mit dem Gau√ü-Verfahren und LU-Zerlegung

In dieser Aufgabe geht es um die Implementierung eines grundlegenden numerischen Verfahrens zur L√∂sung von linearen Gleichungssystemen der Form:

$A \cdot x = b$

wobei:
- $A$ eine Matrix (n √ó n) ist,
- $x$ der gesuchte L√∂sungsvektor,
- $b$ der rechte Seitenvektor ist.

Anstelle der Verwendung fertiger Bibliotheksfunktionen (wie `scipy.linalg.solve`) wird hier das klassische **Gau√üsche Eliminationsverfahren** mit anschlie√üender **R√ºckw√§rtseinsetzung** selbst implementiert. Ziel ist es, ein tieferes Verst√§ndnis f√ºr die numerischen Methoden zu erlangen und eine solide Basis f√ºr sp√§tere Optimierungen und Parallelisierungen zu schaffen.

---

## Hintergrund

Das Gau√ü-Verfahren ist eine Standardmethode in der numerischen Mathematik, um lineare Gleichungssysteme zu l√∂sen. Es besteht aus zwei Hauptschritten:

1. **Vorw√§rtselimination (Dreiecksform)**  
   Die Matrix $A$ wird durch gezielte Zeilenoperationen in eine obere Dreiecksmatrix umgewandelt. Dies bedeutet, dass alle Eintr√§ge unterhalb der Hauptdiagonalen zu Null gemacht werden. Um numerische Stabilit√§t sicherzustellen, wird **Pivotisierung** eingesetzt ‚Äì das gr√∂√üte Element einer Spalte wird nach oben getauscht.

2. **R√ºckw√§rtseinsetzung (Backsubstitution)**  
   Sobald die Matrix in Dreiecksform ist, kann die L√∂sung des Systems zeilenweise von unten nach oben bestimmt werden. Beginnend mit der letzten Gleichung wird jede Unbekannte explizit ausgerechnet.

---

## Umsetzung

Zwei zentrale Funktionen werden implementiert:

- **`make_triangular(A, b)`**  
  Bringt die Matrix $A$ durch Vorw√§rtselimination und Pivotisierung in eine obere Dreiecksform, wobei notwendige Operationen auch auf den Vektor $b$ angewandt werden.

- **`b_solve(A, b, upper_triangular=True)`**  
  L√∂st das Gleichungssystem durch R√ºckw√§rtseinsetzung. Falls `upper_triangular=False` √ºbergeben wird, ruft die Funktion intern `make_triangular` auf, um die Matrix zuerst in Dreiecksform zu bringen.

Besonderes Augenmerk wird auf:
- **Numerische Stabilit√§t** (durch Pivotisierung),
- **Effizienz** (durch vektorisiertes Rechnen mit `numpy`),
- **Korrekte Fehlerbehandlung**

---

## Zusammenfassung

Durch diese Implementierung wird ein vollst√§ndiger, effizienter und robuster Ansatz zum L√∂sen von linearen Gleichungssystemen bereitgestellt, 
der sp√§ter als Grundlage f√ºr Optimierungs- und Parallelisierungsstrategien dienen kann. 

Die Implementierung legt besonderen Wert auf numerische Stabilit√§t durch Pivotisierung der Matrix w√§hrend der Vorw√§rtselimination. 

Dadurch wird sichergestellt, dass numerische Fehler minimiert und stabile L√∂sungen auch bei ung√ºnstig skalierten Systemen erreicht werden.B
 und Parallelisierungsstrategien dienen kann.

</div>

In [60]:
def b_solve(A, b, upper_triangular=True):
    """L√∂st ein lineares Gleichungssystem A * x = b"""

    x = np.zeros_like(b, dtype=float)  # Vektor f√ºr die L√∂sung, initialisiert mit Nullen
    A = A.astype(float)  # Sicherstellen, dass mit floats gerechnet wird
    b = b.astype(float)
    
    #Matrix in Dreiecksform umwandeln wenn n√∂tig
    if not upper_triangular:
        make_triangular(A, b)        
    
    # R√ºckw√§rtseinsetzung
    for i in range(len(b) - 1, -1, -1):  
        # Berechnung der Summe der Produkte der bekannten x-Werte
        summation = np.dot(A[i, i + 1:], x[i + 1:]) # hier wird die Vektorisierung, die numpy zur Verf√ºgung stellt, benutzt, um die Effizienz zu erh√∂hen
        x[i] = (b[i] - summation) / A[i, i]  # Berechnung des aktuellen x_i
        #print(f"x[{i}] = (b[{i}] - summation) / A[i, i] = ({b[i]} - {np.dot(A[i, i + 1:], x[i + 1:])}) / {A[i,i]} = {x[i]}")
    return x

def make_triangular(A, b):
    """bringt Matrix A in Dreiecksform unter Ber√ºcksichtigung von Vektor b"""
    
    # Vorw√§rtselimination (Dreiecksform erzeugen)
    for i in range(len(b)):
        # Pivotisierung: gr√∂√ütes Element in der Spalte nach unten holen (numerische Stabilit√§t)
        max_row = i + np.argmax(abs(A[i:, i]))
        if A[max_row, i] == 0:
            raise ValueError("Das Gleichungssystem hat keine eindeutige L√∂sung")
        if max_row != i:
            A[[i, max_row]] = A[[max_row, i]]
            b[[i, max_row]] = b[[max_row, i]]

        # Elimination
        for j in range(i + 1, len(b)):
            factor = A[j, i] / A[i, i]
            A[j, i:] -= factor * A[i, i:]
            b[j] -= factor * b[i]

# Beispiel
A = np.array([[2, 3, 5, 1],
              [0, 4, 6, 2],
              [0, 0, 7, 3],
              [0, 0, 0, 8]], dtype=float)

b = np.array([9, 8, 7, 8], dtype=float)

x = b_solve(A, b)

# Testausgabe
print("L√∂sung x:", x)
print("Pr√ºfung A @ x:", np.dot(A, x))  # Sollte gleich b sein

L√∂sung x: [1.60714286 0.64285714 0.57142857 1.        ]
Pr√ºfung A @ x: [9. 8. 7. 8.]


**Aufgabe:** Implementieren Sie die LU-Zerlegung einer Matrix mit Pivotisierung.  
Die Funktion `lu_decomposition` soll die Matrizen L und U berechnen.  
Zu Beginn wird der Funktion eine Matrix A √ºbergeben.  


Implementieren Sie die Funktion "in-place", d.h. die Ergebnisse f√ºr L und U werden direkt in A geschrieben.  
Dabei wird die urspr√ºngliche Matrix √ºberschrieben.  
Die Funktion gibt den Pivot-Vektor zur√ºck, der die folgende Form haben sollte:

$ 
P=\left[{\begin{array}{ccc} 
0 & 1& 0\\ 
0 & 0& 1\\ 
1 & 0& 0\\ 
\end{array} } \right] \Rightarrow \left[{\begin{array}{c}  
1\\ 
2\\ 
0\\ 
\end{array}}\right] 
$ 

D.h. es wird nur der Index des Wertes in jeder Zeile gespeichert, der nicht Null ist.

Wenn man dies macht, kann man sp√§ter f√ºr die L√∂sung einfach den Vektor `bc = b[P]` verwenden, um auch $b$ richtig zu pivotisieren.  

Hinweise: 
- Die Pivot-Zeile l√§sst sich am einfachsten mit `np.argmax` finden. Die Zeile mit dem h√∂chsten Betrag k√∂nnen Sie mit `np.abs` finden.

- Tauschen zweier Elemente in einem NumPy Array: `v[[a, b]] = v[[b, a]]`

- Versuchen Sie, die interne Vektorisierung von NumPy im Eliminationsschritt zu nutzen. Verwenden Sie dazu die Slicing-Syntax, um die innerste Schleife zu ersetzen.

_Points:_ 15

<div style="color: darkblue; background-color: #e0f7ff; padding: 5px; border-radius: 5px;" title="Toni">

# LU-Zerlegung mit Pivotisierung

In dieser Aufgabe geht es um die Implementierung der **LU-Zerlegung** einer Matrix unter Ber√ºcksichtigung von **Pivotisierung**.  
Die LU-Zerlegung ist ein zentrales Verfahren der numerischen Mathematik und linearen Algebra, das eine Matrix $A$ in die Produktform zweier spezieller Matrizen zerlegt:

$A = L \cdot U$

wobei:
- $L$ eine untere Dreiecksmatrix mit Einsen auf der Hauptdiagonalen ist (unit lower triangular matrix),
- $U$ eine obere Dreiecksmatrix ist.

Zus√§tzlich wird bei dieser Zerlegung eine **Pivotisierung** durchgef√ºhrt, um numerische Stabilit√§t sicherzustellen. Die Pivotisierung wird durch eine Permutationsmatrix $P$ beschrieben, sodass im Allgemeinen gilt:

$P \cdot A = L \cdot U$

---

## Hintergrund

Warum Pivotisierung?  
Ohne Pivotisierung k√∂nnten bei der Zerlegung kleine Pivotelemente entstehen, die zu gro√üen numerischen Fehlern f√ºhren.  
Deshalb wird stets das Element mit dem gr√∂√üten Betrag in der aktuellen Spalte als Pivot gew√§hlt, und die entsprechenden Zeilen werden getauscht.

Im Algorithmus wird die Pivotinformation in Form eines **Pivot-Vektors** $P$ gespeichert.  
Dieser Vektor gibt an, welche Zeilen bei der Pivotisierung wie vertauscht wurden. Dadurch kann sp√§ter einfach der Vektor $b$ angepasst werden, indem man `b[P]` verwendet.

Beispiel eines Pivot-Vektors:
$
P = \left[ \begin{array}{c} 1 \\ 2 \\ 0 \end{array} \right]
$
Dieser beschreibt eine Permutationsmatrix der Form:

$
\left[ \begin{array}{ccc} 
0 & 1 & 0\\ 
0 & 0 & 1\\ 
1 & 0 & 0
\end{array} \right]
$

---

## Umsetzung

Die Implementierung erfolgt **in-place**:  
- Die urspr√ºngliche Matrix $A$ wird w√§hrend der Berechnungen √ºberschrieben.
- Die Eintr√§ge der unteren Dreiecksmatrix $L$ (ohne Einsen auf der Diagonalen) und der oberen Dreiecksmatrix $U$ werden direkt in $A$ gespeichert.

Die Schritte im Algorithmus sind:

1. **Pivotisierung**:  
   In jeder Spalte wird der gr√∂√üte Betrag gesucht, die Zeilen werden entsprechend getauscht.

2. **Berechnung von L**:  
   Die Eintr√§ge unterhalb der Hauptdiagonale werden berechnet, indem die aktuelle Spalte normiert wird.

3. **Berechnung von U**:  
   Durch Subtraktion eines √§u√üeren Produkts wird die obere rechte Ecke der Matrix angepasst.

---

## Hinweise zur Umsetzung

- Der Pivotindex wird mit `np.argmax(np.abs(A[k:n, k])) + k` effizient bestimmt.
- Zeilentausch in NumPy-Arrays erfolgt mit `v[[a, b]] = v[[b, a]]`.
- Zur Effizienzsteigerung wird beim Eliminationsschritt **Vektorisierung** mit Slicing-Notation genutzt.
- Bei einer singul√§ren Matrix (wenn das Pivotelement Null ist) wird eine Exception ausgel√∂st.

---

## Zusammenfassung

Durch diese Implementierung entsteht eine schnelle, speichereffiziente und numerisch stabile Methode zur LU-Zerlegung, die sowohl f√ºr sp√§tere direkte L√∂sungenvon Gleichungssystemen als auch f√ºr Performance-Analysen geeignet ist.


</div>


In [61]:
def lu_decomposition(A):
    """L und U Matrix werden innerhalb von A Matrix berechnet und der Pivot-Vektor wird ausgegeben"""
    
    n = A.shape[0]
    P = np.arange(n)

    for k in range(n):
        # Pivotisierung: Index der Zeile mit gr√∂√ütem Betrag in Spalte k finden
        pivot_index = np.argmax(np.abs(A[k:n, k])) + k
        if A[pivot_index, k] == 0:
            raise ValueError("Matrix ist singulaer.")

        # Zeilen tauschen in A
        if pivot_index != k:
            A[[k, pivot_index], :] = A[[pivot_index, k], :]
            P[[k, pivot_index]] = P[[pivot_index, k]]

        # Berechnung L unterhalb der Diagonale
        A[k+1:n, k] /= A[k, k]

        # Berechnung U obere Dreiecksmatrix inklusive Diagonale
        A[k+1:n, k+1:n] -= np.outer(A[k+1:n, k], A[k, k+1:n])

    return P #Pivot-Vektor

<!-- BEGIN QUESTION -->

**Aufgabe:** Schreiben Sie eine Funktion `custom_solve`, welche mit Hilfe von `lu_decomposition` ein lineares Gleichungssystem der Form $A*x=b$ l√∂st.  

Hinweis: Versuchen Sie, die interne Vektorisierung von NumPy zu nutzen. Verwenden Sie dazu die Slicing-Syntax, um die innerste Schleife zu ersetzen.

_Points:_ 12

<div style="color: darkblue; background-color: #e0f7ff; padding: 5px; border-radius: 5px;" title="Toni">

# L√∂sen eines linearen Gleichungssystems mit LU-Zerlegung

In dieser Aufgabe implementieren wir eine Funktion `custom_solve`, die ein lineares Gleichungssystem der Form

$A \cdot x = b$

l√∂st.  
Dabei nutzen wir unsere eigene, zuvor implementierte Funktion `lu_decomposition`, die $A$ in eine untere Dreiecksmatrix $L$ und eine obere Dreiecksmatrix $U$ zerlegt.

---

## Hintergrund

Das L√∂sen eines Gleichungssystems √ºber die LU-Zerlegung l√§uft in mehreren Schritten ab:

1. **LU-Zerlegung mit Pivotisierung**:  
   Die Matrix $A$ wird in $L$ und $U$ zerlegt, sodass gilt:

   $P \cdot A = L \cdot U$

   wobei $P$ eine Permutationsmatrix ist, die die Pivotisierungen beschreibt.

2. **Anpassung des rechten Seitenvektors $b$**:  
   Um die Pivotisierung zu ber√ºcksichtigen, wird $b$ entsprechend permutiert:

   $b' = b[P]$

3. **Zweischrittiges L√∂sen:**
   - Zun√§chst wird das Gleichungssystem

     $L \cdot c = b'$

     gel√∂st (Vorw√§rtseinsetzung).
   
   - Anschlie√üend wird das Gleichungssystem

     $U \cdot x = c$

     gel√∂st (R√ºckw√§rtseinsetzung).

Dadurch erhalten wir die L√∂sung $x$ des urspr√ºnglichen Gleichungssystems.

---

## Umsetzung im Detail

Die Funktion `custom_solve` folgt genau diesen Schritten:

1. **LU-Zerlegung**  
   Die Funktion `lu_decomposition(A)` wird aufgerufen. Dabei wird die Matrix $A$ in-place in ihre $L$- und $U$-Komponenten zerlegt und der Pivot-Vektor $P$ wird zur√ºckgegeben.

2. **Extrahieren von $L$ und $U$**  
   - $L$ wird aus $A$ extrahiert, indem alle Eintr√§ge unterhalb der Hauptdiagonalen √ºbernommen werden, zusammen mit Einsen auf der Diagonalen.
   - $U$ wird als obere Dreiecksmatrix inklusive Hauptdiagonale extrahiert.

3. **Vorw√§rtseinsetzung**  
   Das Gleichungssystem

   $L \cdot c = b[P]$

   wird gel√∂st.  
   Da $L$ keine obere Dreiecksmatrix ist, wird beim Aufruf von `b_solve` der Parameter `upper_triangular=False` gesetzt.

4. **R√ºckw√§rtseinsetzung**  
   Anschlie√üend wird das Gleichungssystem

   $U \cdot x = c$

   gel√∂st, wobei $U$ eine obere Dreiecksmatrix ist. Hier wird `b_solve` mit Standardparametern aufgerufen.

5. **R√ºckgabe der L√∂sung**  
   Die Funktion gibt die berechnete L√∂sung $x$ zur√ºck.

---

## Hinweise

- Die Funktion arbeitet mit **in-place Modifikationen**: $A$ wird w√§hrend der LU-Zerlegung √ºberschrieben.
- Die **interne Vektorisierung von NumPy** wird konsequent genutzt (z.B. Slicing-Syntax und Funktionen wie `np.tril` und `np.triu`), was den Code effizient und lesbar macht.
- Diese Methode ist insbesondere f√ºr gro√üe lineare Gleichungssysteme numerisch stabil und performant.

---

## Zusammenfassung

Die Funktion `custom_solve` bietet eine vollst√§ndige, saubere und effiziente L√∂sung eines linearen Gleichungssystems durch eigene Implementierungen der LU-Zerlegung und der L√∂sung von Dreieckssystemen.  
Damit wird eine der zentrale Techniken der numerischen linearen Algebra eigenst√§ndig nachvollzogen und umgesetzt.

</div> 

In [62]:
def custom_solve(A, b):
    """L√∂st ein lineares Gleichungssystem A * x = b und gib Vektor x aus"""
    
    #Pivot-Vektor und A (welches LU-Zerlegung enthaelt) werden berechnet
    P = lu_decomposition(A)
    
    #L und U werden aus A isoliert
    n = A.shape[0]
    L = np.tril(A, k=-1) + np.eye(n)  # untere Dreiecksmatrix mit Einsen auf der Diagonale
    U = np.triu(A)                   # obere Dreiecksmatrix inklusive Diagonale
    
    #Lc = b[P] wird geloest fuer c
    #hier wird upper_triangular=False verwendet um eine allgemeine Matrix zu loesen
    c = b_solve(L, b[P], upper_triangular=False)
    
    #Ux = c wird geloest fuer x
    x = b_solve(U, c)
    
    return x

<!-- END QUESTION -->

<!-- BEGIN QUESTION -->

**Aufgabe:** Schreiben Sie eine Testfunktion, die √ºberpr√ºft, ob die L√∂sung ihrer Implementierung des Gau√ü-Verfahrens richtig ist.  
Testen Sie Gleichungssysteme der Gr√∂√üe $16 \times 16$, $32\times 32$ und $64 \times 64$.

Sie k√∂nnen zum Vergleich die SciPy Funktion `linalg.solve` verwenden:

_Points:_ 6

<div style="color: darkblue; background-color: #e0f7ff; padding: 5px; border-radius: 5px;" title="Toni">


# √úberpr√ºfung der L√∂sung mit einer Testfunktion

In dieser Aufgabe sollen wir eine Testfunktion implementieren, die √ºberpr√ºft, ob die L√∂sung des Gau√ü-Verfahrens korrekt ist. Dies erreichen wir, indem wir das Ergebnis des eigenen Implementierungsansatzes mit dem Ergebnis der `linalg.solve`-Funktion aus dem SciPy-Paket vergleichen.

---

## Hintergrund

Das Gau√ü-Verfahren ist ein weit verbreitetes numerisches Verfahren zur L√∂sung von linearen Gleichungssystemen der Form

$A \cdot x = b$

In der Aufgabe haben wir bereits eine Funktion `custom_solve` implementiert, die dieses Gleichungssystem unter Verwendung der LU-Zerlegung l√∂st. Jetzt m√∂chten wir sicherstellen, dass unsere Implementierung korrekt funktioniert. Zu diesem Zweck f√ºhren wir eine Reihe von Tests durch, die die Ergebnisse mit der bekannten und bew√§hrten SciPy-Funktion `linalg.solve` vergleichen.

---

## Vorgehensweise

Die Testfunktion `test_custom_solve` geht wie folgt vor:

1. **Erzeugen der Zufallsmatrix $A$ und des Vektors $b$**:  
   F√ºr jedes Testdurchlauf wird eine Zufallsmatrix $A$ und ein Zufallsvektor $b$ der jeweiligen Dimension $n$ erzeugt. Dabei wird ein Seed f√ºr den Zufallsgenerator festgelegt, um die Ergebnisse reproduzierbar zu machen.

2. **Vergleich der Ergebnisse**:  
   Die Funktion `linalg.solve` aus SciPy wird verwendet, um das Gleichungssystem zu l√∂sen und ein Referenzergebnis zu erhalten. Anschlie√üend wird das Gleichungssystem auch mit der eigenen Implementierung `custom_solve` gel√∂st.

3. **√úberpr√ºfung der Genauigkeit**:  
   Es wird √ºberpr√ºft, ob die Ergebnisse der beiden Methoden (SciPy und eigene Implementierung) nahezu gleich sind. Dies geschieht unter Verwendung der Funktion `np.allclose`, die √ºberpr√ºft, ob die Ergebnisse innerhalb einer bestimmten Toleranz (hier: `1e-6`) √ºbereinstimmen. Dies ber√ºcksichtigt m√∂gliche numerische Ungenauigkeiten bei Flie√ükommaoperationen.

4. **Ausgabe**:  
   Wird der Test bestanden, gibt die Funktion eine Best√§tigung aus, dass der Test f√ºr die jeweilige Dimension erfolgreich war.

---

## Hinweise

1. **Numerische Toleranz**:  
   Da numerische Berechnungen mit Flie√ükommazahlen in Computern immer mit kleinen Ungenauigkeiten verbunden sind, ist es wichtig, die Ergebnisse mit einer Toleranz zu vergleichen. Diese wird durch den Parameter `atol=1e-6` in der Funktion `np.allclose` festgelegt. Dieser Parameter sorgt daf√ºr, dass geringe Unterschiede, die durch die begrenzte Pr√§zision von Flie√ükommazahlen entstehen, ignoriert werden, ohne die Richtigkeit der Berechnungen zu beeintr√§chtigen.

2. **Dimensionen der Matrizen**:  
   Die Testfunktion pr√ºft das Verhalten der Implementierung mit Matrizen unterschiedlicher Gr√∂√üen. Dies ist besonders wichtig, um sicherzustellen, dass die Implementierung auch f√ºr gr√∂√üere Matrizen effizient und korrekt arbeitet. In diesem Fall werden Matrizen der Gr√∂√üen $16 \times 16$, $32 \times 32$ und $64 \times 64$ getestet. Dadurch wird √ºberpr√ºft, ob die Funktion auch f√ºr gr√∂√üere Dimensionen ordnungsgem√§√ü funktioniert.

---

## Zusammenfassung

Die Funktion `test_custom_solve` vergleicht die Ergebnisse der eigenen Implementierung des Gau√ü-Verfahrens mit der L√∂sung von SciPy, um die Korrektheit der Implementierung zu √ºberpr√ºfen. Die Tests werden mit Matrizen unterschiedlicher Gr√∂√üen durchgef√ºhrt, und die Toleranz f√ºr numerische Fehler wird ber√ºcksichtigt. Damit haben wir eine verl√§ssliche Methode, die Funktionsf√§higkeit und Genauigkeit unserer Implementierung sicherzustellen.

</div>

In [63]:
def test_custom_solve(n):    
    """Vergleicht Ergebnisse von custom_solve mit linalg.solve mittels assert-Bedingung"""
    
    rng = np.random.default_rng(seed=123)
    A = rng.random((n, n))         #Erzeugt eine Zufallsmatrix der Gr√∂√üe n x n
    b = rng.random(n)              #Erzeugt einen Zufallsvektor der L√§nge n
    linalg_x = linalg.solve(A, b)  #L√∂st das Gleichungssystem mit der SciPy-Funktion 
    custom_x = custom_solve(A, b)  #L√∂st das gleiche System mit der eigenen Implementierung
    
    #sicherstellen, dass Ergebnisse gleich sind, float-Unpraezision ignorieren
    assert np.allclose(linalg_x, custom_x, atol=1e-6), f"Ergebnisse weichen zu stark ab bei Dimension {n}"
    
    print("Test bestanden fuer Dimension", n)
    
test_custom_solve(16)
test_custom_solve(32)
test_custom_solve(64)

Test bestanden fuer Dimension 16
Test bestanden fuer Dimension 32
Test bestanden fuer Dimension 64


<!-- END QUESTION -->

**Aufgabe:** Wir wollen nun weiter die *fertigen* SciPy Funktionen betrachten. Mit den Funktionen `lu` und `lu_factor` aus dem Packet `scipy.linalg `  k√∂nnen Sie eine LU-Dekomposition durchf√ºhren [[1]](https://docs.scipy.org/doc/scipy/reference/generated/scipy.linalg.lu_factor.html#scipy.linalg.lu_factor) und [[2]](https://docs.scipy.org/doc/scipy/reference/generated/scipy.linalg.lu.html).  
Beide Funktionen haben unter anderem den Parameter `overwrite_a`, der `False` oder `True` sein kann. 

Evaluieren Sie die Performance (Laufzeit) der LU-Zerlegung einer 4096x4096 Matrix, wenn Sie jeweils die Funktionen `lu_factor` und `lu` mit `overwrite_a = True` oder `overwrite_a = False` verwenden.

In der Liste `minimums` sollen die minimalen Laufzeiten in folgender Reihenfolge stehen:
1. `lu_factor` mit `overwrite_a = False`
2. `lu_factor` mit `overwrite_a = True`
3. `lu` mit `overwrite_a = False`
4. `lu` mit `overwrite_a = True`

Hinweis: Da die Matrix A bei der Verwendung von `overwrite_a = True` ver√§ndert wird, kann es zu einer Vereinfachung der Berechnung kommen, wenn die Funktion mehrfach nacheinander ausgef√ºhrt wird. Aus diesem Grund muss die `timeit` Funktion [repeat](https://docs.python.org/3/library/timeit.html#timeit.repeat) mit `repeat = 2` und `number = 1`  verwendet werden. Die Matrix wird im `setup` Parameter erstellt (aus Zufallswerten mit dem vorgegebenen "random number generator").

_Points:_ 6

<div style="color: darkblue; background-color: #e0f7ff; padding: 5px; border-radius: 5px;" title="Toni">

## Performance-Evaluierung der LU-Zerlegung

In dieser Aufgabe soll die Performance (Laufzeit) der LU-Zerlegung einer $4096 \times 4096$ Matrix unter Verwendung der SciPy-Funktionen `lu` und `lu_factor` aus dem Modul `scipy.linalg` untersucht werden. Diese beiden Funktionen sind in der Lage, eine Matrix in ihre LU-Zerlegung zu zerlegen, wobei $L$ eine untere Dreiecksmatrix und $U$ eine obere Dreiecksmatrix ist.

Beide Funktionen haben den Parameter `overwrite_a`, der steuert, ob die Eingabematrix `A` w√§hrend der Berechnung ver√§ndert werden darf. Der Parameter kann entweder auf `True` oder auf `False` gesetzt werden, was unterschiedliche Auswirkungen auf die Laufzeit und den Speicherbedarf haben kann.

### Ziel der Aufgabe

Das Ziel dieser Aufgabe ist es, die Performance der beiden Funktionen zu vergleichen und die minimalen Laufzeiten unter verschiedenen Bedingungen zu ermitteln. Dabei werden die folgenden Szenarien getestet:

1. **`lu_factor` mit `overwrite_a=False`**
2. **`lu_factor` mit `overwrite_a=True`**
3. **`lu` mit `overwrite_a=False`**
4. **`lu` mit `overwrite_a=True`**

Die minimalen Laufzeiten f√ºr diese vier Kombinationen sollen in einer Liste gespeichert werden, die wie folgt aussieht:
minimums = [ 1. lu_factor(A, overwrite_a=False), 2. lu_factor(A, overwrite_a=True), 3. lu(A, overwrite_a=False), 4. lu(A, overwrite_a=True) ]


### Vorgehensweise

1. **Matrix-Erstellung**:  
   Zun√§chst wird eine zuf√§llige Matrix $A$ der Gr√∂√üe $4096 \times 4096$ erzeugt. Dies geschieht unter Verwendung des Random Number Generators (RNG) von NumPy.

2. **Laufzeitmessung**:  
   Zur Messung der Laufzeit wird die Python-Funktion `timeit.repeat` verwendet. Diese Funktion erm√∂glicht es, den Code mehrmals auszuf√ºhren (mit `repeat=2`), um eine genauere Messung der Ausf√ºhrungszeit zu erhalten. Dabei wird der `setup`-Parameter verwendet, um die Matrix vor jeder Messung zu initialisieren. Die `number=1` stellt sicher, dass jede Messung nur einmal durchgef√ºhrt wird.

3. **Vergleich der Laufzeiten**:  
   Nach der Durchf√ºhrung der Experimente werden die minimalen Laufzeiten f√ºr jede der vier getesteten Varianten ermittelt und in einer Liste `minimums` gespeichert.

### L√∂sung

Die L√∂sung verwendet die `timeit`-Funktion, um die Laufzeiten f√ºr die vier Kombinationen zu messen.

### Interpretation der Ergebnisse

- **`lu_factor` mit `overwrite_a=False`** hat die k√ºrzeste Laufzeit, was darauf hindeutet, dass das Nicht-√úberschreiben der Eingabematrix f√ºr diese Funktion die effizienteste Methode darstellt.
- **`lu_factor` mit `overwrite_a=True`** ist etwas langsamer, was m√∂glicherweise darauf hindeutet, dass das √úberschreiben der Matrix zus√§tzliche Rechenoperationen erfordert.
- **`lu` mit `overwrite_a=False`** ist langsamer als `lu_factor`, was darauf hinweist, dass die zus√§tzliche Funktionalit√§t von `lu` (die die Matrix gleichzeitig in $L$ und $U$ zerlegt) zu einem gr√∂√üeren Rechenaufwand f√ºhrt.
- **`lu` mit `overwrite_a=True`** ist etwas langsamer als `lu` mit `overwrite_a=False`, was darauf hindeutet, dass das √úberschreiben der Matrix auch hier zu einem zus√§tzlichen Aufwand f√ºhrt.

### Fazit

Die Ergebnisse best√§tigen, dass `lu_factor` mit `overwrite_a=False` die effizienteste Methode f√ºr die LU-Zerlegung darstellt, w√§hrend das √úberschreiben der Matrix in der Regel einen leichten Performanceverlust zur Folge hat.

---

## Hinweise

- **√úberpr√ºfung der Performance**: Die Verwendung von `timeit.repeat` stellt sicher, dass die Laufzeiten zuverl√§ssig und pr√§zise gemessen werden, indem mehrere Wiederholungen durchgef√ºhrt werden.
- **Randomisierte Matrix**: Die Matrix wird bei jedem Lauf zuf√§llig erzeugt, was bedeutet, dass die Tests unter realistischen Bedingungen durchgef√ºhrt werden, da die Eingabedaten f√ºr jedes Experiment unterschiedlich sind.
- **√úberschreiben der Matrix**: Das Setzen von `overwrite_a=True` kann in einigen F√§llen zu einer leicht verbesserten Performance f√ºhren, da weniger Speicher f√ºr die Eingabematrix erforderlich ist.

---

## Zusammenfassung

In dieser Aufgabe wurde die Performance der LU-Zerlegung f√ºr eine $4096 \times 4096$ Matrix unter Verwendung der SciPy-Funktionen `lu_factor` und `lu` untersucht. Es wurde getestet, ob das √úberschreiben der Eingabematrix (durch Setzen des Parameters `overwrite_a=True`) einen Einfluss auf die Laufzeit hat. Die Ergebnisse zeigen, dass `lu_factor` mit `overwrite_a=False` die schnellste Variante darstellt und das √úberschreiben der Matrix in der Regel zu einem kleinen Performanceverlust f√ºhrt.

<div>


In [64]:
# Matrixgr√∂√üe
n = 4096  # Die Matrix hat die Dimension 4096x4096

# Anzahl der Wiederholungen und der Ausf√ºhrungen pro Wiederholung f√ºr die Zeitmessung
number = 1  # Jede Messung wird nur einmal ausgef√ºhrt
repetitions = 2  # Es wird 2 Wiederholungen der Zeitmessung durchgef√ºhrt, um eine genauere Sch√§tzung zu erhalten

# Initialisiere den Random Number Generator (RNG) mit einem festen Seed f√ºr Reproduzierbarkeit
rng = np.random.default_rng(seed=123)

# Die lambda-Funktion definiert den zu wiederholenden Code, der jeweils eine der vier Varianten der LU-Zerlegung aufruft
repeat_lambda = lambda x: repeat(x, setup="A = rng.random((n, n))", repeat=repetitions, number=number, globals=globals())

# Wir f√ºhren die Zeitmessung f√ºr jede der vier Varianten der LU-Zerlegung durch
minimums = [
    min(repeat_lambda(x))  # Wir w√§hlen die minimale Zeit aus den beiden Wiederholungen
    for x in [
        "lu_factor(A, overwrite_a=False)",  # LU-Zerlegung mit 'overwrite_a=False' und lu_factor
        "lu_factor(A, overwrite_a=True)",   # LU-Zerlegung mit 'overwrite_a=True' und lu_factor
        "lu(A, overwrite_a=False)",         # LU-Zerlegung mit 'overwrite_a=False' und lu
        "lu(A, overwrite_a=True)"           # LU-Zerlegung mit 'overwrite_a=True' und lu
    ]
]

# Die minimalen Laufzeiten der vier Varianten werden in der Liste 'minimums' gespeichert
minimums

[1.009529693000104, 1.048232730999871, 1.4839463319999595, 1.4356397540000216]

<div class="Toni_Markdown_Solution">

Die Laufzeitenanalyse zeigt, dass `lu_faktor` leicht schneller ist als `lu`. Je nach System k√∂nnen die Laufzeiten variieren.

</div>

**Aufgabe:** Untersuchen Sie den Speicherverbrauch der 4 Varianten mit memray.

Um den Einfluss der anderen Berechnungen zu minimieren, empfehlen wir hier, die Berechnungen in eine neue Datei zu schreiben und mit `!` in einer Code-Zelle memray's Command-Line Interface zu verwenden. 

Am besten tracen Sie nur die LU Funktion mit einem Context Manager!
Verwenden Sie jeweils folgende Dateinamen als `file_name` Parameter in `memray.Tracker`:

- lu_inplace.bin
- lu_notinplace.bin
- lu_factor_inplace.bin
- lu_factor_notinplace.bin

Beantworten Sie bitte die folgenden Fragen:
* Welche Version verwendet am meisten Speicher? 
* Bei welcher Version ist der Speicherverbrauch am konstantesten? 

_Points:_ 9

<div style="color: darkblue; background-color: #e0f7ff; padding: 5px; border-radius: 5px;" title="Toni">

# Untersuchung des Speicherverbrauchs der LU-Zerlegung mit Memray

In dieser Aufgabe untersuchen wir den Speicherverbrauch von vier Varianten der LU-Zerlegung, die entweder die Funktion `lu` oder `lu_factor` verwenden, mit den Optionen `overwrite_a=True` und `overwrite_a=False`. Das Ziel ist es, den Speicherverbrauch f√ºr jede dieser Varianten zu messen und zu vergleichen, welche Version den meisten Speicher ben√∂tigt und bei welcher der Speicherverbrauch am konstantesten ist.

## Vorgehensweise

Wir verwenden das Profiling-Tool **Memray**, um den Speicherverbrauch zu messen. Memray verfolgt alle Speicherzuweisungen, die w√§hrend der Programmausf√ºhrung stattfinden. Dabei werden die Ergebnisse in einer bin√§ren Datei gespeichert. Nach der Ausf√ºhrung analysieren wir diese Dateien, um den gesamten Speicherverbrauch zu ermitteln.

Die vier Varianten, die wir vergleichen, sind:

1. **lu_inplace**: Die Funktion `lu` wird mit der Option `overwrite_a=True` verwendet, was bedeutet, dass die Eingabematrix `A` in-place ver√§ndert wird.
2. **lu_notinplace**: Die Funktion `lu` wird mit der Option `overwrite_a=False` verwendet, was bedeutet, dass eine neue Matrix f√ºr die LU-Zerlegung erstellt wird.
3. **lu_factor_inplace**: Die Funktion `lu_factor` wird mit der Option `overwrite_a=True` verwendet.
4. **lu_factor_notinplace**: Die Funktion `lu_factor` wird mit der Option `overwrite_a=False` verwendet.

## Fragen zur Analyse

Die Aufgabe stellt zwei wichtige Fragen:

1. **Welche Version verwendet am meisten Speicher?**
2. **Bei welcher Version ist der Speicherverbrauch am konstantesten?**

## Ergebnisse

Die Messungen f√ºr den Speicherverbrauch der verschiedenen Varianten (in MB) ergeben die folgenden Werte:

- **Speichernutzung von lu_inplace**: 432 MB
- **Speichernutzung von lu_notinplace**: 560 MB
- **Speichernutzung von lu_factor_inplace**: 176 MB
- **Speichernutzung von lu_factor_notinplace**: 176 MB

### Antwort auf die Fragen:

1. **Welche Version verwendet am meisten Speicher?**
   - Die Variante `lu_notinplace` ben√∂tigt mit 560 MB den meisten Speicher.

2. **Bei welcher Version ist der Speicherverbrauch am konstantesten?**
   - Die Varianten `lu_factor_inplace` und `lu_factor_notinplace` verwenden mit jeweils 176 MB konstanten Speicher und sind deutlich speichereffizienter als die anderen Varianten.

## Fazit

Die Analyse zeigt, dass die `lu_factor`-Funktionen deutlich weniger Speicher ben√∂tigen als die `lu`-Funktionen. Das In-place-Verfahren (mit `overwrite_a=True`) f√ºhrt zu einer geringeren Speicherbelegung als das Verfahren ohne In-place-Ver√§nderung (`overwrite_a=False`), was auf die Vermeidung zus√§tzlicher Speicherzuweisungen hindeutet.

<div>

In [68]:
# L√∂schen der .bin-Dateien, wenn sie bereits existieren
for file_name in ["lu_inplace.bin", "lu_notinplace.bin", "lu_factor_inplace.bin", "lu_factor_notinplace.bin"]:
    if os.path.exists(file_name):  # √úberpr√ºfen, ob die Datei existiert
        os.remove(file_name)  # L√∂schen der Datei, wenn sie existiert

# Erstellen der .py-Dateien ohne Indentationsfehler
for file_name in ["lu_inplace.bin", "lu_notinplace.bin", "lu_factor_inplace.bin", "lu_factor_notinplace.bin"]:
    with open(file_name.replace(".bin", ".py"), "w") as file:        
        file.write(
f"""
import numpy as np
import memray
from scipy.linalg import lu_factor, lu

n = 4096
rng = np.random.default_rng(seed=123)
A = rng.random((n, n))

with memray.Tracker("{file_name}", native_traces=True):
    lu{"_factor" if "_factor" in file_name else ""}(A, overwrite_a={"_inplace" in file_name})
""") # Verwende Memray Tracker, um den Speicherverbrauch zu √ºberwachen

<div style="color: darkblue; background-color: #e0f7ff; padding: 5px; border-radius: 5px;" title="Toni">
memray muss installiert und importierbar sein, es wurde version 1.16.0 gem√§√ü Dockerfile aus dem Kurs verwendet.
</div>

In [69]:
#alle .py files werden ausgefuehrt in python3 um .bin Dateien zu erstellen
#diese enthalten die Infos zum Speicherbedarf
#falls sie schon im Verzeichnis existieren, m√ºssen sie zuvor gel√∂scht werden
# Alle .py-Dateien ausf√ºhren, um die .bin-Dateien zu erzeugen, die die Speichernutzungsdaten enthalten
for file_name in ["lu_inplace.bin", "lu_notinplace.bin", "lu_factor_inplace.bin", "lu_factor_notinplace.bin"]:
    os.system(f"python3 {file_name.replace('.bin', '.py')}")

In [70]:
#Speichernutzung wird aus allen .bin files gelesen und hier zusammengefasst
# Speichernutzung aus den .bin-Dateien lesen und ausgeben
for file_name in ["lu_inplace.bin", "lu_notinplace.bin", "lu_factor_inplace.bin", "lu_factor_notinplace.bin"]:
    reader = memray.FileReader(file_name)
    mem_use = 0

    # Alle Speicherzuweisungen durchgehen und die Gesamtgr√∂√üe berechnen
    for allocation in reader.get_allocation_records():
        mem_use += allocation.size

    # Ausgabe des gesamten Speicherverbrauchs in MB
    print(f"Speichernutzung von {file_name[:-4]} : {round(mem_use / 2**20)}MB") 

Speichernutzung von lu_inplace : 432MB
Speichernutzung von lu_notinplace : 560MB
Speichernutzung von lu_factor_inplace : 176MB
Speichernutzung von lu_factor_notinplace : 176MB


<div style="color: darkblue; background-color: #e0f7ff; padding: 5px; border-radius: 5px;" title="Toni">

Die Funktionen mit Version `lu_factor` verwenden konstant nur `176 MB` an Speicher.

Funktionen mit Version `lu` verwenden deutlich mehr Speicher mit `432 MB` "inplace" und sogar `560 MB` "notinplace".

Der Speicherbedarf kann auf unterschiedlichen Systemen unterschiedlich ausfallen.

<div>


In [71]:
#Auch die command-line Funktion von memray kann verwendet werden
# √§quivalent zu !memray stats lu_inplace.bin
os.system("memray stats lu_inplace.bin")

[2K  [36mComputing statistics...[0m [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [35m100%[0m [36m0:00:00[0m--:--[0m
[1A[2Küìè [1mTotal allocations:[0m
	18

üì¶ [1mTotal memory allocated:[0m
	432.139MB

üìä [1mHistogram of allocation size:[0m
	min: 8.000B
	----------------------------------------
	< 42.000B  : 3 ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá
	< 222.000B : 0 
	< 1.148KB  : 2 ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá
	< 6.062KB  : 2 ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá
	< 32.000KB : 6 ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá
	< 168.896KB: 0 
	< 891.443KB: 0 
	< 4.595MB  : 0 
	< 24.251MB : 1 ‚ñá‚ñá‚ñá‚ñá‚ñá
	<=128.000MB: 4 ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá
	----------------------------------------
	max: 128.000MB

üìÇ [1mAllocator type distribution:[0m
	 MALLOC: 15
	 CALLOC: 2
	 MMAP: 1

ü•á [1mTop [0m[1;36m5[0m[1m largest allocating locat

0

In [None]:
#command-line Befehl zum L√∂schen aller erstellten files
os.system("rm -rf lu_*")