# Anforderungen an Software(entwicklung)

Kunden stellen Qualitätsanforderungen an Software:

* **Funktionale Anforderungen**: Software soll funktional sein, d.h. zum Beispiel eine Rechenfunktion bieten.
* **Nicht-funktionale Anforderungen**: Software soll effizient sein, d.h. zum Beispiel schnell rechnen.

Software und Hardware gleichen sich darin. Funktionale und nicht-funktionale Anforderungen sollen erfüllt werden.

Allerdings ist Software dennoch fundamental anders als Hardware:

* Hardware wird in einer Qualität hergestellt und soll diese Qualität über einen Gebrauchszeitraum möglichst behalten.
* Hardware kann kaputtgehen, d.h. sie verliert eine Qualität bis zur Unbrauchbarkeit, und muss dann repariert werden. Die Reparatur stellt die Qualität möglichst vollständig wieder her.
* Damit Hardware nicht (zur Unzeit) kaputtgeht, kann sie gewartet werden. Wartung restauriert verlorene Qualität, bevor Unbrauchbarkeit eingetreten ist.
* Hardware soll stabil sein, d.h. sich möglichst wenig verändern in ihren Qualitäten. Kurz, Hardware soll wenig reparaturanfällig sein.

Software wird zwar auch in einer Qualität hergestellt, doch die kann sie nicht durch Gebrauch oder Umwelteinflüsse verlieren; sie kann nicht kaputtgehen und muss daher auch nicht gewartet werden. Wenn bei Gebrauch der Software ein Bug festgestellt wird, dann hat Software nicht eine Qualität verloren, sondern nie gehabt - das wurde nur nicht früher bemerkt.

Vor allem aber wird Software nicht einmal in einer Qualität hergestellt, sondern laufend um neue Qualitäten angereichert. Hardware, z.B. ein Kugelschreiber, ein Fön, ein Schrank, ein Auto, haben fixierte Qualitäten; es findet nach der Herstellung keine Erweiterung statt. Veränderungen dienen höchstens der Wartung oder Reparatur, um ursprüngliche Qualitäten zu erhalten bzw. wieder herzustellen.

Software hingegen wächst in ihren Qualitäten ständig. Das ist ein fundamentaler Anspruch des Kunden. Das gehört quasi zur ihrer Natur.

Software unterscheidet deshalb in einem weiteren Punkt fundamental von Hardware:

* Software soll flexibel sein, d.h. sie soll sich möglichst leicht um neue Qualitäten erweitern lassen. Kurz, Software soll sehr **wandlungsfähig** (evolvierbar) sein.

## Laufzeitanforderungen

Funktionale und nicht-funktionale Anforderungen sind Laufzeitanforderungen. Ob das Verhalten von Software die gewünschten Laufzeitqualitäten hat, zeigt sich während der Nutzung von Software. Spätenstens wenn der Kunde Software in Betrieb nimmt, merkt er, ob sie die Laufzeitanforderungen erfüllt. Das ist vergleichsweise einfach - wenn auch im Falle von Qualitätsmängeln frustrierend.

### Laufzeitanforderungen herstellen I - Logik

Laufzeitanforderungen werden zunächst hergestellt durch **Logik**.

Logik ist der Teil von Code, der Laufzeitverhalten herstellt. Logik ist das, was funktioniert (oder nicht). Logik ist das, was effizient ist (oder nicht).

Im Code ist Logik der Teil, der besteht aus:

* Transformationen, z.B. `+`, `*`, `&&`, `"hello".Length`
* Kontrollstrukturen, z.B. `if`, `for``
* I/O bzw. API-Aufrufe, z.B. `System.IO.File.ReadAllLines("myfile.txt")`, `System.Console.WriteLine("Hello, World!")`

Oder allgemeiner: Als Logik können alle Funktionsaufrufe in eine Plattform verstanden werden, auf der eine Software aufsetzt, d.h. die für sie eine Black Box darstellt. Programmiersprache, Standardbibliothek und anderen Bibliotheken/Frameworks definieren diese Plattform. (Standardoperatoren und Kontrollstrukturen lassen sich als Funktionen verstehen, die eine Programmiersprache mit syntaktischem Zucker überzieht.)

Ein Beispiel für den Einsatz von Logik in einer C#-Software:

In [4]:
using System;

class Program {
    public static void Main() {
        Console.WriteLine("Hello, World!");
    }
}

So trivial die Aufgabe dieses Programms ist, die Logik ist dafür essenziell.

Interessant ist allerdings, dass sich darin lediglich eine Zeile Logik (`Console.WriteLine(...)`) zur Herstellung einer funktionalen Laufzeitqualität befindet - alle anderen Zeilen dienen einem anderen Zweck. Das ist zu rechtfertigen.

#### Effiziente Logik

Zunächst stellt Logik die funktionale Qualität von Software her. Sie rechnet, transformiert, stellt dar, lädt, versendet usw.

Logik in funktionaler Weise zusammenzustellen, ist die erste und nicht leichte Aufgabe jedes Programmierers. Doch nicht jede funktionale Logik erfüllt auch die nicht-funktionalen Anforderungen an eine Software. Logik (und zugehörige Datenstrukturen) können sehr unterschiedliches Laufzeitverhalten in puncto Effizienz an den Tag legen. Beispiel dafür kann ein Sortieralgorithmus geben:

In [1]:
// Quelle: https://www.c-sharpcorner.com/UploadFile/3d39b4/bubble-sort-in-C-Sharp/

void BubbleSort(int[] values) {
    var flag = true;
    for (int i = 1; (i <= (values.Length - 1)) && flag; i++) {  
        flag = false;  
        for (int j = 0; j < (values.Length - 1); j++)  
        {  
            if (values[j + 1] > values[j])  
            {  
                var temp = values[j];  
                values[j] = values[j + 1];  
                values[j + 1] = temp;  
                flag = true;  
            }  
        }  
    }  
}

In [2]:
var numbers = new[]{ 89, 76, 45, 92, 67, 13, 99 };
BubbleSort(numbers);
display(numbers);

index,value
0,99
1,92
2,89
3,76
4,67
5,45
6,13


Die Logik ist funktional. Sie sortiert ein Array korrekt. Was sollte daran auszusetzen sein?

Aber ist sie auch effizient? Sortiert die Logik das Array schnell?

In [7]:
var rnd = new Random();
numbers = Enumerable.Range(1,10000).Select(_ => rnd.Next(0,1000)).ToArray();
var start = DateTime.Now;
BubbleSort(numbers);
display(DateTime.Now.Subtract(start).Milliseconds);

10.000 zufällige Zahlen werden von `BubbleSort` in ca. einer halben Sekunde (um die 400msec) sortiert. Ob das schnell genug ist oder zu langsam, ist natürlich eine Frage des konkreten Einsatzszenarios. An dieser Stelle geht es aber nicht um Angemessenheit, sondern darum, dass die Auswahl/Zusammenstellung von Logik - der Algorithmus - grundsätzlich einen Einfluss auf Performance und andere nicht-funktionale Qualitäten hat.

Zum Vergleich ein anderer Ansatz zum Sortieren: Quicksort.

In [5]:
// Quelle: https://www.w3resource.com/csharp-exercises/searching-and-sorting-algorithm/searching-and-sorting-algorithm-exercise-9.php

void QuickSort(int[] values) => QuickSort(values, 0, values.Length - 1);
        
void QuickSort(int[] values, int left, int right) {
    if (left < right) {
        int pivot = Partition(values, left, right);

        if (pivot > 1) {
            QuickSort(values, left, pivot - 1);
        }
        if (pivot + 1 < right) {
            QuickSort(values, pivot + 1, right);
        }
    }
}

int Partition(int[] values, int left, int right)  {
    int pivot = values[left];
    while (true) {
        while (values[left] < pivot) {
            left++;
        }

        while (values[right] > pivot) {
            right--;
        }

        if (left < right) {
            if (values[left] == values[right]) return right;

            int temp = values[left];
            values[left] = values[right];
            values[right] = temp;
        }
        else {
            return right;
        }
    }
}

Wie lange braucht der Quicksort-Algorithmus für die selbe Aufgabe?

In [8]:
var rnd = new Random();
numbers = Enumerable.Range(1,10000).Select(_ => rnd.Next(0,1000)).ToArray();
var start = DateTime.Now;
QuickSort(numbers);
display(DateTime.Now.Subtract(start).Milliseconds);

Weniger als 10msec für Quicksort im Vergleich zu fast 500msec für Bubblesort: das ist ein eklatanter Unterschied! Logik (zusammen mit Datenstrukturen) hat mithin sichtbar nicht nur Einfluss auf die Funktionalität (hier: Logik sortiert), sondern auch auf nicht-funktionale Anforderungen (hier: Logik sortiert schnell).

Die Logik so oder anders zu wählen, macht einen Unterschied in Bezug auf die Performance, die Bedienbarkeit oder die Sicherheit usw.

> Logik (und Datenstrukturen) in einer geeigneten Weise zu wählen, um Laufzeianforderungen in hoher Qualität zu erfüllen, ist die erste und eine hohe Kunst für jeden Softwareentwickler.

### Laufzeitanforderungen herstellen II - Verteilung

Nicht alle nicht-funktionalen Qualiäten lassen sich jedoch durch eine Zusammenstellung von Logik allein herstellen. Das, was auch der beste Algorithmus mit passenden Datenstrukturen erreichen kann, ist begrenzt durch die Prozessorleistung. Logik läuft zunächst immer nur auf einem Thread. Selbst wenn dies der einzige Thread eines Prozessorkerns sein sollte und die Logik in ihrer Arbeit nicht unterbrochen würde, wäre ihre Performance eben begrenzt durch das, was ein Prozessorkern leisten kann. Was, wenn mehr Performance nötig ist?

Mehr Performance oder auch andere Laufzeitqualitäten wie Skalierbarkeit lässt sich erzielen durch Verteilung von Logik auf zunächst mehrere Threads. Dadurch lässt sich Latenz verringern (höhere Performance) oder Latenz verbergen (die Performance wird nicht erhöht, doch der Aufrufer von Logik muss nicht auf sie warten) oder der Durchsatz erhöhen.

Beispiel: Bubblesort ist langsam. Wenn zwei Arrays zu sortieren sind, kann das nacheinander geschehen. Die Gesamtdauer ist dann die Summe der Einzelaufwände. 

In [13]:
var rnd = new Random();
var numbers1 = Enumerable.Range(1,5000).Select(_ => rnd.Next(0,1000)).ToArray();
var numbers2 = Enumerable.Range(1,10000).Select(_ => rnd.Next(0,1000)).ToArray();
var start1 = DateTime.Now;
BubbleSort(numbers1);
display($"  numbers1: {DateTime.Now.Subtract(start1).Milliseconds}");
var start2 = DateTime.Now;
BubbleSort(numbers2);
display($"  numbers2: {DateTime.Now.Subtract(start2).Milliseconds}");
display($"total: {DateTime.Now.Subtract(start1).Milliseconds}");

  numbers1: 106

  numbers2: 406

total: 514

Doch wenn die beiden Arrays auf verschiedenen Threads auf verschiedenen Cores gleichzeitig sortiert werden könnten, dann würde die Gesamtdauer nur nahe beim größeren Aufwand liegen.

In [14]:
var rnd = new Random();
var numbers1 = Enumerable.Range(1,5000).Select(_ => rnd.Next(0,1000)).ToArray();
var numbers2 = Enumerable.Range(1,10000).Select(_ => rnd.Next(0,1000)).ToArray();
var start = DateTime.Now;
var task1 = Task.Run(() => {
    var start1 = DateTime.Now;
    BubbleSort(numbers1);
    display($"  numbers1: {DateTime.Now.Subtract(start1).Milliseconds}");
});
var task2 = Task.Run(() => {
    var start2 = DateTime.Now;
    BubbleSort(numbers2);
    display($"  numbers2: {DateTime.Now.Subtract(start2).Milliseconds}");
});
Task.WaitAll(task1, task2);
display($"total: {DateTime.Now.Subtract(start).Milliseconds}");

  numbers1: 106

  numbers2: 415

total: 416

Nicht-funktionale Qualitäten lassen sich also in zwei Dimensionen beeinflussen:

* durch die Auswahl und Zusammenstellung von Logik (und Datenstrukturen)
* durch Verteilung auf mehrere Threads

#### Hosts

Verteilt läuft Logik, wenn sie auf mehreren Threads läuft. Der Treiber sind nicht-funktionale Anforderungen, die nicht anders erfüllt werden können.

Threads sind zwar der elementare Baustein der Verteilung, andererseits stellen sie nur unterste Ebene einer Hierarchie von Containern dar, auf die Logik verteilt werden kann.

Container zur Verteilung von Logik zum Zwecke der Herstellung von nicht-funktionalen Qualitäten heißen _Hosts_. Die Host-Hierarchie umfasst die folgenden Ebenen:

* Thread
* Betriebssystem-Prozess
* (Virtuelle) Maschine (oder auch Docker Container)
* Netzwerk

**Allen Hosts ist gemeinsam, dass die Kommunikation *zwischen* Hosts nur asynchron sein kann und vermittels eines Mediums (z.B. einer Queue).** Sie ist damit grundsätzlich langsamer als die zwischen Funktionen im selben Thread.

Je weiter verteilt Logik ist, d.h. je höher in der Host-Hierarchie die Verteilung vorgenommen wird, desto langsamer die Kommunikation zwischen den verteilten Teilen der Logik: inter-Prozess-Kommunikation ist viel langsamer als inter-Thread-Kommunikation usw.

Die sinkende Geschwindigkeit von Host-Ebene zu Host-Ebene ist ein Preis, der zu zahlen ist für den Gewinn, den die "entferntere" Verteilung auf höherer Ebene andererseits bietet:

* Verteilung auf Threads, d.h. parallele Verarbeitung, kann z.B. die Performance erhöhen oder Responsiveness herstellen, wenn der Aufwand zum Wechseln des Thread bzw. der Kommunikationsaufwand deutlich geringer als die Laufzeit der Logik auf einem Thread ist.
* Verteilung auf verschiedene Prozesse (auf derselben Maschine) erzeugt zwar einen erheblichen Aufwand für die Kommunikation, bietet aber z.B. Isolation von Speicherbereichen für mehr Sicherheit oder Robustheit des Gesamtsystems gegenüber Teilausfällen.
* Verteilung auf verschiedene Maschinen bietet z.B. die Möglichkeit, Prozessor- und Speicherressourcen zu skalieren.
* Verteilung auf verschiedene Netzwerke bietet z.B. die Möglichkeit, Logik weiträumig zu verteilen für die Nähe zu Ressourcen oder Erhöhung der Sicherheit.

> Logik zu verteilen, um nicht-funktionale Anforderungen jenseits der Möglichkeiten der Auswahl und Zusammenstellung von Logik zu erfüllen, ist die zweite hohe Kunst der Softwareentwicklung.

Anforderungen an moderne Anwendungen lassen sich kaum ohne Verteilung erfüllen. Aber trotz aller Abstraktionen von Programmiersprachen und Frameworks ist dabei mit Vorsicht und Augenmaß vorzugehen. Schnell erliegt man einem [Trugschluss](https://en.wikipedia.org/wiki/Fallacies_of_distributed_computing).

## Produktionsanforderungen