### 6. Einfache statistische Kennwerte

##### 6.1. Statistische Kennwerte
Folgende Kennwerte einer Zahlenfolge $_{x1}, ..., x_{n}$ sind zu berechnen:


|Kennwert| Berechnungsvorschrift|
|--------|----------------------|
|Minimum|kleinster Wert der Zahlenfolge|
|Maximum| größter Wert der Zahlenfolge|
|Spanne|Maximum - Minimum|
|Arithmetischer Mittelwert| $ am = \frac{1}{n} \sum\limits_{i=1}^{n}x_{i}$ |
|Geometrischer Mittelwert | $gm = \sqrt[n]{x_{1} \cdot x_{2} \cdot ... \cdot x_{n}}$<br>Zur Berechnung siehe [Abschnitt 6.3.](#63-berechnung-des-geometrischen-mittelwertes)|
|Quadratischer Mittelwert | $qm = \sqrt{ \frac{1}{n} \sum\limits_{i=1}^{n} x_{i}^{2} }$ |
|Mittlere Abweichung| $ ma = \frac{1}{n} \sum\limits_{i=1}^{n} \left\| { x_{i} - am } \right\| $ |
| Median | Der Median einer Menge von Zahlen, die der Größe nach sortiert sind, ist bei ungerader Anzahl der Wert in der Mitte, bei gerader Anzahl das arithmetische Mittel der beiden Werte in der Mitte.<br>Zur Sortierung siehe [Abschnitt 6.2.](#62-sortieren-durch-vertauschen) |

Bei der Programmerstellung ist folgendermaßen vorzugehen:<br>
* Verwenden Sie zur Berechnung der Kennwerte jeweils eine eigene Funktion. Weiterhin wird das
Füllen, Ausgeben und Sortieren eines des Feldes, sowie der Wertetausch zweier `float`-Variablen
jeweils in einer eigenen Funktion dargestellt (siehe unten)
* Es sollen 200 `float`-Werte berücksichtigt werden, die mit Hilfe des Zufallsgenerators `random()` (`import random`)
erzeugt werden können (Wertebereich 0 bis 100; eine Nachkommastelle,
die ungleich Null sein kann).<br>
**<u>Problem!</u>**<br>
Die Funktionen von `random` verwenden Ganzzahlen (int) als Parameter und geben Ganzzahlen zurück!<br>
Für die Parameter `lower_value = -20` und `upper_value = 30` als Beispiel müssen Werte im Bereich -20.0 und 30.0 erzeugt werden. Selbstverständlich müssen auch die Nachkommastellen zufällig sein.<br>
Lassen Sie sich etwas einfallen!
* Zur Berechnung der Quadratwurzel wird die Funktion `sqrt()` verwendet (`import math`).
* Zur Berechnung des Betrages einer `float`-Größe wird die Funktion `abs()` verwendet.
* Die Prototypen im unten folgenden Skriptfeld sind zu verwenden.
* Die Funktion `fill_field` füllt das übergebene Feld mit Zufallswerten die zwischen unten und
oben liegen sollen.
* Die Funktion `print_field` gibt das übergebene Feld in Zeilen zu 10 Werten aus.
* Die Funktion `change` tauscht die Werte mit den Indizees `idx1` und `idx2` im Feld `field` aus.
* Die beiden Sortierfunktionen `sort_field_ascending`und `sort_field_descending` verwenden das Verfahren, welches in [Abschnitt 6.2](#62-sortieren-durch-vertauschen) dargestellt ist.
* Die Funktion `median` ruft zur Sortierung eine der beiden Sortierfunktionen auf. Die Daten
werden dabei im Originalfeld sortiert, das heißt es soll kein Hilfsfeld angelegt werden.

**Bei ungültigen Parametern ist ein `ValueError` mit einer aussagefähigen Fehlermeldung zu werfen!**

##### 6.2 Sortieren durch Vertauschen

![alt text](cpp1_a6_abb_6_1_sortieren_durch_vertauschen.png)<br>
Abbildung 6.1.: Sortieren durch Vertauschen

**Vorgehensweise.** Das erste und das zweite Element der vorgelegten Liste werden verglichen. Ist das erste größer als das zweite, so werden die beiden vertauscht. Der gleiche Vorgang wird auf das (nunmehr) zweite und dritte Element der Liste angewandt, dann auf das (nunmehr) dritte und vierte. Dies wird bis zum Vergleich des $(n-1)$-ten mit dem n-ten Element fortgesetzt. Nach $(n-1)$ Vergleichen befindet sich das größte Element am Ende der Liste.<br>
Nach dem gleichen Verfahren wird nun in der um eine Position verkürzten Liste das zweitgrößte Element auf die vorletzte Position gebracht. Dies wird fortgesetzt an einer immer kürzer werdenden Restliste bis diese schließlich nur noch aus einem Element besteht.<br>
Bei der Implementierung soll die Funktion `change()` verwendet werden.

**Aufwand.** Bei einer Liste mit $n$ Elementen sind $(n-1)$ Durchläufe erforderlich. Beim ersten Durchlauf werden $(n-1)$ Vergleiche durchgeführt, beim letzten nur noch ein Vergleich. Der Sortieraufwand A ergibt sich durch das Aufsummieren der anfallenden **Vergleichsschritte:**<br>

$$
\begin{align}
A= \sum\limits_{i=1}^{n-1} (n-i) = \sum\limits_{i=1}^{n-1} i 0 \frac{n(n-1)}{2} \approx \frac{n^{2}}{2}
\end{align}
$$

**Vorteil.** Das Verfahren hat den Vorteil, daß es keinerlei zusätzlichen Speicher benötigt. Der Sortiervorgang läuft innerhalb der vorgelegten Originalliste ab. Das Verfahren ist außerdem sehr einfach
zu implementieren.

**Nachteil.** Ein schwerwiegender Nachteil ist die Zunahme des Aufwandes mit dem Quadrat der Listenlänge $n$. Das Verfahren ist daher nur für kurze, selten zu sortierende Listen geeignet.

##### 6.3 Berechnung des geometrischen Mittelwertes


Durch Logarithmieren der Gleichung

$$
\begin{align}
gm = \sqrt[n]{x_{1} \cdot x_{2} \cdot ... \cdot x_{n}}
\end{align}
$$

mit dem natürlichen Logarithmus $ln$ (Basis e) erhält man
$$
\begin{align}
 GM &= \ln gm = \ln \sqrt[n]{x_{1} \cdot x_{2} \cdot ... \cdot x_{n}} \\
    &= \frac{1}{n} (\ln x_{1} + \ln x_{2} + ... + \ln x_{n}) \\
    &= \frac{1}{n} \sum\limits_{i=1}^{n} \ln x_{i}
\end{align}
$$

das heißt man berechnet zunächst den Logarithmus von $gm$ als arithmetisches Mittel der Summe der
Logarithmen der Größen $x_{i}$ . Man erhält nun das gesuchte Ergebnis $gm$ durch Potenzierung:

$$
\begin{align}
gm = e^{GM} = e^{\ln gm}
\end{align}
$$

Natürliche Logarithmus, Exponentialfunktion: `math.log()`, `math.exp()`, (`import math)`.<br>
(`math.log()`: natürlicher Logarithmus, $\ln$ zur Basis $e$! Der Logarithmus zur Basis 10 ist `math.log10()`!)


In [None]:
# Lösung 6. Einfache statistische Kennwerte
import math
import random

def fill_field(field, count, lower_value, upper_value):
    field.clear()
    for i in range(count):
        rand = random.randrange(int(lower_value*10.0), int(upper_value*10.0), 1)
        rand = rand / 10.0 
        field.append(rand)
    
def print_field(field):
    colIdx = 0
    for item in field:
        print(f"{item:10.1f}", end = "\n" if (colIdx+1) % 10 == 0  else " ")
        colIdx += 1

def change(field, idx1, idx2):
    tmp = field[idx1]
    field[idx1] = field[idx2]
    field[idx2] = tmp

def sort_field_ascending(field):
    endIdx = len(field)
    while (endIdx > 2):       
        for startIdx in range(1, endIdx):
            idx1 = startIdx-1
            idx2 = startIdx
            if (field[idx1] > field[idx2]):
                change(field, idx1, idx2)
        endIdx -= 1

def sort_field_descending(field):
    endIdx = len(field)
    while (endIdx > 2):       
        for startIdx in range(1, endIdx):
            idx1 = startIdx-1
            idx2 = startIdx
            if (field[idx1] < field[idx2]):
                change(field, idx1, idx2)
        endIdx -= 1

def minimum(field):
    result = field[0]
    for idx in range(len(field)):
        if (field[idx] < result):
            result = field[idx]
    return result

def maximum(field):
    result = 0
    result = field[0]
    for idx in range(len(field)):
        if (field[idx] > result):
            result = field[idx]
    return result

def spread (field):
    result = maximum(field) - minimum(field)
    return result

def arith_mean(field):
    result = 0
    for idx in range(len(field)):
        result += field[idx]
    result /= float(len(field))
    return result

def geo_mean(field):
    result = 0
    for idx in range(len(field)):
        x_i = field[idx]
        if (x_i <= 0):
            raise ValueError(f"Geometrischer Mittelwert: Wert[{idx+1}]: {x_i} ungülgiter Operand für ln!")
        result += math.log(x_i)
    result /= float(len(field))
    return math.exp(result)

def square_mean(field):
    result = 0
    for idx in range(len(field)):
        result += field[idx] * field[idx]
    result /= float(len(field))
    return math.sqrt(result)

def mean_aberration(field):
    result = 0
    am = arith_mean(field)
    for idx in range(len(field)):
        result +=  math.fabs( field[idx] - am )
    result /= float(len(field))
    return result

def median (field):
    am = arith_mean(field)
    result = 0
    for idx in range(len(field)):
        result += math.fabs(field[idx] - am)
    result /= float(len(field))
    return result

def printValue(caption, value):
    if type(value) == str:
        print(f"| {caption:25} | {value:10} |")
        print("|", end="")
        print("-" * 27, end="")
        print("|", end="")
        print("-" * 12, end="")
        print("|")
    else:
        print(f"| {caption:25} | {value:10.2f} |")

try:
    field = []
    fill_field(field, 50, 0, 50)
    print("Feld, frisch erzeugt:")
    print_field(field)
    print()

    sort_field_ascending(field)
    print("Feld, aufsteigend sortiert:")
    print_field(field)
    print()

    sort_field_descending(field)
    print("Feld, absteigend sortiert:")
    print_field(field)

    print()

    printValue("Stat. Kennwert", "Ergebnis")
    printValue("Minimum", minimum(field))
    printValue("Maximum", maximum(field))
    printValue("Spannweite", spread(field))
    printValue("Arithmetischer Mittelwert",arith_mean(field))
    printValue("Geometrischer Mittelwert", geo_mean(field))
    printValue("Quadratischer Mittelwert", square_mean(field))
    printValue("Mittlere Abweichung", mean_aberration(field))
    printValue("Median", median(field))

except ValueError as ve:
    print(str(ve))

Feld, frisch erzeugt:
      25.1        8.5       21.5       32.6       14.4       14.3       48.2       27.0       32.2       44.0
      45.1       38.2        5.3       18.2       15.1       49.5       47.7       30.6       26.2       45.1
      11.3       29.3       10.9        8.8       17.1       41.3       40.2       31.4       11.3       22.4
      16.5       43.3       29.7        6.4        3.2       16.6       38.1       30.2       17.6       48.6
      40.1       11.8        8.9       15.6        3.7       23.1       28.2       13.6       29.7        1.1

Feld, aufsteigend sortiert:
       3.2        1.1        3.7        5.3        6.4        8.5        8.8        8.9       10.9       11.3
      11.3       11.8       13.6       14.3       14.4       15.1       15.6       16.5       16.6       17.1
      17.6       18.2       21.5       22.4       23.1       25.1       26.2       27.0       28.2       29.3
      29.7       29.7       30.2       30.6       31.4       32.2    