### 6. Einfache statistische Kennwerte

##### 6.1. Statistische Kennwerte
Folgende Kennwerte einer Zahlenfolge $_{x1}, ..., x_{n}$ sind zu berechnen:


|Kennwert| Berechnungsvorschrift|
|--------|----------------------|
|Minimum|kleinster Wert der Zahlenfolge|
|Maximum| größter Wert der Zahlenfolge|
|Spanne|Maximum - Minimum|
|Arithmetischer Mittelwert| $ am = \frac{1}{n} \sum\limits_{i=1}^{n}x_{i}$ |
|Geometrischer Mittelwert | $gm = \sqrt[n]{x_{1} \cdot x_{2} \cdot ... \cdot x_{n}}$<br>Zur Berechnung siehe [Abschnitt 6.3.](#63-berechnung-des-geometrischen-mittelwertes)|
|Quadratischer Mittelwert | $qm = \sqrt{ \frac{1}{n} \sum\limits_{i=1}^{n} x_{i}^{2} }$ |
|Mittlere Abweichung| $ ma = \frac{1}{n} \sum\limits_{i=1}^{n} \left\| { x_{i} - am } \right\| $ |
| Median | Der Median einer Menge von Zahlen, die der Größe nach sortiert sind, ist bei ungerader Anzahl der Wert in der Mitte, bei gerader Anzahl das arithmetische Mittel der beiden Werte in der Mitte.<br>Zur Sortierung siehe [Abschnitt 6.2.](#62-sortieren-durch-vertauschen) |

Bei der Programmerstellung ist folgendermaßen vorzugehen:<br>
* Verwenden Sie zur Berechnung der Kennwerte jeweils eine eigene Funktion. Weiterhin wird das
Füllen, Ausgeben und Sortieren eines des Feldes, sowie der Wertetausch zweier `float`-Variablen
jeweils in einer eigenen Funktion dargestellt (siehe unten)
* Es sollen 200 `float`-Werte berücksichtigt werden, die mit Hilfe des Zufallsgenerators `random()` (`import random`)
erzeugt werden können (Wertebereich 0 bis 100; eine Nachkommastelle,
die ungleich Null sein kann).<br>
**<u>Problem!</u>**<br>
Die Funktionen von `random` verwenden Ganzzahlen (int) als Parameter und geben Ganzzahlen zurück!<br>
Für die Parameter `lower_value = -20` und `upper_value = 30` als Beispiel müssen Werte im Bereich -20.0 und 30.0 erzeugt werden. Selbstverständlich müssen auch die Nachkommastellen zufällig sein.<br>
Lassen Sie sich etwas einfallen!
* Zur Berechnung der Quadratwurzel wird die Funktion `sqrt()` verwendet (`import math`).
* Zur Berechnung des Betrages einer `float`-Größe wird die Funktion `abs()` verwendet.
* Die Prototypen im unten folgenden Skriptfeld sind zu verwenden.
* Die Funktion `fill_field` füllt das übergebene Feld mit Zufallswerten die zwischen unten und
oben liegen sollen.
* Die Funktion `print_field` gibt das übergebene Feld in Zeilen zu 10 Werten aus.
* Die Funktion `change` tauscht die Werte mit den Indizees `idx1` und `idx2` im Feld `field` aus.
* Die beiden Sortierfunktionen `sort_field_ascending`und `sort_field_descending` verwenden das Verfahren, welches in [Abschnitt 6.2](#62-sortieren-durch-vertauschen) dargestellt ist.
* Die Funktion `median` ruft zur Sortierung eine der beiden Sortierfunktionen auf. Die Daten
werden dabei im Originalfeld sortiert, das heißt es soll kein Hilfsfeld angelegt werden.

**Bei ungültigen Parametern ist ein `ValueError` mit einer aussagefähigen Fehlermeldung zu werfen!**

##### 6.2 Sortieren durch Vertauschen

![alt text](cpp1_a6_abb_6_1_sortieren_durch_vertauschen.png)<br>
Abbildung 6.1.: Sortieren durch Vertauschen

**Vorgehensweise.** Das erste und das zweite Element der vorgelegten Liste werden verglichen. Ist das erste größer als das zweite, so werden die beiden vertauscht. Der gleiche Vorgang wird auf das (nunmehr) zweite und dritte Element der Liste angewandt, dann auf das (nunmehr) dritte und vierte. Dies wird bis zum Vergleich des $(n-1)$-ten mit dem n-ten Element fortgesetzt. Nach $(n-1)$ Vergleichen befindet sich das größte Element am Ende der Liste.<br>
Nach dem gleichen Verfahren wird nun in der um eine Position verkürzten Liste das zweitgrößte Element auf die vorletzte Position gebracht. Dies wird fortgesetzt an einer immer kürzer werdenden Restliste bis diese schließlich nur noch aus einem Element besteht.<br>
Bei der Implementierung soll die Funktion `change()` verwendet werden.

**Aufwand.** Bei einer Liste mit $n$ Elementen sind $(n-1)$ Durchläufe erforderlich. Beim ersten Durchlauf werden $(n-1)$ Vergleiche durchgeführt, beim letzten nur noch ein Vergleich. Der Sortieraufwand A ergibt sich durch das Aufsummieren der anfallenden **Vergleichsschritte:**<br>

$$
\begin{align}
A= \sum\limits_{i=1}^{n-1} (n-i) = \sum\limits_{i=1}^{n-1} i 0 \frac{n(n-1)}{2} \approx \frac{n^{2}}{2}
\end{align}
$$

**Vorteil.** Das Verfahren hat den Vorteil, daß es keinerlei zusätzlichen Speicher benötigt. Der Sortiervorgang läuft innerhalb der vorgelegten Originalliste ab. Das Verfahren ist außerdem sehr einfach
zu implementieren.

**Nachteil.** Ein schwerwiegender Nachteil ist die Zunahme des Aufwandes mit dem Quadrat der Listenlänge $n$. Das Verfahren ist daher nur für kurze, selten zu sortierende Listen geeignet.

##### 6.3 Berechnung des geometrischen Mittelwertes


Durch Logarithmieren der Gleichung

$$
\begin{align}
gm = \sqrt[n]{x_{1} \cdot x_{2} \cdot ... \cdot x_{n}}
\end{align}
$$

mit dem natürlichen Logarithmus $ln$ (Basis e) erhält man
$$
\begin{align}
 GM &= \ln gm = \ln \sqrt[n]{x_{1} \cdot x_{2} \cdot ... \cdot x_{n}} \\
    &= \frac{1}{n} (\ln x_{1} + \ln x_{2} + ... + \ln x_{n}) \\
    &= \frac{1}{n} \sum\limits_{i=1}^{n} \ln x_{i}
\end{align}
$$

das heißt man berechnet zunächst den Logarithmus von $gm$ als arithmetisches Mittel der Summe der
Logarithmen der Größen $x_{i}$ . Man erhält nun das gesuchte Ergebnis $gm$ durch Potenzierung:

$$
\begin{align}
gm = e^{GM} = e^{\ln gm}
\end{align}
$$

##### 6.4 Einschränkungen
**Für die Lösungen dürfen Sie aus dem Packgage `math` (`import math`) nur den natürlichen Logarithmus (`math.log()`) und die Exponentialfunktion (`math.exp()`) verwenden!**<br>
(`math.log()`: natürlicher Logarithmus, $\ln$ zur Basis $e$! Der Logarithmus zur Basis 10 ist `math.log10()`!)

##### 6.4 Funktionstests
Testen Sie die Ergebnisse Ihrer Lösungen **mit 200 Werten im Bereich von 0.1 bis 50.0** gegen folgende Funktionen:
|Kennwert| Berechnungsvorschrift|
|--------|----------------------|
|Minimum|`min(field)`|
|Maximum|`max(field)`|
|Spanne|`max(field)-min(field)`|
|Arithmetischer Mittelwert| `mean(field)` |
|Geometrischer Mittelwert | `math.prod(field) ** (1 / n)`|
|Quadratischer Mittelwert | `math.sqrt(sum(x**2 for x in field) / n)` |
|Mittlere Abweichung| `sum(abs(x - m) for x in field) / n` |
| Median | `median(field)` |

mit<br>
`n`: Anzahl der Werte des Feldes

Die Beschränkung des Wertebereich von 0.1 bis 50.0 ist erforderlich, weil die Testfunktion für den Geometrischen Mittelwert bei höheren Werten nach "Unendlich" überläuft.

Sie benötigen dafür folgende Imports:
```
import math
from statistics import mean, median
```
Beachten Sie, dass es wegen Rundungsfehlern unwahrscheinlich ist, dass auf unterschiedliche Weise berechnete float-Werte gleich sind.<br>
Vergleichen Sie daher den Betrag der Differenz mit einem sehr kleinen Wert:
```
...
epsilon = 1E-12
assert math.fabs(wert1-wert2) < epsilon
```





In [1]:
# Lösung 6. Einfache statistische Kennwerte
import math
import random

def fill_field(field, count, lower_value, upper_value):
### BEGIN SOLUTION
    field.clear()
    for i in range(count):
        rand = random.randrange(int(lower_value*10.0), int(upper_value*10.0), 1)
        rand = rand / 10.0 
        field.append(rand)
### END SOLUTION

    
def print_field(field):
### BEGIN SOLUTION
    colIdx = 0
    for item in field:
        print(f"{item:10.1f}", end = "\n" if (colIdx+1) % 10 == 0  else " ")
        colIdx += 1
### END SOLUTION

def change(field, idx1, idx2):
### BEGIN SOLUTION
    tmp = field[idx1]
    field[idx1] = field[idx2]
    field[idx2] = tmp
### END SOLUTION

def sort_field_ascending(field):
### BEGIN SOLUTION
    endIdx = len(field)
    while (endIdx > 2):       
        for startIdx in range(1, endIdx):
            idx1 = startIdx-1
            idx2 = startIdx
            if (field[idx1] > field[idx2]):
                change(field, idx1, idx2)
        endIdx -= 1
### END SOLUTION

def sort_field_descending(field):
### BEGIN SOLUTION
    endIdx = len(field)
    while (endIdx > 2):       
        for startIdx in range(1, endIdx):
            idx1 = startIdx-1
            idx2 = startIdx
            if (field[idx1] < field[idx2]):
                change(field, idx1, idx2)
        endIdx -= 1
### END SOLUTION

def minimum(field):
### BEGIN SOLUTION
    result = field[0]
    for idx in range(len(field)):
        if (field[idx] < result):
            result = field[idx]
### END SOLUTION
    return result

def maximum(field):
### BEGIN SOLUTION
    result = 0
    result = field[0]
    for idx in range(len(field)):
        if (field[idx] > result):
            result = field[idx]
### END SOLUTION
    return result

def spread (field):
### BEGIN SOLUTION
    result = maximum(field) - minimum(field)
### END SOLUTION
    return result

def arith_mean(field):
    result = 0
### BEGIN SOLUTION
    for idx in range(len(field)):
        result += field[idx]
    result /= float(len(field))
### END SOLUTION
    return result

def geo_mean(field):
    result = 0
### BEGIN SOLUTION
    for idx in range(len(field)):
        x_i = field[idx]
        if (x_i <= 0):
            raise ValueError(f"Geometrischer Mittelwert: Wert[{idx+1}]: {x_i} ungülgiter Operand für ln!")
        result += math.log(x_i)
    result /= float(len(field))
    result = math.exp(result)
### END SOLUTION
    return result

def square_mean(field):
    result = 0
### BEGIN SOLUTION
    for idx in range(len(field)):
        result += field[idx] * field[idx]
    result /= float(len(field))
    result = math.sqrt(result)
### END SOLUTION
    return result

def mean_aberration(field):
    result = 0
### BEGIN SOLUTION
    am = arith_mean(field)
    for idx in range(len(field)):
        result +=  math.fabs( field[idx] - am )
    result /= float(len(field))
### END SOLUTION
    return result

def fmedian(field):
    result = 0
### BEGIN SOLUTION
    am = arith_mean(field)
    sort_field_ascending(field)
    ilen = int(len(field))
    idx2 = int(ilen/2)
    idx1 = idx2-1
    if (len(field) % 2 == 0):
        result = (field[idx1]+field[idx2])/2
    else:
        result = field[idx2]
### END SOLUTION
    return result

def printValue(caption, value):
    if type(value) == str:
        print(f"| {caption:25} | {value:10} |")
        print("|", end="")
        print("-" * 27, end="")
        print("|", end="")
        print("-" * 12, end="")
        print("|")
    else:
        print(f"| {caption:25} | {value:10.2f} |")

# Ausgabe und Tests
try:
# Ausgabe 200 Werte von 0 bis 100
    N = 200
    MIN = 0
    MAX = 100
    field = []
    fill_field(field, N, MIN, MAX)
### BEGIN SOLUTION
    print("Feld, frisch erzeugt:")
    print_field(field)
    print()

    sort_field_ascending(field)
    print("Feld, aufsteigend sortiert:")
    print_field(field)
    print()

    sort_field_descending(field)
    print("Feld, absteigend sortiert:")
    print_field(field)

    print()

    printValue("Stat. Kennwert", "Ergebnis")
    printValue("Minimum", minimum(field))
    printValue("Maximum", maximum(field))
    printValue("Spannweite", spread(field))
    printValue("Arithmetischer Mittelwert",arith_mean(field))
    printValue("Geometrischer Mittelwert", geo_mean(field))
    printValue("Quadratischer Mittelwert", square_mean(field))
    printValue("Mittlere Abweichung", mean_aberration(field))
    printValue("Median", fmedian(field))
### END SOLUTION

# Tests 200 Werte von 0.1 bis 50.0
    N = 200
    MIN = 0.1
    MAX = 50.0
    field = []
    fill_field(field, N, MIN, MAX)
except ValueError as ve:
    print(str(ve))

Feld, frisch erzeugt:
      92.8       63.5       33.6       30.8       28.9       62.8       38.1       16.3       68.1       11.1
      61.9       67.0       84.9       59.1       60.9       47.0       34.8       18.8       56.1       23.2
      79.1       42.6       46.2       57.7       35.7       13.0       10.9       71.5        3.7       12.3
      19.3       43.9       68.9       41.1       32.0       99.0       42.8       33.0       18.6       21.4
      25.8       20.0       69.8       27.7       90.4       57.7        3.3        1.0       80.4       77.5
      19.3       85.1       74.8       44.2       87.7       72.8       76.4       47.9       22.3       63.5
      51.6       43.2       11.1        8.6       21.4       28.1       26.4       87.0        5.3       65.3
      87.6       91.4        5.9       18.6       63.4       16.8       82.6       17.8       81.5       98.5
      26.6        8.6       37.5        8.6       61.8       57.9       64.0       99.0        2.1

In [2]:
import math
from statistics import mean, median
epsilon = 1E-12

field = []
fill_field(field, 200, 0.1, 50)

assert min(field) == minimum(field)
assert max(field) == maximum(field)
am = mean(field)
assert math.fabs(am - arith_mean(field)) < epsilon
assert max(field) - min(field) == spread(field)
assert math.fabs(math.prod(field) ** (1 / len(field)) - geo_mean(field)) < epsilon
assert math.fabs(math.sqrt(sum(x**2 for x in field) / len(field)) < square_mean(field)) < epsilon
assert math.fabs(sum(abs(x - am) for x in field) / len(field) - mean_aberration(field)) < epsilon
assert math.fabs(median(field) - fmedian(field)) < epsilon
field = [1.0, 2.0, 3.0, 4.0, 5.0]
assert 3.0 == fmedian(field)