In [1]:
import math
import scipy.stats as stats
import numpy as np
from scipy.stats import binomtest, ttest_1samp, t, ttest_ind, rankdata
import random

## LE1 - Zufallsexperimente, Wahrscheinlichkeit, Satz von Bayes

### Laplace & Kombinatorik

Laplace: Alle Ereignisse gleichwahrscheinlich.

Ein Zufallsexperiment ist ein Experiment, welches beliebig oft wiederhohlt werden kann und bei jeder Durchführung ein bestimmtes Ergebnis aus einer bestimmten Menge von möglichen Ergebnissen annehmen kann.

Welches der möglichen Ergebnisse angenommen wird ist nicht vorhersehbar. Die möglichen Ergebnisse bilden die Ergebnismenge &Omega;.

Ein Ereigniss zu einem Zufallsexperiment ist eine Aussage die bei der Durchführung des Experiments entweder wahr oder falsch ist, je nach dem welches Ergebnis eingetreten ist.

#### Urnenmodel

1) Mit Zurücklegen, mit Reihenfolge

2) Ohne Zurücklegen, mit Reihenfolge

3) Ohne Zurücklegen, ohne Reihenfolge

In [2]:
# Mit Zurücklegen, mit Reihenfolge
def urnenmodel_1(Anz_Kugeln_n, Anz_Male_k):
    return Anz_Kugeln_n ** Anz_Male_k

# Ohne Zurücklegen, mit Reihenfolge
# Wenn die komplette Anzahl der Kugeln gezogen wir, ist n = k
def urnenmodel_2(Anz_Kugeln_n, Anz_Male_k): # 
    return math.factorial(Anz_Kugeln_n) / (math.factorial(Anz_Kugeln_n - Anz_Male_k))

# Ohne Zurücklegen, ohne Reihenfolge
def urnenmodel_3(Anz_Kugeln_n, Anz_Male_k):
    return math.factorial(Anz_Kugeln_n) / (math.factorial(Anz_Kugeln_n - Anz_Male_k) * math.factorial(Anz_Male_k))

### Allgemeine und Bedingte Wahrscheinlichkeit

P(E) ist die Wahrscheinlichkeit, das Ergebniss E eintrifft.

P(A|B) ist die Wahrscheinlichkeit, das A eintrift, wenn B bereits eingetroffen ist.

Die bedingte Wahrscheinlichkeit wird wie folgt definiert:

$$ P(A|B) := \frac{P(A \cap B)}{P(B)} $$

Eine alternative Darstellung der bedingten Wahrscheinlichkeit ist:

$$ P(A|B) = \frac{P(A)}{P(B)} \cdot P(B|A) $$

Für mehrstufige Zufallsexperimente gilt (ohne Zurücklegen):
Multiplikation der Wahrscheinlichkeiten (Baum) für abhängige Resultate
BSP: Drei mal eine 3 würfeln = 1/6 * 1/6 * 1/6

Addition der Wahrscheilichkeiten für mehrere mögliche Ergebnisse

BSP: Urne mit zwei verschiedenfarbigen Kugeln, Chance das die Dritte Kugel weiss ist = f(s, w, w) + f(s, s, w) + ... + f(w, w, w) =P(A) -> A: "Dritte Kugel Weiss"

Für mehrstufige Zufallsexperimente gilt (mit Zurücklegen):
Wahrscheinlichkeiten werden Multipliziert und bleiben immer gleich.
Für Ergebnis das einmal A und dann B gezogen wird ist P(A) * P(B)

## LE2 - Zufallsvariablen

Um Zufallsvariablen als Verteilung anzeigen zu können, wir die 3. Version des Urnenmodels genommen und dann Wahrscheinlichkeit dafür mit der dagegen Multipliziert.
$$ P(X = k) = \binom{n}{k} p^k (1-p)^{n-k} $$

Erwatrungswert: Ist der zu erwartende Wert bei mehrmaligem durchführen.
Dabei werden je der Wert und die Wahrscheinlichkeit dafür multiplitziert und mit den anderen Werten Summiert.

$$ E(X) = 0*P(X = 0) + 1*P(X = 1)+ ... + k-1 * P(X = k-1) + k * P(X = k) $$

### Unterschied CDF und PDF
Die PDF zeigt die Dichte der Wahrscheinlichkeiten an einem bestimmten Punkt (bei diskreten Verteilungen) oder die Dichte der Wahrscheinlichkeiten in einem kleinen Intervall (bei stetigen Verteilungen).

Die CDF zeigt die kumulierte Wahrscheinlichkeit bis zu einem bestimmten Wert an.

PDF ist dabei die Dichte

CDF ist dabei die Verteilungsfunktion

### Varianz und Standartabweichung

X ist dabei die Zufallsvariable, und E der Erwartungswert (Mittelwert). Je kleiner Die Varianz, dest weniger streuen die Daten vom Mittelwert.
$$ \mathrm{Var}(X) = \mathbb{E}\left[(X - \mathbb{E}[X])^2\right] $$

Die Standartabweichung ist die Wurzel aus der Varianz.
$$ \sigma = \sqrt{\mathrm{Var}(X)} = \sqrt{\mathbb{E}\left[(X - \mathbb{E}[X])^2\right]} $$

Die Standartabweichung kann auch wiefolgt berechnet werden:
$$ \sigma = \sqrt{n * p * (1 - p)} $$

Wobei der Mittelwert mu Anzahl mal Wahrscheinlichkeit ist $$ \mu = n * p $$

In [3]:
# Varianz berechnen (ddof=1 für Stichprobenvarianz, ddof=0 für Populationsvarianz)
def var(data, ddof):
    return np.var(data, ddof= ddof)

def std(data, ddof):
    return np.std(data, ddof= ddof)

### Binominal-Verteilt

Anzahl Treffer in n Versuchen

binocdf steht für die kumulative Verteilungsfunktion (Cumulative Distribution Function, CDF) der Binomialverteilung. Diese Funktion gibt die Wahrscheinlichkeit an, dass eine binomialverteilte Zufallsvariable 𝑋 einen Wert kleiner oder gleich einem bestimmten Wert 𝑘 annimmt. Die Binomialverteilung beschreibt die Anzahl der Erfolge in einer festen Anzahl von unabhängigen Bernoulli-Experimenten (wie Münzwürfen), wobei jedes Experiment zwei mögliche Ergebnisse hat (Erfolg oder Misserfolg).

Dichte wir wie folgt berechnet:

In [30]:
# k = Wert, der Zufallsvariable (In pdf Zufallsvariable = k, in cdf Zufallsvariable <= k)
# n = Anzahl der Versuche
# p = Wahrscheinlichkeit für Erfolg



def binopdf(k, n, p):
    pdf = stats.binom.pmf(k, n, p)
    print(f"Die Wahrscheinlichkeit, genau {k} Treffer in {n} Versuchen zu erhalten, beträgt {pdf:.4f}")
    return pdf

# Wenn die anforderung mindestens k ist, dann ist die Wahrscheinlichkeit 1 - binom.cdf(k-1, n, p)

def binocdf(k, n, p):
    cdf = stats.binom.cdf(k, n, p)
    print(f"Die Wahrscheinlichkeit, höchstens {k} Treffer in {n} Versuchen zu erhalten, beträgt {cdf:.4f}")
    return cdf



k = 5
n = 5
p = stats.norm.cdf(60, 70, 10)
print(p)
print(stats.binom.pmf(k, n, p))

0.15865525393145707
0.00010052458585138576


### Geometrische Verteilung

Versuche bis erster Treffer

Die Verteilung sagt aus, wie hoch die Wahrscheinlichkeit ist, dass alle Vorherigen keine Treffer waren und nun ein Treffer kommt.

In [24]:
# k = k-1 versuche waren keine Treffer und k war der erste Treffer
# p = Wahrscheinlichkeit für Erfolg

def geopdf(k, p):
    pdf = stats.geom.pmf(k, p)
    print(f"Die Wahrscheinlichkeit, dass der erste Erfolg in Versuch {k} eintritt, beträgt {pdf:.4f}")
    return pdf

# k = Letzte Runde, in der der erste Erfolg eintritt

def geocdf(k, p):
    cdf = stats.geom.cdf(k, p)
    print(f"Die Wahrscheinlichkeit, dass der erste Erfolg in Versuch {k} oder früher eintritt, beträgt {cdf:.4f}")
    return cdf

print(geopdf(3, 0.5))

Die Wahrscheinlichkeit, dass der erste Erfolg in Versuch 3 eintritt, beträgt 0.1250
0.125


### Hypergeometrische Verteilung

Die hypergeometrische Verteilung ist eine Wahrscheinlichkeitsverteilung, die die Wahrscheinlichkeit beschreibt, dass eine bestimmte Anzahl von Erfolgen in einer Stichprobe ohne Zurücklegen aus einer endlichen Population auftritt. Diese Verteilung ist besonders nützlich in Situationen, in denen Objekte ohne Zurücklegen ausgewählt werden, wie z.B. bei der Qualitätskontrolle oder bei Lotterien.

In [6]:
# k = Anzahl der gewünschten Erfolge
# N = Gesamtanzahl der Menge
# K = Anzahl der Erfolge in der Menge
# n = Anzahl Versuche

def hypergeopdf(k, N, K, n):
    pdf = stats.hypergeom.pmf(k, N, K, n)
    print(f"Die Wahrscheinlichkeit, genau {k} Erfolge in {n} Versuchen zu erhalten, beträgt {pdf:.4f}")
    return pdf

 # k = Maximale Anzahl der gewünschten Erfolge

def hypergeocdf(k, N, K, n):
    cdf = stats.hypergeom.cdf(k, N, K, n)
    print(f"Die Wahrscheinlichkeit, höchstens {k} Erfolge in {n} Versuchen zu erhalten, beträgt {cdf:.4f}")
    return cdf

### Poisson - Verteilung

Poisson-Verteilung kommt bei Zuffalsvariablen zum Einsatz, welche die Anzahl Ereignisse einer bestimmten Art in einem Zeit- und/oder Ort-Intervall beschreiben.

In [7]:
# k = Zuffalsvariable
# lambda = Erwartungswert (Mittelwert)

def poissonpdf(k, lambd):
    pdf = stats.poisson.pmf(k, lambd)
    print(f"Die Wahrscheinlichkeit, genau {k} Erfolge zu erhalten, beträgt {pdf:.4f}")
    return pdf

def poissoncdf(k, lambd):
    cdf = stats.poisson.cdf(k, lambd)
    print(f"Die Wahrscheinlichkeit, höchstens {k} Erfolge zu erhalten, beträgt {cdf:.4f}")
    return cdf

### Stetige Gleichverteilung

Eine Verteilung auf einem Intervall mit konstanter Dichte

In [8]:
# x = Zufallsvariable
# a = Startwert
# b = Endwert

def uniformpdf(x, a, b):
    pdf = stats.uniform.pdf(x, a, b-a)
    print(f"Die Wahrscheinlichkeit, dass x = {x} beträgt {pdf:.4f}")
    return pdf

def uniformcdf(x, a, b):
    cdf = stats.uniform.cdf(x, a, b-a)
    print(f"Die Wahrscheinlichkeit, dass x <= {x} beträgt {cdf:.4f}")
    return cdf

### Normalverteilung

Normalverteilung ist die Häufigste Verteilung sie wird mithilfe der Dichte bestimmt.

Mit norminv, wir der wert berechnet an dem eine gewisse Prozentzahl erreicht wird.

In [9]:
# x = Zufallsvariable
# mu = Erwartungswert (Mittelwert)
# sigma = Standardabweichung

def normpdf(x, mu, sigma):
    pdf = stats.norm.pdf(x, mu, sigma)
    print(f"Die Wahrscheinlichkeit, dass x = {x} beträgt {pdf:.4f}")
    return pdf

def normcdf(x, mu, sigma):
    cdf = stats.norm.cdf(x, mu, sigma)
    print(f"Die Wahrscheinlichkeit, dass x <= {x} beträgt {cdf:.4f}")
    return cdf

def norminv(p, mu, sigma):
    inv = stats.norm.ppf(p, mu, sigma)
    print(f"Der Wert, bei dem die Wahrscheinlichkeit {p} beträgt, beträgt {inv:.4f}")
    return inv

### Exponentialverteilung

Beschreibt Werte, welche über Zeit abnehmen (BSP: Lebensdauer)

In [10]:
# x = Zufallsvariable
# lambd = Rate

def exppdf(x, lambd):
    pdf = stats.expon.pdf(x, lambd)
    print(f"Die Wahrscheinlichkeit, dass x = {x} beträgt {pdf:.4f}")
    return pdf

def expcdf(x, lambd):
    cdf = stats.expon.cdf(x, lambd)
    print(f"Die Wahrscheinlichkeit, dass x <= {x} beträgt {cdf:.4f}")
    return cdf



### Unabhängigkeit von Zuffalsvariablen

Wenn X und Y unabhängig voneinander sind, gilt:

$$ X + Y \sim \text{Poisson}(\lambda_x + \lambda_y) $$
$$ X + Y \sim \text{Binomial}(n_x + n_y, p) $$

### Ungleichung von Tschebyscheff

Es sei X eine Zufallsvariable mit Erwartungswert &mu; und einer endlichen Varianz &sigma;<sup>2</sup>.
$$ P\left( |X - \mu| \geq k \right) \leq \frac{\sigma^2}{k^2} $$

In [11]:
# X = Zufallsvariable
# mu = Erwartungswert (Mittelwert)
# sigma = Standardabweichung
# k = Abstand von mu -> wenn X und mu eingetragen sind, wird k automatisch berechnet

def tschebyscheff(X, mu, sigma):
    # Berechne den Abstand k
    k = abs(X - mu)
    print(sigma)
    print(k)
    # Berechne die obere Schranke für die Wahrscheinlichkeit
    if k == 0:
        return 1  # Wenn k = 0, ist die Wahrscheinlichkeit 1
    else:
        return (sigma**2) / (k**2)

## LE3 - Parameterschätzung

Man versucht mithilfe einer Stichprobe, eine Aussage über eine Gesamtheit zu tätigen.

Punkteschätzer: Sind einzige Werte: z.B. Erwartungswert, Varianz, Standardabweichung

Intervallschätzung: Ein Parameter liegt mit einer Gewissen Wahrscheinlichkeit indiesem Intervall. (Konfidenzintervall)

In [32]:
# mu = Erwartungswert (Mittelwert)
# sigma = Standardabweichung
# n = Anzahl der Versuche (Stichprobenanzahl)
# alpha = Signifikanzniveau (1 - Konfidenzniveau) z.B. 0.05 (95% Konfidenzniveau)

def konfidenzintervall(mu, sigma, n, alpha):
    # Berechne die Standardabweichung der Stichprobe
    sigma_x = sigma / math.sqrt(n)
    print(sigma_x)
    # Berechne den Z-Wert für das Konfidenzintervall
    z = stats.norm.ppf(1 - alpha/2)
    print(z)
    # Berechne das Konfidenzintervall
    return mu - z * sigma_x, mu + z * sigma_x

print(konfidenzintervall(13, 15, 30, 0.05))

2.7386127875258306
1.959963984540054
(7.6324175688485285, 18.367582431151472)


T-Verteilungen, werden bei sehr kleinen Stichproben verwendet (n <= 30).

In [13]:
def t_konfidenzintervall(mu, sigma, n, alpha):
    # Berechne die Standardabweichung der Stichprobe
    sigma_x = sigma / math.sqrt(n)
    # Berechne den Z-Wert für das Konfidenzintervall
    t = stats.t.ppf(1 - alpha/2, n-1)
    # Berechne das Konfidenzintervall
    return mu - t * sigma_x, mu + t * sigma_x

Mit der Bestimmung des Konfidenzintervalls kann mithilfe einer Stichprobe eine Aussage über die Gesamte Population getätigt werden.

In [34]:
# k = Anzahl der Erfolge
# n = Anzahl der Versuche
# alpha = Signifikanzniveau (1 - Konfidenzniveau) z.B. 0.05 (95% Konfidenzniveau)

def bestimmung_konfidenzintervall(k, n, alpha):
    # Berechne die Wahrscheinlichkeit, dass die Zufallsvariable k ist
    p = k / n
    # Berechne die Standardabweichung der Stichprobe
    sigma_x = math.sqrt(p * (1 - p) / n)
    print(sigma_x)
    # Berechne den Z-Wert für das Konfidenzintervall
    z = stats.norm.ppf(1 - alpha/2)
    # Berechne das Konfidenzintervall
    return p - z * sigma_x, p + z * sigma_x

print(bestimmung_konfidenzintervall(552, 1000, 0.05))


0.015725647840391186
(0.5211782965992733, 0.5828217034007268)


## LE4 - Hypotesentest

Die Nullhypothese H₀ ist gleich der gewünschten Annahme.

Die Alternativhypothese H₁ ist alles andere.

<br>
<br>
P-Wert: Wahrscheinlichkeiten, das der einzelnen Binominalverteilungen ausrechnen und zusammen addieren. Dann schauen, ob P Wert höher als Signifikanzwert ist.
<br>

<br>

Fehler 1. Art: Nullhypothese wird Abgelehnt obwohl sie Wahr ist. Kann durch &alpha; eingeschränkt werden.

Fehler 2. Art: Nullhypothese wir beibehalten ist aber Falsch. Wird indirekt durch 1 - &alpha; eingeschränkt.

Je kleiner die Chance auf Fehler 1. Art, desto grösser Fehler 2. Art.

### Binominal Test

Wird verwendet bei Bernoulli Experimenten (Treffer oder kein Treffer)

In [15]:
# X = Anzahl der Erfolge
# n = Anzahl der Versuche
# p = Wahrscheinlichkeit für Erfolg
# alternative = 'two-sided', 'greater', 'less'
# alpha = Signifikanzniveau (1 - Konfidenzniveau) z.B. 0.05 (95% Konfidenzniveau)



def binomial_test(X, n, p, alternative='two-sided' , alpha=0.05):
    result = stats.binomtest(X, n, p, alternative=alternative)
    p_value = result.pvalue

    
    if alternative == 'two-sided':
        critical_value_lower = stats.binom.ppf(alpha / 2, n, p)
        critical_value_upper = stats.binom.ppf(1 - alpha / 2, n, p)
        critical_value = (critical_value_lower, critical_value_upper)
    elif alternative == 'greater':
        critical_value = stats.binom.ppf(1 - alpha, n, p)
    else:
        critical_value = stats.binom.ppf(alpha, n, p)
    
    reject_null = p_value < alpha

    print(f"p-Wert: {p_value}, Kritischer Wert (Gerade noch OK): {critical_value}, Nullhypothese verwerfen: {reject_null}")

    return {
        'p_value': p_value,
        'critical_value': critical_value,
        'reject_null': reject_null
    }


### T-Test

Einstichproben t-Test: Abweichung des Mittelwerts mit einem Vergleichswert. (Kann links, rechts oder beidseitig sein)

Zweistichproben t-Test: Vergleich zweier Stichproben und deren Mittelwert.

Ist der T-Wert kleiner als der Kritische wert, wird die Nullhypothese abgelehnt (Wenn linksseitig).

Std kann mithilfe von np.std(data) berechnet werden.

In [33]:
# Sample Mean = Stichprobenmittelwert (Muss evt aus der Stichprobe berechnet werden)
# Sample Std = Stichprobenstandardabweichung (Muss evt aus der Stichprobe berechnet werden)
# Pop Mean = Populationsmittelwert
# n = Grösser der Stichprobe
# alternative = 'two-sided', 'greater', 'less' (Default: 'two-sided')
# alpha = Signifikanzniveau (1 - Konfidenzniveau) z.B. 0.05 (95% Konfidenzniveau)



def t_test_1sample(sample_mean, sample_std, pop_mean, n, alternative='two-sided', alpha=0.05):
    
    if alternative == 'two-sided':
        alpha = alpha / 2  # Anpassung des Signifikanzniveaus für einen beidseitigen Test
    
    # Berechnung der t-Statistik
    t_statistic = (sample_mean - pop_mean) / (sample_std / (n ** 0.5))
   
    # Berechnung des kritischen Werts entsprechend dem gewählten Testtyp
    if alternative == 'two-sided':
        critical_value = stats.t.ppf(1 - alpha, n-1)
    elif alternative == 'greater':
        critical_value = stats.t.ppf(1 - alpha, n-1)
    elif alternative == 'less':
        critical_value = stats.t.ppf(alpha, n-1)
    else:
        raise ValueError("Ungültige Alternative. Gültige Werte sind 'two-sided', 'greater' oder 'less'.")
    
    # Überprüfen, ob die Nullhypothese verworfen wird
    reject_null = abs(t_statistic) > critical_value

    print(f"Nullhypothese verwerfen: {reject_null}, Kritischer Wert: {critical_value}, t-Statistik (t-Wert): {t_statistic}")
    
    return reject_null, critical_value


print(t_test_1sample(13, 4, 15, 30))

Nullhypothese verwerfen: True, Kritischer Wert: 2.045229642132703, t-Statistik (t-Wert): -2.7386127875258306
(True, 2.045229642132703)


In [17]:
# Sample Mean 1 = Stichprobenmittelwert der ersten Stichprobe
# Sample Std 1 = Stichprobenstandardabweichung der ersten Stichprobe
# n1 = Grösse der ersten Stichprobe
# Sample Mean 2 = Stichprobenmittelwert der zweiten Stichprobe
# Sample Std 2 = Stichprobenstandardabweichung der zweiten Stichprobe
# n2 = Grösse der zweiten Stichprobe
# alternative = 'two-sided', 'greater', 'less' (Default: 'two-sided')
# alpha = Signifikanzniveau (1 - Konfidenzniveau) z.B. 0.05 (95% Konfidenzniveau)

def t_test_2sample(sample1_mean, sample1_std, n1, sample2_mean, sample2_std, n2, alternative='two-sided', alpha=0.05):
    
    if alternative == 'two-sided':
        alpha = alpha / 2  # Anpassung des Signifikanzniveaus für einen beidseitigen Test
    
    # Berechnung der gepoolten Standardabweichung
    pooled_std = ((n1 - 1) * sample1_std**2 + (n2 - 1) * sample2_std**2) / (n1 + n2 - 2)
    pooled_std = pooled_std**0.5
    
    # Berechnung der t-Statistik
    t_statistic = (sample1_mean - sample2_mean) / (pooled_std * (1/n1 + 1/n2)**0.5)
    
    # Berechnung des kritischen Werts entsprechend dem gewählten Testtyp
    if alternative == 'two-sided':
        critical_value = stats.t.ppf(1 - alpha, n1 + n2 - 2)
    elif alternative == 'greater':
        critical_value = stats.t.ppf(1 - alpha, n1 + n2 - 2)
    elif alternative == 'less':
        critical_value = stats.t.ppf(alpha, n1 + n2 - 2)
    else:
        raise ValueError("Ungültige Alternative. Gültige Werte sind 'two-sided', 'greater' oder 'less'.")
    
    # Überprüfen, ob die Nullhypothese verworfen wird
    reject_null = abs(t_statistic) > critical_value
    
    return reject_null, critical_value

### Mann Whitney U Test

Wird angewandt, für geringere Anforderungen an den Daten (nicht normalverteilt, kleine Stichproben, Ausreisser).

Es werden Unterschiedshypothesen geprüft. Eine unabhängige und eine Abhängige Variable werden benötigt. Aufteilung nach unabhängig und überprüfung der Abhängigen (BSP: Medienzeit von Männern und Frauen)

Die Daten werden nach abhängigen Variabeln sortiert und im Anschluss in eine Rangliste geordnet und Punkte vergeben, Danach zusammengezählt und ausgewertet.

In [18]:
# group1 = Daten der ersten Gruppe
# group2 = Daten der zweiten Gruppe
# alternative = 'two-sided', 'greater', 'less' (Default: 'two-sided')
# alpha = Signifikanzniveau (1 - Konfidenzniveau) z.B. 0.05 (95% Konfidenzniveau)

def mann_whitney_u(group1, group2, alternative='two-sided',alpha=0.05):
    u_statistic, p_value = stats.mannwhitneyu(group1, group2)

    print(f"U-Statistik: {u_statistic}, p-Wert: {p_value}")

    if p_value < alpha:
        print("Der Unterschied zwischen den Gruppen ist signifikant.")
    else:
        print("Es gibt keinen signifikanten Unterschied zwischen den Gruppen.")

    # Berechnung des kritischen Werts
    if alternative == 'two-sided':
        critical_value = stats.distributions.norm.ppf(1 - alpha / 2)
    elif alternative == 'greater':
        critical_value = stats.distributions.norm.ppf(1 - alpha)
    elif alternative == 'less':
        critical_value = stats.distributions.norm.ppf(alpha)
    else:
        raise ValueError("Ungültige Alternative. Gültige Werte sind 'two-sided', 'greater' oder 'less'.")
    
    print(f"Kritischer Wert: {critical_value}")
    
    return u_statistic, p_value


### Chi Quadrat Test

Überprüft, ob zwei Variablen stochastisch unabhängig sind.

Stichprobe >50 und zufallsverteilt und die Daten müssen Absolut und Gruppiert sein.

Ist der Chi-Quadrat test höher als der Kritische Wert, besteht ein Zusammenhang.



In [19]:
# data = Daten als Liste von Listen
# alpha = Signifikanzniveau (1 - Konfidenzniveau) z.B. 0.05 (95% Konfidenzniveau)

def chi_quadrat_test(data, alpha=0.05):
    stat, p_value, dof, expected = stats.chi2_contingency(data, correction=False)

    print(f"Chi-Quadrat-Statistik: {stat}")
    print(f"p-Wert: {p_value}")
    print(f"Freiheitsgrade: {dof}")
    print(f"Erwartete Werte: {expected}")

    critical_value = stats.chi2.ppf(1 - alpha, dof)
    print(f"Kritischer Wert: {critical_value}")

    if stat > critical_value:
        print("Die Nullhypothese wird verworfen. (Statistischer Zusammenhang)")
    else:
        print("Die Nullhypothese wird nicht verworfen. (Kein statistischer Zusammenhang)")
    

### Kolmogorov-Smirnow-Test

Wir verwendet, um zu schauen ob eine Stichprobe einer bestimmten Verteilung entspricht (Ein sample KS-Test). Oder ob zwei Stichproben gleich verteilt sind (Zwei sample KS-Test).

In [20]:
# data = Daten als Liste
# alpha = Signifikanzniveau (1 - Konfidenzniveau) z.B. 0.05 (95% Konfidenzniveau)

def kolmogorov_smirnow_test_1sample(data, alpha=0.05):
    stat, p_value = stats.kstest(data, 'norm')

    n = len(data)
    critical_value = stats.kstwobign.ppf(1 - alpha) / np.sqrt(n)

    print(f"Kolmogorov-Smirnov-Statistik: {stat}")
    print(f"p-Wert: {p_value}")
    print(f"Kritischer Wert: {critical_value}")

    if p_value < alpha:
        print("Die Nullhypothese wird verworfen. (Verteilung ist nicht normalverteilt)")
    else:
        print("Die Nullhypothese wird nicht verworfen. (Verteilung ist normalverteilt)")


def kolmogorov_smirnow_test_2sample(data1, data2, alpha=0.05):
    stat, p_value = stats.ks_2samp(data1, data2)

    # Berechnung des kritischen Wertes
    n1 = len(data1)
    n2 = len(data2)
    n = n1 * n2 / (n1 + n2)
    critical_value = stats.kstwobign.ppf(1 - alpha) / np.sqrt(n)

    print(f"Kolmogorov-Smirnov-Statistik: {stat}")
    print(f"p-Wert: {p_value}")
    print(f"Kritischer Wert: {critical_value}")
    if p_value < alpha:
        print("Die Nullhypothese wird verworfen. (Verteilungen sind nicht gleich)")
    else:
        print("Die Nullhypothese wird nicht verworfen. (Verteilungen sind gleich)")

In [21]:
#Beispiel Monte Carlo Simulation

def monte_carlo_simulation(n):

    summe = 0 # Definition für in der for-Schleife einsetzen zu können
    count = 0 # Zähler für die Anzahl der Simulationen, die die Bedingung erfüllen

    for i in range(n):
        rand = random.normalvariate(1000, 150) # Erwartungswert 1000, Standardabweichung 150

        if rand >= 900: # Bedingung einfügen
            summe += rand
            count += 1

        else:
            summe += 0
            count += 0
        
    return summe / count # Durchschnitt der Simulationen, die die Bedingung erfüllen

monte_carlo_simulation(1000000) # Beispiel für 1000 Simulationen


1064.114390511958

In [None]:
an_ver_mean = 5
an_ver_std = 3
def get_ufz():
    return random.randint(1,6) + 4
ab_ver_mean = 4
n_rounds = 100_000
treshhold = 14

times = np.random.normal()

