# Prüfungszusammenfassung

In [4]:
# Basic
import pandas as pd
import numpy as np
import random
import scipy as sp
from scipy import stats

# Kombinatorik
from scipy.special import comb # anzahl kombinationen von n dingen wenn k auf einmal genommen werden
from scipy.special import perm # permutation von n dingen wenn k auf einmal genommen werden
from scipy.special import factorial # fakultät


# Verteilungen
# diskret
from scipy.stats import binom # binomialverteilung
from scipy.stats import poisson # poissonverteilung
from scipy.stats import bernoulli # bernoulliverteilung
from scipy.stats import geom # geometrische verteilung

# stetig
from scipy.stats import norm # normalverteilung
from scipy.stats import sem # Standardfehler
from scipy.stats import expon # exponentialverteilung
from scipy.stats import t # t-verteilung

# Hypothesentests
#from scipy.stats import binomtest
from statsmodels.stats import weightstats as stests # ztest

# Konfidenzintervalle


# Plots
import matplotlib.pyplot as plt

## Deskriptive Statistik

## Kombinatorik

https://www.mathebibel.de/kombinatorik

**Permutation ohne Wiederholung.**\
Auf wieviele Arten kann man n unterscheidbare Objekte anordnen.
$$n!$$

In [12]:
f = factorial()
print(f)

TypeError: factorial() missing 1 required positional argument: 'n'

**Permutation mit Wiederholung.**\
Auf wieviele Arten kann man n Objekte anordnen wenn $k_x$ Elemente gleich sind.
$$\cfrac{n!}{k_1! * k_2! * ... * k_x!}$$

*Beispiel:* In einer Urne befinden sich drei blaue und zwei rote Kugeln. Wie viele Möglichkeiten gibt es, die Kugeln in einer Reihe anzuordnen?\
$\cfrac{5!}{3! * 2!}$
Es gibt 10 Möglichkeiten drei blaue und zwei rote Kugeln in einer Reihe anzuordnen.

In [9]:
# Beispiel mit zwei die gleich sind
PerMW = factorial() / (factorial() * factorial())
print(PerMW)

604800.0


**Variation ohne Wiederholung**\
Aus n Objekten werden k Objekte ausgewählt, wobei die Reihenfolge beachtet wird. (Jedes Element wird nur einmal ausgewählt)
$$\cfrac{n!}{(n - k)!}$$

*Beispiel:* In einer Urne befinden sich fünf verschiedenfarbige Kugeln. Es sollen drei Kugeln unter Beachtung der Reihenfolge und ohne Zurücklegen gezogen werden. Wie viele Möglichkeiten gibt es?

$\cfrac{5!}{(5 - 3)!} = \cfrac{5!}{2!} = 60$ Es gibt 60 Möglichkeiten 3 aus 5 Kugeln unter Beachtung der Reihenfolge und ohne Zurücklegen zu ziehen.

In [None]:
varoW = perm() # perm(n, k) mit n=anzahl objekten, k=anzahl ziehungen
print(varoW)

**Variation mit Wiederholung**\
Aus n Objekten werden k ausgewählt wobei die Reihenfolge beachtet wird. Die Elemente werden zurückgelegt.

$$n * n * n * ... * n = n^k$$

*Beispiel:* In einer Urne befinden sich fünf verschiedenfarbige Kugeln. Es sollen drei Kugeln unter Beachtung der Reihenfolge und mit Zurücklegen gezogen werden. Wie viele Möglichkeiten gibt es?\
$5 * 5 * 5 = 5^3 = 125$ Es gibt 125 Möglichkeiten 3 aus 5 Kugeln unter Beachtung der Reihenfolge und mit Zurücklegen zu ziehen.

In [None]:
n = 
k = 
varmW = (n)**k
print(varmW)

**Kombination ohne Wiederholung**\
Aus n Objekten werden k ausgewählt ohne die Reihenfolge zu beachten. Jedes Objekt wird nur einmal ausgewählt.
$$\frac{n!}{k!(n-k)!} = \binom{n}{k}$$

*Bespiel* n einer Urne befinden sich fünf verschiedenfarbige Kugeln. Es sollen drei Kugeln ohne Beachtung der Reihenfolge und ohne Zurücklegen gezogen werden. Wie viele Möglichkeiten gibt es?\
$\frac{5!}{3!(5-3)!} = \binom{5}{3} = 10$ Es gibt 10 Möglichkeiten 3 aus 5 Kugeln ohne Beachtung der Reihenfolge und ohne Zurücklegen zu ziehen. 


In [None]:
n = 
k = 
c = comb(n, k, exact=True) # mit n=anzahl objekten, k=anzahl gezogener elemente
print(c)

**Kombination mit Wiederholung**\
Aus n Objekten werden k ausgewählt, wobei die Reihenfolge nicht beachtet wird und die Objekte mehrmals ausgewählt werden können.
$$\frac{n + k - 1!}{k!((n + k - 1)-k)!} = \binom{n + k - 1}{k}$$

*Beispiel:* In einer Urne befinden sich fünf verschiedenfarbige Kugeln. Es sollen drei Kugeln ohne Beachtung der Reihenfolge und mit Zurücklegen gezogen werden. Wie viele Möglichkeiten gibt es?

$\frac{5 + 3 - 1!}{3!((5 + 3 - 1)-3)!} = \binom{5 + 3 - 1}{3} = 35$ Es gibt 35 Möglichkeiten 3 aus 5 Kugeln ohne Beachtung der Reihenfolge und mit Zurücklegen zu ziehen.

In [None]:
n = 
k = 
c = comb(n, k, exact=True, repetition=True) # mit n=anzahl objekten, k=anzahl gezogener elemente
print(c)

## Wahrscheinlichkeiten

<img src="probability_tree.png" width="300"/>

Das Baumdiagramm illustriert $P ( A ∩ B ) = P ( A ∣ B ) * P ( B )$

**Wahrscheinlichkeitsraum**\
Besteht aus $(\Omega, \sum, P)$ wobei $\Omega$ die Ergebnismenge ist (Eine Menge aus allen Ergebnissen). $\sum$ ist die Ereignismenge sie besteht aus Teilmengen von $\Omega$, welche alle Ereignisse darstellen. $P$ ist ein Wahrscheinlichkeitsmass, welches den Ereignissen Zahlen zuordnet.


**Bedingte Wahrscheinlichkeit**\
Wahrscheinlichkeit für ein Ereignis A unter der Bedingung dass Ereignis B eingetreten ist.
$$P(A|B) = \cfrac{P(A\cap B)}{P(B)}$$
$P(A \cap B)$ ist die Wahrscheinlichkeit dass A und B beide eintreten.

In [None]:
PB =  # Wahrscheinlichkeit von B
PAB =  # Wahrscheinlichkeit von A und B
P = PAB / PB
print(P)

**Satz von Bayes**\
Wenn man eine bedingte Wahrscheinlichkeit und die beiden Wahrscheinlichkeiten kennt, kann man die umgekehrte bedingte Wahrscheinlichkeit mit dem Satz von Bayes berechnen.
$$P(A|B) = \cfrac{P(B|A) * P(A)}{P(B)}$$

**Gesetz der totalen Wahrscheinlichkeit:**\
Wenn man nur die bedingte Wahrscheinlichkeit abhängig von einem Ereignis kennt kann man so die totale Wahrscheinlichkeit berechnen.
$$P(A) = P(A \cap B) + P(A \cap \bar B) = P(B) * P(A|B) + P(\bar B) * P(A | \bar B)$$

In [13]:
# Hier totale Wahrscheinlichkeit berechnen

**Unabhängigkeit**

Zwei Ereignisse sind stochastisch unabhängig wenn der Ausgang des ersten das zweite nicht beeinflusst. Wenn die folgenden Formel gilt sind die Ereignisse stochastisch unabhängig, gilt sie nicht sind sie stochastisch abhängig.
$$P(A \cap B) = P(A) * P(B)$$
https://www.mathebibel.de/stochastische-unabhaengigkeit

## Verteilungen

**diskret**: wenn nur endlich viele oder abzählbar unendlich viele Werte angenommen werden können.\
**stetig**: wenn alle reelen Werte in einem bestimmten Bereich angenommen werden können.\
**Verteilungsfunktion**: Kumuliert die Wahrscheinlichkeit bis zu einem Punkt.\
**Zähldichte**: Funktion welche den Werten der Zufallsvariablen Wahrscheinlichkeiten zuordnet (diskret).\
**Dichtefunktion**: Gibt die Wahrscheinlichkeit in einem bestimmten Intervall an (stetig).\
**Zentraler Grenzwertsatz**: Die Summe unabhängig und identisch verteilter Zufallsvariablen einer zufälligen Verteilung nähern sich mit einem grossen Stichprobenumfang einer Normalverteilung an.

### Normalverteilung


Die stetige Zufallsvariable X hat die Wahrscheinlichkeitsdichte:
$$f(x | \mu, \sigma^2) = \cfrac{1}{\sqrt{2\pi\sigma^2}} * e^{-\cfrac{(x - \mu)^2}{2\sigma^2}}$$
mit dem Erwartungswert $\mu$ und der Varianz $\sigma^2$.

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.norm.html

**Additionstheorem**\
Wenn $X_1, X_2, ..., X_n$ voneinander unabhängige normalverteilte Zufallsvariablen sind, dann sind diese addiert $Y = X_1 + X_2 +...+ X_n$ (neue Zufallsvariable $Y$) auch normalverteilt mit dem Erwartungswert
$$\mu = \mu_1 + \mu_2 + ... + \mu_n$$
und der Varianz
$$\sigma = \sigma_1^2 + \sigma_2^2 + ... + \sigma_n^2$$
und der Standardabweichung
$$\sigma = \sqrt{\sigma_1^2 + \sigma_2^2 + ... + \sigma_n^2}$$


**Zentraler Grenzwertsatz**\
Die Summe von vielen unabhängigen Zufallsvariablen ist immer normalverteilt. Z. B. Würfel wenn man mit immer mehr Würfeln würfelt und die Summe der Augenzahlen bildet, erhält man eine Normalverteilung.

In [4]:
# Daten für das Berechnen
data = []

In [6]:
Ew = np.mean(data)

Va = np.var(data)           # mit np.var(data, ddof=1) wird durch n-1 dividiert sonst mit 0
St = np.std(data)           # mit np.std(data, ddof=1) wird durch n-1 dividiert sonst mit 0
print('Erwartungswert Stichprobe:', Ew)
print('Varianz Stichprobe:', Va)

# Z-transformation/standardisierung
X =         # Wert der transformiert werden soll
Z = (X - Ew)/St
print('Wert der transformierten Variablen:', Z)

Erwartungswert Stichprobe: 2.0
Varianz Stichprobe: 0.0


In [33]:
# Verteilungsfunktion, fläche unter der kurve bis zum punkt x: norm.cdf(x, log=0, scale=1) mit log=Erwartungswert, scale=standardabweichung
x = 
pk = norm.cdf(x)
print(pk)

# Umkehrfunktion von cdf, Wert bis zu dem y Prozent unter der Kurve sind(z. B. norm.ppf(0.5) = 0, denn am Punkt 0 ist die Fläche unter der Kurve 50 Prozent)
WP = norm.ppf()
print(WP)

0.8413447460685429
75.32719559572791


In [None]:
# Standardfehler (Standardabweichung des Erwartungwertes)
SF = sem(data)
print('Standardfehler:', SF)

### Exponentialverteilung


Die stetige Zufallsvariable X hat die Wahrscheinlichkeitsdichte (für x >= 0):
$$f(x|\lambda) = \lambda e^{-\lambda x}$$
und die Verteilungsfunktion:
$$F(x) = P(X <= x) = \int_0^x f(t) dt = 1 - e^{-\lambda x}$$

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.expon.html#scipy.stats.expon

In [None]:
# Erwartungswert
lam = 
Ew = 1/lam
Var = 1/lam**2
print('Erwartungswert:', Ew)
print('Varianz:', Var)

In [None]:
# Verteilungsfunktion, Werte unter der Kurve bis x mit expon.cdf(x, log=0, scale=1) mit log=Erwartungswert und scale=Varianz
Px = expon.cdf()
print(Px)

Wx = expon.ppf()
print(Wx)

### Binomialverteilung

Eine Binomialverteilung beschreibt die Verteilung einer Zufallsvariablen bei n Versuchen und k Treffern wobei der Treffer mit einer Wahrscheinlichkeit p eintrifft. (Ist ein Bernoulliexperiment = hat zwei Ausgänge, trifft ein oder nicht. Bernoullikette = Mehrere Bernoulliexperimente hintereinander).\
Formel der Binomialverteilung *Wahrscheinlichkeit für k treffer in n Versuchen wenn k mit einer Wahrscheinlichkeit von p eintritt*:
$$p(X = k) = \binom{n}{k} * p^k * (1 - p)^{n - k}$$

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.binom.html#scipy.stats.binom

In [None]:
data = []                       
p =                             # Erfolgswahrscheinlichkeit
Ew = len(data) * p              # Erwartungswert
Var = len(data) * p * (1 - p)
print('Erwartungswert:', Ew)
print('Varianz:', Var)


In [41]:
# verteilungsfunktion, prozent bis zu einem bestimmten punkt (kumulierte Wahrscheinlichkeit bis zu k treffern) binom.cdf(k, n, p, loc=0) für 
# k=anzahl treffer, n=anzahl versuche, p=erfolgswahrscheinlichkeit und loc zum verschieben der verteilung
pk = binom.cdf()
print('Verteilungsfunktion:', pk)

# # Prozentwert an einem bestimmten Punkt (für eine bestimmte anzahl treffer k) binom.pmf(k, n, p, loc) gleich wie oben
pp = binom.pmf()
print('Wert für Treffer k:', pp)

# Eingeben wieviele Prozent Chance es bis zu einem Treffer k hat und man erhält die Anzahl Treffer k für die kumulierte Wahrscheinichkeit bis k
# binom.ppf(q, n, p, loc) für q=Wahrscheinlichkeit für k Treffer, n=Anzahl Versuche, p=Trefferwahrscheinlichkeit
k = binom.ppf()
print('Anzahl Treffer k:', k)

1.0

### Poissonverteilung

Mit der Poissonverteilung lässt sich zum Beispiel die Anzahl Ereignisse in einem bestimmten Zeitraum modellieren. \
Der Erwartungswert $\lambda$ beschreibt die erwartete Anzahl Ereignisse in einem Beobachtungsraum. Die Wahrscheinlichkeit für $x$ Ereignisse ist das Ergebnis der Formel.
$$P(X = x) = \cfrac{\lambda^x}{x!} * e^{-\lambda}$$

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.poisson.html

In [None]:
data = []
Ew =                    # Erwartungswert
Var = Ew
st = Var**0.5           # Standardabweichung
print('Erwartungswert:', Ew)
print('Varianz:', Va)
print('Standardabweichung:', st)

In [None]:
# verteilungsfunktion, prozent bis zu einem bestimmten punkt (kumulierte Wahrscheinlichkeit bis zu k treffern) poisson.cdf(k, mu, loc=0) für 
# k=anzahl treffer, mu=Erwartungswert, und loc zum verschieben der verteilung
pk = poisson.cdf()
print('Verteilungsfunktion:', pk)

# # Prozentwert an einem bestimmten Punkt (für eine bestimmte anzahl treffer k) poisson.pmf(k, mu, loc) gleich wie oben
pp = poisson.pmf()
print('Wert für Treffer k:', pp)

# Eingeben wieviele Prozent Chance es bis zu einem Treffer k hat und man erhält die Anzahl Treffer k für die kumulierte Wahrscheinichkeit bis k
# poisson.ppf(q, mu, loc) für q=Wahrscheinlichkeit für k Treffer, n=Anzahl Versuche
k = binom.ppf()
print('Anzahl Treffer k:', k)

## Schätzer

In [15]:
# Punktschätzer
data = []
Ew = np.mean(data)
var = np.var(data, ddof=1)
st = np.std(data, ddof=1)

print('Erwartungswert:', Ew)
print('Varianz:', var)
print('Standardabweichung:', st)


0.82915619758885
0.9574271077563381


array(0.)

**Konfidenzintervall**\
Bsp.: Bei einem Konfidenzintervall von 90 % und 10 Stichproben werden 10 Erwartungswerte mit Konfidenzintervallen berechnet. Davon enthalten 9 Konfidenzintervalle den wahren Parameter der Grundgesamtheit. Bei einer grossen Stichprobe kann die Normalverteilung genommen werden mit $\bar x$ als Erwartungswert, $\sigma_{\bar x} = \cfrac{\sigma}{\sqrt n}$ als Standardfehler von $\bar x$, $n$ als Anzahl Datenpunkte, $z_{1 - \alpha/2}$ den Grenzpunkt der Standardnormalverteilung bei dem Prozent $1 - \alpha / 2$ mit $\alpha$ als Irrtumswahrscheinlichkeit.
$$[\bar{x} - \sigma_{\bar x} * z_{1 - \alpha/2}, \bar{x} + \sigma_{\bar x} * z_{1 - \alpha/2}]$$

Für kleine Stichproben (n<30) wird die t-Verteilung genommen. Die Paramter sind dieselben ausser das $t_{1 - \alpha/2}$ aus der t-Tabelle gelesen wird mit n - 1 Freiheitsgraden.
$$[\bar{x} - \sigma_{\bar x} * t_{1 - \alpha/2}, \bar{x} + \sigma_{\bar x} * t_{1 - \alpha/2}]$$


In [None]:
# Intervallschätzer für Stichproben n > 30 mit norm.interval(alpha, log=0, scale=1) mit alpha=Prozentintervall den man will, log=Erwartungswert, 
# scale=Standardabweichung.    wen man scale/len(data) macht hat man den Standardfehler
kfi = norm.interval(alpha=, log=, scale= /(len(data))**0.5)
print(kfi)

Wenn man die Standardabweichung der Grundgesamtheit kennt, kann man auch bei n<30 die Normalverteilung für das Konfidenzintervall nehmen.

In [None]:
# Intervallschätzer für Stichproben n < 30 mit t.interval(alpha, df, log=0, scale=1) mit alpha=Prozentintervall den man will, df=Anzal Freiheitsgrade(n-1)
# log=Erwartungswert, scale=Standardabweichung.    wen man scale/len(data) macht hat man den Standardfehler
kfi = t.interval(alpha=, df=, log=, scale=/(len(data))**0.5)
print(kfi)

Bei Bernoulliexperimenten kann die Formel für die Standardabweichung bei Binomialverteilungen angewendet werden.

## Hypothesentest

Beim Hypothesentest wird geschaut ob ein Stichprobenwert in einem bestimmten Konfidenzintervall um einen theoretischen Wert liegt.\
**Vorgehen**
1. $H_1, H_0$ aufstellen. Beispiel $H_0: p=0.5, H1: p!= 0.5$
2. Signifikanzniveau $\alpha$ angeben. (Konfidenzintervall um theoretischen Wert). $1-\alpha$=Irrtumswahrscheinlichkeit
3. Verteilung der Teststatistik bestimmen. Teststatistik=Berechneter Wert aus der Stichprobe denn man testen möchte -> Test aus Verteilung ableiten
4. Mit dem Signifikanzniveau die Grenzen aus der Verteilung bestimmen
5. Mittels Formel die Teststatistik für diese Verteilung berechnen
6. Vergleichen der Teststatistik mit den berechneten Grenzen

**Binomialtest**\
Der Binomialtest wird angewandt wenn zwei Ausgänge vorliegen. Beispiel: es wird gesagt 10 Prozent aller Autos sind unsicher. Binomialtest -> denn entweder sind sie unsicher oder sicher. Mit dem Ergebnis einer Stichprobe können wir testen ob die Hypothese p=0.1 stimmt.

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.binomtest.html#scipy.stats.binomtest

In [13]:
# Binomialtest binomtest(k=, n=, p=, alternative=) mit k=anzahl treffer, n=Stichprobengrösse, p=vorgegebene Wahrscheinlichkeit für k Treffer (H0),
# alternative={‘two-sided’, ‘greater’, ‘less’} ob zweiseitig etc.
# Resultat pvalue: bei less und einem Erwartungswert p die kumulierte Wahrscheinlichkeit bis zum Punkt k/n, bei greater die kumulierte Wahrscheinlichkeit 
# für grösser als k/n. Zum Entscheiden muss geschaut werden ob der p-Wert kleiner als die Irrtumswahrschinlickeit ist
result = binomtest(k=, n=, p=, alternative='')
print(result)

BinomTestResult(k=3, n=15, alternative='two-sided', proportion_estimate=0.2, pvalue=0.18406106910639106)


**t-test**\
Der t-test prüft Hypothesen für Variablen mit t-verteilter Grundgesamtheit. Es existieren verschiedene.


T-test für die Nullhypothese dass der Erwartungswert einer Stichprobe gleich dem Mittelwert der Grundgesamtheit ist.

In [32]:
# test für einen mittelwert: stats.ttest_1samp(a=, popmean=, alternative=) a ist ein Array mit den Daten, popmean ist der Mittelwert der Grundgesamtheit,
# gegen den getestet wird, alternative ob zweiseitig oder nicht.
data = []

print('Teststatistik:', ((np.mean(data) - )/np.std(data)) * (len(data))**0.5)

result = stats.ttest_1samp(a=data, popmean=, alternative=)
print(result.pvalue)

1.2649110640673518
0.8623272256456349


Testen ob die Erwartungswerte zweier Stichproben gleich sind (angenommen die Varianzen sind gleich).

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html

In [None]:
# mit a=erste Stichprobe, b=zweite Stichprobe
result = stats.ttest_ind(a=, b=)
print(result)

**z-test**\
Nimmt eine Normalverteilung an

In [None]:
# x1=erste stichprobe, x2=zweite Stichprobe, value=mittelwert gegen den getestet wird, alternative='two-sided', 'larger', 'smaller', ddof=Freiheitsgrade (1 bei mittelwert)
ztest ,pval = stests.ztest(x1=, x2=None, value=, alternative=, ddof=1)
print('pvalue:', pval)
print('teststatistik:', ztest)