<a href="https://colab.research.google.com/github/deltorobarba/machinelearning/blob/master/probability.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Probability Theory**

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

### **Measure-theoretic probability theory**

* The raison d'être of the measure-theoretic treatment of probability is that it unifies the discrete and the continuous cases, and makes the difference a question of which measure is used. Furthermore, it covers distributions that are neither discrete nor continuous nor mixtures of the two.

* Other distributions may not even be a mix, for example, the Cantor distribution has no positive probability for any single point, neither does it have a density. 

* The modern approach to probability theory solves these problems using measure theory to define the probability space:

Given any set $\Omega$ (also called sample space) and a $\sigma$ -algebra $\mathcal{F}$ on it, a measure $P$ defined on $\mathcal{F}$ is
called a probability measure if $P(\Omega)=1$

If $\mathcal{F}$ is the Borel $\sigma$ -algebra on the set of real numbers, then there is a unique probability measure on
$\mathcal{F}$ for any cdf, and vice versa. The measure corresponding to a cdf is said to be induced by the cdf.

This measure coincides with the pmf for discrete variables and pdf for continuous variables, making the measure-theoretic approach free of fallacies.

The probability of a set $E$ in the $\sigma$ -algebra $\mathcal{F}$ is defined as

$P(E)=\int_{\omega \in E} \mu_{F}(d \omega)$

where the integration is with respect to the measure $\mu_{F}$ induced by $F$

Along with providing better understanding and unification of discrete and continuous probabilities, measure-theoretic treatment also allows us to work on probabilities outside R<sup>n</sup>, as in the theory of stochastic processes. For example, to study Brownian motion, probability is defined on a space of functions.

When it's convenient to work with a dominating measure, the Radon-Nikodym theorem is used to define a density as the Radon-Nikodym derivative of the probability distribution of interest with respect to this dominating measure. 

* Discrete densities are usually defined as this derivative with respect to a counting measure over the set of all possible outcomes. 

* Densities for absolutely continuous distributions are usually defined as this derivative with respect to the Lebesgue measure. 

* If a theorem can be proved in this general setting, it holds for both discrete and continuous distributions as well as others; separate proofs are not required for discrete and continuous distributions.

https://en.m.wikipedia.org/wiki/Probability_theory

### **Filtrations**

* In martingale theory and the theory of stochastic processes, a **filtration is an increasing sequence of σ-algebras on a measurable space**.

* That is, given a measurable space $(\Omega, \mathcal{F}),$ a filtration is a sequence of $\sigma$ -algebras $\left\{\mathcal{F}_{t}\right\}_{t \geq 0}$ with $\mathcal{F}_{t} \subseteq \mathcal{F}$ where each $t$ is a non-negative real number and 

> $t_{1} \leq t_{2} \Longrightarrow \mathcal{F}_{t_{1}} \subseteq \mathcal{F}_{t_{2}}$

* The exact range of the "times" $t$ will usually depend on context: the set of values for $t$ might be discrete or continuous, bounded or unbounded. For example,

> $t \in\{0,1, \ldots, N\}, \mathbb{N}_{0},[0, T]$ or $[0,+\infty)$

* **A σ-algebra defines the set of events that can be measured, which in a probability context is equivalent to events that can be discriminated, or "questions that can be answered at time t".** 

* **Therefore, a filtration is often used to represent the change in the set of events that can be measured, through gain or loss of information**. 

* A typical example is in mathematical finance, where a filtration represents the information available up to and including each time t, and is more and more precise (the set of measurable events is staying the same or increasing) as more information from the evolution of the stock price becomes available.

A Filtration is a growing sequence of sigma algebras

> $\mathcal{F}_{1} \subseteq \mathcal{F}_{2} \ldots \subseteq \mathcal{F}_{n}$

When talking of martingales we need to talk of conditional expectations, and in particular conditional expectations w.r.t σ algebra's. So whenever we write

> $E\left[Y_{n} \mid X_{1}, X_{2}, \ldots, X_{n}\right]$

which can be written as

> $E\left[Y_{n+1} \mid \mathcal{F}_{n}\right]$

where F𝑛 is a sigma algebra that makes random variables

> $X_{1}, \ldots, X_{n}$

measurable. Finally a flitration F1,…Fn is simply an increasing sequence of sigma algebras. That is **we are conditioning on growing amounts of information**.

* Der Begriff der Filtrierung ist unerlässlich, um, ausgehend vom Begriff des stochastischen Prozesses,
wichtige Begriffe wie Martingale oder Stoppzeiten einzuführen.

* Als Menge $T$ wird wie bei stochastischen Prozessen meist $\mathbb{R}_{+}$ oder $\mathbb{N}_{0}$ gewählt und $t \in T$ als Zeitpunkt interpretiert.

* **$\sigma$ -Algebren modellieren verfügbare Information**. Die Mengen der $\sigma$ -Algebra $\mathcal{F}_{t}$ geben zu jedem Zeitpunkt $t$ an, wie viele Informationen zur Zeit bekannt sind. Für jedes Ereignis $A \subseteq \Omega$ bedeutet $A \in \mathcal{F}_{t}$ übersetzt, dass zum Zeitpunkt $t$ die Frage $,$ ist $\omega \in A ?^{\prime \prime}$ eindeutig mit $,$ ja" oder $,$ nein" beantwortet werden kann. 

* Dass die Filtrierung stets aufsteigend geordnet ist, bedeutet demnach, **dass eine einmal erlangte Information nicht mehr verloren geht.**

* Ist ein stochastischer Prozess $\left(X_{t}\right)_{t \in T}$ an eine Filtrierung $\left(\mathcal{F}_{t}\right)_{t \in T}$ adaptiert, bedeutet dies also, dass der Verlauf der Funktion $s \mapsto X_{s}(\omega)$ im Intervall $[0, t]$ zum Zeitpunkt $t$ (für beliebiges, aber unbekanntes $\omega \in \Omega$ und in Hinsicht auf die durch Ereignisse $A \in \mathcal{F}_{s}, s \in[0, t]$ formulierbaren Fragen bekannt ist.

* Der Begriff wird aufgrund seiner Bedeutung in den meisten fortgeschrittenen Lehrbüchern über stochastische Prozesse definiert. In einigen Lehrbüchern, zum Beispiel im Buch Probability von Albert N. Schirjajew, wird der Begriff aus didaktischen Gründen zunächst umfassend für Prozesse mit diskreten
Werten in diskreter Zeit eingeführt.

https://de.m.wikipedia.org/wiki/Filtrierung_(Wahrscheinlichkeitstheorie)

**Filtration in Finance**

* In a multiperiod market, information about the market scenario is revealed in stages. 

* Some events may be completely determined by the end of the first trading period, others by the end of the second, and others not until the termination of all trading. 

* This suggests the following classification of events: for each t ≤ T ,

(1) Ft = {all events determined in the first t trading periods}.

* The finite sequence (Ft)0≤t≤T is a filtration of the space Ω of market scenarios. 

* In general, a filtration of a set Ω (not necessarily finite) is defined to be a collection Ft, indexed by a time parameter t (time may be either discrete or continuous), such that

(a) each Ft is a σ−algebra of subsets (events) of Ω; and 

(b) if s<t then Fs ⊆Ft.

**Beispiel**

* Betrachtet man als Beispiel einen Wahrscheinlichkeitsraum $(\mathbb{Z}, \mathcal{P}(\mathbb{Z}), P)$ mit abzählbarer Grundmenge $\mathbb{Z}$ die standardmäßig mit der Potenzmenge als $\sigma$ -Algebra ausgestattet ist, so wäre eine mögliche Filtrierung beispielsweise

> $\mathcal{F}_{n}:=\sigma(\mathcal{P}(\{-n, \ldots, n\}))$

* Sie modelliert die Informationen, dass man bis zum n-ten Zeitschritt sich bis zu n Schritte vom Ursprung entfernt hat und wäre beispielsweise die passende Filtrierung für einen einfachen symmetrischen Random
Walk.

**Filtration and Stochastic Processes**

https://almostsure.wordpress.com/2009/11/08/filtrations-and-adapted-processes/

* In mathematics, a filtration $\mathcal{F}$ is an indexed family $\left(S_{i}\right)_{i \in I}$ of subobjects of a given algebraic structure $S,$ with the index $i$ running over some totally ordered index set $I$, subject to the condition
that

> if $i \leq j$ in $I,$ then $S_{i} \subset S_{j}$

* If the index i is the time parameter of some stochastic process, then the filtration can be interpreted as **representing all historical but not future information available about the stochastic process**, with the algebraic structure S<sub>i</sub> gaining in complexity with time. 

* Hence, a process that is adapted to a filtration F, is also called **non-anticipating**, i.e. one that cannot see into the future.

* Eine Filtrierung (auch Filtration, Filterung oder Filtern) ist in der Theorie der stochastischen Prozesse eine Familie von verschachtelten σ-Algebren. Sie modelliert die zu verschiedenen Zeitpunkten verfügbaren Informationen zum Verlauf eines Zufallsprozesses.

https://de.m.wikipedia.org/wiki/Filtrierung_(Wahrscheinlichkeitstheorie)

### **Adapted Process**

* for exmaple in Finance

* The share prices of assets in a multiperiod market depend on market scenarios, but evolve in such a way that their values at any time t, being observable at time t, do not depend on the unobservable post-t futures of the scenarios. 

* Thus, the price process St of a traded asset is **adapted to the natural filtration** (Ft)0≤t≤T defined by (1). 

* In general, a sequence Xt of random variables is said to be **adapted to a filtration** (Ft)0≤t≤T if, for each t, the random variable Xt is **Ft−measurable**, that is, if all events of the form {ω : Xt(ω) ∈ B}, where **B is a Borel** subset of the real numbers R, are members of the σ−algebra Ft.

### **Martingales**

Let (Ω,F,P) be a probability space and (Ft)0≤t≤T or (Ft)0≤t<∞ a filtration by sub- σ−algebras of F. An adapted sequence Xt of integrable random variables is defined to be a

* martingale if E(Xt+1|Ft) = Xt ∀t (=for all t).
* submartingale if E(Xt+1|Ft) ≥ Xt ∀t.
* supermartingale if E(Xt+1|Ft) ≤ Xt ∀t.

A measure space is a triple $\langle X, \mathcal{F}, \mu\rangle$ where $\langle X, \mathcal{F}\rangle$ is a measurable space and $\mu$ is a measure defined on it. If $\mu$ is in fact a probability measure we speak of a probability space and call its
underlying measurable space a sample space. The points of a sample space are called samples
and represent potential outcomes while the measurable sets (complexes) are called events and
represent properties of outcomes for which we wish to assign probabilities. (Many use the term
sample space simply for the underlying set of a probability space, particularly in the case where
every subset is an event.) Measure spaces and probability spaces play a foundational role in
measure theory and probability theory respectively.

### **Stopping Time**

**Optional Stopping Theorem**

* Das Optional Stopping Theorem ist ein mathematischer Satz über Martingale, eine spezielle Klasse von stochastischen Prozessen, und damit der Wahrscheinlichkeitstheorie zuzuordnen.

https://de.m.wikipedia.org/wiki/Optional_Stopping_Theorem

**Optional Sampling Theorem**

* Eine populäre Version dieses Theorems besagt, dass es bei einem fairen, sich wiederholenden Spiel keine Abbruchstrategie gibt, mit der man seinen Gesamtgewinn verbessern kann.

https://de.m.wikipedia.org/wiki/Optional_Sampling_Theorem

**Starke Markoweigenschaft**

https://de.m.wikipedia.org/wiki/Starke_Markoweigenschaft

**Stoppzeit (Markov Moment)**

* In der Stochastik bezeichnet der Begriff der Stoppzeit eine spezielle Art von Zufallsvariablen, die auf filtrierten Wahrscheinlichkeitsräumen definiert werden. 

* Stoppzeiten sind nicht nur von Bedeutung für die Theorie der stochastischen Prozesse (beispielsweise bei der Lokalisierung von Prozessklassen oder Untersuchungen von gestoppten Prozessen), sondern auch von praktischer Relevanz, etwa für das Problem des optimalen Ausübungszeitpunkts für amerikanische Optionen.

* Eine Stoppzeit kann man als die Wartezeit interpretieren, die vergeht, bis ein bestimmtes zufälliges Ereignis eintritt. Wenn wie üblich die Filtrierung die vorhandene Information zu verschiedenen Zeitpunkten angibt, bedeutet die obige Bedingung also, dass zu jeder Zeit bekannt sein soll, ob dieses Ereignis bereits eingetreten ist oder nicht.



https://de.m.wikipedia.org/wiki/Stoppzeit

**Filtrierung von Stoppzeiten**

* Eine Stoppzeit $\tau: \Omega \rightarrow[0, \infty]$ bezüglich einer beliebigen Filtrierung $\left(\mathcal{F}_{t}\right)_{t \in[0, \infty)}$ erzeugt in Analogie zur natürlichen Filtrierung eine $\sigma$ -Algebra, die sogenannte $\sigma$ -Algebra der $\tau$ -Vergangenheit

$\mathcal{F}_{\tau}:=\left\{A \in \mathcal{F}_{\infty} \mid \forall t \in[0, \infty): A \cap\{\tau \leq t\} \in \mathcal{F}_{t}\right\} \text { mit } \mathcal{F}_{\infty}=\sigma\left(\bigcup_{t \in[0, \infty)} \mathcal{F}_{t}\right)$

* Sei nun $\left(\tau_{j}\right)_{j \in J}$ eine geordnete Familie von Stoppzeiten mit $P\left(\tau_{i} \leq \tau_{j}\right)=1$ für alle $i, j \in J$ mit $i \leq j$ dann ist die Familie $\left(\mathcal{F}_{\tau_{j}}\right)_{j \in J}$ eine Filtrierung, diese ist beim Studium von Stoppzeiten stochastischer Prozesse von Bedeutung. 

* In Analogie erzeugt man die rechtsstetige Version der Filtrierung $\left(\mathcal{F}_{\tau_{j}+}\right)_{j \in J}$ wobei:

$\mathcal{F}_{r+}:=\left\{A \in \mathcal{F}_{\infty} \mid \forall t \in[0, \infty): A \cap\{\tau \leq t\} \in \mathcal{F}_{t+}\right\} \text { und } \mathcal{F}_{t+}=\bigcap_{u \in(t, \infty)} \mathcal{F}_{u}$

* Es gilt immer $\mathcal{F}_{\tau} \subseteq \mathcal{F}_{r+}$

**Vorhersagbarer Prozess**

https://de.m.wikipedia.org/wiki/Vorhersagbarer_Prozess

### **σ-Algebra der τ-Vergangenheit**

* Die σ-Algebra der τ-Vergangenheit ist ein **Mengensystem**, sowie ein von der Stoppzeit abgeleitetes Konzept

* Die σ-Algebra der τ-Vergangenheit ist eine **spezielle σ-Algebra**, welche über die Filtrierung und die Stoppzeit definiert wird. Sie findet beispielsweise Anwendung bei der Definition der starken Markow-Eigenschaft und dem Optional Sampling Theorem.

* Sie entsteht durch Kombination einer Filtrierung mit einer Stoppzeit und findet meist Anwendung bei Aussagen über gestoppte Prozesse, also stochastische Prozesse, die an einem zufälligen Zeitpunkt angehalten werden. Zu diesen Aussagen gehören beispielsweise das Optional Stopping Theorem, das Optional Sampling Theorem und die Definition der starken Markow-Eigenschaft.

* Gegeben sei ein Wahrscheinlichkeitsraum $(\Omega, \mathcal{A}, P)$ sowie eine Filtrierung $\mathbb{F}=\left(\mathcal{F}_{t}\right)_{t \in T}$ bezüglich der Ober- $\sigma$ -Algebra $\mathcal{A}$ und eine Stoppzeit $\tau$ bezüglich $\mathbb{F}$. Dann heißt

$\mathcal{F}_{\tau}=\left\{A \in \mathcal{A} \mid A \cap\{\tau \leq t\} \in \mathcal{F}_{t} \text { für alle } t \in T\right\}$

die $\sigma$ -Algebra der $\tau$ -Vergangenheit.

https://de.m.wikipedia.org/wiki/Σ-Algebra_der_τ-Vergangenheit