<a href="https://colab.research.google.com/github/deltorobarba/machinelearning/blob/master/sigma.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **σ-algebra**

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

**Pain Point**

* How to define a messbare Menge?

* Wenn wir eine Menge aus den reellen Zahlen haben und mochten eine Teilbereich [a bis b] messen, dann brauchen wir einen allgemeinen Massbegriff unabhangig von der konkreten Menge. Hier kommt Masstheorie und Sigma-Algebra.

**Definition**

* A σ-algebra defines the **set of events that can be measured**, which in a probability context is equivalent to events that can be discriminated, or "questions that can be answered at time t".

* Exkurs: Ergebnis vs Ereignis. Die möglichen Ausgänge eines Zufallsexperimentes nennt man **Ergebnisse** (zB auf einem Wüfel die Zahlen 1,2,3..). Wenn man alle möglichen Ergebnisse eines Zufallsexperimentes in einer Menge zusammenfasst, erhält man die **Ergebnismenge**. Sie wird üblicherweise mit dem Symbol Ω (sprich Omega) bezeichnet. Beim Würfeln ist Ω= {1; 2; 3; 4; 5; 6} die Ergebnismenge. Jede Zusammenfassung von einem oder mehreren Ergebnissen eines Zufallsexperimentes in einer Menge nennt man **Ereignis** (zB auf einem Würfel die Menge an geraden Zahlen {2,4,6} und ungeraden Zahlen {1,3,5}.

* Eine Sigma-Algebra F ist ein System, um alle möglichen **Ereignisse** (nicht Ergebnisse!) eines Zufallsexperiment zu beschreiben. Ereignisse sind an sich selbst Mengen, die man wie jede Menge vereinigen oder schneiden bzw. auch das Komplement bilden kann um so das Gegenereignis zu erhalten. Fasst man hier alle möglichen Kombinationen an Ereignissen in einer Menge zusammen, bekommt man eine Menge, die wiederum Mengen als Elemente enthält - eine Menge von Mengen sozusagen. Oft sagt man dazu auch einfach Mengensystem. Welche Eigenschaften ein Mengensystem genau haben muss, damit es eine Sigma-Algebra ist steht weiter unten.

* Beispiel: Glücksrad mit blau, rot und grün. Dann haben wir folglich drei Ergebnisse, die wir auch abkürzen können: Ω={B,R,G}. Generell kann man sich schon merken: Ω und ∅ sind immer Elemente einer Sigma-Algebra. Daher haben wir hier 8 mögliche Teilmengen von Ω, die wir als Ereignis betrachten können und demnach als Menge in der Sigma-Algebra zusammenfassen (Potenzmenge von Omega): F ={∅, {B}, {R}, {G}, {B,R}, {B,G}, {R,G}, {B,R,G}} ([Source](https://www.massmatics.de/merkzettel/#!876:Ereignisraum_&_Sigma-Algebra)).

* Bei diskreten Ergebnismengen kann man für die Sigma-Algebra immer die Potenzmenge P(Ω)nehmen und hat demnach dann stets diesen **Ereignisraum: (Ω,P(Ω))**

* Und für die reellen Zahlen gibt es die sogenannte **Borelsche Sigma-Algebra B**, die man dann auch in der Regel benutzt. Ist die Ergebnismenge Ω eine Teilmenge der reellen Zahlen (oder ℝ selbst), so nehmen wir die Borelsche-Sigma B und der Ereignisraum lautet (Ω,B).

* Wenn wir eine Sigma Algebra A gegeben haben, dann heisst jede Teilmenge in diesem Mengensystem (jedes Element aus dieser Sigma Algebra A) eine messbare Teilmenge (=die Mengen die wir messen wollen).

* **<u>Die Elemente der Sigma Algebra sind die messbaren Teilmengen von unserer Grundmenge X</u>** (Und messbar ist der wesentliche Begriff). Das ist zB die Menge an vergangenen Trading-Events am Finanzmarkt bis zum Zeitpunkt t.

* Sigma Algebra ist ein **Mengensystem von einer Teilmenge einer gegebenen Grundmenge** = der Raum, **den wir beschreiben wollen** (mit drei Eigenschaften). Die Menge einer Sigma-Algebra nennt man „**messbare Teilmengen**“.

**Eigenschaften**

**A $\subseteq$ P(X) (=Potenzmenge) heisst Sigma Algebra, wenn gilt** (Die Mengen, die in dieser Sigma Algebra liegen, das sind jene, die folgende drei Eigenschaften erfüllen, und sind die, die wir messen wollen (=diesen Mengen wollen wir ein Mass zuordnen). Potenzmenge selbst soll eine Sigma Algebra sein. Sollten gewissen Eigenschaften der Potenzmenge fordern). **<u>A collection of subsets</u> A is called a σ-algebra on a set X if the following properties are met:**

1. **A contains X (the set itself)**: $\quad \phi, X \in A$ (Leere Menge (sollte Länge oder Volumen Null haben) und ganze Grundmenge selbst haben wir im Mengensystem / sollen messbar sein. Das ist was Sigma Algebra sagt). **Ω ∈ F (Ergebnismenge muss enthalten sein)**

2. **If A contains a subset S, then A also contains the complement of S**: $A \in A \Rightarrow A^{c}:=X \backslash A \in A$ (Irgendein Element in der Algebra: dann sollte auch dessen Komplement im Mengensystem enthalten sein.) Hiermit ist auch Regel 1 eingeschlossen! Deswegen liegt auch die leere Menge (Gegenereignis von Ω) in F.

3. **Consider a countable collection of subsets. If each subset is included in A, then A must also contain their reunion.**: $A_{i} \in A$ fur i $\in N \Rightarrow \bigcup_{i=1}^{\infty} A_{i} \in A$ ((Letzter Punkt macht das Sigma aus): Abzählbarkeit, abzählbare Summe (A i‘s aus unseren Mengensystem A): wir haben endlich viele bzw. abzählbar viele, dann können wir die Vereinigung bilden / abziehbare Vereinigung. Die abzählbare Vereinigung soll wieder in der Sigma Algebra liegen = Wenn wir Längen haben, dann sollten wir die auch addieren können, auch wenn sich die Addition bis unendlich streckt! (blick auf messbarkeit))

Having defined such a σ-algebra A, we call **the elements of σ-algebra A measurable sets** and the couple (X, A) a measurable space. An arbitrary set X can be a member of a multitude of σ-algebras. We denote the set of all σ-algebras that contain X with M(X). The **intersection of all those σ-algebras is called the σ-algebra generated by X**.

**A σ-algebra (also σ-field) on a set X is a collection Σ of subsets of X that includes X itself, is closed under complement, and is closed under countable unions**. The definition implies that it also includes the empty subset and that it is closed under countable intersections. The pair (X, Σ) is called a measurable space or Borel space. A σ-algebra is a type of algebra of sets. An algebra of sets needs only to be closed under the union or intersection of finitely many subsets, which is a weaker condition.

**Borel‘sche Sigma-Algebra**

* T ist ein topologischer Raum (oder ein metrischer Raum im engeren Sinn.) und X eine Menge darin. „Offene Mengen“.

* Die Borel’sche Sigma Algebra auf topologischen Raum X ist jene kleinste Sigma Algebra, die von den offenen Mengen erzeugt wird. 

* B(X) := (T)

**Measurable function**

* **A set is measurable when it’s included in a σ-algebra.**

* We can also extend the “measurable” attribute to functions. Here’s how:

* Let’s consider (X, A) and (Y, B) two measurable spaces. A function f from A to B is called measurable if every set from B comes from applying f to a set from A. Formally, we say that for any element S of B, the pre-image of S under the function f is in A.


**Filtrations**

* In a multiperiod market, information about the market scenario is revealed in stages. 

* Some events may be completely determined by the end of the first trading period, others by the end of the second, and others not until the termination of all trading. 

* This suggests the following classification of events: for each t ≤ T ,

(1) Ft = {all events determined in the first t trading periods}.

* The finite sequence (Ft)0≤t≤T is a filtration of the space Ω of market scenarios. 

* In general, a filtration of a set Ω (not necessarily finite) is defined to be a collection Ft, indexed by a time parameter t (time may be either discrete or continuous), such that

(a) each Ft is a σ−algebra of subsets (events) of Ω; and 

(b) if s<t then Fs ⊆Ft.

**Measure-theoretic probability theory**

* The raison d'être of the measure-theoretic treatment of probability is that it unifies the discrete and the continuous cases, and makes the difference a question of which measure is used. Furthermore, it covers distributions that are neither discrete nor continuous nor mixtures of the two.

* Other distributions may not even be a mix, for example, the Cantor distribution has no positive probability for any single point, neither does it have a density. 

* The modern approach to probability theory solves these problems using measure theory to define the probability space:

Given any set $\Omega$ (also called sample space) and a $\sigma$ -algebra $\mathcal{F}$ on it, a measure $P$ defined on $\mathcal{F}$ is
called a probability measure if $P(\Omega)=1$

If $\mathcal{F}$ is the Borel $\sigma$ -algebra on the set of real numbers, then there is a unique probability measure on
$\mathcal{F}$ for any cdf, and vice versa. The measure corresponding to a cdf is said to be induced by the cdf.

This measure coincides with the pmf for discrete variables and pdf for continuous variables, making the measure-theoretic approach free of fallacies.

The probability of a set $E$ in the $\sigma$ -algebra $\mathcal{F}$ is defined as

$P(E)=\int_{\omega \in E} \mu_{F}(d \omega)$

where the integration is with respect to the measure $\mu_{F}$ induced by $F$

Along with providing better understanding and unification of discrete and continuous probabilities, measure-theoretic treatment also allows us to work on probabilities outside R<sup>n</sup>, as in the theory of stochastic processes. For example, to study Brownian motion, probability is defined on a space of functions.

When it's convenient to work with a dominating measure, the Radon-Nikodym theorem is used to define a density as the Radon-Nikodym derivative of the probability distribution of interest with respect to this dominating measure. 

* Discrete densities are usually defined as this derivative with respect to a counting measure over the set of all possible outcomes. 

* Densities for absolutely continuous distributions are usually defined as this derivative with respect to the Lebesgue measure. 

* If a theorem can be proved in this general setting, it holds for both discrete and continuous distributions as well as others; separate proofs are not required for discrete and continuous distributions.

https://en.m.wikipedia.org/wiki/Probability_theory

**Adapted Process (i.e. in Finance)**

* The share prices of assets in a multiperiod market depend on market scenarios, but evolve in such a way that their values at any time t, being observable at time t, do not depend on the unobservable post-t futures of the scenarios. 

* Thus, the price process St of a traded asset is **adapted to the natural filtration** (Ft)0≤t≤T defined by (1). 

* In general, a sequence Xt of random variables is said to be **adapted to a filtration** (Ft)0≤t≤T if, for each t, the random variable Xt is **Ft−measurable**, that is, if all events of the form {ω : Xt(ω) ∈ B}, where **B is a Borel** subset of the real numbers R, are members of the σ−algebra Ft.

**Martingales**

Let (Ω,F,P) be a probability space and (Ft)0≤t≤T or (Ft)0≤t<∞ a filtration by sub- σ−algebras of F. An adapted sequence Xt of integrable random variables is defined to be a

* martingale if E(Xt+1|Ft) = Xt ∀t (=for all t).
* submartingale if E(Xt+1|Ft) ≥ Xt ∀t.
* supermartingale if E(Xt+1|Ft) ≤ Xt ∀t.

A measure space is a triple $\langle X, \mathcal{F}, \mu\rangle$ where $\langle X, \mathcal{F}\rangle$ is a measurable space and $\mu$ is a measure defined on it. If $\mu$ is in fact a probability measure we speak of a probability space and call its
underlying measurable space a sample space. The points of a sample space are called samples
and represent potential outcomes while the measurable sets (complexes) are called events and
represent properties of outcomes for which we wish to assign probabilities. (Many use the term
sample space simply for the underlying set of a probability space, particularly in the case where
every subset is an event.) Measure spaces and probability spaces play a foundational role in
measure theory and probability theory respectively.

**Application**

* The main use of σ-algebras is in the definition of measures; specifically, the collection of those subsets for which a given measure is defined is necessarily a σ-algebra. 

* This concept is important in mathematical analysis as the **foundation for Lebesgue integration**, and in probability theory, where it is **interpreted as the collection of events which can be assigned probabilities**. 

* Also, in probability, σ-algebras are pivotal in the definition of conditional expectation.

* In statistics, (sub) σ-algebras are needed for the formal mathematical definition of a sufficient statistic, particularly when the statistic is a function or a random process and the notion of conditional density is not applicable.


**Example**

1. **Minimum**: Sigma Algebra A enthält leere Menge und Grundmenge selbst (kleinste Sigma Algebra die möglich ist): A = {𝜙,X}
2. **Maximum**: Sigma Algebra enthält die Potenzmenge (beinhaltet alle Teilmengen von X): A = P(X)


* If {A1, A2, A3, …} is a countable partition of X then the **collection of all unions of sets in the partition** (including the empty set) is a σ-algebra.

* A more useful example is the set of subsets of the real line formed by starting with all open intervals and adding in all countable unions, countable intersections, and relative complements and continuing this process (by transfinite iteration through all countable ordinals) until the relevant closure properties are achieved - the σ-algebra produced by this process is known as the Borel algebra on the real line, and can also be conceived as the smallest (i.e. "coarsest") σ-algebra containing all the open sets, or equivalently containing all the closed sets. It is foundational to measure theory, and therefore modern probability theory, and a related construction known as the Borel hierarchy is of relevance to descriptive set theory.

https://medium.com/towards-artificial-intelligence/what-is-measure-theory-67c281f8a094

## **σ-Algebra & stochastische Prozesse**

**σ-Algebra der τ-Vergangenheit**

* Die σ-Algebra der τ-Vergangenheit ist ein **Mengensystem**, sowie ein von der Stoppzeit abgeleitetes Konzept

* Die σ-Algebra der τ-Vergangenheit ist eine **spezielle σ-Algebra**, welche über die Filtrierung und die Stoppzeit definiert wird. Sie findet beispielsweise Anwendung bei der Definition der starken Markow-Eigenschaft und dem Optional Sampling Theorem.

* Sie entsteht durch Kombination einer Filtrierung mit einer Stoppzeit und findet meist Anwendung bei Aussagen über gestoppte Prozesse, also stochastische Prozesse, die an einem zufälligen Zeitpunkt angehalten werden. Zu diesen Aussagen gehören beispielsweise das Optional Stopping Theorem, das Optional Sampling Theorem und die Definition der starken Markow-Eigenschaft.

* Gegeben sei ein Wahrscheinlichkeitsraum $(\Omega, \mathcal{A}, P)$ sowie eine Filtrierung $\mathbb{F}=\left(\mathcal{F}_{t}\right)_{t \in T}$ bezüglich der Ober- $\sigma$ -Algebra $\mathcal{A}$ und eine Stoppzeit $\tau$ bezüglich $\mathbb{F}$. Dann heißt

$\mathcal{F}_{\tau}=\left\{A \in \mathcal{A} \mid A \cap\{\tau \leq t\} \in \mathcal{F}_{t} \text { für alle } t \in T\right\}$

die $\sigma$ -Algebra der $\tau$ -Vergangenheit.

https://de.m.wikipedia.org/wiki/Σ-Algebra_der_τ-Vergangenheit

**Optional Stopping Theorem**

* Das Optional Stopping Theorem ist ein mathematischer Satz über Martingale, eine spezielle Klasse von stochastischen Prozessen, und damit der Wahrscheinlichkeitstheorie zuzuordnen.

https://de.m.wikipedia.org/wiki/Optional_Stopping_Theorem

**Optional Sampling Theorem**

* Eine populäre Version dieses Theorems besagt, dass es bei einem fairen, sich wiederholenden Spiel keine Abbruchstrategie gibt, mit der man seinen Gesamtgewinn verbessern kann.

https://de.m.wikipedia.org/wiki/Optional_Sampling_Theorem

**Starke Markoweigenschaft**

https://de.m.wikipedia.org/wiki/Starke_Markoweigenschaft

**Wahrscheinlichkeitsraum**

* Es handelt sich um ein mathematisches Modell zur Beschreibung von Zufallsexperimenten. Hierbei werden die verschiedenen möglichen Ausgänge des Experiments zu einer Menge zusammengefasst. Teilmengen dieser Ergebnismenge können dann unter bestimmten Voraussetzungen Zahlen zwischen 0 und 1 zugeordnet werden, die als Wahrscheinlichkeiten interpretiert werden.

* Ein Wahrscheinlichkeitsraum ist ein Maßraum (Ω, Σ, P) dessen Maß P ein Wahrscheinlichkeitsmaß ist. Im Einzelnen bedeutet das: 

* Ω ist eine beliebige nichtleere Menge, genannt die Ergebnismenge. Ihre Elemente heißen Ergebnisse.

* Σ (Sigma) ist eine σ-Algebra über der Grundmenge Ω (Omega), also eine Menge bestehend aus Teilmengen von Ω, die Ω enthält und abgeschlossen gegenüber der Bildung von Komplementen und abzählbaren Vereinigungen ist. Die Elemente von Σ heißen Ereignisse. Die σ-Algebra Σ selbst wird auch Ereignissystem oder Ereignisalgebra genannt.

* P : Σ –> [0,1] ist ein Wahrscheinlichkeitsmaß, das heißt eine Mengenfunktion, die den Ereignissen Zahlen zuordnet, derart dass P(∅) = 0 ist, P (A1 ∪ A2 ∪ … ) = P(A1) + P(A2) + … für paarweise disjunkte (d. h. sich gegenseitig ausschließende) Ereignisse A1, A2, … gilt (3. Kolmogorow-Axiom) und P(Ω) = 1 ist (2. Kolmogorow-Axiom).

* Der Messraum (Ω, Σ) wird auch Ereignisraum genannt. Ein Wahrscheinlichkeitsraum ist also ein Ereignisraum, auf dem zusätzlich ein Wahrscheinlichkeitsmaß gegeben ist.

https://de.m.wikipedia.org/wiki/Wahrscheinlichkeitsraum

**Stoppzeit (Markov Moment)**

* In der Stochastik bezeichnet der Begriff der Stoppzeit eine spezielle Art von Zufallsvariablen, die auf filtrierten Wahrscheinlichkeitsräumen definiert werden. 

* Stoppzeiten sind nicht nur von Bedeutung für die Theorie der stochastischen Prozesse (beispielsweise bei der Lokalisierung von Prozessklassen oder Untersuchungen von gestoppten Prozessen), sondern auch von praktischer Relevanz, etwa für das Problem des optimalen Ausübungszeitpunkts für amerikanische Optionen.

* Eine Stoppzeit kann man als die Wartezeit interpretieren, die vergeht, bis ein bestimmtes zufälliges Ereignis eintritt. Wenn wie üblich die Filtrierung die vorhandene Information zu verschiedenen Zeitpunkten angibt, bedeutet die obige Bedingung also, dass zu jeder Zeit bekannt sein soll, ob dieses Ereignis bereits eingetreten ist oder nicht.



https://de.m.wikipedia.org/wiki/Stoppzeit

**Filtrierung von Stoppzeiten**

* Eine Stoppzeit $\tau: \Omega \rightarrow[0, \infty]$ bezüglich einer beliebigen Filtrierung $\left(\mathcal{F}_{t}\right)_{t \in[0, \infty)}$ erzeugt in Analogie zur natürlichen Filtrierung eine $\sigma$ -Algebra, die sogenannte $\sigma$ -Algebra der $\tau$ -Vergangenheit

$\mathcal{F}_{\tau}:=\left\{A \in \mathcal{F}_{\infty} \mid \forall t \in[0, \infty): A \cap\{\tau \leq t\} \in \mathcal{F}_{t}\right\} \text { mit } \mathcal{F}_{\infty}=\sigma\left(\bigcup_{t \in[0, \infty)} \mathcal{F}_{t}\right)$

* Sei nun $\left(\tau_{j}\right)_{j \in J}$ eine geordnete Familie von Stoppzeiten mit $P\left(\tau_{i} \leq \tau_{j}\right)=1$ für alle $i, j \in J$ mit $i \leq j$ dann ist die Familie $\left(\mathcal{F}_{\tau_{j}}\right)_{j \in J}$ eine Filtrierung, diese ist beim Studium von Stoppzeiten stochastischer Prozesse von Bedeutung. 

* In Analogie erzeugt man die rechtsstetige Version der Filtrierung $\left(\mathcal{F}_{\tau_{j}+}\right)_{j \in J}$ wobei:

$\mathcal{F}_{r+}:=\left\{A \in \mathcal{F}_{\infty} \mid \forall t \in[0, \infty): A \cap\{\tau \leq t\} \in \mathcal{F}_{t+}\right\} \text { und } \mathcal{F}_{t+}=\bigcap_{u \in(t, \infty)} \mathcal{F}_{u}$

* Es gilt immer $\mathcal{F}_{\tau} \subseteq \mathcal{F}_{r+}$

https://de.m.wikipedia.org/wiki/Filtrierung_(Wahrscheinlichkeitstheorie)

**Vorhersagbarer Prozess**

https://de.m.wikipedia.org/wiki/Vorhersagbarer_Prozess