# Introducción

Apuntes de probabilidad y estadística, basado en la lectura del libro [All of Statistics](https://link.springer.com/book/10.1007/978-0-387-21736-9), de Larry Wasserman

En este notebook se resumen conceptos básicos de probabilidad y estadística, y se implementan algunas funciones a modo ilustrativo.

Fecha original de realización: de finales de 2015 a principios de 2016.
Pasado a formato notebook a principios de 2022.

In [2]:
# importaciones
import numpy as np
from scipy.stats import randint

np.random.seed(42)  # fijamos una semilla aleatoria

# Probabilidad (Capítulo 2)

## Conceptos importantes

* Espacio de eventos $\Omega$: es el conjunto de todas las salidas posibles $\omega \in \Omega$ de un experimento.
* Un evento es un subconjunto $A \subseteq \Omega$, por ejemplo, la cantidad de eventos en donde el lanzamiento de un dado incluye un número par (de la misma forma, se define el complemento $A^C$, que incluye todos los eventos del espacio excepto por $A$). De la misma forma, dados dos eventos $A_i$ y $A_j$, se definen operaciones como su unión $A_i \cup A_j$ e intersección $A_i \cap A_j$.

Una *partición* de $\Omega$ es una secuencia de conjuntos disjuntos, por ejemplo $A_1, A_2, \dots, A_k$, tal que $\cup_{i=1}^k A_i = \Omega$.

Dado un evento $A$m se define como *indicator function* de $A$, a la función

$I(\omega \in A) = 1 \text{ si } \omega \in A, 0 \text{ en caso contrario}$

Cada evento$^{(1)}$ $A \subseteq \Omega$ tiene asignado un número real $P(A)$ llamado **probabilidad** de $A$. Llamamos $P$ a la distribución de probailidades (o *probability measure*).

Para representar una probabilidad, $P$ debe satisfacer tres axiomas:

1. $$P(A) \geq 0, \forall A$$
1. $$P(\Omega) = 1$$
1. $$A_i \cap A_j = \emptyset \Rightarrow P(A_i \cup A_j) = P(A_i) + P(A_j), \forall i,j$$

$^{(1)}$ Si $\Omega$ es muy grande, no siempre es posible asignar $P(A)$ a cada evento $A$; en cambio, se le asigna $P$ a una clase limitada de conjuntos $\sigma$.

Hay dos interpretaciones comunes de $P(A)$:

* Es una **frecuencia**, donde $P(A)$ es la proporción a largo plazo en donde $A$ es verdadero (es decir, ocurre). Esta interpretación se conoce como [Frecuentista](https://en.wikipedia.org/wiki/Frequentist_probability).
* Es un **grado de creencia**, donde $P(A)$ mide la creencia de un observador de que $A$ es verdadero. Esta es la interpretación [Bayesiana](https://en.wikipedia.org/wiki/Bayesian_statistics) de la probabilidad.

Lema: $$\forall A,B, P(A \cup B) = P(A) + P(B) - P(A \cap B)$$

Teorema: $$\text{si } A_n \to A \Rightarrow P(A_n) \to P(A) \text{ cuando n } \to \infty$$

## Probabilidad en espacios finitos

Si $\Omega$ es finito y $P(\omega_1) = \dots = P(\omega_n)$, entonces $P$ recibe el nombre de **distribución probabilística uniforme**, y está dada por

$$P(A) = \frac{|A|}{|\Omega|}$$

Para contar $A$, a veces es necesario utilizar métodos de conteo ([álgebra combinatoria](https://en.wikipedia.org/wiki/Algebraic_combinatorics)).

### Eventos independientes

Dos eventos, $A$ y $B$ son independientes entre sí si $P(A \cap B) = P(A) P(B)$

Aclaración de notación: $P(A \cap B)$ también se denota como $P(A,B)$ (en otras palabras, denota conjunción, haciendo referencia a "la probabilidad de $A$ y $B$").

### Probabilidad condicional

La probabilidad de un evento $A$ dado un evento $B$, está dada por

$$P(A \mid B) = \frac{P(A \cap B)}{P(B)}$$

Propiedades:

* Si $P(B) > 0$, entonces $P(A \mid B)$ satisface los tres axiomas de $P$.
* Si $A_1, A_2, \dots$ son disjuntos, entonces $$P(\cup_{i=1} A_i \mid B) = P(A_1 \mid B) + P(A_2 \mid B) + \dots$$
* No obstante, "típicamente", $$P(A \mid B \cup C) \neq P(A \mid B) + P(A \mid C)$$

Si $A, B$ son independientes, entonces $$P(A \mid B) = \frac{P(A,B)}{P(B)} = \frac{P(A)P(B)}{P(B)}$$

Teorema: dados $A_1, \dots, A_k$ particiones de $\Omega$, se cumple que

$$\forall B, P(B) = \sum_{i=1}^{k} P(B \mid A_i)P(A_i)$$

esto se conoce como **ley de probabilidad total**

**Teorema de Bayes**: $$P(A_i \mid B) = \frac{P(B \mid A_i)P(A_i)}{P(B) = \sum_{i=j}^{k} P(B \mid A_j)P(A_j)}$$

en donde $P(A_i)$ se denomina **probabilidad a priori** (o *prior*, en inglés), mientras que $P(A_i \mid B)$ es la **probabilidad posterior**.

# Variable Aleatoria (Capítulo 3)

Una **variable aleatoria** es una función $X: \Omega \to \mathbb{R}$ que asigna un número real $X(\omega)$ a un evento aleatorio $\omega$.

Ejemplo: si $\Omega = \{\text{cara}, \text{cruz}\}$, y $X$ representa si salió cruz, $X$ puede tomar valores $X(\text{cara})=0$ o $X(\text{cruz})=1$, dependiendo de un factor aleatorio.

In [12]:
# vemos una variable aleatoria discreta uniforme, que representaría 
# 50 lanzamientos de un dado de 6 caras

experimento = randint.rvs(1,7, size=50)
experimento

array([1, 1, 4, 4, 6, 5, 6, 5, 6, 3, 4, 1, 5, 5, 1, 6, 5, 3, 4, 1, 4, 5,
       5, 1, 3, 2, 1, 2, 6, 2, 3, 6, 2, 6, 2, 3, 2, 2, 2, 1, 1, 1, 3, 6,
       5, 2, 2, 3, 2, 1])

Dada una variable $X$ y un subconjunto $A$ de números reales, se define a $X^{-1}(A)$ como

$$X^{-1}(A) = \{\omega \in \Omega: X(\omega) \in A)\}$$

de tal forma que se definen

$$P(X \in A) = P(X^{-1}(A)) = P(\{\omega \in \Omega; X(\omega) \in A\})$$
$$P(X=x) = P(X^{-1}(A)) = P(\{\omega \in \Omega; X(\omega) = x\})$$

donde $X$ denota a la variable aleatoria, y $x$ denota a un valor posible de $X$ (ej.: cruz)

Ejemplo: en el lanzamiento de una moneda al aire dos veces, se eligió a $X$ como el número de caras. De esta manera, $P(X=0) = P(\{\text{cara } \text{cara}\}) = 1/4$, $P(X=1) = P(\{\text{cara } \text{cruz}, \text{cruz } \text{cara}\}) = 1/2$ y $P(X=2) = P(\{\text{cruz } \text{cruz}\}) = 1/4$

Se define como **función de distribución acumulativa** (*cumulative distribution function*, CDF) a la función

$$F_X(x) = P(X \leq x)$$

donde $F_X:\mathbb{R} \to [0,1]$, y $X$ es una variable aleatoria.