# Estadística para Ciencia de los Datos - Lección 1

Autor: Saúl Calderón, Juan Esquivel

# Probabilidad

La teoría de la probabilidad es de suma importancia para muchos de los
algoritmos en el aprendizaje automático y el procesamiento de señales, pues
es habitual el lidiar con incertidumbre. El siguiente es un repaso de conceptos
básicos de probabilidades. Existen dos ramas o enfoques, la teoría de probabilidades **frecuentista**, basada en frecuencia de ocurrencias de eventos, y la
**clásica o axiomática**, que define las probabilidades según otras propiedades
del fenómeno.

## Axiomas de la probabilidad



*   **Conjunto de muestras $\Omega$**: Conjunto de todos los resultados posibles de
un experimento. El resultado de un experimento puede conceptualizarse
como una descripción completa de un estado del mundo real, al finalizar
un experimento, y se denota como $\omega \in \Omega$
*   **Conjunto de eventos (o espacio de eventos) $\mathcal{F}$**: Un conjunto A de posibles salidas (una o más salidas) $\omega$ de un experimento se le llama un **evento**, por lo que entonces A ⊆ Ω. $\mathcal{F}$ es un espacio de eventos al que
pertenecen uno o más eventos $A_i$, por lo que entonces $A_i \in \mathcal{F}$. El conjunto $\mathcal{F}$ satisface las siguientes propiedades:

  * El conjunto vacío siempre pertenece a $\mathcal{F}:\emptyset \in \mathcal{F}$
  * $A_1, A_2, ..., A_n \in \mathcal{F} \implies \cup A_i \in \mathcal{F}$
  
* Propiedades básicas de la función de probabilidad: Una función de densidad de probabilidad $p : \mathcal{F} \rightarrow  \mathbb{R}$:

  * $p(A) \geq 0, \forall A \in \mathcal{F}$
  * $p(\Omega) =1$
  * Si $ A_1, A_2, ..., A_n $ son eventos disjuntos $A_i \cap A_j,$ si $ i \neq j $ entonces se tiene que: $p(A_i) = \sum_i^n p(\cup A_i) $
  
### Ejemplo 1
Defina el evento de tirar un dado de seis caras. El espacio de muestras en este caso viene dado por $\Omega=\left\{ 1,2,3,4,5,6\right\} $ con $\omega_{1}=1,\omega_{2}=1,\ldots$ etc. El espacio de eventos más simple es $\mathcal{F}=\left\{ \emptyset,\Omega\right\} $, para el cual se define  $p\left(\emptyset\right)=0$ y $p\left(\Omega\right)=1$. Otro espacio de eventos posible  $\mathcal{F}$ es el conjunto de todos los subconjuntos de $\Omega$. Para este último espacio de eventos, se puede asignar la probabilidad de cada conjunto $A_{i}$ en tal espacio de eventos $\mathcal{F}$ como $\frac{k}{n}$donde $k$ es la cantidad de elementos $\left|A_{i}\right|$ o cardinalidad y $n=\left|\Omega\right|=6$.  Por ejemplo $p\left(A_{1}=\left\{ 1,2,3,4\right\} \right)=\frac{4}{6}$

###Ejemplo 2
Imagine dos cajas, una roja y otra azul. En la caja roja existen 2 manzanas y 6 naranjas, mientras que en la azul existen 3 manzanas y una naranja, como se ilustra en la siguiente figura. Se definen entonces dos espacios de muestras para dos tipos de eventos distintos: $\Omega_{1}=\left\{ r,a\right\} $ el cual se refiere a la escogencia de la caja azul o roja y
$\Omega_{2}=\left\{ n,v\right\} $ el espacio que contiene los resultados experimentales de escoger una bola naranja o verde en cada una de las cajas. El espacio de eventos correspondiente a la escogencia de las cajas se define como $\mathcal{F}_{1}=\left\{ \emptyset,A_{1}=\left\{ r\right\} ,A_{2}=\left\{ a\right\} \right\} $, con probabilidades $p\left(\emptyset\right)=0$, $p\left(A_{1}\right)=0.4$ y $p\left(A_{2}\right)=0.6$. Observe que dado que
$A_{1}\cap A_{2}=\emptyset$, entonces $p\left(\cup A_{i}\right)=A_{1}+A_{2}=0.6+0.4=1$. Más adelante definiremos el espacio de eventos correspondiente a la escogencia de las pelotas, pues observe que ello depende de la caja escogida, asociado con una **probabilidad condicional**


![](https://drive.google.com/uc?export=view&id=1isFSFkup_XGfXd2cTUsFOwTr_09BbiDa)

### Propiedades de los eventos
* Si $A\subseteq B\Rightarrow p\left(A\right)\leq p\left(B\right)$
* Cota de la intersección $p\left(A\cap B\right)\leq\min\left(p\left(A\right)+p\left(B\right)\right)$
*Cota de la unión $p\left(A\cup B\right)\leq p(A)+p(B)$
*Complemento $p\left(\Omega-A\right)=p\left(\Omega\backslash A\right)=1-p(A)$


## Variables aleatorias
Considere el experimento de tirar una moneda 10 veces, con el objetivo de saber el número de veces que sale corona. En este caso el conjunto de muestras viene dado por $\Omega=\left\{ c,e\right\} $. En este caso, el espacio de muestras $\mathcal{F}$ está dado por todas las secuencias posibles de escudos o coronas que salen al tirar la moneda. Sin embargo, en la práctica, no es necesario saber la probabilidad de obtener una secuencia particular de escudos o coronas. En cambio es más útil expresar lo anterior en términos de una función real que denote por ejemplo la cantidad que aparece cara  después de 10 lanzamientos de la moneda. Tales funciones son conocidas como **variables aleatorias** .
Más formalmente, una variable aleatoria $X$ o $X\left(\omega\right)$ para un experimento $\omega$ es una función definida en un conjunto de muestras $\Omega$ $X:\Omega\rightarrow\mathbb{R}$, donde se usan letras minúsculas para los valores que la variable aleatoria puede tomar.

Una **variable aleatoria discreta** es aquella que solo puede tomar un número finito de valores. El ejemplo de las 10 tiradas de la moneda es un caso en el que se define una variable aleatoria discreta. Formalmente, la probabilidad de que una variable discreta tome un valor $k$ (en el caso de la moneda $c$ o $e$) viene dado por: $ p\left(X=k\right):=p\left(\omega:X\left(\omega\right)=k\right)$

Una variable aleatoria continua toma una infinita cantidad de número posible, por lo que usualmente se define la probabilidad de que la variable aleatoria tome un valor en el intervalo de $a\in\mathbb{R}$ a
$b\in\mathbb{R}$:$ p\left(a\leq X\leq b\right):=p\left(\left\{ \omega:a\leq X\left(\omega\right)\leq b\right\} \right).$
Un ejemplo de un fenómeno modelado con una variable aleatoria continua,
 es la probabilidad de que un sensor lumínico reciba una cantidad de lúmenes determinada en un rango $p\left(l_{1}\leq X\leq l_{2}\right)$.
 Una notación más resumida permite denotar $p(X)$ como el funcional de la probabilidad de densidad, y $p\left(X=x\right)=p(x)$ como la probabilidad de que se tome la muestra $x$.

 ### Ejemplo
 Siguiendo el ejemplo de las cajas de naranjas y manzanas ilustrado en la figura anterior, para los espacios $\Omega_{1}=\left\{ r,a\right\} $ y
$\Omega_{2}=\left\{ n,v\right\} $ se definen, respectivamente, las variables aleatorias $C$ y $B$. Así pues, se escriben las probabilidades como $p\left(C=r\right)=0.4$ y $p\left(C=a\right)=0.6$ para la variable aleatoria $C$.


## Probabilidad conjunta y condicional

Considere dos variables aleatorias $X$ e $Y$, y para cada una de ellas se definen sus codominios $\Omega_{X}=\left\{ x_{1},x_{2},\ldots x_{M}\right\} $ y $\Omega_{Y}=\left\{ y_{1},y_{2},\ldots y_{L}\right\} $. Se realizan un total de $N$ muestras de ambas variables aleatorias donde el número de experimentos en los que la variable aleatoria $X=x_{i}$ y la variable otra variable aleatoria es $Y=y_{j}$ está definido por $n_{i,j}$, de modo que: $N=\sum_{i}^{M}\sum_{j}^{L}n_{i,j}.$

Además, se define el número de experimentos en las que la variable aleatoria $X=x_{i}$ como $c_{i}=\sum_{j}^{L}n_{i,j},
$ y de manera similar, el número de experimentos en los que la variable aleatoria $Y=y_{j}$ como sigue:$r_{j}=\sum_{i}^{M}n_{i,j}.$

La figura ilustra el ejemplo en el que, para un ejemplo en el que $M=5$ y $L=3$.


![](https://drive.google.com/uc?export=view&id=1Rv4RtlSUxKQnxEG8CvVCVdoFRIrx7-2o)

### Probabilidad conjunta:
Desde un punto de vista probabilístico frecuentista en el que se aproxima
 una función de densidad de probabilidad, a medida que $N\rightarrow\infty$, se define la probabilidad conjunta como la probabilidad de que se tome la muestra $x_{i}$ y la muestra $y_{j}$, y está dada por la fracción de las muestras en la celda $i,j$ dividida por la cantidad total de muestras
$N$ y se denota como: $ p\left(Y=y_{j},X=x_{i}\right)=p\left(X=x_{i},Y=y_{j}\right)=\frac{n_{i,j}}{N} (1)$

### Regla de la suma:
La probabilidad de que $X=x_{i}$ sin importar el valor de $Y$ viene dado por: $p\left(X=x_{i}\right)=p\left(X=x_{i},Y=y_{1},\ldots,y_{L}\right)=\sum_{j=1}^{L}p\left(X=x_{i},Y=y_{j}\right)=\frac{c_{i}}{N}(2)$

similar con la probabilidad de que $Y=y_{j}$ sin considerar la variable aleatoria $X \left(Y=y_{j}\right)=\frac{r_{j}}{N}$.

### Probabilidad condicional:
La probabilidad condicional se define como la probabilidad de escoger la muestra $Y=y_{j}$ dado que anteriormente se escogió la muestra $X=x_{i}$ (en otras palabras, se escogió la columna $i$) se define como:
$p\left(Y=y_{j}|X=x_{i}\right)=\frac{n_{i,j}}{c_{i}}(3)$ observe que la normalización se hace respecto a la cantidad de veces que se tomó la muestra $X=x_{i}$ sin importar $Y$.

### Regla del producto de probabilidad:
Tomando las ecuaciones 1, 2 y 3 se puede reescribir: $p\left(X=x_{i},Y=y_{j}\right)=\frac{n_{i,j}}{N}=\frac{n_{i,j}}{c_{i}}\cdot\frac{c_{i}}{N}=p\left(Y=y_{j}|X=x_{i}\right)\cdot p\left(X=x_{i}\right)$

En resumen se tienen dos reglas fundamentales de la teoría de la probabilidad:
* **Regla de la suma**: $p\left(X\right)=\sum_{Y}p\left(X,Y\right)$.
* **Regla del producto**: $p\left(X,Y\right)=p\left(Y|X\right)\cdot p\left(X\right)$.
* Conmutatividad de la probabilidad conjunta: $p\left(X,Y\right)=p\left(Y,X\right)$
* Conjunción de la regla de la suma, conmutatividad y del producto o cálculo de la **probabilidad marginal**:
$p\left(X\right)=\sum_{Y}p\left(Y,X\right)\Rightarrow p\left(X\right)=\sum_{Y}p\left(X|Y\right)\cdot p\left(Y\right).$

## Teorema de Bayes

El teorema de Bayes es de vital importancia para muchos de los algoritmos y técnicas del aprendizaje automático. Para deducirlo, nos basamos en la regla del producto:

$p\left(Y|X\right)=\frac{p\left(X,Y\right)}{p\left(X\right)}$

$
\Rightarrow p\left(X,Y\right)=p\left(Y|X\right)p\left(X\right)
$

$
\Rightarrow p\left(X\right)=\frac{p\left(X,Y\right)}{p\left(Y|X\right)}$

y dada la conmutatividad de la probabilidad conjunta, además de la regla
 del producto:

$
p\left(Y|X\right)=\frac{p\left(X,Y\right)}{p\left(X\right)}=\frac{p\left(Y,X\right)}{p\left(X\right)}=\frac{p\left(X|Y\right)\cdot p\left(Y\right)}{p\left(X\right)}
$





$
\Rightarrow p\left(Y|X\right)=\frac{p\left(X|Y\right)\cdot p\left(Y\right)}{p\left(X\right)}
$

![](https://drive.google.com/uc?export=view&id=1NXuoni7v5q4hTuIl9aq39UVetEhFc31Z)

La figura muestra las funciones de densidad de probabilidad, graficadas en cada uno de los ejes, para el caso en el que $M=9$ y $L=2$.


* **Fórmula de Bayes**:

  $
p\left(H|D\right)=\frac{p\left(D|H\right)\cdot p\left(H\right)}{p\left(D\right)}
$

* **Probabilidad a priori o marginal**:

  Se refiere a la probabilidad $p\left(H=h\right)$ de que una hipótesis
  $H=h$ se de antes de observar uno o más datos $D=d$ al que puede estar condicionado, por lo que se ignora cualquier dato que lo pueda condicionar.

* **Probabilidad a posteriori:**

  Corresponde a la probabilidad condicional
  $p\left(H=h|D=d\right)$
  la cual describe la probabilidad de que la hipótesis
  $H=h$
  se de, dado el suceso anterior del evento o los datos
  $D=d$.
  
  ### Ejemplo
  
  Retomando el ejemplo de las cajas de frutas, ya se había fijado que:
  
  $p\left(C=r\right)=0.4$

  $p\left(C=a\right)=0.6$

  Para establecer las probabilidades condicionales, en este caso
  **no se usa un enfoque frecuentista** , puesto que no tenemos un historial de experimentos previos, en cambio se usa un **enfoque clásico o inferencial** en el que las probabilidades se calculan según características conocidas de antemano para el experimento (en este caso la cantidad de pelotas por caja).   Es por esto que ponemos entonces inferir que:

  $
  \begin{array}{c}
  p\left(B=v|C=r\right)=1/4\\
  p\left(B=n|C=r\right)=3/4\\
  p\left(B=v|C=a\right)=3/4\\
  p\left(B=n|C=a\right)=1/4
  \end{array}
  $

  Suponga ahora que se desea conocer la probabilidad de obtener una pelota
   verde  $p\left(B=v\right)$, sin importar la caja de la que viene, o la  **probabilidad a priori** de que $B=v$. Se le llama **probabilidad a priori, pues ningún evento ha sucedido** (escogencia de la caja o de la pelota). Para ello se usa la regla de la ecuación de la probabilidad marginal:
   $
  p\left(B=v\right)=\sum_{C}p\left(B=v|C\right)\cdot p\left(C\right)=p\left(B=v|C=r\right)p\left(C=r\right)+p\left(B=v|C=a\right)p\left(C=a\right)$

  $
  p\left(B=v\right)=\frac{1}{4}\times\frac{4}{10}+\frac{3}{4}\times\frac{6}{10}=\frac{11}{20}$

  Finalmente, se desea conocer la probabilidad de que la caja escogida sea roja, dado que se sacó una pelota naranja o la **probabilidad a posteriori** $p\left(C=r|B=n\right)$ (se le llama probabilidad a posteriori, pues se asocia con la probabilidad calculada **después de la experiencia** o evento de sacar una pelota naranja), con Bayes, ello viene dado por:

  $
  p\left(C=r|B=n\right)=\frac{p\left(B=n|C=r\right)p\left(C=r\right)}{p\left(B=n\right)}=\frac{3}{4}\times\frac{4}{10}\times\frac{20}{9}=\frac{2}{3},
  $



  y por el complemento podemos calcular $p\left(C=r|B=v\right)=1-2/3$ .
  
  ### Independencia de variables aleatorias:
  
Si dos variables aleatorias $X$ e $Y$son independientes, la probabilidad conjunta de que $X=x$ y $Y=y$ se puede expresar como:

>>$p\left(X,Y\right)=p\left(X\right)p\left(Y\right).$



Por la regla del producto que establece que
$p\left(X,Y\right)=p\left(Y|X\right)\cdot p\left(X\right)$, tenemos para las variables aleatorias $X$ e $Y$ independientes:

>> $
p\left(Y\right)=p\left(Y|X\right)
$

lo cual se puede leer como que la probabilidad de que $Y=y$ es la misma de que $Y=y$ suceda dado que anteriormente se dió $X=x$, es decir, es independiente. En el ejemplo de las cajas con pelotas, si ambas cajas tienen la misma cantidad de pelotas naranja y verdes, por ejemplo en ambas cajas la mitad de las pelotas son naranjas y la mitad son verdes, tendríamos que:

>>$
\begin{array}{c}
p\left(B=v|C=r\right)=0.5\\
p\left(B=n|C=r\right)=0.5\\
p\left(B=v|C=a\right)=0.5\\
p\left(B=n|C=a\right)=0.5
\end{array}
$

por lo que entonces por ejemplo, la probabilidad conjunta de que la caja sea roja y la pelota verde está dada por:

>>$
p\left(B=v,C=r\right)=p\left(B=v|C=r\right)\cdot p\left(C=r\right)=0.5\times0.4=0.2 (4)
$

Para calcular las probabilidades marginales $p\left(B=v\right)$ y  $p\left(B=n\right)$ se hace:

>>$
p\left(B=v\right)=p\left(B=v|C=r\right)p\left(C=r\right)+p\left(B=n|C=a\right)p\left(C=a\right)=0.5\times0.4+0.5\times0.6=0.5
$

y $p\left(B=n\right)=1-p\left(B=v\right)=0.5$. Es por ello que entonces, para verificar la independencia de la escogencia de la caja con el color de la pelota escogida se hace:

$
p\left(B=v\right)p\left(C=r\right)=0.5\times0.4=0.2=p\left(B=v,C=r\right)
$
(
con la última parte de la igualdad deducida en la ecuación (4)

In [1]:
# 1. Crear una función que genere muestras aleatorias dadas las dos probabilidades de manzana y naranja (i.e. como parametro)
# 2. Crear una función que genere múltiples cajas a partir de1 paso 1
# 3. Crear funciones para calcular la probabilidad marginal y la probabilidad a posteriori, de acuerdo a las cajas del paso 2



## Funciones de densidad de probabilidad y de distribución

Una función de densidad de probabilidad con variable continua $x$, $p_{X}\left(x\right)\equiv p\left(X=x\right)$ o más resumido como $p\left(x\right)$ se define de tal manera si para un intervalo muy pequeño $\delta x\rightarrow0$, la probabilidad de que la variable aleatoria $x$ esté en un intervalo $\left(x,x+\delta x\right)$ es también infinitamente pequeña: $p\left(x\right)\delta x\rightarrow0$. Toda función de densidad de probabilidad debe cumplir las siguientes condiciones básicas:

>>$0\leq p\left(x\right)\leq1$

>>$\int_{-\infty}^{\infty}p\left(x\right)\textrm{d}x=1.$

La siguiente figura muestra algunas funciones de densidad conocidas.

![](https://drive.google.com/uc?export=view&id=1AQH2wfCwXlxiR0zLthYcLcou0ioZQ-Ko)

###Función de distribución

La probabilidad de que $x$ se encuentre en el intervalo $\left(-\infty,z\right)$ está dada por la función de distribución acumulativa, o función de distribución $P(z)$ definida como:

>>$P_{X}\left(z\right)=P\left(z\right)=\int_{-\infty}^{z}p\left(x\right)\textrm{d}x$



lo que implica que

>>$P'\left(x\right)=p\left(x\right),$



 como se muestra en la siguiente figura.

Si la función de densidad $p\left(x\right)$ se define como discreta también referida como función de , de manera similar se tienen las siguientes propiedades:

>>$0\leq p\left[x\right]\leq1$

>>$\sum_{x=0}^{\infty}p\left[x\right]=1.$

>>$P\left[z\right]=\sum_{x=0}^{z}p\left[x\right]$

Las siguientes son propiedades de la función de distribución
$P\left(z\right)$:

* $0\leq P\left(z\right)\leq1$
* $\underset{z\rightarrow\infty}{\lim}P\left(z\right)=1$
* $\underset{z\rightarrow-\infty}{\lim}P\left(z\right)=0$


![](https://drive.google.com/uc?export=view&id=1NUCpcJL1ZhDwTM0N5CLSAE5wUWJJT4MC)


La función de densidad de probabilidad con múltiples variables $x_{1},\ldots x_{D}$ se denota de forma compacta con el vector
$\vec{x}=\begin{bmatrix}x_{1}\\
\vdots\\
x_{D}
\end{bmatrix}=\left(x_{1},\ldots x_{D}\right)$
 como la función de densidad de probabilidad conjunta $p\left(\vec{x}\right)=p\left(x_{1},\ldots x_{D}\right)$, por lo que la probablidad de que $\vec{x}$ se encuentre en un volumen infinitesimal $\delta\vec{x}$ está dado por $p\left(\vec{x}\right)\delta\vec{x}$ y cumple también las dos propiedades básicas:

>>$p\left(\vec{x}\right)\geq0$

>>$\int_{-\infty}^{\infty}p\left(\vec{x}\right)\textrm{d}\vec{x}=1.$

### El teorema de Bayes para funciones de densidad

Las propiedades de suma, del producto y el teorema de Bayes, aplican también a funciones de densidad de probabilidad, por lo que con $x,y\in\mathbb{R}$ se tiene que la probabilidad marginal, conjunta y condicional, respectivamente, están dadas por:

>>$
p\left(x\right)=\int p\left(x,y\right)\textrm{d}y
$

>>$
p\left(x,y\right)=p\left(y|x\right)\,p\left(x\right)
$

>>$
p\left(x|y\right)=\frac{p\left(y|x\right)\,p\left(x\right)}{p\left(y\right)}
$



### Esperanza, varianza y covarianza de una función de densidad de probabilidad

El cálculo de momentos estadísticos es una operación muy utilizada en el reconocimiento de patrones, pues permite reducir la dimensionalidad de datos, recabando características importantes como el valor esperado o la varianza.

Se define entonces la **esperanza o el valor esperado** de una variable aleatoria $X$ como la sumatoria pesada por la probabilidad de cada valor $x$ que puede tomar tal variable aleatoria (a la izquierda en el caso de ser
 una variable aleatoria continua, a la derecha discreta):

>>$
\mu_{X}=\mathbb{E}\left[X\right]=\int x\,p\left(x\right)\textrm{d}x\qquad\mu_{X}=\mathbb{E}\left[X\right]=\sum_{x}x\,p\left[x\right]
$

En el caso de una función discreta $h\left[u\right]$ la cual acumula el valor $x$ generado registrado para el experimento $u$ para un total de
$N$ experimentos, generados a partir de la variable aleatoria $X$, la esperanza está dada por:

>>$
\mathbb{E}\left[X\right]\cong\frac{1}{N}\sum_{u=1}^{N}h\left[u\right].(5)
$

Desde un punto de vista frecuentista, la aproximación de $\mathbb{E}\left[X\right]$ mejora, a medida que $N\rightarrow\infty$.

Las siguientes son propiedades de la esperanza:

* Si $a$ es un escalar, tal que $a\in\mathbb{R}$, se tiene que:
$\mathbb{E}\left[a\right]=a$
* Homogeneidad:
$\mathbb{E}\left[a\,X\right]=a\,\mathbb{E}\left[X\right].$
*Superposición:
$\mathbb{E}\left[g\left(X\right)+f\left(X\right)\right]=\mathbb{E}\left[g\left(X\right)\right]+\mathbb{E}\left[f\left(X\right)\right].$