# Dia 3 - Variables aleatorias


## Biol. Luis Eloy Homobono Fuentes
[luis.homobono@ciencias.unam.mx](mailto:luis.homobono@ciencias.unam.mx),
[Facebook](https://www.facebook.com/Luis.Eloy.Hom),
[Twitter](https://twitter.com/evo_eloy),
[GitHub](https://github.com/Luis-Prot)

La muestra, habitualmente, consiste de una serie de variables (numéricas o no), que llamábamos variables estadísticas. 

Esta variable es el valor de una característica concreta (estatura, peso, color, etc) en cada uno de los individuos de la muestra.

Centrémonos ahora en variables numéricas. Si en vez de referirnos a los valores de la variable en una muestra concreta (que es una parte de una población) nos referimos a los valores de la variable en toda la población, tendremos una variable aleatoria.

Para poder extrapolar los resultados de la muestra a la población necesitaremos extender los conceptos vistos de una variable estadística a la población general.

La variable en la población general se llama **variable aleatoria**.

<img src="IMG/variable-aleatoria-estadistica.png" width="600" style="margin-left: auto; margin-right: auto;">

El nombre de **variable aleatoria** hace referencia a que los valores de esta variable dependen del azar, mediante alguna ley concreta. 

> Cuando lanzamos una moneda, por ejemplo, cien veces, y anotamos 1 si sale cara y 0 si sale cruz, tenemos una variable estadística que toma los valores 0 y 1, con frecuencias de aparición de, por ejemplo, 56 y 44, respectivamente. Cuando consideramos el proceso general de lanzar una moneda, tenemos una variable aleatoria que toma los valores 0 y 1 con probabilidad 0.5, respectivamente. 

Al igual que sucede con las variables estadísticas, las variables aleatorias pueden ser **discretas** o **continuas**.

Cuando una **variable aleatoria** toma diversos valores, la probabilidad asociada a cada uno de tales valores puede ser organizada como una **distribucion de probabilidad**.


# Variables aleatorias discretas

Una variable aleatoria discreta X está definida por los valores que toma y sus probabilidades, las cuales deberán sumar 1.

| $X$ | $P(X=x_{i})$ |
|:-----: |  :-----: |
|$x_{1}$ | $p_{1}$ |
|$x_{2}$ | $p_{2}$ |
|$\vdots$ |   $\vdots$ |
|$x_{n}$ | $p_{n}$ |

Entonces $p_1 + ... + p_n = 1$. Esta tabla se conoce como ley de probabilidad, distribución de probabilidad, función de probabilidad.

# Variable aleatoria de Bernoulli

| $X$ | $P(X=x_{i})$ |
|:-----: |  :-----: |
|$0$ | $1 - p$ |
|$1$ | $p$ |

## Uniformidad discreta

| $X$ | $P(X=x_{i})$ |
|:-----: |  :-----: |
|$1$ | $1/N$ |
|$2$ | $1/N$ |
|$\vdots$ |   $\vdots$ |
|$N$ | $1/N$ |

"Lanzar una moneda, probabilidad de conseguir que salga cruz".

$P(X=1) = 1/2$

$P(X=0) = 1/2$

Por lo tanto al probabilidad de exito (p) es 1/2 

Mientras que la probabilidad de fracaso (1) es q=1-p igual a 1/2

X ~ Be(0,0.5)

# Uso en R

```
dbinom(x, prob, log = FALSE)
pbinom(q, prob, lower.tail = TRUE, log.p = FALSE)
qbinom(p, prob, lower.tail = TRUE, log.p = FALSE)
rbinom(n, prob)
```

- **x,q** Vector de cuantiles
- **p** Vector of probabilidades.
- **n** Numero de observaciones 
- **prob** Probabilidad de éxito 
- **log, log.p** Usar logaritmos
- **lower.tail** Calor lógico; si es VERDAD la probabilidad es P[X<=x] si es FALSO P[X>=x]

```
dbinom(1,size=1, prob=.5)
```

In [None]:
# Tiro de un dado 
x<-c(1,2,3,4,5,6)
prob<-c(2/12,2/12,2/12,2/12,2/12,2/12)
prob<-c(1/12,2/12,3/12,3/12,2/12,1/12)
# Graficos
plot(x,prob,type="h")
barplot(prob)

# Variables aleatorias continuas

Una variable aleatoria continua es aquella que puede tomar cualquier valor (al menos teóricamente) entre 2 fijados.

> “Tiempo observado al recorrer una cierta distancia”, “estatura”, “peso”, “nivel de colesterol en sangre”…

Existen limitantes:
- La variable no puede tomar infinitos valores. 
> A la hora de medir el peso o la estatura, por ejemplo, se trabaja con un número preciso de decimales (que puede ser grande pero nunca será infinito). 

Este proceso se conoce como **discretización**.

# Función de densidad

Igual que una variable aleatoria discreta viene caracterizada por su función de probabilidad, las variables aleatorias continuas vienen caracterizadas por una función llamada **función de densidad**, que es una generalización de la función de probabilidad.

Matematícamente, $f$ es una función de densidad si verifica dos propiedades:
- $f(x)$  es mayor o igual que cero en cualquier punto x (el dibujo de la función debe estar por encima del eje horizontal).
- $\int_{-\infty }^{\infty} f(x)dx =1$ (el área bajo la curva y el eje horizontal vale uno).

<img src="IMG/densidad.png" width="400" style="margin-left: auto; margin-right: auto;">

# Función de Densidad

El concepto de función de densidad procede de considerar que tenemos una población con todos sus (infinitos) datos o posibles valores y dibujamos el histograma, polígono de frecuencias o estimación de la densidad.

> Supongamos que nos ponemos en medio de la calle y a cada hombre mayor de 18 años le preguntamos su estatura. Hacemos esto hasta tener una muestra de 15 datos y, a continuación, clasificamos los datos en intervalos, construimos el histograma y el polígono de frecuencias.

La función de densidad corresponde, desde un punto de vista teórico, al polígono de frecuencias cuando tenemos todos los datos de la población (en teoría, infinitos).



En una variable aleatoria continua, las propiedades de la misma vendrán descritas por la función de densidad, indiquemos que las probabilidades se calcularán como una integral definida: 

$P(a < X > b)= \int_{a}^{b} f(x)dx$

Es decir, la probabilidad de que la variable aleatoria $X$ tome valores entre dos números $a$ y $b$ corresponde al área bajo la curva $f$, el eje $X$ y los puntos $a$ y $b$.

<img src="IMG/int_density.svg" width="400" style="margin-left: auto; margin-right: auto;">

# Esperanza Matemática de una variable aleatoria

Es la generalización de la **media aritmética**. También se llama _valor medio_, _valor esperado_ o _esperanza matemática_, y se representa por la letra griega $\mu$.

Si **X** es una **variable aleatoria discreta** (representada, de manera general, por una tabla de valores $x_{i}$ y probabilidades $p_{i}=P(X=x_{i})$:

- $\mu =E ( X ) = \sum _{i=1}^{k}x_{i}\cdot p_{i}$ es decir, sería la esperanza de una variable cuyos valores aparecen todos con la misma probabilidad.

Si **X** es una **variable aleatoria continua**, la variable valorestoma infinitos valores. El equivalente continuo de la suma es la integral. La fórmula matemática incluye en este caso a la función de densidad:

- $\overline{x}= \sum _{i=1}^{n}x_{i}\cdot f_{i}$

- $\mu =E ( X) = \int _{- \infty}^{ \infty} x\cdot f(x)dx$

# Varianza de una variable aleatoria

Igual que en el caso de variables estadísticas, mide la dispersión de la variable, y se calcula como la media de las desviaciones (elevadas al cuadrado) de los valores a su media:

Si $X$ es una variable discreta, la forma de hacer los cálculos será:

- $\sigma^{2}= \sum _{i=1}^{k} ( x_{i}- \mu ^{2})p_{i}$

Si $X$ es una variable continua:

- $\sigma^{2} = \int_{- \infty}^{ \infty} ( x - \mu  ) ^{2} f(x ) dx$

Consideremos la variable aleatoria que nos da el número que puede salir en una ruleta: 

<img src="IMG/ruleta-francesa.png" width="400" style="margin-left: auto; margin-right: auto;">


¿Cuál es la media?

In [None]:
# 1. Cualquier casilla es 1/37

# 2. Suma de los primeros 36 numeros 
ruleta <- 0
for(i in seq(36)){
    ruleta = ruleta + i;
}

a <- c(1,2,3,4,5)
for(i in a){
    print(a[i]);
}

# Simulación de Datos

Por medio de una simulación, podemos comprobar qué sucede si jugamos en la ruleta y anotamos los números durante un gran número de jugadas

R utiliza la función `runif()`, para darnos una distribución uniforme, toma de parametros un muestreo, un valor minimo y uno maximo.

Para hacer una prueba de algún numero que deseemos apostar utilizamos la función `ifelse()`, que toma como valor una condición de probaremos, la probabilidad en contra y el valor asignado a la probabilidad en contra.

In [None]:
# 1000 veces
x=runif(1000,0,36)
x=round(x)
premio <- ifelse(x==12,35,-1)
mean(x)

# 10000 veces
x=runif(10000,0,36)
x=round(x)
premio <- ifelse(x==12,35,-1)
mean(x)

Simula los siguientes valores y describe que pasa con las frecuencias observadas para $n = 1,100,1000$.

| $X$ | $P(X=x_{i})$ |
|:-----:|:-----:|
|$0$ | $0.20$ |
|$1$ | $0.11$ |
|$2$ | $0.13$ |
|$3$ | $0.24$ |
|$4$ | $0.27$ |
|$5$ | $0.02$ |
|$6$ | $0.01$ |
|$7$ | $0.01$ |
|$8$ | $0.00$ |
|$9$ | $0.01$ |

In [None]:
x = 0:9
probabilidades = c(0.20,0.11,0.13,0.24,0.27,0.02,0.01,0.01,0,0.01)
sample(x,size=1,replace=TRUE,prob=probabilidades)

n = 100
(y = sample(x,size=n,replace=TRUE,prob=probabilidades))
prop.table(table(y))


y = sample(x,size=1000,replace=TRUE,prob=probabilidades)
prop.table(table(y))

# Ejercicio

## Con el juego de moneda

1. Construye un una variable X que va desde 10 al valor tope (número que elijamos). Para cada valor de X tiramos una moneda y contamos el número de caras y de cruces y los vamos anotando. Es decir, si X=12 lanzamos la moneda 12 veces. Si X=23 lanzamos la moneda 23 veces, y así sucesivamente.

2. Una vez realizados los lanzamientos, en la tabla de resultados guardamos los resultados obtenidos: número de lanzamientos de la moneda, número de caras, número de cruces, diferencia entre número de caras y número de cruces y proporción entra ambos números.

3. Empezamos lanzando la moneda 10 veces porque así nos “aseguramos” de que el número de cruces no sea cero (evidentemente puede ocurrir, pero sería raro), y así la proporción no nos dé infinito al dividir por cero.

**NOTA:** Utiliza un ciclo `for(variable in iterador){operacion;}`

In [None]:
# 1 
tope=1000
X<-seq(from=10,  to=tope, by=1 ) # Vector con lanzamientos
N=length(X)
n_caras<-c(0)
n_cruces<-c(0)

A<-c(0)

for (i in 1:N){
    A=runif(X[i])
    a=length(A[A<0.5])
    n_caras[i]<- a
    n_cruces[i]<- X[i]-a
}


dif<-n_caras-n_cruces
prop<-n_caras/n_cruces
resultados<-data.frame(lanzamientos=X, caras=n_caras, cruces=n_cruces, diferencia=dif, proporcion=prop)


## Entre mayor numero de tiros tengamos mayor sera la diferencia entre caras y cruces
plot(X, abs(dif), 
     col="red",
     type="l",
     #ylim=c(0.7,1.4),
     xlab="lanzamientos",
     ylab="diferencia entre caras y cruces")


plot(X, prop, 
     col="blue",
     type="l",
     ylim=c(0.1,3),
     xlab="lanzamientos",
     ylab="proporcion caras/cruces")

# Mediana y Cuantiles (o percentiles)

La definición y significado de estos conceptos son el mismo que el que se usó en el tema de variables estadísticas.

Así, por ejemplo, la mediana es el valor que deja a un lado y a otro el $50%$ de los valores, o de la frecuencia (en este caso de la probabilidad): $P(X<Me)=0.5$

Dado un valor $0<p<1$, el cuantil o percentíl $p$ es el valor $x_{p}$ que deja a su izquierda una probabilidad $p$. $P(X<x_{p})=p$

<img src="IMG/quantilp.png" width="400" style="margin-left: auto; margin-right: auto;">

# Variables discretas notables

# La variable de Bernoulli

Supongamos un experimento aleatorio con sólo dos posibles resultados: un suceso $A$ que llamaremos éxito y un suceso $\overline{A}$ que llamaremos fracaso. Supondremos que las probabilidades de ocurrencia son $p=P(A)$ y $q=1−p=P(\overline{A})$.

A la variable aleatoria que toma los valores 1 (si ocurre el suceso éxito) y 0 (si ocurre el suceso fracaso) se le llama variable aleatoria de Bernoulli de parámetro p.

Se escribe $X\in Bernoulli(p)$.

> Lanzar una moneda y anotar 1 si sale cara y 0 si sale cruz.

> Observar un paciente para ver si tiene una enfermedad concreta cuya probabilidad es $p$.

# Variable Binomial

Supongamos que se realizan $n$ experimentos de Bernouilli de manera sucesiva, siendo cada experimento o prueba independiente del anterior.

La Variable $X=$ número de veces que ocurre el suceso $A$ en las $n$ pruebas o número de éxitos en las $n$ pruebas, recibe el nombre de **variable binomial** de parámetros $n$ y $p$ 

$p=P(A)=p(éxito)$ 

$X\in B(n,p)$

La variable $X$ puede tomar los valores $0,1,2,...n$, siendo la probabilidad con que los toma: 

$P(X=k)=\binom{n}{k}p^{k}q^{n-k}$, donde; $\binom{n}{k}=\frac{n!}{k!(n-k)!}$


# Función de probabilidad

Supongamos que queremos calcular la probabilidad de obtener $23$ éxitos cuando realizamos 30 pruebas donde la probabilidad de éxito es $0.6$, es decir, pretendemos calcular para $X ∼ Bi ( 30, 0,6 )$ la función de probabilidad en $x = 23$ dada por:

$P(X=x)=\binom{30}{23}0.6^{30}(1-0.6)^{30-23}$

La función `dbinom()` nos permite calcular la **función de probabilidad** de una variable binomial. 
```r
dbinom(23,size=30,prob=.6)
```
La función `pbinom()` nos permite calcular la **función de distribución** de una variable binomial. 

In [None]:
dbinom(23,size=30,prob=.6)

# Podemos conocer las probabilidades de cada uno de los posibles
# resultados, es decir, la función de probabilidad P ( X = x ) , con
dbinom(0:30,size=30,prob=.6)

# También podemos obtener la función de la distribución 
# binomial en cualquier punto, es decir, la probabilidad P ( X ≤ 12 ) es
pbinom(12,size=30,prob=.6)

# Simulación de datos

La función `rnorm()` nos permite simular datos de una función de distribución

> Por ejemplo, ¿qué probabilidad tenemos de obtener 70 caras si lanzamos 123 veces una moneda.

```
dbinom(70,size=123,prob=0.5)
```

**Simula los datos utilizando `rnorm()`:** 
- Supongamos que queremos lanzar una moneda 30 veces con R
- Obten el numero de exitos y no el orden en que se producen.
- Supongamos que queremos simular 40 veces el experimento consistente en lanzar 30 veces una moneda y contamos en cada caso el número de unos.
- Repite el procedimiento anterior pero con una moneda cargada con 0.6

In [None]:
dbinom(70,size=123,prob=0.5)

rbinom(30,size=1,prob=.5)

rbinom(1,size=30,prob=.5)

rbinom(40,size=30,prob=.5)

rbinom(40,size=30,prob=.6)

# Distribución Normal Gaussiana

Una variable aleatoria $X$ se dice que sigue una distribución normal con media $μ$ y varianza $σ^2$ y se denota con $X ∼ N(μ,σ^2)$ si su función de densidad viene dada por:

$f(x)=\dfrac{1}{\sigma \sqrt{2\pi }}e^{-\dfrac{(x-\mu )^2}{2\sigma ^{2}}}$

De otro modo, si tomamos dos valores arbitrarios a y b con a ≤ b entonces

# Estandarización o tipificación. 

Si tenemos una variable aleatoria con distribución normal con media $μ$ y varianza $σ^2$ entonces la variable aleatoria $Z = \frac{σ}{X − μ}$ sigue una distribución normal con media $0$ y con varianza $1$, esto es:

$Z = \frac{σ}{X − μ} \sim N(0,1)$

Esta transformación recibe el nombre de tipificación o estandarización de la variable aleatoria X.

# Ejemplo

Suponemos que una cierta cantidad sigue una distribución normal con unos parámetros dados. 

Nos planteamos cómo calcular la probabilidad de que la variable esté en un cierto intervalo.

> Por ejemplo, sabemos que el valor aleatorio que observamos sigue una distribución normal con media 56 y desviación típica. ¿Qué probabilidad tenemos de que la variable aleatoria tome un valor entre 60 y 63? 

Nos planteamos el valor de la siguiente probabilidad: $P(60≤X≤63)$. 

Para calcular este área se aplicaban las siguientes igualdades donde $Z = \frac{( X − 56 )}{3}$

$Z = \frac{( 60 − 56 )}{3} ≤ \frac{( x − 56 )}{3} ≤ \frac{( 53 − 56 )}{3} = P(\frac{( 60 − 56 )}{3})- P(\frac{( 63 − 56 )}{3})$

# Normal Estandar Z

Una variable aleatoria Z se dice que tiene una distribución normal estándar cuando su media es cero y su varianza es uno: $Z ∼ N ( 0, 1 )$. Su función de densidad es:

$f(x)=\dfrac{1}{\sqrt{2\pi }}e^{-\dfrac{1x^2}{2}}$


In [None]:
dnorm(14,mean= 16, sd= 2)

x0 = seq(10,22,1)
dnorm(x0,mean= 16, sd= 2)

# Simulación de Datos

> Supondremos que es una población normal con media $μ = 160$ y una desviación estándar de $10.23$. Podría corresponder con la altura de los individuos. Suponemos que hay $N = 237456$ personas en la población en estudio. Como no vamos a medir a tantas personas ahorramos tiempo generando aleatoriamente estos valores.

Es una población de $2,37456×10^5$ individuos. 

Por $X$ estamos denotando toda la población. Es decir, suponemos (de un modo irreal) que tenemos a toda la población. 

Podemos ver los $10$ primeros elementos de la población con:

**Calcula la media, toma una muestra de 100 individuos, aproxima la media de tu muestra con la población tomando 100 muestras de 10 individuos y 100 muestras de 100.**

In [None]:
N = 237456
X = rnorm(N,mean=160,sd=10.23)

hist(X)
plot(density(X))

# Parametros de la población
mu=mean(X)
n = 100
x = sample(X,n)

# Estadistico muestal
mean(x)

muestras_10 <-c()
for( i in 1:n ){
    muestras_10[i] <- mean(sample(X,10,replace = T))
}

muestras_100 <-c()
for( i in 1:n ){
    muestras_100[i] <- mean(sample(X,100,replace = T))
}

plot(muestras, ylim=c(100,200))

# Distribuciones de Probabilidad


| Función       | Distribución      |   Tipo    |       media   |                   varianza                |
|:-------------:|:-----------------:|:---------:|:-------------:|:-----------------------------------------:|
| binom          | Binomial          | Discreta  |    µ = np     |              σ<sup>2</sup>=npq            |
| geom          | geometrica        | Discreta  |    µ =1/p     |   σ<sup>2</sup>=(1-p)/p<sup>2</sup>       |
| hyper         | hipergeométrica   | Discreta  |    µ = nk/N   |  σ<sup>2</sup>=(N-n)/(n-1) n k/N(1 - k/N) |
| nbinom        | binomial negativa | Discreta  |    µ = [(r-1)(1-p)/p] si r>1, 0 si r<=1  | σ<sup>2</sup>= k(1-p)/9<sup>2</sup>|
| pois          | Poisson           | Discreta  |    µ =  λ     |  σ<sup>2</sup> = λ   |
| beta          | beta              | Continua  |    µ = α/(α + β) | σ<sup>2</sup>=αβ/(α + β)<sup>2</sup> /(α + β + 1)  |





| Función       | Distribución      |   Tipo    |       media   |                   varianza                |
|:-------------:|:-----------------:|:---------:|:-------------:|:-----------------------------------------:|
| cauchy        | Cauchy–Lorentz    | Continua  |    µ = x<sub>0</sub>| Not Defined                         |
| exp           | exponencial       | Continua  |    µ = 1/λ    |  σ<sup>2</sup>= 1/λ<sup>2</sup>           |
| chisq         | chi-cuadrado      | Continua  |    µ = k      | σ<sup>2</sup>=2k                          |
| fisher        | F                 | Continua  |    µ =  d<sub>2</sub>/(d<sub>2</sub> - 2)    |  σ<sup>2</sup>= |
| gamma         | gamma             | Continua  |    µ =p/a     | σ<sup>2</sup> =p/a<sup>2</sup>            |
| logis         | logística         | Continua  |    µ = µ      | σ<sup>2</sup> = π<sup>2</sup>*s^2 /3      |
| norm          | normal            | Continua  |    µ = µ      |  σ<sup>2</sup> = σ<sup>2</sup>            |
| t             | t-Student         | Continua  |    µ = 0      | σ<sup>2</sup> = v/(v-2)                   |
| unif          | uniforme          | Continua  |  µ = (a+b)/2  |  σ<sup>2</sup>=(b-a)<sup>2</sup>/12       |


# Funciones en R

A cada nombre de función dado por R se le agrega un prefijo `d` para obtener la función de densidad, `p` para la función de distribución acumulada, `q` para la función cuantil o percentil y `r` para generar variables pseudo-aleatorias (random). La sintaxis es la siguiente:
```
dxxx(x, ...)
pxxx(q, ...)
qxxx(p, ...)
rxxx(n, ...)
```
Donde `xxx` indica el nombre de cualquiera de las distribuciones, `x` y `q` son vectores que toman valores en el soporte de la distribución, `p` es un vector de probabilidades y `n` es un valor entero.

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; Biol. Luis Eloy Homobono Fuentes. 2019.</p>