# 1. Probabilidad Discreta

## 1.1 Introducción a la probabilidad discreta

### Probabilidad discreta

Notación:

Usamos $P(A)$ para denotar la probabilidad de que suceda evento 𝐴. Usamos el término general evento para referirnos a cosas que pueden suceder cuando algo ocurre por casualidad.

Supongamos que tenemos una bolsa con canicas, en este caso 2 rojas y 3 azules:

La probabilidad de elegir una canica de algún color se define como

$$
P(\text{Canica}_{Color}) = \frac{\text{Cantidad de canicas}_{color}}{\text{Total de canicas}}
$$

### Monte Carlo Simulations

Las computadoras ofrecen una forma de realizar el experimento aleatorio sencillo descrito anteriormente: elegir una canica al azar de una urna que contiene tres canicas azules y dos rojas. Los generadores de números aleatorios nos permiten imitar el proceso de escoger al azar.

Para ello utilizamos la funcion sample en R

In [3]:
# comenzamos creando la bolsa de canicas
canicas <- rep(c("roja", "azul"), times = c(2, 3))

# Observamos el contenido de la bolsa
canicas

# utilizamos la función sample para escoger una al azar
sample(canicas, 1)

Esta línea de código produce un resultado aleatorio. Queremos repetir este experimento un número infinito de veces, pero es imposible repetirlo para siempre. Sin embargo, podemos repetir el experimento un número suficientemente grande de veces para que los resultados sean prácticamente equivalentes a repetirlo para siempre. Este es un ejemplo de una simulación Monte Carlo.

Para realizar nuestra primera simulación Monte Carlo, utilizamos la función replicate, que nos permite repetir la misma tarea varias veces. Aquí, repetimos el evento aleatorio $𝐵 = 10000$ veces:

In [6]:
b <- 10000
eventos <- replicate(b, sample(canicas, 1))

#usaremos table para ver la distribución
tab <- table(eventos)

# Mostramos las proporciones
prop.table(tab)

eventos
  azul   roja 
0.5979 0.4021 

Los números anteriores son probabilidades estimadas proveídas por una simulación Monte Carlo. La teoría estadística, que no discutimos aquí, nos dice que en lo que 𝐵 se hace más grande, las estimaciones se acercan a $3/5 = 0.6$ y $2/5 = 0.4$.

La función sample tiene un argumento que nos permite elegir más de un elemento de la urna. Sin embargo, por defecto, esta selección ocurre sin reemplazo; es decir, después de seleccionar una canica, no se vuelve a colocar en la urna.

Sin embargo, la función sample se puede usar directamente, sin el uso de replicate, para repetir el mismo experimento de elegir 1 de las 5 canicas, continuamente, en las mismas condiciones. Para hacer esto, muestreamos con reemplazo; es decir, se devuelve la canica a la urna después de seleccionarla. Podemos decirle a sample que haga esto cambiando el argumento replace, que por defecto es `FALSE`, a `replace = TRUE`:

In [8]:
#utilizando replace
events <- sample(canicas, b, replace = TRUE)
prop.table(table(events))

events
  azul   roja 
0.6123 0.3877 

****Setting the Random Seed:****

```r
set.seed(1986)
```

Al trabajar con números aleatorios los resultados pueden variar. Sin embargo, si queremos asegurarnos de que los resultados sean los mismos cada vez que se ejecuten podemos fijar la semilla (seed en inglés) de generación de números aleatorios de R en un número específico. Arriba la fijamos en 1986. Queremos evitar usar la misma semilla cada vez. Una forma popular de escoger la semilla es restando el mes y el día del año. Por ejemplo, para el 20 de diciembre de 2018 fijamos la semilla en $1986: 2018 − 12 − 20 = 1986.$

### Probability Distributions

Si conocemos la frecuencia relativa de las diferentes categorias, podemos definir una distribucion para resultados categoricos, asignando una probabilidad a cada categoria 

Si estamos llamando al azar a votantes probables de una población que es 44% demócratas, 44% republicanos, 10% indecisos y 2% del partido verde, estas proporciones definen la probabilidad para cada grupo. La distribución de probabilidad es:

| P(elegir un republicano) | 0.44 |
| --- | --- |
| P(elegir un demócrata) | 0.44 |
| P(elegir un indeciso) | 0.10 |
| P(elegir un verde) | 0.02 |

### Independence

Decimos que dos eventos son independientes si el resultado de uno no afecta al otro. El ejemplo clásico es el lanzamiento de monedas. Cada vez que lanzamos una moneda, la probabilidad de ver cara es 1/2, independientemente de los resultados de lanzamientos anteriores. Lo mismo es cierto cuando recogemos canicas de una urna con reemplazo. En el ejemplo anterior, la probabilidad de rojo es 0.40 independientemente de las selecciones anteriores.

#### Probabilidades condicionales:

Cuando los eventos no son independientes, las probabilidades condicionales son útiles. Ya vimos un ejemplo de una probabilidad condicional: calculamos la probabilidad de que una segunda carta repartida sea K dado que la primera fue K. En la probabilidad, usamos la
siguiente notación:

$$
P(\text{Segunda carta sea Rey}|\text{Primer carta es Rey}) = \frac{3}{51} 
$$

Utilizamos | como abreviatura de “dado que”

Cuando dos eventos A y B son independientes tendremos:

$$
P(A|B) = P(A)
$$

Esta es la forma matemática de decir: el hecho de que 𝐵 sucedió no afecta la probabilidad de que 𝐴 suceda. De hecho, esto puede considerarse la definición matemática de independencia

#### Regla de multiplicación:

Si queremos saber la probabilidad de que ocurran dos eventos, digamos 𝐴 y 𝐵, podemos usar la regla de la multiplicación:

$$
P(A \: y \: B) = P(A)P(A|B)
$$

Podemos por inducción incluir mas eventos

$$
P(A \: y \: B \: y \: C) = P(A)P(A|B)P(C|A\:y\:B)
$$

Cuando tenemos eventos independientes, la regla de la multiplicación se hace más sencilla:

$$
P(A \: y \: B \: y \: C) = P(A)P(B)P(C)
$$

Debemos tener mucho cuidado antes de usar esto ya que suponer independencia cuando realmente no existe puede resultar en cálculos de probabilidad muy diferentes e incorrectos.

## 1.2. Combinations and Permutations