# **I. Variables aleatorias**

In [2]:
import numpy as np
import matplotlib.pyplot as plt
from collections import Counter
import scipy.stats as stats
import seaborn as sns
import pandas as np

np.random.seed(10)
sns.set_style("whitegrid")

## Teoría

Una variable aleatoria es una función cuyo dominio es un espacio muestral y cuyo rango es un conjunto de los números reales. Sea $x$ un valor que se quiere del espacio muestral. Después $x$ tomará los valores del rango y se hará una función de probabilidad.

**Variable aleatoria discreta**: El rango es numerable. Cumple 3 axiomas:

1) Sea $f(x_i)$ la probabilidad de cada valor de $x$. Esta probabilidad siempre es mayor igual a 0.

$$ P(x = x_i)=f(x_i) \geq 0$$     $$\forall x \in R_x$$

$R_x$ es el rango de la variable aleatoria X

2) La probabilidad de cada valor de la variable aleatoria $x$ es mayor igual a 0 y menor igual a 1.

$$ 0 \leq f(x_i)  \leq 1 $$   

3) Todas las probabilidades de cada valor de la variable aleatoria $x$ suman uno.

$$ \sum f(x_i) = 1 $$ 

**Variable aleatoria discreta**: El rango está entre un intervalo o es infinito. Es decir, se debe pensar no en la ocurrencia de valores, sino en la ocurrencia de intervalos de valores. Para ello se necesita una función de $f(x)$ que distribuya probabilidades sobre los intervalos contenido en $R_x$.

Sea $x$ una v.a continua, una función de densidad de $x$ denotada $f_x(x)$, tal que para todo intervalo $ ]a,b]$ $\subseteq R_x $ que $x$ pueda tomar, la función de probabilidad de ocurrencia de ese intervalo es:

$$ P(a < x \leq b) = \int_a^b f_x(x) dx $$ Es decir,  el área debajo de $f_x(x)$ entre a y b 

Se cumplen las siguientes propiedades:

1) La probabilidad de que ocurra un intervalo de valores de x es mayor igual a 0
$$f_x(x) \geq 0$$  $$\forall x \in R_x$$

2) El área total debajo de $f_x(x)$ sobre $R_x$ es 1 

$$\int_{Rx} f_x(x) dx = 1$$

## Ejemplo práctico

En estadística inferencial el concepto de variable aleatoria es importante para entender más adelante conceptos como el p-value o intervalos de confianza. Tomando el ejemplo del libro Data Analysis for the Life Sciences de Irizarry y Love (2021), se importarán los datos de una base de ratones proporcionada por Karen Svenson a través de Gary Churchill and Dan Gatti y parcialmente financiada por P50 GM070683, y con ello se explicará lo que significa una variable aleatoria.

In [None]:
random.seed(1) #Para tener los mismos resultados

In [7]:
import pandas as pd

dir = "https://raw.githubusercontent.com/genomicsclass/dagdata/master/inst/extdata/"
filename = "femaleMiceWeights.csv"
url = dir + filename
dat = pd.read_csv(url)

#### Primera mirada a los datos

El estudio trata de determinar si seguir una dieta determinada hace que los ratones pesen más después de varias semanas. Estos datos se produjeron ordenando 24 ratones de The Jackson Lab y asignándoles al azar una dieta normal (chow) o una dieta alta en grasas (hf). Después de varias semanas, los científicos pesaron cada ratón y obtuvieron los siguientes datos. Son 24 ratones que fueron  alimentados con dieta normal o con dieta alta en grasas.

In [8]:
dat.head() #el encabezado solo nos muestra las primeras 6 filas

Unnamed: 0,Diet,Bodyweight
0,chow,21.51
1,chow,28.14
2,chow,24.04
3,chow,23.45
4,chow,23.68


Recordemos que el espacio muestral es el conjunto de los posibles resultados de un experimento. En este ejemplo, el experimento es elegir 24 ratones y asignarles al azar una dieta normal o una dieta alta en grasas; y luego de unas semanas pesarlos para obtener como dato los pesos. Por lo tanto, el espacio muestral está conformado por todos los posibles resultados de ese experimento que son los pesos de 24 ratones alimentados al azar con con dieta normal o con dieta alta en grasas. La base de datos que descargamos es un subconjunto de este espacio muestral, pues es uno de los posibles resultados de realizar este experimento. 


In [23]:
control = dat[dat['Diet'] == 'chow']['Bodyweight'].tolist()
tratamiento = dat[dat['Diet'] == 'hf']['Bodyweight'].tolist()

def mayor(lista):
    max = lista[0];
    for x in lista:
        if x > max:
            max = x
    return max    
 
def menor(lista):
    min = lista[0];
    for x in lista:
        if x < min:
            min = x
    return min

In [25]:
# Valores máximos y minimos de un cada grupo
print(mayor(control))
print(menor(control))
print(mayor(tratamiento))
print(menor(tratamiento))

28.4
19.79
34.02
20.73


Al mirar los datos observamos que los pesos en el grupo de ratones que se alimentaron altamente en grasas (hf) varían desde valores bajos hasta altos, y de igual manera el otro grupo con dieta normal (chow). Es decir, existe una gran variabilidad. Por lo tanto, para describir mejor los datos veamos el promedio de cada grupo. 

**OJO:** Tal como vimos en la teoría, una variable aleatoria es "algo" que quiero dentro del espacio muestral. En este caso, podemos definir a una variable aleatoria como el peso promedio de los ratones en cada grupo del experimento. U otro caso, otra variable aleatoria puede ser la diferencia de los pesos promedio entre los grupos de ratones.

In [30]:
# Medias de cada grupo
from statistics import mean
print(mean(control))
print(mean(tratamiento))

23.813333333333333
26.83416666666667


In [31]:
obsdiff = mean(treatment) - mean(control)
print(obsdiff)

3.0208333333333357


Entonces, los ratones con dieta alta en grasas pesan aproximadamente un 10% más. ¿Esa sería la conclusión? ¿Se puede trasladar estos resultados como un caso general? No, pues, como vimos, este es un posible resultado, pero se puede obtener otra submuestra del espacio muestral, y otros promedios como veremos a continuación.

Si repetimos el experimento obtenemos 24 nuevos ratones del Laboratorio Jackson y, tras asignarlos aleatoriamente a cada dieta, obtenemos una media diferente. Cada vez que repetimos este experimento, obtenemos un valor diferente. A este tipo de cantidad la llamamos variable aleatoria. 

Imagine que en realidad tenemos el peso de todas los ratones hembras de control y podemos cargarlos en Python. En Estadística Inferencial, nos referimos a este espacio muestral como población. Estos son todos los ratones de control disponibles de los cuales tomamos muestras de 24. Tenga en cuenta que en la práctica no tenemos acceso a la población. Tenemos un conjunto de datos especial que utilizamos aquí para ilustrar conceptos.

In [48]:
import pandas as pd

url = "https://raw.githubusercontent.com/genomicsclass/dagdata/master/inst/extdata/femaleControlsPopulation.csv"
data = pd.read_csv(url)

data = data.values.flatten() #convertirlo en un vector numérico

poblacion = pd.DataFrame(data, columns=["Peso"])
poblacion

Unnamed: 0,Peso
0,27.03
1,24.80
2,27.02
3,28.07
4,23.55
...,...
220,26.91
221,26.58
222,23.39
223,20.25


Ahora tomemos una muestra de 12 ratones tres veces y veamos cómo cambia el promedio.

In [54]:
control = poblacion.sample(12)
control = control.values.flatten()
control
mean(control)

23.208333333333332

In [55]:
control = poblacion.sample(12)
control = control.values.flatten()
control
mean(control)

23.503333333333334

In [57]:
control = poblacion.sample(12)
control = control.values.flatten()
control
mean(control)

24.839166666666667

Observe cómo varía el promedio. Podemos continuar haciendo esto repetidamente y comenzar a aprender algo sobre la distribución de esta variable aleatoria.