### Unidad I. Variables, distribuciones y pruebas de hipótesis. 

## Variables aleatorias y funciones de distribución. 

- [Conceptos de variables aleatorias](#Conceptos-de-variables-aleatorias), [funciones de distribución](#Funciones-de-distribución), variables aleatorias discretas y continuas, niveles de medición.  
- Distribuciones importantes  
- Generación de distribuciones a partir de operaciones con variables aleatorias conocidas.  

## Conceptos de variables aleatorias

- **Variable categórica o cualitativas:** Variables que representan *grupos* o *categorías*. Puede tener escala **nominal** u **ordinal**. Las variables *nominales* no tienen un orden definido, mientras las *ordinales* o *casi cuantitativas* tienen un orden definido. Es importante notar que los métodos desarrollados para variables *ordinales* no pueden ser utilizados con variables *nominales*. Los métodos para variables *nominales* pueden ser utilizados con variables *ordinales*, pero se pierde **poder** en el proceso, debido a que no se utiliza la información relativa al orden. La variables cualitativas con solo dos niveles suelen denominarse binarias, dicotómicas o booleanas.
- **Variable cuantitativas:** Pueden ser **discretas** o **continuas**.

Las variables categóricas suelen representarse en R usando `factor`s y tienen una representación especial en la librería *DataFrames* de Julia mediante el tipo de datos `PooledDataArray`(cada nivel de la variable categórica pertenece a un *pool* o grupo de niveles posibles).

En algunos análisis estadísticos, las variables aleatorias pueden clasificarse como variables de **variable respuesta** y **variable explicativa**. La variable respuesta, es a veces llamada *dependiente* suele representarse en el eje *Y*. La variable explicativa o *independiente*, es la que suele controlarse en el diseño experimental y suele representarse en el eje *X*.

Tanto la `formula` de R como la `Formula` de la biblioteca *DataFrames* de Julia ubican las variables respuesta a la izquierda y las variables explicativas a la derecha:
```julia
Y ~ X
```

## Funciones de distribución

### Función de masa/densidad de probabilidad

La función de densidad de probabilidad (*PDF* por *Probability Density Function*)  o de masa de probabilidad (*PMF* por *Probability Mass Function*) describen la probabilidad relativa de una variable a tomar un cierto valor. En general, el término *masa* (*PMF*) se utiliza para variable categóricas o discretas mientras el de *densidad* (*PDF*) se usa con variables continuas.  
Sólo en el caso de variables discretas, la función de masa de probabilidad para la variable $X$ ($PMF_X$) evaluada en un punto $x$ retorna la probabilidad de que la variable $X$ sea igual a $x$: 

$$PMF_X(x) = P(X=x)$$  

Las funciones de masa/densidad de probabilidad son no-negativas a lo largo de todo su dominio. En el caso de las funciones de masa de probabilidad, la imagen sólo puede tomar valores en el intervalo cerrado $[0,1]$. La suma de las probabilidades (imagen de la $PMF$) para todos los posibles valores una variable discreta $X$ debe ser igual a 1, es decir, al menos uno de sus valores tiene que ocurrir.

$$\sum\limits_{x} PMF_X(x) = 1$$

Evaluar la función de densidad de probabilidad de una variable continua $X$, $PDF_X$, en un punto $x$ no retorna la probabilidad de ese punto. Sólo obtenemos probabilidades a partir de una función de densidad de probabilidad integrandola en un determinado intervalo (la probabilidad es el área bajo la *PDF*). No existe la probabilidad de un punto para variables continuas, así como no existe el área bajo un punto.

$$\int_{a}^{b} PDF_X(X) dX = P(a \leqslant X \leqslant b)$$

La integral de una *PDF* sobre todo su dominio, es decir el área total bajo la *PDF* debe ser 1.

### Función de distribución acumulada

La función de distribución acumulada (**CDF** por *Cumulative Distribution Function*) retorna la probabilidad de que una variable aleatoria no nominal sea menor a un determinado valor.

$$CDF_X(x) = P(X \leqslant x)$$