![imagenes](logo.png)

# Conceptos básicos

En este apartado veremos los primeros conceptos básicos que debes conocer antes de continuar con la siguiente sección. 

## Muestras y poblaciones



Una **población** es un conjunto sobre el cual queremos hacer alguna inferencia. La población se trata del *grupo completo* que queremos estudiar. Por ejemplo, todos los votantes de un país, todos los focos producidos por una empresa durante un mes, **estellas en una cierta galaxia**, los televidentes de una serie o programa, o las personas susceptibles a contagiarse de una cierta enfermedad.   

De esta manera, el problema principal de la Estadística Inferencial es hacer inferencias acerca de la población de interes. Por ejemplo, cómo se repartirán los votos de los votantes, qué porcentaje de focos producidos son defectuosos, cuál es el brillo promedio de las estrellas en la galaxia, el valor promedio del gusto de los televidentes de una serie, o en qué porcentaje funciona un medicamento en personas susceptibles a contagiarse de cierta enfermedad.

Por su parte, como lo palabra lo indica, una **muestra** es un subconjunto de algo más grande; en este caso, un subconjunto de la población. En general, tomar la población de interés para medir la característica de estudio es imposible, debido a recursos económicos, técnicos o de tiempo. Por ejemplo, para conocer el brillo promedio de las estrellas en la galaxia es imposible que midamos el brillo de todas sus estrellas. Es por ello que tomamos una muestra en la cual los factores anteriores (falta de recursos mencionados previamente) no representen un problema.

Un **muestreo aleatorio simple** es un procedimiento para seleccionar una muestra de la población, el cual tiene la característica de que si $a$ y $b$ son cualesquiera dos elementos de la población, entonces el total de muestras en las que vive $a$ es igual al total de muestras en las que vive $b$.

## Variables aleatorias

Una **variable alealtoria** es una característica de la población: por quién votará una persona; el foco funciona bien o no; el brillo de una estrella; qué calificación le da un televidente a un episodio de la serie; el medicamente sirve o no en la persona contagiada.

Como quiera que sea, las variables aleatorias siempre se representan con números. Por ejemplo, 1 si el foco funciona bien o 0 si no lo hace; o la intensidad del brillo estelar; o la calificación que asigna el televidente; o 1 si el medicamento sirve y 0 si no sirve.

Las **variables aleatorias** siguen *comportamientos generales*, aunque no siempre son evidentes. A ese comportamiento es a lo que llamamos **distribución de la variable aleatoria**. 

En general tenemos dos tipos de variables aleatorias: discretas y continuas. 

### Variables discretas y continuas

Como hemos dicho, las variables aleatorias siempre se representan con números. Si el total de resultados es un conjunto finito o numerable, se dice que se trata de una variable discreta; en caso contrario, se dice que es una variable continua.

Por ejemplo, la edad de los televidentes de una serie. Este valor, puede ser 0 años, 1 año, 2 años,..., 75 años, 76 años y probablemente más. Por lo tanto el conjunto de posibles edades **es contable**, así que se trata de una variable de tipo discreto. Por su parte, si al televidente se le pregunta la calificación de cierto capítulo y se le permite elegir cualquier valor entre 0 y 10, él podría decir 4.5, $\pi$, 9.5437261, etc. Entonces el conjunto de valores que puede tomar esta variable aleatoria no es contable, por lo que es una variable **continua**.

<img src="im003.png" style="display:block; margin:auto;">

Finalmente, el **rango** de una variable aleatoria son todos los posibles resultados que pueda tener.

En resumen:

* Nos va a interesar medir una característica de la población: **variable aleatoria**.

* Dicha característica puede ser discreta o continua

* Al no poder medir la característica en toda la población, utilizamos una **muestra**.

## Distribución de una variable aleatoria

Como hemos dicho, el comportamiento de una variable aleatoria es lo que se denomina **su distribución** o *ley de probabilidades*.

Imagina que lanzas una moneda dos veces. Anotamos el número de caras que obtuvimos. De esta manera, los posibles resultados son 0,1 y 2: ninguna; una cara y una cruz o una cruz y una cara; ambas caras. Entonces el rango es $\{0,1,2\}$.

Ahora observemos cada elemento del rango. Sabemos que los posibles resultados de los lanzamientos fueron *cara,cara*; *cara,cruz*; *cruz;cara* y *cruz,cruz*. Por lo tanto, el 0 solo se puede obtener de una manera. El 1 se puede obtener de dos manera; y el 2 se puede obtener de una manera. Como hay 4 posibles resultados, entonces lo anterior se escribe como $$P(0)=\frac{1}{4},\,P(1)=\frac{2}{4},\,P(2)=\frac{1}{4}$$

De esta manera, si $X$ es el número de caras obtenidas, entonces $$P(X=0)=\frac{1}{4},\,P(X=1)=\frac{2}{4},\,P(X=2)=\frac{1}{4}$$

En general, al número $P(X=x)$ se le denota por $f(x)$. A esta función $f$ se le llama **densidad**.

Finalmente, la **distribución de una variable aleatoria** es la función que le asigna a cada número la probabilidad de que la variable aleatoria sea menor o igual que ese valor; se denota por $F$. Así si $x$ es un número cualquiera, entonces $$F(x)=P(X\le x)$$

En el ejemplo de las monedas: $$F(x)=\left\{\begin{array}{l}0\,\mbox{ si }\,x<0\\0.25\,\mbox{ si }\,0\le x<1\\0.75\,\mbox{ si }\,1\le x<2\\1\,\mbox{ si }\,2\le x \end{array}\right.$$

Por lo tanto, la distribución y la densidad de una variable aleatoria se relacionan de la siguiente manera:

* **Caso discreto.** En este caso $f(x)=P(X=x)$ y $$F(x)=P(X\le x)=\sum_{x\in R}xf(x)$$

* **Caso continuo.** En este caso $f(x)=F^\prime(x)$ y $$F(x)=P(X\le x)=\int_{-\infty}^x f(t)\,\mathrm{d}t$$

## Histogramas

Una manera sencilla de entender la distribución de una variable aleatoria es mediante un gráfico de tipo **histograma**. Este es un tipo de gráfico que funciona dividiendo el rango de la variable aleatoria en segmentos iguales y ver cuántos valores caen en cada parte.

<img src="im004.png" style="display:block; margin:auto;">

## Media y varianza de una variable aleatoria

Imagina la siguiente situación: tienes una barra de longitud 1 posicionada de forma horizontal sobre un bloque triangular. Sobre la barra colocas bloques cuadrados, todos de masa 1. Y debes mover el bloque triangular para equilibrar la barra:

<img src="equilibrio_01.gif" style="display:block; margin:auto;">

En este sentido, puedes pensar que los bloques son precisamente los edificios de un histograma, y por lo tanto la **media** o **esperanza** es el punto de apoyo que equilibra la barra (el triángulo rojo).

Matemáticamente, si $R$ es el rango de la variable aleatoria, entonces la esperanza se define como $$E[X]=\sum_{x\in R}xf(x)\mbox{ si }X\mbox{ es discreta}$$ y $$E[X]=\int_{x\in R}xf(x)\,\mathrm{d}x\mbox{ si }X\mbox{ es continua}$$

Por lo tanto, la media o esperanza es el **valor promedio que toma la variable aleatoria**. Observa que, bajo la notación anterior, $f(x)$ no tiene unidades, pero $x$ sí. Por ejemplo, si $X$ es la estatura de los niños de una ciudad medida en metros o en centímetros, entonces su media también estará en metros o en centímetros, respectivamente.

A su vez, la varianza es la manera en la cual medimos cuánto se alejan los datos, **en promedio**, de su propia media. Esto es $$Var(X)=E[(X-E[X])^2]=E[X^2]-E[X]^2$$

Observa que las unidades de la varianza son las mismas que las de la media pero al cuadrado. Por ejemplo, si la variable aleatoria es la estatura de todos los niños de una ciudad, entonces le media estará en metros o centímetros; en tanto que la varianza estará en metros cuadrados o centímetros cuadrados.

Por lo tanto la raíz cuadrada de la varianza estará en las mismas unidades que la media. A este valor se le llama **desviación de la variable aleatoria** o **desviación estándar**: $$sd(X)=\sqrt{Var(X)}\mbox{ que equivale a }sd^2(X)=Var(X)$$

Así, conociendo la desviación se puede calcular la varianza, y viceversa.