![imagenes](logo.png)

# Estimadores

Consideremos que

* Una variable aleatoria $X$ es una característica de la población.

* Al no poder tomar la medida de $X$ en toda la población, lo hacemos sobre una muestra de tamaño $n$. Digamos que la muestra es $E_1$, $E_2$,..., $E_n$. Esta muestra debe cumplir que sus elementos son independientes entre sí (es decir, que elegir un elemento de la muestra no condiciona elegir otro elemento).

* El valor $X_i$ representa el valor de $X$ en el elemento $E_i$ de la muestra. Por lo tanto $X_i$ es a su vez **una variable aleatoria**. En cuanto tomamos la medida de $X$ en el elemento $E_i$, entonces al valor obtenido lo denotamos por $x_i$ y es lo que se conoce como una **observación**. Como los elementos de la muestra son independientes, entonces las variables $X_1,X_2,...,X_n$ son independientes y tienen la misma distribución que $X$.

Por lo tanto, **cualquier función que dependa de las $X_i$ es a su vez una variable aleatoria**.

De esta manera, un **estimador** es una función que depende de las $X_i$, así que es una variable aleatoria. Los estimadores son útiles para *estimar* el valor verdadero de la variable aleatoria $X$ en la población. 

Los estimadores más utilizados son:

* Media muestral: $$\overline{X}=\hat{\mu}=\frac{X_1+X_2+...+X_n}{n}$$

* Varianza muestral: $$\hat{\sigma^2}=\frac{(X_1-\hat{\mu})^2+(X_2-\hat{\mu})^2+...+(X_n-\hat{\mu})^2}{n-1}$$

* Proporción muestral: $$\hat{p}=\frac{\mbox{Número de éxitos}}{n}$$

Existen infinitas maneras de elegir un estimador para estimar una característica poblacional.

Por ejemplo, supongamos que queremos estimar la estatura de todos los personajes de Dragon Ball Z. Tomamos una muestra aleatoria de personajes.

<img src="im009.png" style="display:block; margin:auto;">

Obtenemos los siguientes datos:

| Personaje      | Estatura |
|---------------|----------|
| Chaoz        | 1.38 m   |
| Ten Shin Han | 1.87 m   |
| Maestro Roshi| 1.65 m   |
| Yamcha       | 1.83 m   |
| Oolong       | 1.21 m   |
| Puar         | 0.33 m   |
| Bulma        | 1.65 m   |
| Vegeta       | 1.64 m   |
| Trunks niño  | 1.23 m   |
| Gokú         | 1.75 m   |
| Buu gordo    | 2.20 m   |
| Mr. Satán    | 1.88 m   |
| Chichi       | 1.63 m   |
| Goten niño   | 1.15 m   |
| Piccolo      | 2.26 m   |
| Gohan adulto | 1.76 m   |
| Videl        | 1.57 m   |
| Nº 18        | 1.70 m   |
| Krillin      | 1.53 m   |
| Marron       | 1.10 m   |


**¿Será buena idea decir que la estatura de los personajes de DBZ es aproximadamente el valor máximo de nuestra muestra?** En este caso es Pícoro, quien mide 2.26m

<img src="im011.png" style="display:block; margin:auto;" width="30%">


**¿Será buena idea decir que la estatura de los personajes de DBZ es aproximadamente el valor mínimo de nuestra muestra?** En este caso es Puar, quien mide 0.33m

<img src="im010.png" style="display:block; margin:auto;" width="10%">

**¿Será buena idea decir que la estatura de los personajes de DBZ es aproximadamente el la suma del coseno de los elementos de la muestra?** En este caso es $$\cos(Chaoz)+\cos(Ten)+...+\cos(Krillin)+\cos(Marron)=-0.1349$$

<img src="im012.png" style="display:block; margin:auto;">

Es claro que ninguna de las opciones anteriores funcionaría muy bien. Es por esto que debemos decidir qué estimador es el que más nos sirve. Para esto, definimos algunas propiedades que un buen estimador debe tener:

* Insesgadez
* Eficiencia
* Consistencia

## Insesgadez

Supongamos que queremos estimar un parámetro poblacional $\theta$ y tenemos un estimador $\hat{\theta}$. Es decir, $\theta$ es el valor verdadero (que no podemos conocer) y $\hat{\theta}$ es el estadístico obtenido en la muestra, con el cual queremos aproximarnos al valor de $\theta$.

Como $\hat{\theta}$ es un estadístico, entonces es una variable aleatoria. Se define su sesgo como $$bias(\hat{\theta})=E[\hat{\theta}]-\theta$$

Si el sesgo es 0, se dice que el estimador $\hat{\theta}$ es insesgado.

Un estimador es *asintóticamente insesgado* si el sesgo tiende a 0 a medida que aumentamos el tamaño de la muestra.

## Eficiencia

La eficiencia se refiere a la inversa de la varianza: $$Eficiencia(\hat{\theta})=\frac{1}{Var(\hat{\theta})}$$

Así, mientras menor sea la varianza, el estimador es más eficiente: si $Var(\hat{\theta_1})<Var(\hat{\theta_2})$ entonces $$Eficiencia(\hat{\theta_1})>Eficiencia(\hat{\theta_2})$$

## Consistencia

Ahora bien, ya sabemos que debemos buscar que el sesgo se minimize y le eficiencia se maximice. Para conseguir ambos objetivos utilizamos el **error cuadrático medio**:

$$ECM(\hat{\theta})=E[(\hat{\theta}-\theta)^2]=bias^2(\hat{\theta})+Var(\hat{\theta})$$

Un estimador es consistente cuando, al aumentar el tamaño de la muestra, el $ECM$ tiende a 0.

## Conclusión

**Recuerda que nuestro objetivo es estimar el valor verdadero de un parámetro poblacional, es decir, una característica de toda la población (como la estatura promedio).**  

Los parámetros poblacionales suelen dividirse en tres categorías principales:  

- **Medidas de tendencia central o localización:** Representan un valor típico o central de los datos (por ejemplo, la media o la mediana).  
- **Medidas de dispersión:** Indican qué tan dispersos o agrupados están los datos en torno a la tendencia central (como la varianza o el rango intercuartílico).  
- **Medidas de forma:** Describen la distribución de los datos, incluyendo su simetría y la forma de su cola (como la asimetría y la curtosis).  