In [1]:
import pandas as pd
import numpy as np

# Definicion de media muestral

**Media Muestral:** sea $\large X_1,....,X_n$ una m.a.s de tamaño $\large n$ de una v.a. $X$ de esperanza $\large \mu_x$ y desviacion típica $\sigma_x$

La media muestral es:
<br><br>
<center> $\Large \bar{X} := \frac{X_1 + ... + X_n}{n}$ </center>

**Proposicion:**
<br><br>
$$
\large
E(\overline{X})=\mu_X,\quad \sigma_{\overline{X}}=\frac{\sigma_X}{\sqrt{n}}
$$
donde $\large \sigma_{\overline{X}}$ es el **error estándar** de $\overline{X}$.

* Si tomamos muchas veces una m.a.s y calculamos la media muestral, el valor medio de estas medias tiende con mucha probabilidad a ser $\mu_X$.

* $\large \sigma_\overline{X} = \frac{\sigma_X}{\sqrt{n}}$: la variabilidad de los resultados de $\overline{X}$ tiende a 0 medida que tomamos muestras mas grandes.


## Ejemplo:
Consideremos la tabla de datos iris. Vamos a comprobar las propiedades anteriores sobre la variable longitud del petalo (Petal.Length)

1. Generaremos 10000 muestras de tamaño 40 con reposicion de las longitudes del petalo.
2. A continuacion hallaremos los valores medios de cada muestra.
3. Consideramos la media y la desviacion tipica de dichos valores medios y los compararemos con los valores exactos dados por las propiedades de la media muestral.

In [2]:
iris = pd.read_csv(r"..\datasets\iris.csv", sep=",")
iris.head(5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


Calculamos los valores medios para nuestras 10mil muestras.

In [52]:
valores_medios =  np.array([iris['petal_length'].sample(40, replace=True).mean() for i in np.arange(0,10000,1)])

Los valores medios de las 10 primeras muestras serían:

In [12]:
valores_medios[:10]

array([3.5725, 3.7875, 3.465 , 3.74  , 4.2775, 3.9975, 4.0775, 3.505 ,
       4.    , 3.605 ])

El valor medio de los valores medios de las muestras anteriores vale:

In [14]:
valores_medios.mean()

3.7551639999999997

Este valor debe ser muy cercano del valor medio de la variable longitud del petalo:

In [16]:
iris['petal_length'].mean()

3.7586666666666693

Como podemos observar ambos valores estan muy proximos

La desviacion tipica de los valores medios de las muestras vale:

In [19]:
valores_medios.std()

0.27911023468156804

Dicho valor tiene que estar cerca de $\large \frac{\sigma_{lp}}{\sqrt{40}}$ (donde $\sigma_{lp}$ es la desviación típica de la variable longitud del pétalo) tal como predice la propiedad de la media muestral referida a la desviación típica de la misma:

In [26]:
iris['petal_length'].std()/np.sqrt(40)

0.2789793638579974

Como podemos ver ambos valores tambien son muy cercanos

In [28]:
values =  np.array([iris['petal_length'].sample(40, replace=True).mean() for i in np.arange(0,10000,1)])

In [96]:
val = norm.pdf(values)

0.00903123045156225