#### Estimaciones puntuales



Sea $X$ una variable aletoria que sigue una función de distribución $f(x;\theta)$

la variable $\theta$ es uno o varios parámetros propios de la distribución, por ejemplo si $X$ sigue una distribición exponencial $\theta =\lambda$ pero si $X$ sigue una ley normal $\theta=[\mu, \sigma^2]$

Def: Un estimador puntual es una función que se utiliza para estimar (aproximar) el valor del parámetro $\theta$ de una ley de distribución

Se denota al estimador por $\widehat{\theta}$

¿Como se hace para determinar un estimador?, ¿Cómo sabemos que un estimador es mejor que otro?

Para determinar la validez de un estimador existen 2 métodos, máximo de verosimilitud y mínimos cuadrados

def: Decimos que un estimador es no sesgado si
$$E[\widehat{\theta}]=\theta$$

Ej: Si $x_i\rightarrow \mathcal{N}(\mu, \sigma^2)$ son realizaciones de la ley normal entonces
    
$$E[\widehat{\mu}]=E\left[ \frac{1}{n}\sum_{i=1}^n x_i\right]=\frac{1}{n}\sum_{i=1}^nE[ x_i]=\frac{1}{n}\sum_{i=1}^n \mu=\mu$$    

Similiarmente si definimos el estimador $\widehat{\sigma^2}=\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2$ y desarrollamos vamos a encontrar que

$$\widehat{var(X)}=\widehat{\sigma^2}=\frac{n-1}{n}\sigma^2$$

Es por eso que normalmente calculamos la varianza como

$$\widehat{var(X)}=\frac{1}{n-1}\sum_{i=1}^n (x_i-\mu)^2$$

Rem: A esta varianza que acabamos de definir llamamos varianza muestral y a la otra varianza poblacional

Rem: En las estimaciones puntuales tenemos que estamos arriesgandonos a dar un valor para estimar algún parámetro. Lo cuál en general es muy arriesgado

#### Estimaciones por intervalos

Def: Sea $\alpha\in (0,1)$ decimos que tenemos un intervalo de confianza para un parámetro desconocido $\theta$. Si
$$P(\theta_1 < \theta < \theta_2)=1-\alpha$$

A los parámetros $\theta_1$ y $\theta_2$ se los conoce como límites inferiores y superiores y al paramétro $\alpha$ se lo conoce como parámetro de significación y a $1-\alpha$ como parámetro de confianza.

Ej: Si $X\rightarrow \mathcal{N}(0,1)$, dar un intervalo de confianza al 5% de significación para el valor de la media.

Si tenemos una ley de distribución de la ley Normal $\phi$ ese intervalo lo podemos determinar por

$$P(\mu_1<\mu<\mu_2)=\phi(\mu_2)-\phi(\mu_1)=1-\alpha=1-0.05=0.95$$

Rem: La ley normal es una distribución simétrica por lo cual si $r>0$ entonces
$$\phi(-r)=1-\phi(r)$$
y además podemos suponer que $\mu_1=-\mu_2$

Por lo tanto

$$P(\mu_1<\mu<\mu_2)=\phi(\mu_2)-(\phi(-\mu_2))=\phi(\mu_2)-(1-\phi(\mu_2))=0.95$$

Es decir que

$$2\phi(\mu_2)-1=0.95$$

o de forma equivalente que

$$\phi(\mu_2)=\frac{1.95}{2}=0.975$$

In [1]:
import numpy as np
import scipy.stats as st
import math as ma
beta=st.norm.ppf(0.975) # es la inversa de la acumulativa
beta

np.float64(1.959963984540054)

Es decir que esperamos que la media este entre $[-1.96,1.96]$ al $95\%$ de confiabilidad o al $5\%$ de significación

Ej: Una fabrica que produce latas, verificó que el peso medio de 10 muestras de latas son 123g. Si se conoce que la desviación estandar de las latas es de 2g. Dar un intervalo de confianza al 95% de confiabilidad para el valor medio.

Un resultado conocido es que

$$\sqrt{N}\frac{\mu -\overline{X}}{\sigma}\rightarrow \mathcal{N}(0,1)$$

Entonces podemos llamar $Z$ al valor de esa fracción

Entonces tenemos que

$$\mu_Z\in[-1.96,1.96]$$

O en otras palabras que

$$-1.96<Z=\frac{\sqrt{N}(\mu-\overline{X})}{\sigma}<1.96$$

Y tenemos que

$$\frac{-1.96\sigma}{\sqrt{N}}+\overline{X}<\mu<\overline{X}+\frac{1.96\sigma}{\sqrt{N}}$$


In [2]:
desv_pob=2
-beta*desv_pob/np.sqrt(10)+123,beta*desv_pob/np.sqrt(10)+123

(np.float64(121.76040993539088), np.float64(124.23959006460912))

Entonces podemos esperar que la media se encuentre entre 121.76g y 124.24g

Otra idea sería distribuir de manera equitativa la mitad de la significación a la derecha y la mitad a la izquierda

Es decir que podemos escribir

$$\phi(\mu_1)=\alpha/2$$

$$\phi(\mu_2)=1-\alpha/2$$

En nuestro caso

$$\phi(\mu_1)=0.05/2=0.025$$

$$\phi(\mu_2)=1-0.05/2=0.975$$

In [3]:
muestra=10
media_muestra=123
st.norm.ppf(0.025,media_muestra,2/np.sqrt(muestra))

np.float64(121.76040993539088)

In [4]:
muestra=10
media_muestra=123
st.norm.ppf(0.975,media_muestra,2/np.sqrt(muestra))

np.float64(124.23959006460912)

Ej: Se mide en un poblado a 35 personas y se encuentra que la altura media es de 168 cm, con una deviación estandar muestral de 6cm. Dar una estimación de la media de la población con 98% de confiabilidad  

En este caso tenemos que

$$\phi(\mu_1)=\alpha/2=0.02/2=0.01$$

$$\phi(\mu_2)=1-\alpha/2=1-0.02/2=0.99$$

In [5]:
muestra=35
media_muestral=168
desv_muestral=6
st.norm.ppf(0.01,168,desv_muestral/np.sqrt(35))

np.float64(165.6406526355309)

In [6]:
st.norm.ppf(0.99,168,6/np.sqrt(35))

np.float64(170.3593473644691)

Entonces estimamos que la media debería encontrarse entre $[165.64,170.36]$

Podemos calcular la ley centrada y reducida

$$Z=\frac{\sqrt{N}(\mu-\overline{X})}{\sigma}$$

In [None]:
beta=st.norm.ppf(1-0.02/2) 
beta

np.float64(2.3263478740408408)

In [8]:
-beta*6/np.sqrt(35)+168,beta*6/np.sqrt(35)+168

(np.float64(165.6406526355309), np.float64(170.3593473644691))

Teorema (del Limite central): Sean $X_1,X_2,...,X_n$ unas variables aleatorias que siguen una distribución cualquiera con $N$ suficientemente grande ($N>30$ en general). Podemos aproximar la media por una distribución normal

Es decir que podemos aproximar
$$\sqrt{N}\frac{\mu-\overline{X}}{s}\rightarrow \mathcal{N} (0,1)$$

En un caso que no tengamos una ley de distribucion ni una muestra suficientemente grande para aproximar la media vamos a utilizar una ley de Student a $N-1$ parámetros de libertad en vez de una ley normal

Vamos a modificar el ejemplo anterior
Ej: Se mide en un poblado a 15 personas y se encuentra que la altura media es de 168 cm, con una deviación estandar muestral de 6cm. Dar una estimación de la media de la población con 98% de confiabilidad  

In [9]:
muestra=15
grado_l=muestra-1
st.t.ppf(0.01,grado_l,168,6/np.sqrt(15))

np.float64(163.93415127364761)

In [10]:
muestra=15
grado_l=muestra-1
st.t.ppf(0.99,grado_l,168,6/np.sqrt(15))

np.float64(172.06584872635239)

En este caso tenemos la estimación $[163.93,172.07]$

In [11]:
beta=st.t.ppf(0.99,14)
beta

np.float64(2.624494067560231)

In [12]:
sigma=6
N=15
media=168
-beta*sigma/np.sqrt(N)+media,beta*sigma/np.sqrt(N)+media,

(np.float64(163.93415127364761), np.float64(172.06584872635239))

Ej: Se han tomado los siguientes datos acerca de la estatura de una población
[165.4,168.3,178.6,156.5,154.2,161.4,168.9,170.2,151.3,176.1]

Dar un intervalo de confianza para la media al 8%,4%,2% y 1% de significación

In [13]:
X=np.array([165.4,168.3,178.6,156.5,154.2,161.4,168.9,170.2,151.3,176.1])
Xm=X.mean()
N=len(X)
S=np.sqrt(np.sum((X-Xm)**2)/(N-1)) # desviacion estandar muestral
Xm,S,N

(np.float64(165.08999999999997), np.float64(9.134361256024173), 10)

In [14]:
X.std()

np.float64(8.665615961949847)

In [15]:
st.t.ppf(0.04,N-1,Xm,S/np.sqrt(N)),st.t.ppf(0.96,N-1,Xm,S/np.sqrt(N)) # al 8% de significación

(np.float64(159.39191656362473), np.float64(170.78808343637522))

In [16]:
st.t.ppf(0.02,N-1,Xm,S/np.sqrt(N)),st.t.ppf(0.98,N-1,Xm,S/np.sqrt(N)) # al 4% de significación

(np.float64(158.16201050594424), np.float64(172.0179894940557))

In [17]:
st.t.ppf(0.01,N-1,Xm,S/np.sqrt(N)),st.t.ppf(0.99,N-1,Xm,S/np.sqrt(N)) # al 2% de significación

(np.float64(156.94016749374853), np.float64(173.23983250625142))

In [18]:
st.t.ppf(0.005,N-1,Xm,S/np.sqrt(N)),st.t.ppf(0.995,N-1,Xm,S/np.sqrt(N)) # al 1% de significación

(np.float64(155.70272441902242), np.float64(174.47727558097753))

Prop: Sean $X_1,X_2,...,X_n$ realizaciones de una distribución aleatoria de media $\mu$ y de desviación estandar $\sigma$. Si $$M=\sum_{i=1}^n (X_i-\overline{X})^2=(n-1)S^2$$
Entonces
$$\frac{M}{\sigma^2}\rightarrow \chi^2_{n-1}$$

Eso quiere decir que para un valor de significación pequeño $\alpha$ podemos encontrar
$$P(X<k_1)=\alpha/2=P(X>k_2)$$

Lo que quiere decir que
$$P(k_1<\frac{M}{\sigma^2}<k_2)=1-\alpha$$

Y tenemos la estimación de intervalo de la varianza
$$k_1<\frac{M}{\sigma^2}<k_2$$

$$\frac{1}{k_2}<\frac{\sigma^2}{M}<\frac{1}{k_1}$$

$$\frac{M}{k_2}<\sigma^2<\frac{M}{k_1}$$

$$(\frac{M}{k_2},\frac{M}{k_1})$$

Ej: Se realizan 20 muestras de la talla de un clavo y se determinó que el clavo mide en promedio 2.52cm con una desviación estandar muestral de 0.03cm, dar una estimación de la varianza y de la desviación estandar de la prueba al 94% de confiabilidad

In [19]:
n=20
M=0.03**2*(n-1)
alpha=0.06 # 1 - 0.94
k1=st.chi2.ppf(alpha/2,n-1)
k2=st.chi2.ppf(1-alpha/2,n-1)
M/k2,M/k1

(np.float64(0.0005317541107315959), np.float64(0.0018586066218084002))

In [20]:
np.sqrt(M/k2),np.sqrt(M/k1)

(np.float64(0.023059794247382085), np.float64(0.04311156018759238))

Esperamos que la varianza se encuentre entre 0.0005 y 0.0019

Y su desviación estandar entre 0.02 y 0.04 al 94% de confiabilidad

Ej: Dados los siguientes datos sobre las notas medias de un curso, dar una estimación de la nota media y de su desviación estandar con un 10% de significación
$$N=[58,63,45, 81, 76, 35, 77, 55, 90, 68,39, 96, 57, 60, 11,63]$$

In [21]:
N=np.array([58,63,45, 81, 76, 35, 77, 55, 90, 68,39, 96, 57, 60, 11,63])
mu=N.mean()
n=len(N)
s=np.sqrt(np.sum((N-mu)**2)/(n-1))
n,mu,s

(16, np.float64(60.875), np.float64(21.574290254838047))

In [22]:
alpha=0.1
k1=st.t.ppf(alpha/2,n-1)
k2=st.t.ppf(1-alpha/2,n-1)
-k2*s/np.sqrt(n)+mu,k2*s/np.sqrt(n)+mu

(np.float64(51.419795698735435), np.float64(70.33020430126456))

Al 10% de significación nuestra media está entre 51.42 y 70.33

In [23]:
k1=st.chi2.ppf(alpha/2,n-1)
k2=st.chi2.ppf(1-alpha/2,n-1)
M=(n-1)*s**2
M/k2,M/k1

(np.float64(279.31703542762267), np.float64(961.5485355001741))

In [24]:
np.sqrt(M/k2),np.sqrt(M/k1)

(np.float64(16.712780601312957), np.float64(31.008846084628402))

Estimamos al 10% de significacion que nuestra desviación estandar se encuentre entre 16.71 y 31.01

### Test de Hipótesis

Ej:Supongamos que queremos evaluar el precio de un producto en una ciudad, para lo cual se realizan 25 muestras, obteniendo una media de 17 Bs. y una desviación estandar de 1.5 Bs. Según datos registrados el precio del artículo se situa a 13 Bs. ¿Es que la afirmación anterior es valida a un 99% de confiabilidad (0.01 nivel de significación)?

Vamos a formular una hipótesis

$$H_0: \mu=13$$

y una hipótesis alternativa

$$H_1: \mu \neq 13$$

1ra idea: Dar un intervalo de confianza de nuestra media a la confiabilidad deseada y si la hipótesis esta dentro del intervalo entonces aceptamos el test, sino lo rechazamos
    
2da idea: Crear un estimador que siga exactamente una distribución aleatoria y evaluamos que este valor este dentro de los parámetros estimados deseados (comparar el estimador con el percentil de probabilidad deseado ppf)

In [32]:
mu=17
s=1.5
n=25
alpha=0.01
st.t.ppf(alpha/2,n-1,mu,s/np.sqrt(n)),st.t.ppf(1-alpha/2,n-1,mu,s/np.sqrt(n)) # ppf para la inversa, usamos desviacion muestral

(np.float64(16.160918148568157), np.float64(17.839081851431843))

Segun lo indicado podemos decir al 99% de confiabilidad que el precio no es de 13 Bs. (hipótesis alternativa)

Vamos a considerar el estimador

$$E=\frac{\sqrt{n}|\mu-\overline{X}|}{s}\rightarrow \mathcal{t}_{n-1}$$

In [26]:
criterio=st.t.ppf(1-alpha/2,n-1)
E=np.sqrt(n)*np.abs(13-mu)/s
criterio,E

(np.float64(2.796939504772804), np.float64(13.333333333333334))

Como el estimador es mucho más grande que el criterio entonces rechazamos la hipótesis

Ej: Una productora de leche produce paquetes de leche de 1 litro. Esta especifica que la varianza que tiene entre sus productos es inferior a  1𝑐𝑚3
 . Basandonos en 25 datos obtenidos verificar la veracidad de la afirmación.

$$X=[1000.3, 1001.3, 999.5, 999.7, 999.3,999.8, 998.3, 1000.6, 999.7, 999.8,1001.0, 999.4, 999.5, 998.5, 1000.7,999.6, 999.8,1000.0,998.2, 1000.1,998.1, 1000.7, 999.8, 1001.3, 1000.7]$$

In [27]:
X=np.array([1000.3, 1001.3, 999.5, 999.7, 999.3,999.8, 998.3, 1000.6, 999.7, 999.8,1001.0, 999.4, 999.5, 998.5, 1000.7,999.6, 999.8,1000.0,998.2, 1000.1,998.1, 1000.7, 999.8, 1001.3, 1000.7])
mu=X.mean()
n=len(X)
s=np.sqrt(np.sum((X-mu)**2)/(n-1))
n,mu,s


(25, np.float64(999.828), np.float64(0.8993145537945352))

En este caso la hipótesis nula es

$$H_0: \sigma^2<1$$
    
y la hipótesis alternativa es que

$$H_1: \sigma^2\geq 1$$

In [28]:
M=(n-1)*s**2
alpha1=0.1
alpha2=0.05
alpha3=0.01
k10=st.chi2.ppf(alpha1,n-1)
k5=st.chi2.ppf(alpha2,n-1)
k1=st.chi2.ppf(alpha3,n-1)
M/k10,M/k5,M/k1

(np.float64(1.2395933103257837),
 np.float64(1.4016323128382664),
 np.float64(1.7879286760805146))

Nuestro de aceptación en todos estos casos es que la varianza verifica que es inferior a 1

Nosotros sabemos que
$$T=(n-1)S^2/\sigma^2 \rightarrow \chi^2_{n-1}$$

In [29]:
T=(n-1)*s**2/1**2
k10=st.chi2.ppf(1-alpha1,n-1)
k5=st.chi2.ppf(1-alpha2,n-1)
k1=st.chi2.ppf(1-alpha3,n-1)
T,k10,k5,k1

(np.float64(19.41039999999993),
 np.float64(33.19624428862818),
 np.float64(36.41502850180731),
 np.float64(42.97982013935165))

En todos los casos aceptamos la hipótesis de que la varianza es inferior a $1 cm^3$

#### Test de comparativo de medias

Lo que quisieramos es comparar si
$$\mu_X=\mu_Y$$
conociendo ciertos datos muestrales

En estos casos vamos a considerar la variable aleatoria
$$Z=X-Y$$

tenemos bien para $Z$ que
$$\mu=\mu_X-\mu_Y$$
y
$$\sigma^2=\sigma_X^2-\sigma_Y^2$$

Y vamos a testear la hipótesis
$$H_0:\mu=0$$

Bajo hipótesis de $n,m$ suficientemente grandes o que conozcamos la varianza de las distribuciones
$$\frac{|\overline{X}-\overline{Y}|}{\sqrt{\sigma_X^2/n+\sigma_Y^2/m}}\rightarrow \mathcal{N}(0,1)$$

Para el caso donde tenemos todo muestral
$$\sqrt{\frac{n+m-2}{1/n+1/m}}\frac{|\overline{X}-\overline{Y}|}{\sqrt{(n-1)S_X+(m-1)S_Y}}\rightarrow t_{n+m-2}$$

Ej: Se comparan los tiempos de realización de una tarea con 2 diferentes herramientas tomando una muestra de 20 personas por herramienta. Se obtienen los siguientes resultados muestrales
* $\overline{X}=2.84 s$ y $S_X^2=0.48s$
* $\overline{Y}=3.02s$ y $S_Y^2=0.42s$

Verificar si con ambas herramiantas podemos decir que realiza la tarea en el mismo tiempo estadístico al 5% de significación

In [30]:
n=20
m=20
mu1=2.84
mu2=3.02
s1=np.sqrt(0.48)
s2=np.sqrt(0.42)
alpha=0.05
criterio=st.t.ppf(1-alpha/2,n+m-2)
E=np.sqrt((n+m-2)/(1/n+1/m))*np.abs(mu1-mu2)/np.sqrt((n-1)*s1+(m-1)*s2)
E,criterio

(np.float64(0.695168709319588), np.float64(2.024394163911969))

Como el estimador es más pequeño que el criterio de aceptación, entonces aceptamos el test y decimos que al 5% de significación, ambas realizaciones son estadísticamente iguales