# PRÁCTICO 6: ANÁLISIS ESTADÍSTICO DE DATOS SIMULADOS.

## Ejercicio 1
Genere $n$ valores de una variable aleatoria normal estándar de manera tal que se cumplan
las condiciones: $n ≥ 100$ y $S/\sqrt{n} < 0,1$, siendo $S$ el estimador de la desviación estándar de los $n$ datos generados.

a) ¿Cuál es el número de datos generados efectivamente?

b) ¿Cuál es la media muestral de los datos generados?

c) ¿Cuál es la varianza muestral de los datos generados?

### Solución

In [98]:
from math import sqrt
from random import normalvariate

def Ejercicio1(d=0.1):
    Media = normalvariate()
    Scuad, n = 0, 1
    while n<100 or sqrt(Scuad/n) >= d:
        n += 1
        X = normalvariate()
        MediaAnt = Media
        Media = MediaAnt + (X - MediaAnt) / n 
        Scuad = Scuad * (1 - 1 /(n-1)) + n*(Media - MediaAnt)**2
    return n, Media, Scuad

n, Media, Scuad = Ejercicio1()
print("a) Número de datos generados efectivamente: ", n)
print("b) Media muestral de los datos generados: ", Media)
print("c) Varianza muestral de los datos generados: ", Scuad/n)

a) Número de datos generados efectivamente:  100
b) Media muestral de los datos generados:  0.04240613257002359
c) Varianza muestral de los datos generados:  0.009637941048498917


## Ejercicio 2
Estime mediante el método de Monte Carlo la integral

$$i) \int_0^1 \frac{e^x}{\sqrt{2x}} dx, \quad ii)\int_{-\infty}^\infty x^2 e^{-x^2} dx$$

a) Indique cómo se obtiene mediante simulación el valor de la integral.

b) Genere al menos 100 valores y deténgase cuando la desviación estándar muestral $S$ del estimador sea menor que 0,01.

### Desarrollo

El valor de la integral se obtiene evaluando un número $n$ de puntos aleatorios en la función a integrar y promediando los valores obtenidos.

ii)

$$\int_{-\infty}^\infty x^2 e^{-x^2} dx = 2\int_0^\infty x^2 e^{-x^2} dx$$

### Solución

In [99]:
from random import random
import numpy as np

def g_i(x):
    return np.exp(x)/sqrt(2*x)

def g_ii(x):
    return (x**2) * np.exp(-x**2)

def Ejercicio2i(d=.01):
    Integral = g_i(random())
    Scuad, n = 0, 1
    while n<100 or sqrt(Scuad/n) >= d:
        n += 1
        X = g_i(random())
        IntegralAnt = Integral
        Integral = IntegralAnt + (X - IntegralAnt) / n 
        Scuad = Scuad * (1 - 1 /(n-1)) + n*(Integral - IntegralAnt)**2
    return n, Integral, Scuad

n, Integral, Scuad = Ejercicio2i()
print("i)")
print("Número de datos generados efectivamente: ", n)
print("Valor de la integral estimado: ", Integral)
print("Varianza de la integral estimada: ", Scuad/n)
print("Desviación estandar de la integral estimada: ", sqrt(Scuad/n))

def Ejercicio2ii(d=.01):
    U = random()
    Integral = g_ii(1/U-1) / (U**2)
    Scuad, n = 0, 1
    while n<100 or sqrt(Scuad/n) >= d:
        n += 1
        U = random()
        X = g_ii(1/U-1) / (U**2)
        IntegralAnt = Integral
        Integral = IntegralAnt + (X - IntegralAnt) / n 
        Scuad = Scuad * (1 - 1 /(n-1)) + n*(Integral - IntegralAnt)**2
    return n, Integral, Scuad

n, Integral, Scuad = Ejercicio2ii()
print("\nii)")
print("Número de datos generados efectivamente: ", n)
print("Valor de la integral estimado: ", 2*Integral)
print("Varianza de la integral estimada: ", Scuad/n)
print("Desviación estandar de la integral estimada: ", sqrt(Scuad/n))

i)
Número de datos generados efectivamente:  29148
Valor de la integral estimado:  2.0670213631504226
Varianza de la integral estimada:  9.999989484398381e-05
Desviación estandar de la integral estimada:  0.009999994742197808

ii)
Número de datos generados efectivamente:  3066
Valor de la integral estimado:  0.8721166923301206
Varianza de la integral estimada:  9.997001225315302e-05
Desviación estandar de la integral estimada:  0.009998500500232673


## Ejercicio 3
Calcule mediante un método de Monte Carlo las siguientes integrales:

$$i) \int_{\pi}^{2\pi} \frac{\sin x}{x} dx \quad ii) \int_0^{\infty} \frac{3}{3+x^4} dx$$

a) Obtenga mediante simulación en computadora el valor de la integral deteniendo la simulación cuando el semi-ancho del intervalo de confianza del 95% sea justo inferior a 0,001.

b) Indique cuál es el número de simulaciones $N_s$ necesarias en la simulación realizada para lograr la condición pedida y complete con los valores obtenidos la siguiente tabla (usando 4 decimales):

$$
\begin{array}{|c|c|c|c|}
    \hline
    \text{Nro de sim.} & \bar I & S & IC(95\%) \\ \hline
    1000 &  &  &  \\ \hline
    5000 &  &  &  \\ \hline
    7000 &  &  &  \\ \hline
    N_s= &  &  &  \\ \hline
\end{array}
$$

### Solución

In [111]:
from math import pi, sin

def g_i(x):
    return sin(x)/x

def Ejercicio3ai(z_alfa_2=.025, L=.002):
    d = L / (2 * z_alfa_2)
    Integral = g_i(pi*(1+random()))
    Scuad, n = 0, 1
    while n <= 100 or sqrt(Scuad/n) > d:
        n += 1
        X = g_i(pi*(1+random()))
        IntegralAnt = Integral
        Integral = IntegralAnt + (X - IntegralAnt) / n
        Scuad = Scuad * (1 - 1 /(n-1)) + n*(Integral - IntegralAnt)**2
    return n, Integral, Scuad

n, Integral, Scuad = Ejercicio3ai()
print("i)")
print("Número de datos generados efectivamente: ", n)
print("Valor de la integral estimado: ", round(Integral,4))
print("Varianza de la integral estimada: ", round(Scuad/n,4))
print("Desviación estandar de la integral estimada: ", round(sqrt(Scuad/n),4))
print("Intervalo de confianza: (", round(Integral - 1.96 * sqrt(Scuad)/sqrt(n), 4), ",", round(Integral + 1.96 * sqrt(Scuad)/sqrt(n), 4), ")")        

def g_ii(x):
    return 3/(3+x**4)

def Ejercicio3aii(z_alfa_2=.025, L=.002):
    d = L / (2 * z_alfa_2)
    U = random()
    Integral = g_ii(1/U-1) / (U**2)
    Scuad, n = 0, 1
    while n <= 100 or sqrt(Scuad/n) > d:
        n += 1
        U = random()
        X = g_ii(1/U-1) / (U**2)
        IntegralAnt = Integral
        Integral = IntegralAnt + (X - IntegralAnt) / n
        Scuad = Scuad * (1 - 1 /(n-1)) + n*(Integral - IntegralAnt)**2
    return n, Integral, Scuad

n, Integral, Scuad = Ejercicio3aii()
print("\nii)")
print("Número de datos generados efectivamente: ", n)
print("Valor de la integral estimado: ", round(Integral,4))
print("Varianza de la integral estimada: ", round(Scuad/n,4))
print("Desviación estandar de la integral estimada: ", round(sqrt(Scuad/n),4))
print("Intervalo de confianza: (", round(Integral - 1.96 * sqrt(Scuad)/sqrt(n), 4), ",", round(Integral + 1.96 * sqrt(Scuad)/sqrt(n), 4), ")")        

i)
Número de datos generados efectivamente:  101
Valor de la integral estimado:  -0.1313
Varianza de la integral estimada:  0.0
Desviación estandar de la integral estimada:  0.007
Intervalo de confianza: ( -0.1451 , -0.1175 )

ii)
Número de datos generados efectivamente:  617
Valor de la integral estimado:  1.4221
Varianza de la integral estimada:  0.0016
Desviación estandar de la integral estimada:  0.04
Intervalo de confianza: ( 1.3438 , 1.5005 )


In [105]:
def Ejercicio3bi(Nsim):
    Integral = g_i(pi*(1+random()))
    Scuad = 0
    for n in range(2, Nsim+1):
        X = g_i(pi*(1+random()))
        IntegralAnt = Integral
        Integral = IntegralAnt + (X - IntegralAnt) / n
        Scuad = Scuad * (1 - 1 /(n-1)) + n*(Integral - IntegralAnt)**2
    return Integral, Scuad

print("i)")
for Nsim in [1000,5000,7000]:
    Integral, Scuad = Ejercicio3bi(Nsim)
    print()
    print("Nsim: ", Nsim)
    print("\tValor de la integral estimado: ", round(Integral,4))
    print("\tVarianza de la integral estimada: ", round(Scuad/Nsim,4))
    print("\tDesviación estandar de la integral estimada: ", round(sqrt(Scuad/Nsim),4))
    print("\tIntervalo de confianza: (", round(Integral - 1.96 * sqrt(Scuad)/sqrt(Nsim), 4), ",", round(Integral + 1.96 * sqrt(Scuad)/sqrt(Nsim), 4), ")")        

def Ejercicio3bii(Nsim):
    U = random()
    Integral = g_ii(1/U-1) / (U**2)
    Scuad = 0
    for n in range(2, Nsim+1):
        U = random()
        X = g_ii(1/U-1) / (U**2)
        IntegralAnt = Integral
        Integral = IntegralAnt + (X - IntegralAnt) / n
        Scuad = Scuad * (1 - 1 /(n-1)) + n*(Integral - IntegralAnt)**2
    return Integral, Scuad

print("\nii)")
for Nsim in [1000,5000,7000]:
    Integral, Scuad = Ejercicio3bii(Nsim)
    print()
    print("Nsim: ", Nsim)
    print("\tValor de la integral estimado: ", round(Integral,4))
    print("\tVarianza de la integral estimada: ", round(Scuad/Nsim,4))
    print("\tDesviación estandar de la integral estimada: ", round(sqrt(Scuad/Nsim),4))
    print("\tIntervalo de confianza: (", round(Integral - 1.96 * sqrt(Scuad)/sqrt(Nsim), 4), ",", round(Integral + 1.96 * sqrt(Scuad)/sqrt(Nsim), 4), ")")        


i)

Nsim:  1000
	Valor de la integral estimado:  -0.1356
	Varianza de la integral estimada:  0.0
	Desviación estandar de la integral estimada:  0.0022
	Intervalo de confianza: ( -0.1398 , -0.1313 )

Nsim:  5000
	Valor de la integral estimado:  -0.1377
	Varianza de la integral estimada:  0.0
	Desviación estandar de la integral estimada:  0.0009
	Intervalo de confianza: ( -0.1396 , -0.1359 )

Nsim:  7000
	Valor de la integral estimado:  -0.1375
	Varianza de la integral estimada:  0.0
	Desviación estandar de la integral estimada:  0.0008
	Intervalo de confianza: ( -0.1391 , -0.136 )

ii)

Nsim:  1000
	Valor de la integral estimado:  1.4136
	Varianza de la integral estimada:  0.0009
	Desviación estandar de la integral estimada:  0.0308
	Intervalo de confianza: ( 1.3532 , 1.474 )

Nsim:  5000
	Valor de la integral estimado:  1.4753
	Varianza de la integral estimada:  0.0002
	Desviación estandar de la integral estimada:  0.0139
	Intervalo de confianza: ( 1.4481 , 1.5025 )

Nsim:  7000
	Valor

i)

$$
\begin{array}{|c|c|c|c|}
    \hline
    \text{Nro de sim.} & \bar I & S & IC(95\%) \\ \hline
    1000 & -0.1335 & 0.0022 & ( -0.1396, -0.131 ) \\ \hline
    5000 & -0.139 & 0.001 & ( -0.1418, -0.1381 ) \\ \hline
    7000 & -0.1372 & 0.0008 & ( -0.138, -0.1348 ) \\ \hline
    N_s=101 & -0.1401 & 0.0067 & ( -0.1451 , -0.1175 ) \\ \hline
\end{array}
$$

ii)

$$
\begin{array}{|c|c|c|c|}
    \hline
    \text{Nro de sim.} & \bar I & S & IC(95\%) \\ \hline
    1000 & 1.4989 & 0.0316 & ( 1.4371, 1.5608 ) \\ \hline
    5000 & 1.451 & 0.0137 & ( 1.4241, 1.4779 ) \\ \hline
    7000 & 1.4496 & 0.0115 & ( 1.427, 1.4722 ) \\ \hline
    N_s=582 & 1.4639 & 0.04 & ( 1.3438 , 1.5005 ) \\ \hline
\end{array}
$$

## Ejercicio 4
Para $U_1,U_2,...$ variables aleatorias uniformemente distribuidas en el intervalo $(0,1)$, se define:

$$N = \min\{n : \sum_{i=1}^nU_i>1\}$$

Esto es, $N$ es igual a la cantidad de números aleatorios que deben sumarse para exceder a $1$.

a) Observe que $E[N] = e$ por lo cual puede aproximar $e$ con la media muestral $\bar N$.

b) Derive una expresión de la varianza del estimador $\bar N$ y aproxímela con $1000$ simulaciones. Dar su estimador de máxima verosimilitud.

c) Dé el valor obtenido de la varianza muestral de $\bar N$ correspondiente a $1000$ ejecuciones de la simulación y dar una estimación de e mediante un intervalo de confianza de $95%$ con longitud a lo sumo $0.025$.

### Desarrollo

b) Por lo desarrollado en el práctico 3 (aproximaciones al valor de $e$)

$$e = E[n]\approx\frac1m\sum_{i=1}^m n_i = \bar N, \quad P[N=n] = \frac{n-1}{n!}$$

Luego

$$
\begin{align}
    Var(N) &= E[N^2] - E[N]^2 \nonumber \\
    &= E[N^2] - e^2 \nonumber \\
    &= \sum_{n=1}^\infty n^2 P(N=n) - e^2 \nonumber \\
    &= \sum_{n=1}^\infty n^2 \frac{n-1}{n!} - e^2 \nonumber \\
    &= \sum_{n=2}^\infty n^2 \frac{n-1}{n!} - e^2 \nonumber \\
    &= \sum_{n=2}^\infty n \frac{n-1}{(n-1)!} - e^2 \nonumber \\
    &= \sum_{n=2}^\infty\frac n{(n-2)!} - e^2 \nonumber \\
    &= \sum_{k=0}^\infty\frac{k+2}{k!} - e^2 \nonumber \\
    &= \sum_{k=0}^\infty\frac{k}{k!} + \sum_{k=0}^\infty\frac{2}{k!} - e^2 \nonumber \\
    &= \sum_{k=1}^\infty\frac1{(k-1)!} + 2\sum_{k=0}^\infty\frac1{k!} - e^2 \nonumber \\
    &= e + 2e - e^2 \nonumber \\
    &= 3e - e^2 \nonumber \\
\end{align}
$$

Y, finalmente,

$$Var(\bar N) = Var(\frac1m \sum_{i=1}^m N_i) = \frac1{m^2} Var(\sum_{i=1}^m N_i)=\frac1m Var(N) =
\frac{Var(N)}{m} = \frac{3e - e^2}{m}$$

Por otro lado, como 

$$Var(\bar N) = \frac1m(3E[n] - E[n]^2),$$

y $\bar N$ es un estimador insesgado de $E[N]$, entonces por la propiedad de la invarianza (dada en PyE), luego 

$$\frac1m(3\bar N - \bar N^2)$$

es un estimador insesgado de $Var(\bar N)$

### Solución

In [114]:
def generarN():
    U = random()
    n = 1
    while U <= 1:
        U += random()
        n += 1
    return n

def ejercicio4b(Nsim):
    Media = generarN()
    Scuad, n = 0, 1
    for n in range(2, Nsim+1):
        X = generarN()
        MediaAnt = Media
        Media = MediaAnt + (X - MediaAnt) / n
        Scuad = Scuad * (1 - 1 /(n-1)) + n*(Media - MediaAnt)**2
    return Media, Scuad

print("b)")
Media, Scuad = ejercicio4b(1000)
print("\tAproximación de la media: ", Media)
print("\tVarianza de la media: ", (3*Media - Media**2)/1000)

def ejercicio4c(z_alfa_2=.025, L=.025):
    d = L / (2 * z_alfa_2)
    Media = generarN()
    Scuad, n = 0, 1
    while n <= 100 or sqrt(Scuad / n) > d:
        n += 1
        X = generarN()
        MediaAnt = Media
        Media = MediaAnt + (X - MediaAnt) / n
        Scuad = Scuad * (1 - 1 /(n-1)) + n*(Media - MediaAnt)**2
    return Media

print("c)")
Media, Scuad = ejercicio4b(1000)
print("\tAproximación de la media: ", Media)
print("\tVarianza de la media: ", (3*Media - Media**2)/1000)

b)
	Aproximación de la media:  2.7489999999999988
	Varianza de la media:  0.0006899990000000029
c)
	Aproximación de la media:  2.7750000000000026
	Varianza de la media:  0.0006243749999999934


## Ejercicio 5

Considere una sucesión de números aleatorios $\{U_i\}_i$ y sea $M$ el primer $n$ tal que la variable $U_n$ es menor que su variable predecesora. Es decir,

$$M = n \text{ tal que } U_1 \leq U_2 \leq \cdots \leq U_{n-1} \text{ y } U_n < U_{n-1}$$

a) Justifique que $P(M > n) = \frac1{n!}, n \geq 0$.

b) Utilice la identidad

$$E[M] = \sum_{n=0}^\infty P(M > n)$$

para mostrar que $E[M] = e$.

c) Utilice el resultado del item anterior para dar un estimador de $E[M]$, calcule el valor de su varianza muestral. Mediante una simulación estime el valor de $e$ deteniéndose cuando la varianza muestral sea menor que $0,01$.

d) Dé una estimación de $e$ mediante un intervalo de ancho menor que $0,1$ y con una confianza del $95%$.

## Ejercicio 6
Estime π sorteando puntos uniformemente distribuidos en el cuadrado cuyos vértices son: (1,1), (−1,1), (−1,−1), (1,−1), y contabilizando la fracción que cae dentro del círculo inscrito de radio 1.

a) Utilice un algoritmo para estimar la proporción de puntos que caen dentro del círculo y deténgase cuando la desviación estandar muestral del estimador sea menor que 0,01.

b) Obtenga un intervalo de ancho menor que 0,1, el cual contenga a π con el 95% de confianza. ¿Cuántas ejecuciones son necesarias?

### Solución

In [131]:
def simularPunto():
    x = 2 * random() - 1
    y = 2 * random() - 1
    return x**2 + y**2 <= 1

def estimador_p(d=.01):
    p = 0
    n = 0
    while n <= 100 or sqrt( p * (1-p) / n) > d:
        n += 1
        X = simularPunto()
        p = p + (X - p) / n
    return p, n

p, n = estimador_p()
print("a)")
print("\tNúmero de datos generados efectivamente: ", n)
print("\tValor de la probabilidad estimada: ", p)
print("\tVarianza de la probabilidad estimada: ", p*(1-p)/n)

def estimador_p(z_alfa_2=.025,L=.01):
    d = L / (2 * z_alfa_2)
    p = 0; n = 0
    while n <= 100 or sqrt(p * (1 - p) / n) > d:
        n += 1
        X = simularPunto()
        p = p + (X - p) / n
    return p

p = estimador_p()
print("b)")
print("\tNúmero de datos generados efectivamente: ", n)
print("\tValor de la probabilidad estimada: ", p)
print("\tVarianza de la probabilidad estimada: ", p*(1-p)/n)

a)
	Número de datos generados efectivamente:  1632
	Valor de la probabilidad estimada:  0.7947303921568636
	Varianza de la probabilidad estimada:  9.99595563352092e-05
b)
	Número de datos generados efectivamente:  1632
	Valor de la probabilidad estimada:  0.8415841584158416
	Varianza de la probabilidad estimada:  8.169133745057675e-05



NOTA: Para estos ejercicios, estudiar

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2.html

Otra bibliografia interesante es

https://relopezbriega.github.io/blog/2016/06/29/distribuciones-de-probabilidad-con-python/

No utilice implementaciones personales de densidades a menos que el ejercicio se lo pida exactamente.

Convención general: al obtener valores decimales suponemos una distribución continua.

## Ejercicio 7

De acuerdo con la teoría genética de Mendel, cierta planta de guisantes debe producir flores blancas, rosas o rojas con probabilidad 1/4, 1/2 y 1/4, respectivamente. Para verificar experimentalmente la teoría, se estudió una muestra de 564 guisantes, donde se encontró que 141 produjeron flores blancas, 291 flores rosas y 132 flores rojas. Aproximar el p-valor de esta muestra:

a) utilizando la prueba de Pearson con aproximación chi-cuadrada,

b) realizando una simulación.

### Desarrollo

$$T=\sum_{i=1}^{k}\frac{(N_i-np_i)^2}{np_i} =
\frac{(141-564\times\frac14)^2}{564\times\frac14}+
\frac{(291-564\times\frac12)^2}{564\times\frac12}+
\frac{(132-564\times\frac14)^2}{564\times\frac14}\approx 0.86
$$

$$
p-valor = P(\Chi^2_2\geq 0.86) = 0.65
$$

### Solución

In [152]:
from numpy.random import multinomial
from scipy.stats import chi2

def ejercicio6a():
    T = (141-564*.25)**2/(564*.25) + (291-564*.5)**2/(564*.5) + (132-564*.25)**2/(564*.25)
    pvalor = 1 - chi2.cdf(T, 2)
    return pvalor

pvalor = ejercicio6a()
print("a)")
print("\tp-valor: ", pvalor)

def ejercicio6b(Nsim=1000):
    T = (141-564*.25)**2/(564*.25) + (291-564*.5)**2/(564*.5) + (132-564*.25)**2/(564*.25)
    pvalor = 0
    for _ in range(Nsim):
        N = multinomial(564, [0.25, 0.5, 0.25])
        N1, N2, N3 = N
        t = (N1-564*.25)**2/(564*.25) + (N2-564*.5)**2/(564*.5) + (N3-564*.25)**2/(564*.25)
        if t >= T:
            pvalor += 1
    return pvalor / Nsim

pvalor = ejercicio6b()
print("b)")
print("\tp-valor: ", pvalor)

a)
	p-valor:  0.6499557054800363
b)
	p-valor:  0.664


## Ejercicio 8

Para verificar que cierto dado no estaba trucado, se registraron 1000 lanzamientos, resultando que el número de veces que el dado arrojó el valor i (i = 1,2,3,4,5,6) fue, respectivamente, 158, 172, 164, 181, 160, 165. Aproximar el p−valor de la prueba: “el dado es honesto”

a) utilizando la prueba de Pearson con aproximación chi-cuadrada,

b) realizando una simulación.

### Desarrollo

"el dado es honesto" quiere decir $p_i=\frac16$ para $i=1,2,3,4,5,6$

### Solución

In [154]:
def ejercicio8a():
    muestra = [158, 172, 164, 181, 160, 165]
    T = 0
    for i in muestra:
        T += (i-1000/6)**2 / (1000/6)
    pvalor = 1 - chi2.cdf(T, 5)
    return pvalor

pvalor = ejercicio8a()
print("a)")
print("\tp-valor: ", pvalor)

def ejercicio8b(Nsim=1000):
    muestra = [158, 172, 164, 181, 160, 165]
    T = 0
    for i in muestra:
        T += (i-1000/6)**2 / (1000/6)
    pvalor = 0
    for _ in range(Nsim):
        N = multinomial(1000, [1/6]*6)
        t = 0
        for i in N:
            t += (i-1000/6)**2 / (1000/6)
        if t >= T:
            pvalor += 1
    return pvalor / Nsim

pvalor = ejercicio8b()
print("b)")
print("\tp-valor: ", pvalor)

a)
	p-valor:  0.8237195392577814
b)
	p-valor:  0.815


## Ejercicio 9
Calcular una aproximación del p−valor de la hipótesis: “Los siguientes 10 números son aleatorios”: 
$$0.12, 0.18, 0.06, 0.33, 0.72, 0.83, 0.36, 0.27, 0.77, 0.74.$$

## Ejercicio 10
Calcular una aproximación del p−valor de la hipótesis: “Los siguientes 13 valores provienen de una distribución exponencial con media 50,0”:

$$86.0, 133.0, 75.0, 22.0, 11.0, 144.0, 78.0, 122.0, 8.0, 146.0, 33.0, 41.0, 99.0$$

## Ejercicio 11
Calcular una aproximación del p−valor de la prueba de que los siguientes datos corresponden a una distribución binomial con parámetros (n = 8, p), donde p no se conoce:

$$6, 7, 3, 4, 7, 3, 7, 2, 6, 3, 7, 8, 2, 1, 3, 5, 8, 7.$$

### Desarrollo

Sea $X$ la variable aleatoria que representa a la variable binomial, entonces $E[X]=np$, por lo que se puede estimar $p$ como

$$\hat p = \bar X / n = (89/18)/8 = 89/144 \approx 0.62.$$

Luego, podemos calcular las frecuencias observadas y las probabilidades teóricas para cada valor de $X$:

$$N_0=0, N_1 = 1, N_2 = 2, N_3 = 4, N_4 = 1, N_5 = 1, N_6 = 2, N_7 = 5, N_8 = 2$$

$$P(X=0) = (1-p)^8, 
P(X=1) = 8p(1-p)^7,
P(X=2) = 28p^2(1-p)^6,
P(X=3) = 56p^3(1-p)^5,
P(X=4) = 70p^4(1-p)^4,
P(X=5) = 56p^5(1-p)^3,
P(X=6) = 28p^6(1-p)^2,
P(X=7) = 8p^7(1-p),
P(X=8) = p^8$$ 

### Solución

In [172]:
def ejercicio11():
    p = 89/144
    ip = 1 - p
    frecuencias = [0,1,2,4,1,1,2,5,2]
    probabilidades = [ip**8, 8*p*ip**7, 28*p**2*ip**6, 56*p**3*ip**5, 70*p**4*ip**4, 56*p**5*ip**3, 28*p**6*ip**2, 8*p**7*ip, p**8]
    
    T = 0
    for i in range(9):
        T += (frecuencias[i] - 18 * probabilidades[i])**2 / (18 * probabilidades[i])
    pvalor = 1 - chi2.cdf(T, 7)

    return pvalor

pvalor = ejercicio11()
print("p-valor: ", "{:.5f}".format(pvalor))

p-valor:  0.00005


## Ejercicio 12
Un escribano debe validar un juego en cierto programa de televisión. El mismo consiste en hacer girar una rueda y obtener un premio según el sector de la rueda que coincida con una aguja. Hay 10 premios posibles, y las áreas de la rueda para los distintos premios, numerados del 1 al 10, son respectivamente:

$$31\%, 22\%, 12\%, 10\%, 8\%, 6\%, 4\%, 4\%, 2\%, 1\%.$$

Los premios con número alto (e.j. un auto 0Km) son mejores que los premios con número bajo (e.j. 2x1 para entradas en el cine). El escribano hace girar la rueda hasta que se cansa, y anota cuántas veces sale cada sector. Los resultados, para los premios del 1 al 10, respectivamente, son:

$$ 188, 138, 87, 65, 48, 32, 30, 34, 13, 2.$$

(a) Construya una tabla con los datos disponibles

(b) Diseñe una prueba de hipótesis para determinar si la rueda es justa

(c) Defina el p-valor a partir de la hipótesis nula

(d) Calcule el p-valor bajo la hipótesis de que la rueda es justa, usando la aproximación chi cuadrado

(e) Calcule el p-valor bajo la hipótesis de que la rueda es justa, usando una simulación.


## Ejercicio 13
Generar los valores correspondientes a 30 variables aleatorias exponenciales independientes, cada una con media 1. Luego, en base al estadístico de prueba de Kolmogorov-Smirnov, aproxime el p−valor de la prueba de que los datos realmente provienen de una distribución exponencial con media 1.

## Ejercicio 14
Se sortean elementos de un conjunto de datos que tiene una distribución t-student de 11 grados de libertad. El investigador, que no conoce la forma verdadera de la distribución, asume que la misma es normal. Analice la validez de esta suposición para muestras de tamaños 10, 20, 100 y 1000 elementos Para ello realice simulaciones numéricas e implemente el test de Kolmogorov-Smirnov a los datos simulados, asumiendo una distribución N(0,1). Presente los resultados en una tabla que contenga el número de elementos de la simulación, el valor del estadístico D y el p−valor.

Ayuda: Función de probabilidad normal: Para obtener la función de probabilidad normal, se puede usar la función math.erf. Por ejemplo, la cantidad math.erf(x/math.sqrt(2.))/2.+0.5 equivale a

$$Z x = \int_{-\infty}^x N(0,1)(t)dt$$

Ayuda: Generación de números aleatorios con una distribución t-student: Utilice el siguiente código para generar números aleatorios que siguen una distribución T-student:

```python

import math
import random
def rt(df): # df grados de libertad
    x = random.gauss(0.0, 1.0)
    y = 2.0*random.gammavariate(0.5*df, 2.0)
    return x / (math.sqrt(y/df))
```

## Ejercicio 15
En un estudio de vibraciones, una muestra aleatoria de 15 componentes del avión fueron sometidos a fuertes vibraciones hasta que se evidenciaron fallas estructurales. Los datos proporcionados son los minutos transcurridos hasta que se evidenciaron dichas fallas.

$$1.6, 10.3, 3.5, 13.5, 18.4, 7.7, 24.3, 10.7, 8.4, 4.9, 7.9, 12, 16.2, 6.8, 14.7$$

Pruebe la hipótesis nula de que estas observaciones pueden ser consideradas como una muestra de la distribución exponencial.

## Ejercicio 16
Decidir si los siguientes datos corresponden a una distribución Normal:

$$91.9, 97.8, 111.4, 122.3, 105.4, 95.0, 103.8, 99.6, 96.6, 119.3, 104.8, 101.7$$

Calcular una aproximación del p−valor.