## **Pregunta 3: Teorema del Límite Central**

Cree una variable $X$ con 50 valores aleatorios que sea distribuida como una distribución chi2 con 1 grado de libertad.

Calcule el promedio de la serie $\bar{x}$ y sabiendo que teóricamente la $E(x)=1$ y $SD(x)=1$ genere el valor de Z de la siguiente manera:

$$Z=\sqrt{N}*(\bar{x}-E(x))/SD(x)$$

Donde N=50 representa el tamaño de muestra. 
	• Realice el procedimiento 10000 veces guardando los resultados en un vector $Z1$. Finalmente muestre si la distribución del vector $Z1$ se distribuye como una normal mediante un test.
	
    • Realice el mismo procedimiento para un N=100, 200, 500, y 1000. Reporte los resultados del test de normalidad y concluya.




In [19]:
import numpy as np
from scipy import stats
import warnings
warnings.filterwarnings("ignore")

In [28]:
N = [50, 100, 200, 500, 1000]
Z_INDEX = [[] for _ in range(len(N))]
n_iter = 10000
for i, n in enumerate(N):
    for _ in range(n_iter):
        X = np.random.chisquare(1, n)
        mean_x = np.mean(X)
        Z = np.sqrt(n) * (mean_x - 1) / 1
        Z_INDEX[i].append(Z)

**Test de normalidad Shapiro-Wilk**

Me decanté con el presente test para determinar si una distribución es normal o no porque es muy útil cuando se tiene una muestra de datos pequeña y porque es más sensible en muestras más grande permitiendo determinar con mayor precisión la normalidad de la distribución porque al sesgo mínimo que se encuentra en muestras más grandes rechazaría la hipótesis nula. Existen pruebas como Kolmogorov-Smirnov que también pueden ser utilizadas para determinar si una distribución es normal, pero Shapiro-Wilk es más sensible a muestras grandes provocando que la convergencia de la prueba sea más lenta hacia la normalidad.

$$
H_0: X \sim N(\mu, \sigma^2) \\
H_1: X \not\sim N(\mu, \sigma^2)
$$

In [29]:
p_values = []
for i, _ in enumerate(N):
    statistic, p_value = stats.shapiro(Z_INDEX[i])
    p_values.append(p_value)

for i, v in enumerate(N):
    print(f"El p-value para la muestra N = {v} es {p_values[i]}. {'Se rechaza la hipótesis nula' if p_values[i] < 0.05 else 'No se rechaza la hipótesis nula'}")

El p-value para la muestra N = 50 es 3.664706049580657e-26. Se rechaza la hipótesis nula
El p-value para la muestra N = 100 es 6.066787750752978e-17. Se rechaza la hipótesis nula
El p-value para la muestra N = 200 es 1.7386161411319597e-10. Se rechaza la hipótesis nula
El p-value para la muestra N = 500 es 1.6082268499033756e-05. Se rechaza la hipótesis nula
El p-value para la muestra N = 1000 es 0.006544548322817772. Se rechaza la hipótesis nula


Luego de evaluar los resultados para cada una de las muestras, determiné que se rechaza la hipótesis nula de normalidad de los datos. Sabemos que la Teoría del Límite Central indica que independientemente de la distribución inicial de los datos, a medida que se tenga una muestra más grande con media y desviación estándar, la distribución de la muestra tendrá tendencia a una distribución normal. Por ello, observamos que el $p_{values}$ en cada una de las iteraciones de las muestras tiende a ser mayor o igual a 0.05, entonces, necesitamos evaluarlo en muestras aún más grandes para comprobar la Teoría del Límite Central.