# Clase: Teorema del límite central e introducción a las pruebas de hipótesis

In [None]:
# Dependencies and Setup
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import linregress
import scipy.stats as stats
import seaborn as sns
from scipy.stats import norm
from scipy.stats import t
from scipy import stats

# Omiting WARNINGS
import warnings
warnings.filterwarnings('ignore')

In [None]:
#!pip install pandas

## 1. Importación de datos:
* Source: A. Bhatnagar and V.K. Mehta (2007). "Efficacy of Deltamethrin and Cyfluthrin Impregnated Cloth Over Uniform Against Mosquito Bites,"Medical Journal Armed Forces India, Vol. 63, pp. 120-122.

* Description: Comparison of 5 pretreated patches to reduce mosquito human contact. 

* 30 replicates per treatment.

* Treatments:

1=Odomos, 2=Deltamethrin, 3=Cyfluthrin, 4=D+O, 5=C+O

* Variables: treatment mosq - The number of mosquitoes caught in one hour (Per Man-Hour Mosquito Catch)

In [None]:
# Importamos datos:
df = pd.read_csv("mosquito.csv")

#df = pd.read_csv("../../Datos/mosquito.csv")

df.head()

## 2. Graficamos datos

In [None]:
# Gráfica simple Histograma - K-density
X = df['mosq']
sns.distplot(X, hist = True, kde = True,
             bins = 5, color = 'red',
             hist_kws={'edgecolor':'darkred'},
             kde_kws={'linewidth': 3})

In [None]:
# Gráfica con más adecuaciones: títulos de ejes y de gráfica
X = df['mosq']
#
fig, ax = plt.subplots()
fig = sns.distplot(X, hist = True, kde = True,
             bins=8, color = 'blue',
             hist_kws={'edgecolor':'darkblue'},
             kde_kws={'linewidth': 3})
ax.set_xlabel('Mosquitos capturados')
ax.set_ylabel('Frequency')
ax.set_title('Histograma mosquitos capturados')
plt.show()

In [None]:
# Gráfica con más adecuaciones
X = df['mosq']
#
fig, ax = plt.subplots()
fig = sns.distplot(X, hist = True, kde = True,
             bins=8, color = 'blue',
             hist_kws={'edgecolor':'darkblue'},
             kde_kws={'linewidth': 3})
ax.set_xlabel('Mosquitos capturados')
ax.set_ylabel('Frequency')
ax.set_title('Histograma mosquitos capturados')
plt.axvline(X.mean(), color = 'green', linestyle = 'dashed', linewidth = 2) # agregamos línea vertical
min_ylim, max_ylim = plt.ylim() # Extraemos límites del eje Y
plt.text(X.mean()*1.1, max_ylim*0.9, 'Mean: {:.2f}'.format(X.mean())) # Colocamos texto especificando coordenadas
plt.text(15, 0.08, 'Ejemplo')
plt.show()

# H1
## H2
### H3

Texto

$\theta$

$X_i$

$\frac{y_i}{ a^5 } = F_{random}$

## 3. El Teorema del Límite Central

**TEO**. Sea una muestra aleatoria $\{ W_1, W_2, \ldots, W_n \}$. Supongamos que la pdf asociada a cada $W_i$ tiene una media $\mu$ y una varianza $\sigma^2$. Para cualesquiera valores $a$ y $b$:
    \begin{equation*}
        \lim_{n \rightarrow \infty} P \left( a \leq \frac{W_1 + W_2 + \ldots + W_n - n \mu}{\sqrt{n} \sigma} \leq b \right) = \frac{1}{\sqrt{2 \pi}} \int_a^b e^{- \frac{z^2}{2}} dz
    \end{equation*}

Del teorema anterior podemos mostrar los siguientes resultados. Partamos de la primer parte de la ecuación del teorema:
\begin{eqnarray*}
    P \left( a \leq \frac{W_1 + \ldots + W_n - n \mu}{\sqrt{n} \sigma} \leq b \right) & = & P \left( a \leq \frac{\frac{W_1 + \ldots + W_n}{n} - \mu}{\frac{\sigma}{\sqrt{n}}} \leq b \right) \\
    & = & P \left( a \leq \frac{\overline{W} - \mu}{\frac{\sigma}{\sqrt{n}}} \leq b \right)
\end{eqnarray*}

Por lo tanto, de acuerdo con el Teorema del Límite Central, tomanndo el límite podemos afirmar que para cualquier muestra aleatoria de una pdf, cuando $n$ tiende a infinito, lo siguiente será cierto:
\begin{equation*}
    \lim_{n \rightarrow \infty} P \left( a \leq \frac{\overline{W} - \mu}{\frac{\sigma}{\sqrt{n}}} \leq b \right) = \frac{1}{\sqrt{2 \pi}} \int_a^b e^{- \frac{z^2}{2}} dz
\end{equation*}


In [None]:
# Media y Desviación Estándar de la población:
Mu = df['mosq'].mean()
Sigma = df['mosq'].std()

# Imprimimos el resultado de la Media y Desviación Estándar
Mu, Sigma

In [None]:
# Muestreo:
df['mosq'].sample(n = 5, replace = True)

In [None]:
# Media de la muestra
df['mosq'].sample(n = 5, replace = True).mean()

In [None]:
# Tranformación Z (asumiendo que la media y desviación calculas son las poblacionales)
(df['mosq'].sample(n = 5, replace = True).mean() - Mu)/(Sigma/np.sqrt(5))

In [None]:
# Haciendo un loop con un FOR:
for i in range(1, 5):
    print(f'Esta es la iteración: {i}')

In [None]:
# 
Arreglo = ['Elemento 1', 'Elemento 2', 'Elemento 3', 'Elemento 4']

for i in Arreglo:
    print(f'Esta es la iteración: {i}')

In [None]:
# Sistematizamos MUESTREO
# Arreglos para ir guardando las medias muestrales de K muestras
array1 = []
array2 = []
array3 = []
array4 = []

# El muestreo será repetido...
K = 300

# LOOP para hacer K muestreos de diferentes tamaños de muestra:
n1 = 10
n2 = 30
n3 = 60
n4 = 1000

# Hacemos 
for i in range(1, K):
    array1.append((df['mosq'].sample(n = n1, replace = True).mean() - Mu)/(Sigma/np.sqrt(n1)))
    array2.append((df['mosq'].sample(n = n2, replace = True).mean() - Mu)/(Sigma/np.sqrt(n2)))
    array3.append((df['mosq'].sample(n = n3, replace = True).mean() - Mu)/(Sigma/np.sqrt(n3)))
    array4.append((df['mosq'].sample(n = n4, replace = True).mean() - Mu)/(Sigma/np.sqrt(n4)))

In [None]:
#array4

## 4. Grafiquemos los resultados

In [None]:
# Caso n1
fig, ax = plt.subplots()
fig = sns.distplot(array1, hist = True, kde = True,
             bins = 9, color = 'y',
             hist_kws={'edgecolor':'black'},
             kde_kws={'linewidth': 4})
ax.set_xlabel('Z')
ax.set_ylabel('Frequency')
ax.set_title('Sample size = n1')
plt.axvline(np.mean(array1), color = 'k', linestyle = 'dashed', linewidth = 1)
min_ylim, max_ylim = plt.ylim()
plt.text(np.mean(array1)*1.1, max_ylim*0.9, 'Mean: {:.2f}'.format(np.mean(array1)))
plt.show()

In [None]:
# Caso n2
fig, ax = plt.subplots()
fig = sns.distplot(array2, hist=True, kde=True,
             bins = 9, color = 'm',
             hist_kws={'edgecolor':'black'},
             kde_kws={'linewidth': 4})
ax.set_xlabel('Z')
ax.set_ylabel('Frequency')
ax.set_title('Sample size = n2')
plt.axvline(np.mean(array2), color = 'k', linestyle = 'dashed', linewidth = 1)
min_ylim, max_ylim = plt.ylim()
plt.text(np.mean(array2)*1.1, max_ylim*0.9, 'Mean: {:.2f}'.format(np.mean(array2)))
plt.show()

In [None]:
# Caso n3
fig, ax = plt.subplots()
fig = sns.distplot(array3, hist = True, kde = True,
             bins = 9, color = 'g',
             hist_kws={'edgecolor':'black'},
             kde_kws={'linewidth': 4})
ax.set_xlabel('Z')
ax.set_ylabel('Frequency')
ax.set_title('Sample size = n3')
plt.axvline(np.mean(array3), color = 'k', linestyle = 'dashed', linewidth = 1)
min_ylim, max_ylim = plt.ylim()
plt.text(np.mean(array3)*1.1, max_ylim*0.9, 'Mean: {:.2f}'.format(np.mean(array3)))
plt.show()

In [None]:
# Caso n4
fig, ax = plt.subplots()
fig = sns.distplot(array4, hist = True, kde = True,
             bins = 9, color = 'b',
             hist_kws={'edgecolor':'black'},
             kde_kws={'linewidth': 4})
ax.set_xlabel('Z')
ax.set_ylabel('Frequency')
ax.set_title('Sample size = n4')
plt.axvline(np.mean(array4), color = 'k', linestyle = 'dashed', linewidth = 1)
min_ylim, max_ylim = plt.ylim()
plt.text(np.mean(array4)*1.1, max_ylim*0.9, 'Mean: {:.2f}'.format(np.mean(array4)))
plt.show()

## 5. Pruebas de Hipótesis paras Medias

Sea $\{ X_1, X_2, \ldots, X_n \}$ una muestra aleatoria de tamaño $n$ de una población con función de densidad de probabilidad normal estándar ($N(0, 1)$), donde $\sigma$ es conocida. Sea:
\begin{equation*}
    Z = \frac{\overline{X} - \mu_0}{\frac{\sigma}{\sqrt{n}}}
\end{equation*}

En este caso cabe aclarar que todas las pruebas estan basadas en muestras aleatorias tomadas de poblaciones con distribuciones normales o, en su caso, son muestras suficientemente grandes ($n > 30$) para utilizar la aproximación normal que nos da el uso del Teorema del Límite Central. Partamos suponiendo que queremos probar alguna de las siguientes hipótesis:
\begin{eqnarray}
    H_0 & : & \mu = \mu_0 \nonumber \\
    H_a & : & 
        \begin{cases}
            \mu \neq \mu_0 \\
            \text{ o } \\
            \mu > \mu_0 \\
            \text{ o } \\
            \mu < \mu_0
        \end{cases}
    \label{H0_Medias}
\end{eqnarray}


Dada la hipótesis nula proponemos las siguientes regiones críticas o de su rechazo respectivas a las hipótesis alternativas en la ecuación anterior:
\begin{equation*}
    \begin{cases}
        | Z | \geq z_{\alpha/2} \\
        \text{ o } \\
        Z \geq z_\alpha \\
        \text{ o } \\
        Z \leq - z_\alpha
    \end{cases}
\end{equation*}


In [None]:
# Establescamos los parámetros de la normal:
Mu = 8.8 
Sigma = 10

# Muestras de una Normal (Mu, Sigma)
np.random.normal(Mu, Sigma, 5)

In [None]:
# Muestra para aplicar Hipótesis:

# Tamaño:
n = 15

#
Sample = np.random.normal(Mu, Sigma, n)
Sample

In [None]:
Sample.mean()

Supongamos que queremos probar que la hipótesis de que la muestra tiene una media igual a la media de donde se extrajo la muestra, contra la alternativa de que la media es menor:
$$H_0 : \mu = 8.8$$
$$H_1 : \mu < 8.8$$

In [None]:
# Transformación Z:

Z = (Sample.mean() - Mu)/(Sigma/np.sqrt(n))
Z

In [None]:
# Utilizamos la función de probabilidad acumulada:

norm.cdf(0), norm.cdf(1.96), norm.cdf(- 1.96)

In [None]:
1 - norm.cdf(1.96)

In [None]:
# ¿Aceptamos o rechazamos la Hipótesis Nula?

P_Value = 1 - norm.cdf(abs(Z))
P_Value

¿Qué pasa cuando desconocemos la varianza? En esos casos, al igual que en los intervalos de confianza, utilizaremos una estadística:
\begin{equation*}
    T = \frac{\overline{X} - \mu_0}{\frac{\hat{\sigma}}{\sqrt{n}}} \sim t_{[n - 1]}
\end{equation*}

En estos casos, de forma similar queremos probar las hipótesis de la ecuación mostradas anteriormente, para la cual proponemos las siguientes regiones críticas o de su rechazo, respectivamente,  con las hipótesis alternativas:
\begin{equation*}
    \begin{cases}
        | T | \geq t_{[\alpha/2, n -1]} \\
        \text{ o } \\
        T \geq t_{[\alpha, n -1]} \\
        \text{ o } \\
        T \leq - t_{[\alpha, n -1]}
    \end{cases}
\end{equation*}

In [None]:
# Tomaremos 1 muestra de nuestro Data Frame de mosquitos:
Mu = df['mosq'].mean()

Mu

In [None]:
# Muestra de la base
N = 20

Sample = df['mosq'].sample(n = N, replace = True)
Sample

In [None]:
# Desviación estándar:
Sigma = Sample.std()
Sigma

Supongamos que queremos probar que la hipótesis de que la muestra tiene una media igual a la media de donde se extrajo la muestra, contra la alternativa de que la media es menor:
$$H_0 : \mu = 7$$
$$H_1 : \mu > 7$$

In [None]:
# Transformación T:
Media = Sample.mean()

T = (Media - Mu)/(Sigma/np.sqrt(N))

Media, T

In [None]:
1 - t.cdf(abs(T), N - 1)