# Ejemplo 5.2 de Johnson & Wichern (2007) usando $T^2$
<img src="https://raw.githubusercontent.com/fhernanb/fhernanb.github.io/master/my_docs/logo_unal_color.png" alt="drawing" width="200"/>

En este ejemplo se desea estudiar el siguiente conjunto de hipótesis de abajo usando un nivel de significancia de $0.10$ y considerando los datos de la tabla 5.1 del texto.

$H_0: \boldsymbol{\mu} = (4, 50, 10)^\top$

$H_A: \boldsymbol{\mu} \neq (4, 50, 10)^\top$

In [1]:
import numpy as np
import pandas as pd
import scipy.stats

La tabla 5.1 está en el archivo table5-1.txt en la carpeta donde está este notebook. La tabla se puede cargar así:

In [2]:
dt = pd.read_table("table5-1.txt", sep=" ")
print(dt)

    sweat_rate  sodium  potassium
0          3.7    48.5        9.3
1          5.7    65.1        8.0
2          3.8    47.2       10.9
3          3.2    53.2       12.0
4          3.1    55.5        9.7
5          4.6    36.1        7.9
6          2.4    24.8       14.0
7          7.2    33.1        7.6
8          6.7    47.4        8.5
9          5.4    54.1       11.3
10         3.9    36.9       12.7
11         4.5    58.8       12.3
12         3.5    27.8        9.8
13         4.5    40.2        8.4
14         1.5    13.5       10.1
15         8.5    56.4        7.1
16         4.5    71.6        8.2
17         6.5    52.8       10.9
18         4.1    44.1       11.2
19         5.5    40.9        9.4


<div class="alert alert-danger">
  <strong>Cuidado!</strong> Se debe verificar que la muestra aleatoria provenga de una población normal multivariada. Aquí vamos a asumir que este supuesto se cumple.
</div>

Vamos a convertir el dt que es de clase pandas dataframe a un array de numpy para poder hacer operaciones matriciales.

In [3]:
dt = dt.to_numpy()
print(dt)

[[ 3.7 48.5  9.3]
 [ 5.7 65.1  8. ]
 [ 3.8 47.2 10.9]
 [ 3.2 53.2 12. ]
 [ 3.1 55.5  9.7]
 [ 4.6 36.1  7.9]
 [ 2.4 24.8 14. ]
 [ 7.2 33.1  7.6]
 [ 6.7 47.4  8.5]
 [ 5.4 54.1 11.3]
 [ 3.9 36.9 12.7]
 [ 4.5 58.8 12.3]
 [ 3.5 27.8  9.8]
 [ 4.5 40.2  8.4]
 [ 1.5 13.5 10.1]
 [ 8.5 56.4  7.1]
 [ 4.5 71.6  8.2]
 [ 6.5 52.8 10.9]
 [ 4.1 44.1 11.2]
 [ 5.5 40.9  9.4]]


El vector de medias **muestral** se obtiene así:

In [4]:
x_barra = np.mean(dt, axis=0)
x_barra = np.matrix(x_barra).T  # Para convertir a matriz columna
print(x_barra) 

[[ 4.64 ]
 [45.4  ]
 [ 9.965]]


La matriz de varianzas **muestral** conocida se construye así:

In [5]:
S = np.cov(dt.T)
print(S)

[[  2.87936842  10.01        -1.80905263]
 [ 10.01       199.78842105  -5.64      ]
 [ -1.80905263  -5.64         3.62765789]]


El vector de referencia es $\boldsymbol{\mu}_0=(4, 50, 10)^\top$.

In [6]:
mu0 = [[4], [50], [10]]
mu0

[[4], [50], [10]]

Ahora calculamos $T^2=n (\bar{\boldsymbol{x}}-\boldsymbol{\mu}_0)^\top \textbf{S}^{-1} (\bar{\boldsymbol{x}}-\boldsymbol{\mu}_0)$, la cantidad $(\bar{\boldsymbol{x}}-\boldsymbol{\mu}_0)$ se va a llamar `aux` para facilitar las operaciones.

In [7]:
n = 20 # número de observaciones
aux = np.matrix((x_barra - mu0)) # Elemento auxiliar
S_inv = np.linalg.inv(S)
T2 = n * np.matmul(np.matmul(aux.transpose(), S_inv), aux)
T2.item()  # Para obtener el T2 como un escalar y no como una matriz

9.738772855435645

El valor crítico para realizar la prueba es $\frac{p(n-1)}{n-p}F_{p, n-p}(\alpha)$. Para obtener el valor crítico con $\alpha=0.10$ se procede así:

In [8]:
p = 3 # Número de variables en el problema
n = 20
scipy.stats.f.ppf(q=1-0.10, dfn=p, dfd=n-p) * p * (n-1) / (n-p) # Valor crítico

8.17257253712065

<div class="alert alert-success">
  <strong>Resultado</strong> Como el estadístico es $T^2=9.74$, que es mayor que el valor crítico $8.17$, entonces hay evidencias suficientes para rechazar $H_0: \boldsymbol{\mu} = (4, 50, 10)^\top$.
</div>