# Apuntes de Estadísticas

---

## Test de Bondad de Ajuste

La bondad de ajuste de un modelo estadístico describe lo bien que se ajusta un conjunto de observaciones. Las medidas de bondad en general resumen la discrepancia entre los valores observados y los valores esperados en el modelo de estudio. Tales medidas se pueden emplear en el contraste de hipótesis, por ejemplo:
- realizar el test de normalidad de los residuos (evaluar si los residuos siguen una distribución normal)
- comprobar si dos muestras se obtienen a partir de dos distribuciones idénticas (test de Kolmogorov-Smirnov)
- comprobar si las frecuencias de los datos siguen una distribución específica (chi cuadrado - $\chi^2$) 

La prueba $\chi^2$ de bondad de ajuste es un test de hipótesis estadística que se usa para averiguar si es probable que una variable provenga o no de una distribución específica. Se emplea a menudo para determinar si los datos de una muestra son representativos de la población completa.


#### Fórmula de test $\chi^2$ de bondad de ajuste

$$\chi^2 = \sum_{i=1}^{N} \frac{(o_{i} - e_{i})^{2}}{e_{i}}$$

$$o_{i} = \textit{datos observados}$$
$$e_{i} = \textit{valor esperado}$$


#### Como realizar el test con un ejemplo

Supongamos la siguiente lista de los 3 posibles candidados y la siguiente muestra de los votos de cada uno de los candidatos.

|  Lista de Candidatos | Nº de Votos |
|:-------------:|:--------:|
|            1 |      61 |
|            2 |      53 |
|            3 |      36 |
|**Total** |      *150* |


- **Paso 1**: Plantear la Hipótesis Nula ($H_{0}: \textit{Hipótesis Objetivo}$)

Supongamos que no existe preferencia alguna por ninguno de los 3 candidatos, por lo tanto, la probabilidad de elección es equiprobable, es decir, distribuye uniforme. Por lo tanto , la hipótesis alternativa planteada es lo contrario, es decir, que existe un candidado con preferencia por sobre el resto (no se sabe cuál).

$$H_{0}: p_{1} = p_{2} = p_{3} = \frac{1}{3} = 0.33$$

$$H_{a}: \exists!   p_{i} \neq p_{j}$$

- **Paso 2**: Estimar el Valor Esperado ($e_{i}$)

$$e_{1} = n·p_{1} = 150·0.33 = 50$$
$$e_{2} = n·p_{2} = 150·0.33 = 50$$
$$e_{3} = n·p_{3} = 150·0.33 = 50$$

- **Paso 3**: Estimar el estadístico de prueba obtenido (1 entrada) ($\chi_{obt}^{2}$)

$$\chi_{obt}^{2} =\sum_{i=1}^{N} \frac{(o_{i} - e_{i})^{2}}{e_{i}} = \frac{(61 - 50)^2}{50} + \frac{(53 - 50)^2}{50} + \frac{(36 - 50)^2}{50} = 6.52$$

- **Paso 4**: Encontrar valor crítico en tabla ($\chi_{1-\alpha}^{2(Columnas-1)}$)


$$\chi_{\alpha}^{2(Columnas-1)} = \chi_{0.05}^{2(3-1)} = \chi_{0.05}^{2(2)} = 5.99$$


> **TIP**: Calcular $\chi^2$ Doble Entrada $\rightarrow$
En caso de ser una tabla de doble entrada: $\chi_{\alpha}^{2(Columnas-1)(Filas-1)} = \chi_{\alpha}^{2(2-1)(2-1)} = \chi_{0.05}^{2(1)}$


- **Paso 5**: Comparar los $\chi^2$

\begin{align*}
\chi_{obt}^{2} & > \chi_{0.05}^{2(2)} \\
6.52 & > 5.99
\end{align*}

$$\therefore \text{SE RECHAZA } H_{0} \Rightarrow \text{Existe un candidado con mayor preferencia}$$


#### Intervalos de Confianza

Los intervalos de confianza nos permiten aproximar, una vez calculado el valor de la variable en la muestra, entre qué rango de valores se encuentra el valor real inaccesible de la variable en la población, con un grado de incertidumbre que podemos determinar.

- **Cuando se conoce la media y la desviación estandar**

$$\hookrightarrow \textit{Si } n < 30 \Rightarrow \textit{Usar Tabla t-Student}$$
$$\bar{x} \pm t_{\frac{\alpha}{2}}^{n-1}·\frac{S}{\sqrt{n}}$$
$$S = \sum_{i=0}^{N} \frac{(x_{i} - \bar{x})^2}{n-1}$$


$$\hookrightarrow \textit{Si } n > 30 \Rightarrow \textit{Usar Tabla Normal}$$
$$\bar{x} \pm Z_{\frac{\alpha}{2}}·\frac{S}{\sqrt{n}}$$
$$(*) Z_{\frac{0.10}{2}} = Z_{0.05} = 1.65 \text{ (90%)}$$
$$(*) Z_{\frac{0.05}{2}} = Z_{0.025} = 1.96 \text{ (95%)}$$
$$(*) Z_{\frac{0.01}{2}} = Z_{0.005} = 2.58 \text{ (99%)}$$


- **Cuando se tienen proporciones** (Test funciona con valor de n grande)

$$\bar{P} \pm Z_{\frac{\alpha}{2}}·\sqrt{\frac{(1 - \bar{p})·\bar{p}}{n}}$$


$$\hookrightarrow \textit{Si } n·\bar{p} ≤ 15 \land n·(1-\bar{p}) ≤ 15\Rightarrow \textit{Usar Tabla t-Student } (t_{\frac{\alpha}{2}}^{n-1})$$

$$\hookrightarrow \textit{Si } n·\bar{p} > 15 \land n·(1-\bar{p}) > 15\Rightarrow \textit{Usar Tabla Normal } (Z_{\frac{\alpha}{2}})$$


- **Intervalo de Confianza con la varianza**
    - La varianza se asemeja a una distribución $\chi^2$, no a una distribución normal.

$$IC(varianza) = IC(\sigma^2) = \frac{(n-1)·S^2}{\chi_{\frac{\alpha}{2}}^{2}} ≤ \sigma^2 ≤ \frac{(n-1)·S^2}{\chi_{1 - \frac{\alpha}{2}}^{2}}$$


#### Tests Estadísticos y Cuando Usarlos

- **Test $\chi^2$**: Se utiliza cuando se tienen **2 variables categóricas**.
- **T-Test**: Se utiliza cuando se tiene **1 variable numérica**.
- **One Sample Proportion Test**: Se utiliza cuando se tiene **1 variable categórica**.
- **Pearson Correlation**: Se utiliza cuando se tienen **2 variables numéricas**.
- **ANOVA Test**: Se utiliza cuando se tiene **1 variable categórica y 1 variable numérica**.


---

## Método de Simulación Monte Carlo

#### Proceso de Abstracción - Ejemplo de ATM

El proceso de abstracción consiste en tomar un objeto del mundo real como por ejemplo un cajero automático y llevarlo a un modelo, de forma de encontrar la **mejor configuración** para luego poder llevarlos devuelta al mundo real, sin necesidad de realizar los experimentos en el mundo real en donde puede resultar peligroso y costoso, en contraste con realizarlo en un modelo estadístico virtual. Esto es la escencia de la ingeniería de procesos industriales.

**Determinación Matemática de un Cajero** (Construir un modelo para mejorar el mundo)
1. Contar el tiempo entre las llegadas consecutivas de personas al cajero automático.
2. Posteriormente, recopilar los datos en un software (Excel) y realizar un histograma con los resultados obtenidos.
3. Luego, se aplica el test de bondad de ajuste y empleando $\chi^2$, se determina la distribución de probabilidad que se ve reflejada en el histograma.
4. Una vez determinada la distribución de probabilidad del cajero (el tiempo entre llegada de personas distribuye ~ $exp(\lambda)$), se aplica el método de Monte Carlo, el cuál integra la distribución de probabilidad para determinar la distribución de probabilidad acumulada para poder generar variables aleatorias con el fin de poder generar un modelo con el cuál se pueda trabajar.
5. Luego, podemos determinar cuál es la mejor configuración para llevar el modelo al mundo real.

> **TIP Nº1 - Cantidad de Bins/Intervalos en el Histograma**: Para saber cuantos intervalos ocupar, se una la raíz cuadrada de la cantidad de datos, con un tope de 40 intervalos o bins. Si tengo 100 datos, la cantidad de bins va a ser igual a 10 en el histograma.

> **TIP Nº2 - Comparar 2 Cajeros para saber si uno es mejor**: Pasos a seguir. 1) Calcular la media/promedio de todos los datos. 2) Calcular la diferencia entre la media del ATM viejo - ATM nuevo para cada una de las muestras ($ATM_{viejo} - ATM_{nuevo}$). 3) Calcular el intervalo de confianza (IC) para las diferencias obtenidas. 4) Conclusión, si en el IC el valor 0 se encuentra contenido dentro del intervalo, se puede concluir que estadísticamente ambos sistemas pueden llegar a comportarse de la misma manera.


#### Método de Monte Carlo

- Algoritmos que Componen el Método
    - *Algoritmo de Congruencia Lineal*: Generar números aleatorios entre 0 y 1.
        - Características: 
            - Los números aleatorios entre 0 y 1 son independientes entre sí (sucesos independientes).
            - Tienen igual probabilidad de ser elegidos, es decir, distribuyen de forma uniforme.
    - *Algoritmo de Transformada Inversa*: Luego, estos números son entregados a un generador de variables aleatorias.
        - Características:
            - Estos valores que se entregan al generador de variables, genera variables aleatorias con los números entre 0 y 1 mediante la distribución de probabilidad que se determinó en el test de bondad de ajuste.
            
            
#### Algoritmo de Congruencia Lineal

Genera una secuencia de números enteros $x_{1}, x_{2}, \dots$ entre $0$ y $(m-1)$ números, por medio de la relación recursiva

$$X_{i+1} = (aX_{i} + c)·mod(m), \textit{ con } i = 0, 1, 2, \dots$$

$$donde$$
$$X_{0} \rightarrow \textit{Valor Semilla (dado)}$$
$$a \rightarrow \textit{Multiplicador}$$
$$C \rightarrow \textit{Incremento}$$
$$m \rightarrow \textit{Módulo, realiza la división y se queda con el resto (Si m es muy pequeño se comienzan a repetir los valores entre 0 y 1)}$$
$$R_{i} = \frac{X_{i}}{m}, \textit{ con } i = 1, 2, 3, \dots \rightarrow \textit{valores entre 0 y 1, usados para el algoritmo de transformada inversa}$$


#### Algoritmo de Transformada Inversa

Etapas:
1. Determinar la distribución de probabilidad o función de densidad de probabilidad de los datos.
2. Una vez determinada la distribución, estimar la distribución de probabilidad acumulada ($F(t)$), integrando la función de densidad de probabilidad ($f(t)$).

$$F(t) = \int_{-\infty}^{X} f(t) dt = R_{i}$$

3. Posterior a la integración, se iguala a $R$ obtenido del método de congruencia lineal, para luego despejar la variable aleatoria $X$ de la distribución de probabilidad determinada. Al despejar la variable $X$, **se encuentra el generador de variables aleatorias**. 

**Ejemplo Algoritmo de Transformada Inversa**

$$f(t) = \frac{2x}{8} \Rightarrow F(t) = \int \frac{2x}{8} dx = \frac{x^2}{8} = R_{i}$$

$$\textit{Despejando }X \Rightarrow \sqrt{8R_{i}} \textit{ (Generador de Variables Aleatorias)}$$

## Método de ANOVA de 1 Factor

- El análisis de varianza ayuda a determinar si existe una diferencia entre los distintos grupos de datos.


- Hipótesis:
    - $H_{0}: \textit{Supone que todas las medias son iguales } \Rightarrow \mu_{A} = \mu_{B} = \mu_{C}= \mu_{D}$
    - $H_{a}: \textit{Supone que al menos 1 par de medias difieren } \Rightarrow \exists \mu_{i} \neq \mu_{j} \forall (i,j) \in [A,B,C,D]$
    
    
- Con la Tabla de Fisher se puede comprobar si se rechaza o no la hipótesis nula $H_{0}$
    - Si *F es Grande*: Lo comparo con el nivel de significancia (p-value) es pequeño (tiende a 0 o menor a la significancia del 5% por lo general) 
    
$$\Rightarrow \textit{ Rechazo } H_{0}$$

- ANOVA compara por lo menos 3 o más medias ($\mu$) mediante la F de Fisher.


- Errores:
    - Error Tipo *I*: Acepta $H_{a}$, dado que $H_{0}$ es erronea
        - Alpha ($\alpha$): Probabilidad de cometer un errir tipo *I*
    - Error Tipo *II*: Acepta $H_{0}$, dado que $H_{a}$ es erronea
        - Beta ($\beta$): Probabilidad de cometer un errir tipo *II*
        

- Fórmula de ANOVA

$$SST = SSC + SSE$$


$$donde$$
$$SST \rightarrow \textit{Suma de Cuadrados Totales} = \sum (X_{i} - \overline{\overline{X}})^2,$$
$$\textit{ donde } X_{i} \textit{ representa cada dato y } \overline{\overline{X}} \textit{ es la media global}$$



$$SSC \rightarrow \textit{Suma de Cuadrados de Columnas} = \sum k(\overline{X_{i}} - \overline{\overline{X}})^2, $$
$$\overline{X_{i}} \textit{ representa el promedio de cada grupo, y } k \textit{ representa la cantidad de grupos (unique values)}$$



$$SSE \rightarrow \textit{Suma de Cuadrados de Error}$$
$$SSE = SST - SSC$$


> **TIP**: Es Bueno que *SSC > SSE*

## Lista de test estadísticos, usos y ejemplos.

*Source*: [Ver Test Estadísticos en Python](https://machinelearningmastery.com/statistical-hypothesis-tests-in-python-cheat-sheet/)

1. **Test de Normalidad** - Test que se utilizan para comprobar que los datos poseen una distribución Normal ($\,\mathcal{N}$). Cada test posee sus respectivos supuestos.
    - Shapiro-Wilk Test
    - D’Agostino’s K^2 Test
    - Anderson-Darling Test
    
    
2. **Test de Correlación** - Test que se utilizan para verificar si 2 muestras se encuentran relacionadas.
    - Pearson’s Correlation Coefficient
    - Spearman’s Rank Correlation
    - Kendall’s Rank Correlation
    - Chi-Squared Test
    
    
3. **Test de Analisis de Estacionariedad** - Test que se utilizan para verificar si la serie de tiempo se encuentra en estado estacionario o no.
    - Augmented Dickey-Fuller
    - Kwiatkowski-Phillips-Schmidt-Shin
    
    
4. **Test de Hipótesis Estadísticos Paramétricos** - Test que se utilizan para realizar comparaciones entre muestras de datos.
    - Student’s t-test
    - Paired Student’s t-test
    - Analysis of Variance Test (ANOVA)
    - Repeated Measures ANOVA Test
    
    
5. **Test de Hipótesis Estadísticos No Paramétricos** - Test que se utilizan cuando no se requiere cumplir con una distribución de probabilidad en particular, para lograr cumplir con los supuestos básicos del test para poder ser analizados (especialmente si los datos no poseen una distribución Normal). Debido a esta razon, estos test también son conocidos como "Test Libres de Distribuciones".
    - Mann-Whitney U Test
    - Wilcoxon Signed-Rank Test
    - Kruskal-Wallis H Test
    - Friedman Test

## Test de Normalidad

1. **Shapiro-Wilk Test**
    - *Función*: Se utiliza para probar si los datos poseen uns distribución Normal o Gaussiana.
    - *Supuestos*:
        - Las observaciones de la muestra deben ser independiente e identicamente distribuidas ($iid$).
    - *Interpretación*:
        - $H_{0}: \textit{ La muestra de datos posee una distribución normal}$
        - $H_{a}: \textit{ La muestra de datos no posee una distribución normal}$

In [24]:
# Shapiro-Wilk Normality Test
from scipy.stats import shapiro

data = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
stat, p_val = shapiro(data)
print("Shapiro-Wilk Normality Test")
print("=" *30,'\n')
print(f"Estadístico de Prueba: {stat:.3f}\nP-Value: {p_val:.3f}")

# Interpretacion p-value
if p_val > 0.05:
    print('''\t\tComo p-value es MAYOR a 5% = 0.05 NO SE PUEDE RECHAZAR la hipotesis nula, 
            y por tanto, la muestra de datos posiblemente posee una distribución normal.''')
else:
    print('''Como p-value es MENOR a 5% = 0.05 SI SE PUEDE RECHAZAR la hipotesis nula, 
y por tanto, la muestra de datos no posee una distribución normal.''')

Shapiro-Wilk Normality Test

Estadístico de Prueba: 0.895
P-Value: 0.193
		Como p-value es MAYOR a 5% = 0.05 NO SE PUEDE RECHAZAR la hipotesis nula, 
            y por tanto, la muestra de datos posiblemente posee una distribución normal.


2. **D’Agostino’s K^2 Test**
    - *Función*: Se utiliza para probar si los datos poseen uns distribución Normal o Gaussiana.
    - *Supuestos*:
        - Las observaciones de la muestra deben ser independiente e identicamente distribuidas ($iid$).
    - *Interpretación*:
        - $H_{0}: \textit{ La muestra de datos posee una distribución normal}$
        - $H_{a}: \textit{ La muestra de datos no posee una distribución normal}$

In [25]:
# D'Agostino's K^2 Normality Test
from scipy.stats import normaltest

data = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
stat, p_val = normaltest(data)
print("D'Agostino's K^2 Normality Test")
print("=" *30,'\n')
print(f"Estadístico de Prueba: {stat:.3f}\nP-Value: {p_val:.3f}")

# Interpretacion p-value
if p_val > 0.05:
    print('''\t\tComo p-value es MAYOR a 5% = 0.05 NO SE PUEDE RECHAZAR la hipotesis nula, 
            y por tanto, la muestra de datos posiblemente posee una distribución normal.''')
else:
    print('''Como p-value es MENOR a 5% = 0.05 SI SE PUEDE RECHAZAR la hipotesis nula, 
y por tanto, la muestra de datos probablemente no posee una distribución normal.''')

D'Agostino's K^2 Normality Test

Estadístico de Prueba: 3.392
P-Value: 0.183
		Como p-value es MAYOR a 5% = 0.05 NO SE PUEDE RECHAZAR la hipotesis nula, 
            y por tanto, la muestra de datos posiblemente posee una distribución normal.




3. **Anderson-Darling Test**
    - *Función*: Se utiliza para probar si los datos poseen uns distribución Normal o Gaussiana.
    - *Supuestos*:
        - Las observaciones de la muestra deben ser independiente e identicamente distribuidas ($iid$).
    - *Interpretación*:
        - $H_{0}: \textit{ La muestra de datos posee una distribución normal}$
        - $H_{a}: \textit{ La muestra de datos no posee una distribución normal}$

In [26]:
# Example of the Anderson-Darling Normality Test
from scipy.stats import anderson

data = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
result = anderson(data)

print('stat=%.3f' % (result.statistic))
for i in range(len(result.critical_values)):
    sl, cv = result.significance_level[i], result.critical_values[i]
    if result.statistic < cv:
        print('Probably Gaussian at the %.1f%% level' % (sl))
    else:
        print('Probably not Gaussian at the %.1f%% level' % (sl))

stat=0.424
Probably Gaussian at the 15.0% level
Probably Gaussian at the 10.0% level
Probably Gaussian at the 5.0% level
Probably Gaussian at the 2.5% level
Probably Gaussian at the 1.0% level


## Test de Correlación

1. **Pearson’s Correlation Coefficient**
    - *Función*: Se utiliza para probar si los datos poseen una relación lineal entre ellos.
    - *Supuestos*:
        - Las observaciones de la muestra deben ser independiente e identicamente distribuidas ($iid$).
        - Las observaciones de la muestra deben tener distribución normal.
        - Las observaciones de la muestra poseen la misma varianza.
    - *Interpretación*:
        - $H_{0}: \textit{ Las 2 muestras de datos son independientes entre sí}$
        - $H_{a}: \textit{ Las 2 muestras de datos no son independientes entre sí}$

In [27]:
# Example of the Pearson's Correlation Test
from scipy.stats import pearsonr

data1 = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
data2 = [0.353, 3.517, 0.125, -7.545, -0.555, -1.536, 3.350, -1.578, -3.537, -1.579]

stat, p_val = pearsonr(data1, data2)
print("Pearson's Correlation Test")
print("=" *30,'\n')
print('stat=%.3f, p=%.3f' % (stat, p_val))

# Interpretacion p-value
if p_val > 0.05:
    print('''\t\tComo p-value es MAYOR a 5% = 0.05 NO SE PUEDE RECHAZAR la hipotesis nula, 
            y por tanto, entre las muestras de datos son posiblemente independientes entre sí.''')
else:
    print('''\t\tComo p-value es MENOR a 5% = 0.05 SI SE PUEDE RECHAZAR la hipotesis nula, 
            y por tanto, entre las muestras de datos no son probablemente independientes entre sí.''')

Pearson's Correlation Test

stat=0.688, p=0.028
		Como p-value es MENOR a 5% = 0.05 SI SE PUEDE RECHAZAR la hipotesis nula, 
            y por tanto, entre las muestras de datos no son probablemente independientes entre sí.


2. **Spearman’s Rank Correlation**
    - *Función*: Se utiliza para probar si los datos poseen una relación monotónica entre ellos.
    - *Supuestos*:
        - Las observaciones de la muestra deben ser independiente e identicamente distribuidas ($iid$).
        - Las observaciones de la muestra deben poder ser rankeables.
    - *Interpretación*:
        - $H_{0}: \textit{ Las 2 muestras de datos son independientes entre sí}$
        - $H_{a}: \textit{ Las 2 muestras de datos existe una dependencia entre sí}$

In [32]:
# Example of the Spearman's Rank Correlation Test
from scipy.stats import spearmanr

data1 = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
data2 = [0.353, 3.517, 0.125, -7.545, -0.555, -1.536, 3.350, -1.578, -3.537, -1.579]

stat, p_val = spearmanr(data1, data2)
print("Spearman's Rank Correlation Test")
print("=" *30,'\n')
print('stat=%.3f, p=%.3f' % (stat, p_val))

# Interpretacion p-value
if p_val > 0.05:
    print('''\t\tComo p-value es MAYOR a 5% = 0.05 NO SE PUEDE RECHAZAR la hipotesis nula, 
            y por tanto, entre las muestras de datos son posiblemente independientes entre sí.''')
else:
    print('''\t\tComo p-value es MENOR a 5% = 0.05 SI SE PUEDE RECHAZAR la hipotesis nula, 
            y por tanto, entre las muestras de datos no son probablemente independientes entre sí.''')

Spearman's Rank Correlation Test

stat=0.855, p=0.002
		Como p-value es MENOR a 5% = 0.05 SI SE PUEDE RECHAZAR la hipotesis nula, 
            y por tanto, entre las muestras de datos no son probablemente independientes entre sí.


3. **Kendall’s Rank Correlation**
    - *Función*: Se utiliza para probar si los datos poseen una relación monotónica entre ellos.
    - *Supuestos*:
        - Las observaciones de la muestra deben ser independiente e identicamente distribuidas ($iid$).
        - Las observaciones de la muestra deben poder ser rankeables.
    - *Interpretación*:
        - $H_{0}: \textit{ Las 2 muestras de datos son independientes entre sí}$
        - $H_{a}: \textit{ Las 2 muestras de datos existe una dependencia entre sí}$

In [33]:
# Example of the Kendall's Rank Correlation Test
from scipy.stats import kendalltau

data1 = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
data2 = [0.353, 3.517, 0.125, -7.545, -0.555, -1.536, 3.350, -1.578, -3.537, -1.579]

stat, p_val = kendalltau(data1, data2)

print("Kendall's Rank Correlation Test")
print("=" *30,'\n')
print('stat=%.3f, p=%.3f' % (stat, p_val))

# Interpretacion p-value
if p_val > 0.05:
    print('''\t\tComo p-value es MAYOR a 5% = 0.05 NO SE PUEDE RECHAZAR la hipotesis nula, 
            y por tanto, entre las muestras de datos son posiblemente independientes entre sí.''')
else:
    print('''\t\tComo p-value es MENOR a 5% = 0.05 SI SE PUEDE RECHAZAR la hipotesis nula, 
            y por tanto, entre las muestras de datos no son probablemente independientes entre sí.''')

Kendall's Rank Correlation Test

stat=0.733, p=0.002
		Como p-value es MENOR a 5% = 0.05 SI SE PUEDE RECHAZAR la hipotesis nula, 
            y por tanto, entre las muestras de datos no son probablemente independientes entre sí.


4. **Chi-Squared Test**
    - *Función*: Se utiliza para probar si 2 variables categóricas se encuentran relacionadas o son independientes entre sí.
    - *Supuestos*:
        - Las observaciones de la muestra deben ser independientes dentro de la tabla de contingencia.
        - 25 o más observaciones para cada una de las celdas de la tabla de contingencia.
    - *Interpretación*:
        - $H_{0}: \textit{ Las 2 muestras de datos son independientes entre sí}$
        - $H_{a}: \textit{ Las 2 muestras de datos existe una dependencia entre sí}$

In [34]:
# Example of the Chi-Squared Test
from scipy.stats import chi2_contingency

table = [[10, 20, 30],[6,  9,  17]]
stat, p_val, dof, expected = chi2_contingency(table)

print("Chi-Squared Test")
print("=" *30,'\n')
print('stat=%.3f, p=%.3f' % (stat, p_val))

# Interpretacion p-value
if p_val > 0.05:
    print('''\t\tComo p-value es MAYOR a 5% = 0.05 NO SE PUEDE RECHAZAR la hipotesis nula, 
            y por tanto, entre las muestras de datos son posiblemente independientes entre sí.''')
else:
    print('''\t\tComo p-value es MENOR a 5% = 0.05 SI SE PUEDE RECHAZAR la hipotesis nula, 
            y por tanto, entre las muestras de datos no son probablemente independientes entre sí.''')

Chi-Squared Test

stat=0.272, p=0.873
		Como p-value es MAYOR a 5% = 0.05 NO SE PUEDE RECHAZAR la hipotesis nula, 
            y por tanto, entre las muestras de datos son posiblemente independientes entre sí.


## Test de Estado Estacionario

1. **Augmented Dickey-Fuller Unit Root Test**
    - *Función*: Se utiliza para probar si la serie de tiempo posee unidad de raíz, por ejemplo, tiene una tendencia (trend) o mas generalmete es autoregresiva.
    - *Supuestos*:
        - Las observaciones de la muestra deben estar en orden cronológico.
    - *Interpretación*:
        - $H_{0}: \textit{ Una Unidad Raíz se encuentra presente, por tanto la serie no se encuentra en estado estacionario}$
        - $H_{a}: \textit{ Una Unidad Raíz no se encuentra presente, por tanto la serie si se encuentra en estado estacionario}$

In [36]:
# Example of the Augmented Dickey-Fuller unit root Test
from statsmodels.tsa.stattools import adfuller

data = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
stat, p_val, lags, obs, crit, t = adfuller(data)

print("Augmented Dickey-Fuller unit root Test")
print("=" *30,'\n')
print('stat=%.3f, p=%.3f' % (stat, p_val))
    
# Interpretacion p-value
if p_val > 0.05:
    print('''\t\tComo p-value es MAYOR a 5% = 0.05 NO SE PUEDE RECHAZAR la hipotesis nula, 
            y por tanto, entre las muestras de datos posiblemente NO se encuentra en estado estacionario.''')
else:
    print('''\t\tComo p-value es MENOR a 5% = 0.05 SI SE PUEDE RECHAZAR la hipotesis nula, 
            y por tanto, entre las muestras de datos posiblemente SI se encuentra en estado estacionario.''')

Augmented Dickey-Fuller unit root Test

stat=0.517, p=0.985
		Como p-value es MAYOR a 5% = 0.05 NO SE PUEDE RECHAZAR la hipotesis nula, 
            y por tanto, entre las muestras de datos posiblemente NO se encuentra en estado estacionario.


2. **Kwiatkowski-Phillips-Schmidt-Shin**
    - *Función*: Se utiliza para probar si la serie de tiempo se encuentra con tendencia estacionaria o no.
    - *Supuestos*:
        - Las observaciones de la muestra deben estar en orden cronológico.
    - *Interpretación*:
        - $H_{0}: \textit{ La serie de tiempo se encuentra con tendencia estacionaria}$
        - $H_{a}: \textit{ La serie de tiempo no se encuentra con tendencia estacionaria}$

In [37]:
# Example of the Kwiatkowski-Phillips-Schmidt-Shin test
from statsmodels.tsa.stattools import kpss

data = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
stat, p_val, lags, crit = kpss(data)

print("Kwiatkowski-Phillips-Schmidt-Shin Test")
print("=" *30,'\n')
print('stat=%.3f, p=%.3f' % (stat, p_val))

# Interpretacion p-value
if p_val > 0.05:
    print('''\t\tComo p-value es MAYOR a 5% = 0.05 NO SE PUEDE RECHAZAR la hipotesis nula, 
            y por tanto, entre las muestras de datos posiblemente NO se encuentra en estado estacionario.''')
else:
    print('''\t\tComo p-value es MENOR a 5% = 0.05 SI SE PUEDE RECHAZAR la hipotesis nula, 
            y por tanto, entre las muestras de datos posiblemente SI se encuentra en estado estacionario.''')

Kwiatkowski-Phillips-Schmidt-Shin Test

stat=0.410, p=0.073
		Como p-value es MAYOR a 5% = 0.05 NO SE PUEDE RECHAZAR la hipotesis nula, 
            y por tanto, entre las muestras de datos posiblemente NO se encuentra en estado estacionario.


