<a href="https://colab.research.google.com/github/ocalru/EDP-I-Simulacion-I/blob/main/Prueba_de_Rachas_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [12]:
import numpy as np # Se importa la libreria numpy como "np"
import scipy.stats as stats # Se importa la libreria spicy.stats como "stats"



Dado un conjunto de datos $ X = \{ x_1, x_2, \dots, x_n \} $, primero calculamos la mediana del conjunto:

- Si $n$ es impar:

  $$ \tilde{X} = x_{\frac{n+1}{2}} $$



- Si $n$ es par:

  $$ \tilde{X} = \frac{x_{\frac{n}{2}} + x_{\frac{n}{2} + 1}}{2} $$

Es decir, la mediana es el valor central cuando $n$ es impar y el promedio de los dos valores centrales cuando $n$ es par.


Luego, transformamos cada elemento en una secuencia binaria $ S $, donde:

$$
s_i =
\begin{cases}
1, & \text{si } x_i > \tilde{X} \\
0, & \text{si } x_i < \tilde{X} \\
\text{Eliminar}, & \text{si } x_i = \tilde{X}
\end{cases}
$$
Donde:
- $x_i$ representa el $i$-ésimo valor del conjunto ordenado.


Este proceso genera una secuencia de unos y ceros que representa cómo se distribuyen los datos respecto a la mediana.

Se tiene que para el conjunto $  \text{data}$, definido como:

$$
\text{data} = [0.347, 0.832, 0.966, 0.472, 0.797, 0.101, 0.696, 0.966, 0.404, 0.603, \dots]
$$

La mediana es:

$$
\tilde{X} = 0.5555...
$$



Convirtiendo en binario para los primeros 4 valores de $ x_i $ ($
i = \{1, 2, 3, 4\}
$) en $\text{data}$:



1. Para $ x_1 = 0.347 $:
   - $ (0.347 < 0.555 ) → 0$

2. Para $ x_2 = 0.832 $:
   - $ (0.832 > 0.572)  → 1$

3. Para $ x_3 = 0.966 $:
   - $( 0.966 > 0.572 ) → 1$

4. Para $ x_4 = 0.472 $:
   - $( 0.472 < 0.572) → 0$

...

El arreglo resultante  será:

$$
\text{sings} = [0, 1, 1, 0,  \dots]
$$

In [46]:
data = [0.347, 0.832, 0.966, 0.472, 0.797, 0.101, 0.696, 0.966, 0.404, 0.603,
        0.993, 0.371, 0.729, 0.067, 0.189, 0.977, 0.843, 0.562, 0.549, 0.992,
        0.674, 0.628, 0.055, 0.494, 0.494, 0.235, 0.178, 0.775, 0.797, 0.252,
        0.426, 0.054, 0.022, 0.742, 0.674, 0.898, 0.641, 0.674, 0.821, 0.19,
        0.46, 0.224, 0.99, 0.786, 0.393, 0.461, 0.011, 0.977, 0.246, 0.881,
        0.189, 0.753, 0.73, 0.797, 0.292, 0.876, 0.707, 0.562, 0.562, 0.821,
        0.112, 0.191, 0.584, 0.347, 0.426, 0.057, 0.819, 0.303, 0.404, 0.64,
        0.37, 0.314, 0.731, 0.742, 0.213, 0.472, 0.641, 0.944, 0.28, 0.663,
        0.909, 0.764, 0.999, 0.303, 0.718, 0.933, 0.056, 0.415, 0.819, 0.444,
        0.178, 0.516, 0.437, 0.393, 0.268, 0.123, 0.945, 0.527, 0.459, 0.652]


def runs_test(data):

  # Se calcula la mediana del conjunto de datos "data"
    median = np.median(data)


 # Usando la mediana del conjunto como referencia para convertir los datos a binarios (cada valor x_i toma el valor de 0 o 1)

  # Si x_i = mediana se elimina el dato

    signs = [1 if x > median else 0 for x in data if x != median]

    # Contar el número de rachas
    runs = 1

    # la variable "runs" es la variable que cuenta el numero de rachas

# Se inicia en runs = 1 ya que existe al menos una racha en la secuencia x_i

    for i in range(1, len(signs)): # la variable de iteracion "i" toma cada valor del arreglo "signs" (i = {0,1,2,......len(signs) - 1}) comenzando por el segundo valor del arreglo (i = 1)

    # Esto sucede ya que el primer valor de la variable se considera la primera racha (i = 0)

        if signs[i] != signs[i - 1]:
            runs += 1

    n1 = sum(signs)  # Cantidad de valores > mediana
    n2 = len(signs) - n1  # Cantidad de valores < mediana

    # Media y desviación estándar de R para muestra grande (n_1,n_2 >= 20)

    mean_R = (2 * n1 * n2) / (n1 + n2) + 1
    std_R = np.sqrt((2 * n1 * n2 * (2 * n1 * n2 - n1 - n2)) / ((n1 + n2) ** 2 * (n1 + n2 - 1)))

    # Estadístico Z
    z = (runs - mean_R) / std_R

    p_value = 2 * (1 - stats.norm.cdf(abs(z)))  # Se calcula el p-value, "stats.norm.cdf" calcula

    # El valor da la distribucion normal acumulada, para el valor abs(z), z = estadistico de prueba para R, abs() devuelve el valor absoluto.

    # la funcion "runs_test()" devuelve los valores "z" y "p_value"

    return z, p_value








Se definen las siguientes variables:

$$
R = \text{es el numero de rachas observadas en el conjunto de datos.}
$$

$$
n_1 =  \text{Cantidad de valores mayores que la mediana}
$$

$$
n_2 =  \text{Cantidad de valores menores que la mediana}
$$

 Al ser $ n_1, n_2 \geq 20 $, se calcula la media y la desviación estándar de $ R $, como:

$$
\mu_R = \frac{2 n_1 n_2}{n_1 + n_2} + 1
$$

La desviación estándar de $ R $:

$$
\sigma_R = \sqrt{\frac{2 n_1 n_2 (2 n_1 n_2 - n_1 - n_2)}{(n_1 + n_2)^2 (n_1 + n_2 - 1)}}
$$

Finalmente, el estadístico $ Z $ se calcula como:

$$
Z = \frac{R - \mu_R}{\sigma_R}
$$

Dado un estadístico de prueba $ Z $ que sigue una distribución normal estándar, el p-value para se calcula como:

$$
p\text{-value} = 2 \cdot P(Z > |z|)
$$

Donde:

 $ z $ es el valor observado.

En términos de la función de distribución acumulada (CDF) de la distribución normal estándar, tenemos:

$$
  p\text{-value} = 2 \cdot \left(1 - \Phi(|z|)\right)
$$

Donde:

 $ \Phi(x) $ representa la función de distribución acumulada de la normal estándar:

$$
  \Phi(x) = P(Z \leq x) = \int_{-\infty}^{x} \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} dt
$$

$$
H_0: \text{La secuencia es aleatoria.}
$$



$$
H_1: \text{La secuencia NO es aleatoria.}
$$

El valor p calculado se compara con el nivel de significancia $ \alpha $ para tomar una decisión:

- Si $ p\text{-value} < \alpha $, rechazamos la hipótesis nula.
- Si $ p\text{-value} \geq \alpha $, no rechazamos la hipótesis nula.



In [45]:
# la funcion runs_test() toma el conjunto "data" como parametro, dando salida a los valores "z" y "p_value"
z, p_value = runs_test(data)


print(f"z = {z:.3f}")
print(f"p_value = {p_value:.3f}")



a = 0.05  # Nivel de significancia (α)

if p_value < a:
    print("Rechazamos la hipótesis nula: La secuencia NO es aleatoria.")
else:
    print("No se rechaza la hipótesis nula: La secuencia es aleatoria.")


z = -0.603
p_value = 0.546
No se rechaza la hipótesis nula: La secuencia es aleatoria.
