# Pruebas de corridas

Son pruebas estadísticas no paramétricas para verificar la aleatoriedad de datos. Utiliza series de datos para decidir si son aleatorios o no.

Una **corrida** se define como una serie de eventos similares. El número de tales eventos es la duración de la corrida.

#### Ejemplo: 

En un volado,
    
$$a, s, s, a, a, a, s, a ,s, s$$

¿Cuántas corridas hay?

#### Ejemplo: 

In [1]:
from statistics import mean, median

In [2]:
l = [1, 3, 9, 8, 0, 4, 6, 5, 2, 7]

In [3]:
mean(l)

4.5

In [4]:
median(l)

4.5

Esta lista la podemos transformar a experimentos de Bernulli considerando si los elementos están por encima o por debajo de la media o la mediana

In [5]:
l1 = [0,0,1,1,0,0,1,1,0,1]

In [6]:
m = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [7]:
mean(m)

4.5

Hay varias formas de definir corridas, sin embargo, en todos los casos la formulación debe producir una secuencia dicotómica de valores. En nuestro caso, los valores por encima de la mediana se tratan como positivos y los valores por debajo de la mediana como negativos. Una corrida se define como una serie de valores consecutivos positivos o negativos.

El primer paso en la prueba de corridas es contar el número de corridas en la secuencia de datos.

Formulamos entonces la hipótesis nula y alternativa:

$H_0:$ La secuencia se produjo de forma aleatoria.

$H_1:$ La secuencia no se produjo de forma aleatoria.

Usamos el estadistico $Z$ como prueba:

$$Z = \frac{R - \bar{R}}{S_{R}}$$

donde $R$ es el número de corridas observadas, $\bar{R}$, definido como:

$$\bar{R}=\frac{2n_1 n_2}{n_1 + n_2} + 1$$

es el número de corridas esperadas. Y la desviación estándar del número de corridas es:

$$S_R^2 = \frac{2n_1 n_2 (2n_1 n_2 - n_1 - n_2)}{(n_1+n_2)^2 (n_1 + n_2 - 1)}$$

Y $n_1$ y $n_2$ son los números de valores positivos y negativos de la serie.

Entonces comparamos el valor del estadístico $Z$ calculado con el $Z_{crítico}$  para un nivel de confianza dado ($Z_{crítico} = 1.96$ para un nivel de confianza del 95%). La hipótesis nula se rechaza, es decir, se declara que los números no son aleatorios si $| Z |> Z_{crítico}$.

#### Para hacer un programa que haga la prueba de corridas

In [8]:
import random 
import math 
from statistics import mean, median
from matplotlib.pyplot import *

In [9]:
l= [946,1058,1133,869,927,742,1113,665,955,1288,1074,838,815,910,1193,
    1386,955,1187,891,1302,867,837,1138,868,969,737,1143,947,763,1029]

In [10]:
#Este programa implementa una prueba de rachas arriba y abajo de la media
def prueba_corridas(l):
    media = mean(l)
    n1, n2 = 0,0
    lcyu = []    #Lista de 0 y 1
    R = 1        #Al empezar a recorrer la lista empiezan las corridas

    for i in range(len(l)): #Contamos los numeros que están por debajo y por arriba de la media
        if l[i] <= media:
            lcyu.append(0)
            n1 += 1  #Cantidad de números por debajo de la media
        else:
            lcyu.append(1)
            n2 += 1  #Cantidad de números por arriba de la media

    elemento = lcyu[0]  
    for i in lcyu:
        if i != elemento:
            R += 1
        elemento = i

    #Calculando los parámetros 
    R_esperada = ((2*n1*n2)/(n1+n2))+1
    Sr = math.sqrt((2*n1*n2*(2*n1*n2-n1-n2))/(((n1+n2)**2)*(n1+n2-1))) 
    z = (R - R_esperada)/Sr
    z_critico = 1.96

    if abs(z) > z_critico:
        salida = 'La secuencia no es aleatoria'
    elif abs(z) < z_critico:
        salida = 'La secuencia es aleatoria'
    return R, n1,n2, z, salida


### Ejercicio:

* Completar la función para que imprima todas las salidas de interés.
* Desordenar la lista y volver a aplicar la prueba de corridas. Comparar el resultado.
* Repetir el ejercicio con la lista l_1

In [11]:
R = prueba_corridas(l)[0]
n1 = prueba_corridas(l)[1]
n2 = prueba_corridas(l)[2]
z = prueba_corridas(l)[3]
salida = prueba_corridas(l)[4]
print(f'Estadistico = {z} ')
print(f'R = {R}, n1 = {n1}, n2 = {n2}')
print(salida)

Estadistico = 1.0079493327443436 
R = 18, n1 = 18, n2 = 12
La secuencia es aleatoria


In [18]:
random.shuffle(l)
print(l)

[763, 955, 868, 1193, 1074, 927, 955, 1058, 1113, 1029, 737, 837, 838, 867, 947, 1386, 891, 1138, 815, 910, 1302, 742, 665, 1288, 869, 1143, 1133, 969, 946, 1187]


In [19]:
R = prueba_corridas(l)[0]
n1 = prueba_corridas(l)[1]
n2 = prueba_corridas(l)[2]
z = prueba_corridas(l)[3]
salida = prueba_corridas(l)[4]
print(f'Estadistico = {z} ')
print(f'R = {R}, n1 = {n1}, n2 = {n2}')
print(salida)

Estadistico = 0.23260369217177151 
R = 16, n1 = 18, n2 = 12
La secuencia es aleatoria


In [15]:
l_1 = [0.809, 0.042,  0.432,  0.538,  0.225,  0.88,  0.688,  0.772,  0.036,  0.854, 0.397,  0.268,  0.821,  0.897,  
     0.07,  0.721,  0.087,  0.35,  0.779,  0.482, 0.136,  0.855,  0.453,  0.197,  0.444,  0.799,  0.809,  0.691,  
     0.545,  0.857, 0.692,  0.055,  0.348, 0.373,  0.436,  0.29,  0.015,  0.834,  0.599,  0.724,  0.564,  0.709,  
     0.946,  0.754,  0.677,  0.128,  0.012,  0.498,  0.6,  0.913]

In [20]:
R = prueba_corridas(l_1)[0]
n1 = prueba_corridas(l_1)[1]
n2 = prueba_corridas(l_1)[2]
z = prueba_corridas(l_1)[3]
salida = prueba_corridas(l_1)[4]
print(f'Estadistico = {z} ')
print(f'R = {R}, n1 = {n1}, n2 = {n2}')
print(salida)

Estadistico = -1.3922411963646792 
R = 21, n1 = 23, n2 = 27
La secuencia es aleatoria
