<a href="https://colab.research.google.com/github/rpizarrog/simulacion/blob/main/python%20casos/Caso_08_Prueba_de_huecos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Objetivo

Realiza prueba de independencia de una secuencia de datos pseudoaleatorio.

# Descripcón

* Se cargan librerías.
* Se crear los datos a parir de una lista de numeros que puede ser npumeros generados de manera aleatoria.
* Se genera secuenia de 0's y 1's y se determinan los huecos.
* Se construye una tabla de frecuencia con la frecuencia de valores que hay de cada hueco. Cuantos huecos de 0, cupantos 1 cúantos de 2, sucesivamente.
* Se construye la tabla de frecuencia con los valores observados, esperados y chi cuadrada
* Se determinan las sumatorias
* Se establece el valor de alfa de significancia.
* Se etablece hipótesis nula $H_0$  y alternativa $H_a$.
* Se contrasta el valor calculado de chi cuadada cotra el valor chi cuadrda de acuerdo con el valor chi cuadrada calculado de acuerdo con la distribución chi cuadrada por la derecha.
* De acuerdo al contraste se toma la decisión de aceptar la $H_0$ de si los datos son independientes.




# Conceptos

Pendiente ...

# Desarrollo

## Librerías


In [13]:
import numpy as np
import pandas as pd
from scipy.stats import chi2

## Cargar o crear datos presudoaleatorios

In [14]:

# Los datos
datos = np.array([0.7, 0.08, 0.29, 0.04, 0.33, 0.93, 0.04, 0.06, 0.4, 0.72,
                  0.19, 0.21, 0.01, 0.53, 0.73, 0.99, 0.76, 0.2, 0.39, 0.5,
                  0.02, 0.4, 0.33, 0.89, 0.57, 0.19, 0.63, 0.54, 0.49, 0.76,
                  0.19, 0.74, 0.34, 0.87, 0.46, 0.58, 0.81, 0.74, 0.06, 0.68,
                  0.12, 0.86, 0.87, 0.75, 0.53, 0.09, 0.1, 0.6, 0.05, 0.34])
print(datos)

[0.7  0.08 0.29 0.04 0.33 0.93 0.04 0.06 0.4  0.72 0.19 0.21 0.01 0.53
 0.73 0.99 0.76 0.2  0.39 0.5  0.02 0.4  0.33 0.89 0.57 0.19 0.63 0.54
 0.49 0.76 0.19 0.74 0.34 0.87 0.46 0.58 0.81 0.74 0.06 0.68 0.12 0.86
 0.87 0.75 0.53 0.09 0.1  0.6  0.05 0.34]


## Crear la secuencia de 0's y 1's

La secuencia se crea con base en los rangos con el valor de límite inferior y superior alfa y beta en término de la fórmula.

$$
alfa = \alpha = 0.3
$$

$$
beta = \beta = 0.8 \therefore
$$

$$
\alpha \text {, debe ser menor que }\beta
$$

$$
\alpha < \beta
$$


In [15]:
# Establece los umbrales
umbral_inferior = 0.3
umbral_superior = 0.8

# Crea la secuencia binaria
secuencia = np.where((datos >= umbral_inferior) & (datos <= umbral_superior), 1, 0)

n = len(secuencia)
print(n)
print(np.array(secuencia).reshape(5, 10))


50
[[1 0 0 0 1 0 0 0 1 1]
 [0 0 0 1 1 0 1 0 1 1]
 [0 1 1 0 1 0 1 1 1 1]
 [0 1 1 0 1 1 0 1 0 1]
 [0 0 0 1 1 0 0 1 0 1]]


## Contar los 0's y 0's para determinar frecuencias

In [16]:
# Inicializa el contador de huecos a cero
huecos = 0
cuantos_ceros = []

# Contar los huecos
i = 0
while i < (n - 1):
    if secuencia[i] == 1:
        huecos += 1
        j = i + 1
        ceros = 0
        while j < n and secuencia[j] == 0:
            ceros += 1
            j += 1
        cuantos_ceros.append(ceros)
    i += 1

print("Número de huecos entre unos consecutivos:", huecos)
print("Cuántos ceros")
print(cuantos_ceros)

Número de huecos entre unos consecutivos: 25
Cuántos ceros
[3, 3, 0, 3, 0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 3, 0, 2, 1]


## Crear tabla de frecuencias

Se crea la tabla de frecuencias con los valores observados y esperados

El último registro se refiere a que la frecuencia esperada sea mayr o igual que el valor de $X_i$.

$$
Ei = h \cdot (\alpha - \beta) \cdot [1 - (\alpha - \beta)]^i
$$

$$
\chi^{2}_{o} = \frac{(Ei - Oi)^2}{Ei}
$$

In [22]:
# Determina los valores mínimo y máximo en cuantos_ceros
minimo_huecos = min(cuantos_ceros)
maximo_huecos = max(cuantos_ceros) + 1

# Crea una lista de rango desde 0 hasta 4
rango = list(range(maximo_huecos+1))

# Crea un diccionario para contar la frecuencia de cada número
frecuencia = {valor: cuantos_ceros.count(valor) for valor in rango}

# Crea un DataFrame a partir del diccionario
tabla = pd.DataFrame(list(frecuencia.items()), columns=['Xi', 'Frec_Oi'])

# Ordenar la tabla de frecuencias por el número de ceros Xi:
tabla = tabla.sort_values(by='Xi')

# Calcular Frec_Ei
alfa = umbral_inferior
beta = umbral_superior
h = huecos

# print (len(tabla['Xi']))

Frec_Ei = []
for i in range(maximo_huecos+1):
  print (i)
  if i < maximo_huecos:
    Frec_Ei.append(h * (beta - alfa) * (1 - (beta - alfa)) ** i)
  else:
    Frec_Ei.append(h * (1 - (beta - alfa)) ** i)

tabla['Frec_Ei'] = Frec_Ei

# print(tabla)

tabla['chi_cuad'] = (tabla['Frec_Ei'] - tabla['Frec_Oi']) ** 2 / (tabla['Frec_Ei'])
print(tabla)
# Calcular el valor Esperado Frec_Ei

# Las sumatorias:

suma_Ei = sum(tabla['Frec_Ei'])
suma_Oi = sum(tabla['Frec_Oi'])
suma_chi_cuad = sum(tabla['chi_cuad'])
print ("Suma de Ei", suma_Ei)
print ("Suma de Oi", suma_Ei)
print ("Suma de chi_cuadi", suma_chi_cuad)





0
1
2
   Xi  Frec_Oi  Frec_Ei    chi_cuad
0   0        4       35   27.457143
1   1        3     -140 -146.064286
2   2        0      112  112.000000
Suma de Ei 7
Suma de Oi 7
Suma de chi_cuadi -6.607142857142861


## Constrastar chi cuadrada

Contrastar el valor de chi cuadrada calculado contra el valor de chi cuadrada de acuerdo con el valor de significanacia de alfa cola a la derecha de la distribucón chi cuadrada

In [18]:

# Calcular el etadístico de prueba de chi cuadrada
confianza = 0.95
alfa_significancia = 1 - confianza

gl = intervalos = len(tabla) - 1 # Par ael valor de grados de libertad
valor_prueba_chi = chi2.ppf(1 - alfa_significancia, df=gl)
print("valor_prueba_chi:", valor_prueba_chi)

# Realizar el contraste
H0 = "Los datos son independientes"
Ha = "Los datos no son independientes"

if suma_chi_cuad < valor_prueba_chi:
    decision = f"Se acepta H0. {H0}"
else:
    decision = f"Se rechaza H0 y se acepta Ha. {Ha}"

print(decision)


valor_prueba_chi: 9.487729036781154
Se rechaza H0 y se acepta Ha. Los datos no son independientes


## Otros datos


In [21]:
datos = np.array([5, 0, 3, 2, 4, 7, 6, 9, 8, 6, 5])
print(datos)


# Establece los umbrales
umbral_inferior = 3
umbral_superior = 8

# Crea la secuencia binaria
secuencia = np.where((datos >= umbral_inferior) & (datos <= umbral_superior), 1, 0)

n = len(secuencia)
print(n)
print(secuencia)

# Huecos
# Inicializa el contador de huecos a cero
huecos = 0
cuantos_ceros = []

# Contar los huecos
i = 0
while i < (n - 1):
    if secuencia[i] == 1:
        huecos += 1
        j = i + 1
        ceros = 0
        while j < n and secuencia[j] == 0:
            ceros += 1
            j += 1
        cuantos_ceros.append(ceros)
    i += 1

print("Número de huecos entre unos consecutivos:", huecos)
print("Cuántos ceros")
print(cuantos_ceros)

# Tabla y sumatorias

# Determina los valores mínimo y máximo en cuantos_ceros
minimo_huecos = min(cuantos_ceros)
maximo_huecos = max(cuantos_ceros) + 1
# print(maximo_huecos)


# Crea una lista de rango desde 0 hasta 4
rango = list(range(maximo_huecos+1))

# Crea un diccionario para contar la frecuencia de cada número
frecuencia = {valor: cuantos_ceros.count(valor) for valor in rango}

# Crea un DataFrame a partir del diccionario
tabla = pd.DataFrame(list(frecuencia.items()), columns=['Xi', 'Frec_Oi'])

# Ordenar la tabla de frecuencias por el número de ceros Xi:
tabla = tabla.sort_values(by='Xi')

# Calcular Frec_Ei
alfa = umbral_inferior
beta = umbral_superior
h = huecos

# print (len(tabla['Xi']))

Frec_Ei = []
for i in range(maximo_huecos+1):
  print (i)
  if i < maximo_huecos:
    Frec_Ei.append(h * (beta - alfa) * (1 - (beta - alfa)) ** i)
  else:
    Frec_Ei.append(h * (1 - (beta - alfa)) ** i)

tabla['Frec_Ei'] = Frec_Ei

# print(tabla)

tabla['chi_cuad'] = (tabla['Frec_Ei'] - tabla['Frec_Oi']) ** 2 / (tabla['Frec_Ei'])
print(tabla)
# Calcular el valor Esperado Frec_Ei

# Las sumatorias:

suma_Ei = sum(tabla['Frec_Ei'])
suma_Oi = sum(tabla['Frec_Oi'])
suma_chi_cuad = sum(tabla['chi_cuad'])
print ("Suma de Ei", suma_Ei)
print ("Suma de Oi", suma_Ei)
print ("Suma de chi_cuadi", suma_chi_cuad)

# Calcular el etadístico de prueba de chi cuadrada
confianza = 0.95
alfa_significancia = 1 - confianza

gl = intervalos = len(tabla) - 1 # Par ael valor de grados de libertad
valor_prueba_chi = chi2.ppf(1 - alfa_significancia, df=gl)
print("valor_prueba_chi:", valor_prueba_chi)

# Realizar el contraste
H0 = "Los datos son independientes"
Ha = "Los datos no son independientes"

if suma_chi_cuad < valor_prueba_chi:
    decision = f"Se acepta H0. {H0}"
else:
    decision = f"Se rechaza H0 y se acepta Ha. {Ha}"

print(decision)


[5 0 3 2 4 7 6 9 8 6 5]
11
[1 0 1 0 1 1 1 0 1 1 1]
Número de huecos entre unos consecutivos: 7
Cuántos ceros
[1, 1, 0, 0, 1, 0, 0]
2
0
1
2
   Xi  Frec_Oi  Frec_Ei
0   0        4       35
1   1        3     -140
2   2        0      112
   Xi  Frec_Oi  Frec_Ei    chi_cuad
0   0        4       35   27.457143
1   1        3     -140 -146.064286
2   2        0      112  112.000000
Suma de Ei 7
Suma de Oi 7
Suma de chi_cuadi -6.607142857142861
valor_prueba_chi: 5.991464547107979
Se acepta H0. Los datos son independientes


## Visualizando prueba


In [None]:
# Visualizar prueba
# Pendiente con chi cuadrada

# Interpretación

pendiente ....