<a href="https://colab.research.google.com/github/RaphaelBau/Simulaci-n-/blob/main/prueba_chi.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Prueba de homogeneidad $\chi^2$

Es una prueba aplicando la distribución Chi-cuadrada para verificar si una muestra de números son aleatorios o no.

Aqui es donde se da la solución del problema 3 y 4 pero primero se pondra el codigo del programa y luego las soluciones.

# 1.- Proponer las hipótesis nula y alternativa.

$$H_0:\text{la muestra de números son aleatorios}$$
$$H_1:\text{la muestra de números no son aleatorios}$$

# 2.- Estadistico de prueba

Con la tabla de contingencia elaborada  o tomando la muestra de números calcular el estadístico de prueba que viene dado por:

$$\chi _0^2=\sum_{i,j}\dfrac{ (o_{ij}-e_{ij})^2 }{ e_{ij} }$$

Donde:

$n:$ tamaño de la muestra

$o_{ij}$: Frecuencia observada

$e_{ij}=\dfrac{o_{\cdot j}o_{i\cdot}}{n}$ frecuencias esperadas, producto del total del i-esimo renglon con la j-esima columna entre el tamaño de la muestra $n$

# 3.- Punto critico

Con el $α$ que proporciona el problema y el arreglo de la tabla que tiene una distribución $\chi ^2$ con $\nu=n-1$ grados de libertad y para hallar dicho punto se puede hacer uso de las tablas. Aqui se va a denotar al punto critico como $\chi _t^2$

# 4.- Criterio de decisión

$$\text{si}\hspace{0.5cm} \chi _0^2 >\chi _t^2\hspace{0.5cm} \text{se rechaza la hipotesis nula}$$


$$\text{si}\hspace{0.5cm} \chi _0^2 <\chi _t^2\hspace{0.5cm} \text{se acepta la hipotesis nula}$$

In [None]:
from math import *
from scipy.stats import * # Para usar la funcion de densidad y de distribucion acumulada de chi cuadrada
import numpy as np

# A continuacion tramo de todas las funciones que se van a usar

"""
  Codigo complementario para la tabla de contingecia <------------------------------------------------------------------

  Esta funcion toma como parametros: la tabla con la cual se va a trabajar y el numero de columna y es una funcion
  que se complementa con la clase tabla de contingencia, lo que hace la funcion es sumar todos los datos de una columna.
"""
def suma_columna(A,columna):
  s = 0
  for i in range(A.shape[1]):
    for j in range(A.shape[0]):
      if columna==i:
        s+=A[j][i]
  return s

"""
  Codigo de la tabla de contingencia para la prueba <------------------------------------------------------------------

  La clase tabla tiene como metodos:
    t(tabla): tiene como parametro la tabla con la cual se va a trabajar y regresa la misma tabla pero con los
              totales de columnas y renglones

    v(tabla): tiene como parametro la tabla con la cual se va a trabajar y retorna los grados de libertad

    n(tabla): tiene como parametro la tabla con la cual se va a trabajar y retorna el tamaño de la muestra
"""
class Tabla_de_contingencia:
  def t(A):
    t1 = np.zeros((A.shape[0]+1,1+A.shape[1]))  # Matriz vacia para luego ingresar los datos

    for i in range(A.shape[0]):       # Ingresar elementos en la nueva matriz
      for j in range(A.shape[1]):
        t1[i][j]=A[i][j]

    for k in range(A.shape[0]):           #suma de los renglones
      t1[k][A.shape[1]]=sum(A[k])

    for m in range(A.shape[1]):           #suma de las columnas
      t1[A.shape[0]][m]=suma_columna(A,m)
    return t1

  def v(A):     #grados de libertad
    return (A.shape[0]-1)*(A.shape[1]-1)

  def n(A):     # tamaño de la muestra
    s=0
    for k in A:
      s+=sum(k)
    return s

"""
  Codigo del estadistico de prueba <------------------------------------------------------------------

  Esta funcion tiene como parametros la tabla principal del problema y la tabla de contingencia y lo
  que regresa es el estadistico de prueba.
"""
def estaditico_de_prueba(A,B):
  x_0=0
  for i in range(A.shape[0]):
    for j in range(A.shape[1]):
      x_0+=(A[i][j]-(B[A.shape[0]][j]*B[i][A.shape[1]])/Tabla_de_contingencia.n(A))**2/((B[A.shape[0]][j]*B[i][A.shape[1]])/Tabla_de_contingencia.n(A))
  return x_0

"""
  Codigo del punto critico.  <------------------------------------------------------------------

  Para obtener el punto critico se utiliza la funcion de densidad y de distribucion acumulada
  de la distribución chi cuadrada que estan en la libreria scipy.stats y para obtener los puntos
  se emplea el método de newton-raphson, en este caso se programo de manera recursiva, claro nada
  eficiente, ni rapido pero al menos funcional.
"""
def newton_rapson(n,v,alfa):
    if n==0:
        return v   # punto de partida de propone x_0 = v el mismo grado de grado de libertad
    if n>0:
        return newton_rapson(n-1,v,alfa)-(chi2.cdf(newton_rapson(n-1,v,alfa),v)-1+alfa)/chi2.pdf(newton_rapson(n-1,v,alfa),v)

def punto_critico(v,alfa):
    for i in range(7):
        newton_rapson(i,v,alfa)
    return newton_rapson(i,v,alfa)

# 3.- Realice una prueba de uniformidad $\chi ^2$ a los números de la tabla siguiente, con un nivel de aceptación del 95 %

$$
\begin{matrix}
38 & 33 & 25 & 5 & 69 & 35 & 98 & 52 & 12 & 79 \\
50 & 46 & 95 & 42 & 49 & 11 & 78 & 34 & 2 & 43 \\
 7 & 50 &  5 & 91 & 77 & 18 & 21 &  4 & 17 & 62 \\
91 & 36 & 48 & 88 & 52 & 76 & 99 & 73 & 82 & 90 \\
\end{matrix}
$$

## Solución

**Paso 1.**

Primero planteamos las hipotesis para probar si esta muestra de números es una muestra aleatoria o no.


$$H_{0}:\text{Es una muestra de numeros aleatorios}$$
$$H_{1}:\text{No es una muestra de numeros aleatorios}$$

**Paso 2.**

Pasamos todos los datos a una matriz y se imprime la tabla de contingencia, tamaño de muestra, grados de libertad, estadistico de prueba y en este caso el valor de alfa es $\alpha=0.05$ que se usará para el punto critico y se imprime en pantalla si se acepta la hipotesis nula o si se rechaza.

In [None]:
tabla3 = np.array(
[[38 , 33 , 25,  5 , 69 , 35 , 98 , 52 , 12 , 79],
 [50 , 46 , 95, 42 , 49 , 11 , 78 , 34 , 2  , 43],
 [ 7 , 50 ,  5, 91 , 77 , 18 , 21 ,  4 , 17 , 62],
 [91 , 36 , 48, 88 , 52 , 76 , 99 , 73 , 82 , 90]])

alfa3=0.05

print("valor de alfa:",alfa3)

print("\nTabla de contingencia".ljust(60,"="),"\n")
print(Tabla_de_contingencia.t(tabla3))

print("\ntamaño de la muestra".ljust(60,"="),"\n")
print(Tabla_de_contingencia.n(tabla3))

print("\nGrados de libertad".ljust(60,"="),"\n")
print(Tabla_de_contingencia.v(tabla3))

print("\nEstadistico de prueba".ljust(60,"="),"\n")
print(estaditico_de_prueba(tabla3,Tabla_de_contingencia.t(tabla3)))

print("\nPunto critico".ljust(60,"="),"\n")
print(punto_critico(Tabla_de_contingencia.v(tabla3),alfa3))


print("\nCriterio de decision".ljust(60,"="),"\n")
if estaditico_de_prueba(tabla3,Tabla_de_contingencia.t(tabla3)) > punto_critico(Tabla_de_contingencia.v(tabla3),alfa3):
  print("Se rechaza la hipotesis nula")
else:
  print("Se acepta la hipotesis nula")


valor de alfa: 0.05


[[ 38.  33.  25.   5.  69.  35.  98.  52.  12.  79. 446.]
 [ 50.  46.  95.  42.  49.  11.  78.  34.   2.  43. 450.]
 [  7.  50.   5.  91.  77.  18.  21.   4.  17.  62. 352.]
 [ 91.  36.  48.  88.  52.  76.  99.  73.  82.  90. 735.]
 [186. 165. 173. 226. 247. 140. 296. 163. 113. 274.   0.]]


1983


27


498.4633948363388


40.113272069412595


Se rechaza la hipotesis nula


El resultado dice que la muestra no es aleatoria, pero hay un pequeño detalle que no se agregó en el PDF y aquí se rechaza la hipótesis por los grados de libertad que en este caso es 27, pero como el tamaño de la muestra es muy grande se va a tomar como grados de libertad el tamaño de la muestra menos uno o sea $\nu = n-1$ y corrigiendo este detalle y volviendo a correr el codigo se tiene este resultado.

In [None]:
tabla3 = np.array(
[[38 , 33 , 25,  5 , 69 , 35 , 98 , 52 , 12 , 79],
 [50 , 46 , 95, 42 , 49 , 11 , 78 , 34 , 2  , 43],
 [ 7 , 50 ,  5, 91 , 77 , 18 , 21 ,  4 , 17 , 62],
 [91 , 36 , 48, 88 , 52 , 76 , 99 , 73 , 82 , 90]])

alfa3=0.05

print("valor de alfa:",alfa3)

print("\nTabla de contingencia".ljust(60,"="),"\n")
print(Tabla_de_contingencia.t(tabla3))

print("\ntamaño de la muestra".ljust(60,"="),"\n")
print(Tabla_de_contingencia.n(tabla3))

print("\nGrados de libertad".ljust(60,"="),"\n")
print(Tabla_de_contingencia.n(tabla3)-1)

print("\nEstadistico de prueba".ljust(60,"="),"\n")
print(estaditico_de_prueba(tabla3,Tabla_de_contingencia.t(tabla3)))

print("\nPunto critico".ljust(60,"="),"\n")
print(punto_critico(Tabla_de_contingencia.n(tabla3)-1,alfa3))


print("\nCriterio de decision".ljust(60,"="),"\n")
if estaditico_de_prueba(tabla3,Tabla_de_contingencia.t(tabla3)) > punto_critico(Tabla_de_contingencia.n(tabla3)-1,alfa3):
  print("Se rechaza la hipotesis nula")
else:
  print("Se acepta la hipotesis nula")

valor de alfa: 0.05


[[ 38.  33.  25.   5.  69.  35.  98.  52.  12.  79. 446.]
 [ 50.  46.  95.  42.  49.  11.  78.  34.   2.  43. 450.]
 [  7.  50.   5.  91.  77.  18.  21.   4.  17.  62. 352.]
 [ 91.  36.  48.  88.  52.  76.  99.  73.  82.  90. 735.]
 [186. 165. 173. 226. 247. 140. 296. 163. 113. 274.   0.]]


1983


1982


498.4633948363388


2086.6849877778413


Se acepta la hipotesis nula


# 4.- Realice una prueba de uniformidad $\chi ^2$ a los números de la tabla siguiente, con un nivel de aceptación del 95 %

$$
\begin{matrix}
0.8797 & 0.3884 & 0.6289 & 0.8750 & 0.5999 & 0.8589 & 0.9996 & 0.2415 & 0.3808 & 0.9606 \\
0.9848 & 0.3469 & 0.7977 & 0.5844 & 0.8147 & 0.6431 & 0.7387 & 0.5613 & 0.0318 & 0.7401 \\
0.4557 & 0.1592 & 0.8536 & 0.8846 & 0.3410 & 0.1492 & 0.8681 & 0.5291 & 0.3188 & 0.5992 \\
0.9170 & 0.2204 & 0.5991 & 0.5461 & 0.5739 & 0.3254 & 0.0856 & 0.2258 & 0.4603 & 0.5027 \\
0.8376 & 0.6235 & 0.3681 & 0.2088 & 0.1525 & 0.2006 & 0.4720 & 0.4272 & 0.6360 & 0.0954
\end{matrix}
$$

## Solución

**Paso 1.**

Aquí se va a probar si esta muestra de números vienen de una distribución uniforme $U(0,1)$ y planteamos las hipótesis nula y alternativa.

$$H_{0}:\text{La muestra viene de una distribución uniforme}\hspace{0.3cm} U(0,1)$$
$$H_{1}:\text{La muestra No viene de una distribución uniforme}\hspace{0.3cm} U(0,1)$$

**Paso 2.**

Para hacer esto un poco más sencillo, lo que se propone es multiplicar esta muestra por 10000 para manejar números enteros.

Se va a imprimir lo mismo que en problema anterior y se va a utilizar $\nu =n-1$ grados de libertad para el punto crítico.

In [None]:
t4 = np.array(
[[0.8797 , 0.3884 , 0.6289 , 0.8750 , 0.5999 , 0.8589 , 0.9996 , 0.2415 , 0.3808 , 0.9606 ],
[0.9848 , 0.3469 , 0.7977 , 0.5844 , 0.8147 , 0.6431 , 0.7387 , 0.5613 , 0.0318 , 0.7401 ],
[0.4557 , 0.1592 , 0.8536 , 0.8846 , 0.3410 , 0.1492 , 0.8681 , 0.5291 , 0.3188 , 0.5992 ],
[0.9170 , 0.2204 , 0.5991 , 0.5461 , 0.5739 , 0.3254 , 0.0856 , 0.2258 , 0.4603 , 0.5027 ],
[0.8376 , 0.6235 , 0.3681 , 0.2088 , 0.1525 , 0.2006 , 0.4720 , 0.4272 , 0.6360 , 0.0954 ]])

tabla4 =  10000*t4

alfa4=0.05

print("valor de alfa:",alfa4)

print("\nTabla de contingencia".ljust(60,"="),"\n")
print(Tabla_de_contingencia.t(tabla4))

print("\ntamaño de la muestra".ljust(60,"="),"\n")
print(Tabla_de_contingencia.n(tabla4))

print("\nGrados de libertad".ljust(60,"="),"\n")
print(Tabla_de_contingencia.n(tabla4)-1)

print("\nEstadistico de prueba".ljust(60,"="),"\n")
print(estaditico_de_prueba(tabla4,Tabla_de_contingencia.t(tabla4)))

print("\nPunto critico".ljust(60,"="),"\n")
print(punto_critico(Tabla_de_contingencia.n(tabla4)-1,alfa4))


print("\nCriterio de decision".ljust(60,"="),"\n")
if estaditico_de_prueba(tabla4,Tabla_de_contingencia.t(tabla4)) > punto_critico(Tabla_de_contingencia.n(tabla4)-1,alfa4):
  print("Se rechaza la hipotesis de homogeneidad")
else:
  print("Se acepta la hipotesis de homogenidad")


valor de alfa: 0.05


[[ 8797.  3884.  6289.  8750.  5999.  8589.  9996.  2415.  3808.  9606.
  68133.]
 [ 9848.  3469.  7977.  5844.  8147.  6431.  7387.  5613.   318.  7401.
  62435.]
 [ 4557.  1592.  8536.  8846.  3410.  1492.  8681.  5291.  3188.  5992.
  51585.]
 [ 9170.  2204.  5991.  5461.  5739.  3254.   856.  2258.  4603.  5027.
  44563.]
 [ 8376.  6235.  3681.  2088.  1525.  2006.  4720.  4272.  6360.   954.
  40217.]
 [40748. 17384. 32474. 30989. 24820. 21772. 31640. 19849. 18277. 28980.
      0.]]


266933.0


266932.0


43020.95964227875


268134.9646653251


Se acepta la hipotesis de homogenidad
