<a href="https://colab.research.google.com/github/tamaravera14/SIMULACI-N-I/blob/main/Prueba_Chi_Cuadrada.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Prueba Chi-Cuadrada**
***Bazaldua Vera Tamara Alheli***

---
## **Prueba Chi-Cuadrada**
---
La prueba de bondad de ajuste de **chi-cuadrado** es un método estadístico que se utiliza para determinar qué tan bien se ajusta un conjunto de valores observados a un conjunto de valores esperados. Esta prueba es particularmente útil en análisis de los datos, donde **ayuda a los investigadores a evaluar si la distribución de datos categóricos de muestra coincide con una distribución esperada**.

Una prueba de bondad de ajuste de Chi Cuadrada utiliza las siguientes hipótesis nulas y alternativas:


*   ***H0: Sigue una distribucion especifica***
*   ***H1: NO sigue una distribucion especifica***



---
**Proceso:**

1. Agrupe los **n** números aleatorios en **k** clases disjuntas de igual amplitud.
2. Halle la frecuencia observada de cada clase (**fo**).
3. Calcule el estadístico:
      * ***X^2 = Σ(fo -fe)^2 / fe***

Para **n** suficientemente grande este estadístico sigue la distribución X^2 con (**K-1**) grafos de libertad.

4. Determine el valor crítico **X^2_(alpha,k-1)** de las tablas para un nivel de confianza (**1-alpha**) y (**k-1**) grados de libertad.

---
###**Si X^2 > X^2_(aplha,k-1) se rechaza H0**
---

###**Ventajas**

✔ Fácil de aplicar.

      * No requiere cálculos matemáticos complejos, y las fórmulas son directas.
      * Se basa en tablas de frecuencias, lo que la hace intuitiva.

✔ No requiere que los datos sean numéricos continuos.

      * Funciona bien con datos categóricos (ejemplo: encuestas, colores, tipos de productos).
      * Puede utilizarse en análisis de independencia entre variables cualitativas.

✔ Amplia aplicación

      * Se usa en bondad de ajuste (para verificar si una muestra sigue una distribución esperada).
      * Se usa en pruebas de independencia (para determinar si dos variables están relacionadas).

✔ Es útil para grandes muestras

      * Es más precisa y confiable cuando el tamaño de la muestra es grande (**n>30**).

✔ Puede aplicarse a más de dos categorías

---

###**Desventajas**

✘ No funciona bien con muestras pequeñas

      * Si una celda tiene una frecuencia esperada menor a 5, los resultados pueden ser inexactos.

✘ No mide causalidad

      * Solo indica si existe asociación entre variables, pero no prueba que una variable cause la otra.

✘ Sensibilidad a datos grandes

      * En muestras muy grandes, diferencias insignificantes pueden resultar significativas, lo que puede llevar a interpretaciones erróneas.

✘ Supone independencia de los datos

      * Si los datos están correlacionados o dependen unos de otros, la prueba puede arrojar resultados incorrectos.

---
###**Código:**
---

*   ***H0: Sigue una distribucion uniforme U(0,1)***
*   ***H1: NO sigue una distribucion uniforme U(0,1)***
---

In [1]:
from tabulate import tabulate
import numpy as np
import scipy.stats as stats

x=[0.048, 0.591, 0.478, 0.166, 0.932,0.926, 0.007, 0.551, 0.362, 0.533,0.368, 0.437, 0.178, 0.411, 0.545,0.787, 0.594, 0.086, 0.951, 0.772,0.298, 0.199, 0.157, 0.401, 0.631]
x.sort()
n = len(x)
alpha = 0.05

# Determinar el número de clases utilizando la regla de Sturges
num_clases = int(np.floor(1 + 3.322 * np.log10(n)))

# Calcular la amplitud de cada clase
amplitud = (1 - 0) / num_clases

clases = []             # Almacenara los los intervalos de las clases
fo = [0]*num_clases     # Almacenara la Frecuencia Observada
fe = np.full(num_clases, n / num_clases)       # Almacenara la Frecuencia Esperada de manera constante
fo_fe = []               # Almacenara la Frecuencia Observada - Frecuencia Esperada
chi = []                 # Almacenara los valores de (fo-fe)^2/fe

d = []  # Lista para almacenar los datos para la tabla

# Construcción de los intervalos de clase
for i in range(num_clases):
    limite_inferior = 0 + i * amplitud              # Determina el limite inferior de cada clase
    limite_superior = limite_inferior + amplitud    # Determina el limite superior de cada clase
    clases.append((limite_inferior, limite_superior))     # Almacena el limite inferior - limite superior de cada clase

# Contar la frecuencia observada en cada clase
for valor in x:
    for i in range(num_clases):
        if clases[i][0] <= valor < clases[i][1]:    # Compara los valores de la muestra con los intervalos de cada clase y los va contando para obtener la Frecuencia Observada
            fo[i] += 1
            break

# Calcular fo - fe y el estadístico de Chi-Cuadrado
for i in range(num_clases):
    fo_fe.append(fo[i] - fe[i])               #  Calcula la Frecuencia Observada - Frecuencia Esperada y lo almacena
    chi.append((fo_fe[i] ** 2) / fe[i])       #  Calcula (fo-fe)^2/fe y lo almacena
    d.append([f"[{clases[i][0]:.3f}, {clases[i][1]:.3f})", fo[i], fe[i], fo_fe[i], chi[i]])     # Añade ["Clases", "Frecuencia Obtenida (fo)", "Frecuencia Esperada (fe)", "fo-fe", "(fo-fe)^2/fe"]

chi_cuadrada = np.sum(chi)        # Calcula el valor estadístico de prueba Chi-Cuadrado
k = num_clases - 1                # Grados de libertad
valor_critico = stats.chi2.ppf(1 - alpha, k)      # Calcula el valor critico de prueba Chi-Cuadrado

def Nivel_de_Aceptacion(valor_critico, chi_cuadrada):
    if valor_critico < chi_cuadrada:              # Evalua el valor critico y el valor estadistico
        print("\n \033[1mRechazar H0\033[1m")
    else:
        print("\n \033[1mNo rechazar H0\033[1m")

resultados = [["Resultados", np.sum(fo), np.sum(fe), chi_cuadrada, valor_critico]]      # Almacena los datos del analisis final

# Mostrar tabla
print("\n\033[1m''PRUEBA DE CHI CUADRADA'' \033[1m \n ")
encabezados = ["Clases", "Frecuencia Obtenida (fo)", "Frecuencia Esperada (fe)", "fo-fe", "(fo-fe)^2/fe"]
print(tabulate(d, headers=encabezados, tablefmt="grid"))
print("\nAnalisis de datos:\n")
encabezados_1 = ["", "Suma de fo", "Suma de fe", "Chi Cuadrada", "Valor critico"]
print(tabulate(resultados, headers=encabezados_1, tablefmt="grid"))

Nivel_de_Aceptacion(valor_critico, chi_cuadrada)


[1m''PRUEBA DE CHI CUADRADA'' [1m 
 
+----------------+----------------------------+----------------------------+---------+----------------+
| Clases         |   Frecuencia Obtenida (fo) |   Frecuencia Esperada (fe) |   fo-fe |   (fo-fe)^2/fe |
| [0.000, 0.200) |                          7 |                          5 |       2 |            0.8 |
+----------------+----------------------------+----------------------------+---------+----------------+
| [0.200, 0.400) |                          3 |                          5 |      -2 |            0.8 |
+----------------+----------------------------+----------------------------+---------+----------------+
| [0.400, 0.600) |                          9 |                          5 |       4 |            3.2 |
+----------------+----------------------------+----------------------------+---------+----------------+
| [0.600, 0.800) |                          3 |                          5 |      -2 |            0.8 |
+----------------+------