<a href="https://colab.research.google.com/github/EduardoAcostaC/Simulacion-I/blob/main/Prueba_Chi_Cuadrada.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Introducción a la Prueba de Chi-Cuadrada (χ²)

La prueba de **chi-cuadrada** (χ²) es una herramienta estadística ampliamente utilizada para evaluar la asociación o independencia entre variables categóricas. Es especialmente útil cuando se trabaja con datos en forma de frecuencias o conteos en **tablas de contingencia**. La prueba se basa en comparar las frecuencias observadas en los datos con las frecuencias esperadas bajo la hipótesis nula de que no existe relación entre las variables.

Existen dos tipos principales de pruebas de chi-cuadrada:

1. **Prueba de bondad de ajuste**: Evalúa si la distribución observada de una variable categórica se ajusta a una distribución teórica esperada.
2. **Prueba de independencia**: Determina si existe una asociación significativa entre dos variables categóricas.

# **Mensaje importante:**
Para ejecutar este código desde tu entorno local, asegúrate de haber guardado el archivo 'numeros.xlsx' en tu Google Drive y de tener la ruta correcta en la variable `ruta_archivo`.

[Archivo 'numeros.xlsx'](https://docs.google.com/spreadsheets/d/1uPltXWInEbWrOJ7kR6DJ0LBKpktbbuAx/edit?usp=sharing&ouid=104707253892789862285&rtpof=true&sd=true)

In [7]:
import pandas as pd
import numpy as np
from scipy import stats
from google.colab import drive

# Monta tu Google Drive
drive.mount('/content/drive')

# Define la ruta del archivo de Excel en tu Drive
ruta_archivo = '/content/drive/MyDrive/numeros.xlsx'  # Reemplaza con la ruta correcta
nombre_hoja = 'Sheet1'  # Reemplaza con el nombre de la hoja

# Lee los datos del archivo de Excel
df = pd.read_excel(ruta_archivo, sheet_name=nombre_hoja, header=None)

# Concatena todas las columnas en una sola serie de datos
todos_los_datos = pd.concat([df[col] for col in df.columns])

# Define el número de clases (k)
k = 5  # Puede ajustar este valor según las necesidades

# Calcula el rango de los datos
rango = todos_los_datos.max() - todos_los_datos.min()

# Calcula la amplitud de cada clase
amplitud = rango / k

# Define los límites de las clases
limites = [todos_los_datos.min() + i * amplitud for i in range(k + 1)]

# Agrupa los datos en clases y calcula las frecuencias observadas
frecuencias_observadas = pd.cut(todos_los_datos, bins=limites, include_lowest=True).value_counts().sort_index()

# Calcula las frecuencias esperadas (asumiendo una distribución uniforme)
frecuencias_esperadas = np.ones(k) * len(todos_los_datos) / k

# Crea la tabla de frecuencias
tabla_frecuencias = pd.DataFrame({
    'Clase': frecuencias_observadas.index,
    'Frecuencia Observada': frecuencias_observadas.values,
    'Frecuencia Esperada': frecuencias_esperadas
})

# Calcula el estadístico chi-cuadrado
chi2_statistic = 0
for i in range(len(tabla_frecuencias)):
    O = tabla_frecuencias.loc[i, 'Frecuencia Observada']
    E = tabla_frecuencias.loc[i, 'Frecuencia Esperada']
    chi2_statistic += (O - E)**2 / E

# Solicitar nivel de confianza al usuario
while True:
    try:
        nivel_confianza = float(input("Ingrese el nivel de confianza (entre 0 y 1): "))
        if 0 < nivel_confianza < 1:
            break
        else:
            print("El nivel de confianza debe estar entre 0 y 1. Intente nuevamente.")
    except ValueError:
        print("Entrada inválida. Ingrese un número entre 0 y 1.")

# Calcular alpha a partir del nivel de confianza
alpha = 1 - nivel_confianza

# Prueba de hipótesis usando valor crítico
grados_libertad = k - 1  # Grados de libertad

# Valor crítico de chi-cuadrado
valor_critico = stats.chi2.ppf(1 - alpha, grados_libertad)

print(f"Valor crítico de chi-cuadrado: {valor_critico}")
print("")
print(f"Estadístico de prueba (chi-cuadrado): {chi2_statistic}")
print("")
if chi2_statistic > valor_critico:
    print(f"\033[1;31mSe rechaza H0. Los datos no siguen una distribución uniforme (con un nivel de confianza del {nivel_confianza*100:.2f}%).\033[0m") # Rojo y negrita
else:
    print(f"\033[1;32mNo se rechaza H0. Los datos podrían seguir una distribución uniforme (con un nivel de confianza del {nivel_confianza*100:.2f}%). \033[0m") # Verde y negrita

# Imprime la tabla de frecuencias
display(tabla_frecuencias)

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Ingrese el nivel de confianza (entre 0 y 1): .95
Valor crítico de chi-cuadrado: 9.487729036781154

Estadístico de prueba (chi-cuadrado): 2.0

[1;32mNo se rechaza H0. Los datos podrían seguir una distribución uniforme (con un nivel de confianza del 95.00%). [0m


Unnamed: 0,Clase,Frecuencia Observada,Frecuencia Esperada
0,"(0.006, 0.196]",6,5.0
1,"(0.196, 0.385]",4,5.0
2,"(0.385, 0.573]",7,5.0
3,"(0.573, 0.762]",3,5.0
4,"(0.762, 0.951]",5,5.0
