# 🧪 Distribución Chi-Cuadrada  

Es una distribución de probabilidad continua que surge de la suma de variables aleatorias normales estándar independientes elevadas al cuadrado. Es fundamental para el análisis de varianzas y, sobre todo, para las pruebas de hipótesis con datos categóricos.

## Función Matemática (Función de Densidad de Probabilidad)

$$
f(x; \nu) = \frac{x^{(\nu/2 - 1)} e^{-x/2}}{2^{\nu/2} \Gamma(\nu/2)}
$$

**¿Qué hace la función?** Determina la altura de la curva para un valor $x$ dado.

Dominio: La distribución solo está definida para valores no negativos ($x \ge 0$).

$\Gamma$ (Gamma): Es la función Gamma, una extensión del concepto de factorial a números reales y complejos.

$e$: Es la base del logaritmo natural (constante de Euler).

**Propiedades de la Forma:**

Asimetría: A diferencia de la Normal y la $t$-Student, la distribución $\chi^2$ es asimétrica (sesgada a la derecha).

Dependencia de $\nu$: Su forma cambia drásticamente dependiendo de su único parámetro: los grados de libertad ($\nu$).

Convergencia: A medida que los grados de libertad ($\nu$) aumentan (generalmente $\nu > 30$), la distribución $\chi^2$ se vuelve más simétrica y comienza a aproximarse a una Distribución Normal.

## Estadísticos Asociados

**Grados de Libertad**

$\nu$ (nu) o $df$

Parámetro Único: Determina la forma de la distribución. Su valor depende del tipo de prueba. Por ejemplo, en tablas de contingencia, es $\nu = (\text{filas}-1) \times (\text{columnas}-1)$.

**Media**

$\mu$

Igual a los grados de libertad: $\mu = \nu$. El centro de la distribución es igual a su número de grados de libertad.

**Varianza**

$\sigma^2$

Doble de los grados de libertad: $\sigma^2 = 2\nu$.

## Usos Principales de la Distribución

> Prueba de Independencia

Se usa para determinar si existe una relación estadísticamente significativa entre dos variables categóricas (cualitativas) en una tabla de contingencia. Ejemplo: ¿Existe una relación entre el color favorito y el nivel educativo?

> Prueba de Bondad de Ajuste (Goodness-of-Fit)

Permite comprobar si la distribución de frecuencias observada en una muestra se ajusta a una distribución teórica conocida (Normal, Poisson, Uniforme, etc.). Ejemplo: ¿La distribución de los accidentes de tráfico en una ciudad sigue realmente una distribución de Poisson?

> Inferencia sobre la Varianza Poblacional

Se utiliza para construir intervalos de confianza y realizar pruebas de hipótesis sobre la varianza ($\sigma^2$) o la desviación estándar ($\sigma$) de una población que se asume normal.

> Modelos de Regresión

Es fundamental en modelos como la regresión logística y otras técnicas multivariantes para evaluar la significancia general del modelo.

### Función de Distribución Acumulada (CDF)

La CDF se define como:

$$F(x; k) = P(X \le x) = \frac{1}{\Gamma(k/2)} \gamma\left(\frac{k}{2}, \frac{x}{2}\right)$$

donde $\gamma(s, x)$ es la **función gamma incompleta inferior**, que integra la PDF desde 0 hasta $x$.

**Importante:** No existe una forma elemental cerrada para esta integral, por lo que se calcula mediante funciones especiales o métodos numéricos.

### Interpretación Intuitiva
La CDF indica la probabilidad de que la suma de los cuadrados de $k$ variables normales estándar sea menor o igual a un valor $x$ dado.

Por ejemplo, si $F(10; 4) = 0.97$, significa que **el 97% de los casos** se encuentran por debajo de $x = 10$ para una Chi-Cuadrada con 4 grados de libertad.

# 🧪 Ejercicio de ejemplo: Distribución Chi-Cuadrada  

## El Problema de las Pilas Duracell 🔋

**Escenario:**  
La empresa *Duracellito S.A.* afirma que la duración de sus nuevas pilas AA tiene una **desviación estándar de 5 horas**.  
Un ingeniero de control de calidad, sin embargo, sospecha que la variabilidad real es **mayor** —es decir, que algunas pilas duran mucho menos o mucho más de lo prometido.  

Para comprobarlo, toma una **muestra aleatoria de 20 pilas** y mide cuántas horas dura cada una. Con esos datos, calcula la **varianza muestral** y decide aplicar una **prueba Chi-Cuadrada** para verificar si la variabilidad difiere significativamente de la declarada por la empresa.  

---

### 🎯 Objetivo  

Determinar si la evidencia estadística sugiere que la **varianza poblacional** de la duración de las pilas es distinta (o mayor) a la reportada por la compañía.

---

### 🧩 Hipótesis  

- **Hipótesis nula \( H_0 \)**: La varianza de las duraciones de las pilas es igual a la varianza esperada.  
  \[
  \sigma^2 = 5^2 = 25
  \]

- **Hipótesis alternativa \( H_1 \)**: La varianza de las duraciones de las pilas es mayor que la esperada.  
  \[
  \sigma^2 > 25
  \]


---

### 📊 Estadístico de prueba  

La prueba se basa en la distribución **Chi-Cuadrada (χ²)**:

\[
\chi^2 = \frac{(n-1)s^2}{\sigma_0^2}
\]

donde:  
- \( n \) es el tamaño de la muestra,  
- \( s^2 \) es la varianza muestral,  
- \( \sigma_0^2 \) es la varianza poblacional bajo \( H_0 \).  

El valor de \(\chi^2\) se compara con el **valor crítico** de la distribución Chi-Cuadrada con \( n-1 \) grados de libertad.  

---

### 🧠 Interpretación  

- Si \(\chi^2_{calc} > \chi^2_{crit}\), **se rechaza \( H_0 \)**: hay evidencia de que la variabilidad de las pilas es mayor que la esperada.  
- Si \(\chi^2_{calc} \leq \chi^2_{crit}\), **no se rechaza \( H_0 \)**: la variabilidad observada es consistente con la afirmada por la empresa.  

In [3]:
# Importación de librerías
import pandas as pd
import numpy as np
from scipy.stats import chi2_contingency, chi2

# Distribución Chi-Cuadrado

La distribución Chi-cuadrado de Pearson es una distribución probabilistica continua. La utilidad es que permite determinar la relación entre variables(dependencia estadística).

La siguiente tabla refleja la cantidad de estudiantes, según la calificación obtenida en matemáticas de dos universidades:

|         | deficiente | regular | bueno | total |
|:-------:|:----------:|:-------:|:-----:|:-----:|
| **Universidad 1** |      5     |    11   |   7   |  23   |
| **Universidad 2** |      20    |    32   |   3   |  55   |
|**total**|      25    |    43   |   10  |  78   |

**¿Influye el tipo de universidad en la calificación obtenida?**
**Margen de error: 0.05**

$H_0$: No influye el tipo de universidad
$H_1$: Si influye el tipo de universidad

Crear Tabla de Contingencia (Frecuencias Observadas)
Creamos un DataFrame de pandas con los datos

In [4]:
# Datos obervados del problema
datos = {'deficiente': [5, 20], 'regular': [11, 32], 'bueno':[7, 3]}
indice = ['Universidad 1', 'Universidad 2']

# Crear el DataFrame de fecuencias observadas
tabla_observada = pd.DataFrame(datos, index=indice)

print("---Tabla de Frecuencias Observadas (0)---")
print(tabla_observada)

---Tabla de Frecuencias Observadas (0)---
               deficiente  regular  bueno
Universidad 1           5       11      7
Universidad 2          20       32      3


## Calcular las Frecuencias Esperadas
Se calculan las frecuencias que esperaríamos si no hubiera ninguna relación entre la universidad y la calificación (es decir, si la hipótesis nula $H_0$ fuera cierta).

La formula para cada celda es:
Frecuencia Esperada = (Total de Fila x Total de Columna)/ gran total.


In [5]:
# Calcular totales
total_filas = tabla_observada.sum(axis=1)
total_columnas = tabla_observada.sum(axis=0)
gran_total = total_filas.sum()

# Crear la tabla de fecuencias esperadas
tabla_esperada = pd.DataFrame(index=indice, columns=tabla_observada.columns)

for columna in total_columnas.index:
    for fila in total_filas.index:
        frecuencia_esperada = (total_filas[fila] * total_columnas[columna]) / gran_total
        tabla_esperada.loc[fila, columna] = frecuencia_esperada

print("\n---Tabla de Frecuencias Esperadas (E) ---")
print(tabla_esperada)


---Tabla de Frecuencias Esperadas (E) ---
              deficiente    regular     bueno
Universidad 1   7.371795  12.679487  2.948718
Universidad 2  17.628205  30.320513  7.051282


## Calcular es Estadístico Chi-Cuadrado ($\chi^2$)

Este valor mide la discrepancia total entre nuestros datos observados y los esperados.

La fórmula es: $$ \chi^2 = \sum \frac{(O - E)^2}{E} $$

Se calcula celda por celda y luego se suman los resultados.


In [6]:
# Calcular el valor de chi-cuadrado manualmente
chi_cuadrado_calculado = 0
for columna in tabla_observada.columns:
    for fila in tabla_esperada.index:
        O = tabla_observada.loc[fila, columna]
        E = tabla_esperada.loc[fila, columna]
        termino = ((O - E)**2)/ E
        chi_cuadrado_calculado += termino
        print(f"Celda ({fila}, {columna}): (({O} - {E:.2f})^2) / {E:.2f} = {termino:.4f}")


print(f"\n--- Estadístico Chi-Cuadrado Calculado ---")
print(f"χ² = {chi_cuadrado_calculado:.4f}")

Celda (Universidad 1, deficiente): ((5 - 7.37)^2) / 7.37 = 0.7631
Celda (Universidad 2, deficiente): ((20 - 17.63)^2) / 17.63 = 0.3191
Celda (Universidad 1, regular): ((11 - 12.68)^2) / 12.68 = 0.2225
Celda (Universidad 2, regular): ((32 - 30.32)^2) / 30.32 = 0.0930
Celda (Universidad 1, bueno): ((7 - 2.95)^2) / 2.95 = 5.5661
Celda (Universidad 2, bueno): ((3 - 7.05)^2) / 7.05 = 2.3276

--- Estadístico Chi-Cuadrado Calculado ---
χ² = 9.2915


## Determinar los Grados de Libertad (df)

Los grados de libertad definen qué distribución de chi-cuadrado específica debemos usar como referencia.

df = (Número de Filas - 1) x (Número de Columnas - 1)

In [7]:
# Calcular grados de libertad
num_filas = len(tabla_observada)
num_columnas = len(tabla_observada.columns)
grados_de_libertad = (num_filas - 1) * (num_columnas - 1)

print(f"\n--- Grados de Libertad ---")
print(f"df = ({num_filas} - 1) * ({num_columnas} - 1) = {grados_de_libertad}")


--- Grados de Libertad ---
df = (2 - 1) * (3 - 1) = 2


## Tomar la Decisión Estadística

Con un margen de error (α) de 0.05, comparamos nuestro resultado.

**Comparando con el Valor Crítico**

Buscamos el valor en la "tabla" de chi-cuadrado que nuestro estadístico debe superar para rechazar $H_0$.

In [9]:
# Nivel de significancia
alfa = 0.05

# Encontrar el valor crítico de la tabla
valor_critico = chi2.ppf(1 - alfa, df=grados_de_libertad)

print(f"\n--- Decisión usando Valor Crítico ---")
print(f"Nivel de significancia (α) = {alfa}")
print(f"Valor Crítico de la tabla para df={grados_de_libertad} = {valor_critico:.4f}")
print(f"Estadístico Chi-Cuadrado Calculado = {chi_cuadrado_calculado:.4f}")

# Comparar y decidir
if chi_cuadrado_calculado > valor_critico:
    print("\nConclusión: El estadístico calculado es MAYOR que el valor crítico.")
    print("Por lo tanto, se rechaza la hipótesis nula (H0).")
else:
    print("\nConclusión: El estadístico calculado es MENOR que el valor crítico.")
    print("Por lo tanto, no se puede rechazar la hipótesis nula (H0).")

# Interpretación del resultado
print("\n--- Interpretación del Resultado ---")
if chi_cuadrado_calculado > valor_critico:
    print("La evidencia sugiere que SÍ influye el tipo de universidad en la calificación obtenida.")
else:
    print("No hay suficiente evidencia para afirmar que el tipo de universidad influye en la calificación.")


--- Decisión usando Valor Crítico ---
Nivel de significancia (α) = 0.05
Valor Crítico de la tabla para df=2 = 5.9915
Estadístico Chi-Cuadrado Calculado = 9.2915

Conclusión: El estadístico calculado es MAYOR que el valor crítico.
Por lo tanto, se rechaza la hipótesis nula (H0).

--- Interpretación del Resultado ---
La evidencia sugiere que SÍ influye el tipo de universidad en la calificación obtenida.


## Verificación con SciPy

In [10]:
# Usar la función chi2_contingency para verificar
chi2_stat, p_value, dof, expected = chi2_contingency(tabla_observada)

print("\n--- Verificación con SciPy ---")
print(f"Estadístico Chi-Cuadrado: {chi2_stat:.4f}")
print(f"P-value: {p_value:.4f}")
print(f"Grados de Libertad: {dof}")
print("Frecuencias Esperadas:\n", expected)


--- Verificación con SciPy ---
Estadístico Chi-Cuadrado: 9.2915
P-value: 0.0096
Grados de Libertad: 2
Frecuencias Esperadas:
 [[ 7.37179487 12.67948718  2.94871795]
 [17.62820513 30.32051282  7.05128205]]
