# Todo sobre la Distribucion Chi Cuadrado

La distribución Chi-Cuadrado $\chi^2$ es una distribucion de una variable aleatoria continua que surge de la suma de los cuadrados de $k$ variables aleatorias independientes, cada una de las cuales sigue una D. Normal Estandar $N(0,1)$. Es una D. fundamental en la inferencia estadistica y se utiliza en varios contextos, como en prueba de hipotesis y en analisis de varianza.

Alguna de las aplicaciones mas comunes en Ciencia de Datos son:

- Clasificacion de productos
- Deteccion de fraudes
- Analisis de independencia en las respuestas de una encuestas
- Independencia en la tasa de clics en diferentes anuncios
- Comparacion de campanas de marketing
- Control de calidad
- Evaluacion de modelos predictivos

## Deduccion de la Distribucion Chi Cuadrado

La D. Chi Cuadrado se deriva directamente de la D. Gamma mediante una seleccion especifica de los parametros de forma y escala. Veamos como lograrlo:

La D. Gamma esta definida por los parametros de forma ($\alpha$) y de escala $\beta$ como sigue:

$$\Gamma(x,\alpha,\beta)=\frac{x^{\alpha-1}e^{-x/\beta}}{\beta^\alpha \Gamma(\alpha)}$$

donde:
- $\alpha > 0$
- $\beta > 0$
- $x > 0$
- $\Gamma(\alpha)$ es la funcion Gamma que generaliza el factorial para numeros reales.

Para conocer mejor la D. Gamma visita el siguiente [Post](https://github.com/jbernalg/Projects_Data_Science/blob/main/Statistical_Practice_Book/Estadistica_Practica/Dist_Gamma.ipynb) donde encontraras una explicacion detallada mas ejercicios resueltos en Python.

La D. Chi Cuadrado con $k$ grados de libertad es un caso especial de la D. Gamma con $\alpha = k/2$ y $\beta = 2$.

$$\Gamma(x,\alpha=\frac{k}{2},\beta = 2)=\chi^{2}(x,k)$$

Entonces, la D. Chi Cuadrado viene dada por

$$\chi^{2} (x,k) =\frac{x^{\frac{k}{2}-1}e^{-\frac{x}{2}}}{2^\frac{k}{2} \Gamma(\frac{k}{2})}$$


## Funcion de la Densidad de Probabilidad

La funcion de la D. Chi Cuadrado viene dada por:

$$f(x) = \chi^{2}(X=x)=\left\{\begin{matrix}
 \frac{x^{\frac{k}{2}-1}e^{-\frac{x}{2}}}{2^\frac{k}{2} \Gamma(\frac{k}{2})}& si & x \geq 0 \\
 0& si & x<0 \\
\end{matrix}\right.$$

Donde $k>0$ y representa los grados de libertad. 

La D. Chi Cuadrado surge cuando se suman los cuadrados de $k$ variables aleatorias independientes $X_i$ que siguen una D. Normal Estandar $N(0,1)$, es decir,

$$Z \sim \chi ^{2}(x,k) \Rightarrow Z = \sum_{i=1}^{k} X_{i}^{2}$$

donde $X_{i} \sim N(0,1)$. Por tanto, $k$ representa el numero de estas variables aleatorias independientes.

La grafica de la D. Chi Cuadrado con $k=3$ viene dada por:

![image.png](attachment:image.png)




## Propiedades de la Distribucion Chi Cuadrado

- La Media ($\mu$) o esperanza matematica $E(x)$ viene dada por

$$E(x) = \alpha*\beta = \frac{n}{2} 2 = n$$

- La varianza ($\sigma^2$) o varianza matematica $V(x)$ viene dada por

$$V(x) = \alpha*\beta^2 = \frac{n}{2}(2)^2 = 2n$$

- Sea $X_1...X_k$ variables independientes e identicamente distribuidas con $N(0,1)$. Entonces la variables $Z$ que viene dada por

$$Z = \sum_{i=1}^{k} X_{i}^{2}$$

Sigue una D. Chi Cuadrado con $k$ grados de libertad.

$$Z \sim \chi^2(k)$$

- Sea $X_1$ una variable que sigue una D. Chi Cuadrado con un grado de libertad, $X_1 \sim \chi^2(k=1)$  y sea $X_2$ una variable que sigue una D. Chi Cuadrado con dos grados de libertad, $X_2 \sim \chi^2(k=2)$. Entonces, la suma de las variables $X_1$ y $X_2$ se distribuye como una Chi Cuadrado que tiene como grado de libertad la suma de los grados de las variables

$$X_1 + X_2 \sim \chi^2 (1+2)$$

- Sea $S^2$ la varianza muestral. Entonces la D. que sigue la varianza muestral viene dada por:

$$\frac{(k-1)S^2}{\sigma^2} \sim \chi^2(k-1)$$


## Formula de Chi Cuadrado

La formula chi-cuadrado compara las frecuencias observadas y las frecuencias esperadas bajo una hipotesis nula. Mide que tan lejos estan las frecuencias observadas de las esperadas

Suponga que tenemos:

- $O_i$: la frecuencia observada en la categoria $i$
-$E_i$: la frecuencia esperada en la categoria $i$ 

La idea basica es que si las frecuencias observadas y esperadas son cercanas, las diferencias ($O_i - E_i$) seran pequenas. Para evitar la cancelacion entre las contribuciones, elevamos al cuadrado las diferencias

$$(O_i - E_i)^2$$

Como los terminos anteriores dependen de $E_i$, queremos evitar que se inflen por diferencias grandes de escala por lo que se normaliza dividiendo por la frecuencia esperada $E_i$. Esto ajusta las desviaciones a una escala relativa a la frecuencia esperada.

$$\frac{(O_i - E_i)^2}{E_i}$$

Para obtener una medida total de la desviacion entre la frecuencias observadas y esperadas, se suman estas desviaciones cuadradas ajustadas sobre todas las $k$ categorias

$$\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}$$

## Prueba Chi - Cuadrado

La D. Chi Cuadrado se utiliza principalmente para probar hipotesis a traves de la Prueba Chi Cuadrado. Tambien conocida como Chi- Cuadrado de Pearson o Prueba exacta de Fisher es un procedimiento utilizado para examinar las diferencias entre variables categoricas en la misma poblacion.

La idea basica de la prueba es que se comparan los valores de los datos reales con lo que se esperaria si la hipotesis nula fuera cierta. De esta forma, se busca determinar si una diferencia entre los datos observados y los esperados se debe al azar, o si se debe a una relacion entre las variables que se estan estudiando.

El valor de Chi Cuadrado es extremadamente sensible al tamaño de la muestra: cuando el tamano de la muestra es demasiado grande (aproximadamente 500), casi cualquier pequena diferencia parecera estadisticamente significativa.

## Tipos de Prueba de Chi - Cuadrado

### Prueba de Bondad de Ajuste

Se utiliza para comparar una muestra recogida aleatoriamente que contiene una unica variable categorica de una poblacion mayor. Se utiliza con mayor frecuencia para comparar una muestra aleatoria con la poblacion mediante la formula de Chi-Cuadrado.

### Prueba de Independencia
Busca una asociacion entre dos variables categoricas dentro de la misma poblacion. Esta prueba no compara una unica variable observada con la poblacion teorica, sino dos variables dentro de un conjunto de muestras entre si.

### Prueba de Homogeneidad de Chi - Cuadrado

Se ejecuta igual que la prueba de independencia pero con la diferencia de que esta busca una asociacion entre dos variables categoricas dentro de la misma poblacion, mientras que la prueba de homogeneidad determina si la distribucion de una variable es la misma en cada una de varias poblaciones (asignando asi la propia poblacion como segunda variable categorica)

### Prueba de hipotesis de la varianza
Se utiliza para verificar si la varianza de una poblacion es igual a un valor teorico. Es util en situaciones donde se desea confirmar si la variabilidad en los datos esta dentro de lo esperado o si ha cambiado significativamente. La prueba se plantea con la estadistica de prueba $\chi^2$

$$\chi^2 = \frac{(k-1)S^2}{\sigma^2}$$

## Pasos para realizar una prueba Chi - Cuadrado

1.- **Define tu hipotesis nula y alternativa** antes de iniciar la recoleccion de datos

2.- **Decide cual sera el valor de significancia**. Esto implica decidir el riesgo que estas dispuesto a asumir de llegar a una conclusion erronea.

3.- **Comprueba los datos para ver si hay errores**

4.- **Comprueba los supuestos de la prueba**

5.- **Realiza la prueba y obten las conclusiones**

## Ejemplo : *Un fabricante de bombillas afirma que la vida útil media de sus bombillas es de 1000 $horas$, con una varianza de 2500 $horas^2$. Para verificar esta afirmación, un investigador selecciona aleatoriamente 15 bombillas y registra sus vidas útiles. El investigador obtiene una muestra con una varianza de 3600 $horas^2$.*

## ¿Existe suficiente evidencia para concluir que la varianza real de la vida útil de las bombillas es mayor que la afirmada por el fabricante? Utiliza un nivel de significancia del 5%.

Nos piden determinar si hay suficiente evidencia para concluir que la varianza real de la vida util de las bombillas es mayor que la afirmada por el fabricante utilizando un nivel de significancia de 0.05. Para ello, vamos a utilizar la **Prueba de Hipotesis de la Varianza.**

Primero, definamos la hipotesis nula y alternativa

- Hipotesis nula ($H_0$): $\sigma^2 = 2500$ (La varianza de la vida util dada por el fabricante)

- Hipotesis alternativa ($H_1$): $\sigma^2 > 2500$ (La varianza de la vida util a probar)

Se trata de un test unilateral en la cola derecha.

Ahora, utilizamos el estadistico de $\chi^2$, el cual viene dado por

$$\chi^2 = \frac{(n-1)S^{2}}{\sigma^2}$$

donde:

- $n$ es el tamano de la muestra
- $S^{2}$ es la varianza muestral
- $\sigma^2$ es la varianza segun la hipotesis nula
- $n - 1 = df$ son los grados de libertad


El ejercicio plantea los siguientes valores:

- Media de la vida util $\mu = 1000$ horas
- Varianza de la vida util $\sigma = 2500$ horas al cuadrado 
- Numero de bombillas $n = 15$
- Varianza obtenida de una muestra $S^{2} = 3600$ horas al cuadrado

Sustituimos los valores en la formula anterior:

$$\chi^2 = \frac{(15-1)\cdot 3600}{2500}= \frac{14 \cdot 3600}{2500} = 20.16$$

El valor estadistico de prueba es $\chi^{2} = 20.16$

Vamos a determinar el valor critico de $\chi^{2}$ en la cola derecha para un nivel de significancia $\alpha=0.05$ y $14$ grados de libertad. Para ello, utilizamos una tabla de la distribucion $\chi^2$ con $\alpha=0.05$

In [1]:
import numpy as np
from scipy.stats import chi2

# Nivel de significancia
alpha = 0.05

# tabla de valores críticos de chi-cuadrado para grados de libertad de 1 a 30
df_range = np.arange(1, 31)  # Grados de libertad de 1 a 30
chi2_critical_values = chi2.ppf(1 - alpha, df_range)  # Valores críticos para alpha = 0.05

# Imprimir la tabla
print("Grados de libertad | Valor crítico (alpha = 0.05)")
print("----------------------------------------------")
for df, chi2_crit in zip(df_range, chi2_critical_values):
    print(f"{df:<17} | {chi2_crit:.4f}")

Grados de libertad | Valor crítico (alpha = 0.05)
----------------------------------------------
1                 | 3.8415
2                 | 5.9915
3                 | 7.8147
4                 | 9.4877
5                 | 11.0705
6                 | 12.5916
7                 | 14.0671
8                 | 15.5073
9                 | 16.9190
10                | 18.3070
11                | 19.6751
12                | 21.0261
13                | 22.3620
14                | 23.6848
15                | 24.9958
16                | 26.2962
17                | 27.5871
18                | 28.8693
19                | 30.1435
20                | 31.4104
21                | 32.6706
22                | 33.9244
23                | 35.1725
24                | 36.4150
25                | 37.6525
26                | 38.8851
27                | 40.1133
28                | 41.3371
29                | 42.5570
30                | 43.7730


Al observar la tabla encontramos que el valor critico para $\alpha=0.05$ y $14$ grados de libertad es

$$\chi_{\alpha=0.05, df=14}^{2} = \chi_{critico}^{2} = 23.68$$

Visualmente, la distribucion sigue la forma

![image.png](attachment:image.png)

donde la zona sombreada se conoce como zona de aceptacion. Si el valor de $\chi^2$ cae dentro de esta zona, se acepta la hipotesis nula, es decir, no hay suficiente evidencia para rechazarla. Si cae fuera, se acepta la hipotesis alternativa rechazando la nula.


> Dado que el valor calculado de $\chi^2 = 20.16$ no excede el valor critico de $\chi_{critico}^{2} = 23.68$, no rechazamos la hipotesis nula $H_{0}$. Esto indica que no hay suficiente evidencia, al nivel de significancia del 5%, para concluir que la varianza real de la vida util de las bombillas es mayor que la afirmada por el fabricante

![image.png](attachment:image.png)

## Ejemplo : *Un estudio médico está investigando si la incidencia de un cierto tipo de enfermedad sigue la distribución esperada en una población de tres grupos diferentes: jóvenes (18-30 años), adultos (31-60 años) y ancianos (61+ años). Los datos observados del estudio son los siguientes:*

## - Jóvenes: 50 personas
## - Adultos: 100 personas
## - Ancianos: 80 personas

## *La distribución esperada de la enfermedad en la población es la siguiente:*

## - Jóvenes: 40 personas
## - Adultos: 110 personas
## - Ancianos: 80 personas

## ¿Existe suficiente evidencia para concluir que la distribución de la incidencia de la enfermedad difiere de la distribución esperada? Utiliza un nivel de significancia del 5%.

Definamos primero las hipotesis:

- Hipotesis nula ($H_0$): La distribucion observada sigue la distribucion esperada.
- Hipotesis alternativa: la distribucion observada no sigue la distribucion esperada

Vamos a resolver este ejercicio utilizando la pureba de bondad de ajuste Chi Cuadrado mediante la siguiente formula:

$$\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}$$

Donde:

- $O_i$ son los valores obervados.
- $E_i$ son los valores esperados.


Los grados de libertad para la prueba son:

$$df = k - 1$$

donde $k$ es el nmero de categorias, que en este caso son 3. Entonces. los grados de libertad son:

$$df = 3 - 1 = 2$$

Vamos a calcular la estadistica de prueba $\chi^2$ con Python como sigue:

In [4]:
# librerias a utilizar
import numpy as np
from scipy.stats import chi2

# valores observados y esperados
observados = np.array([50,100,80])
esperados = np.array([40,110,80])

# Calcular la estadistica de prueba
chi_stat = np.sum((observados - esperados)**2 / esperados)

# grados de libertad
df = len(observados) - 1

# valor critico para alpha
alpha = 0.05

# valor critico de chi cuadrado
chi_critico = chi2.ppf(1 - alpha, df)

# p-value
p_value = 1 - chi2.cdf(chi_stat, df)

# resultados
print(f'Chi Cuadrado: {chi_stat:.4f}')
print(f'Chi Cuadrado Critico: {chi_critico:.4f}')
print(f'P-value: {p_value:.4f}')

Chi Cuadrado: 3.4091
Chi Cuadrado Critico: 5.9915
P-value: 0.1819


- Como el valor de Chi Cuadrado ($3.409$) es menor que el valor de Chi Cuadrado Critico ($5.991$), no hay suficiente evidencia para rechazar la hipotesis nula por tanto, se sugiere que los valores observados no difieren significativamente de los valores esperados.
- El p-value ($0.1819$) es mayor que el nivel de significancia de $0.05$ lo que significa que no hay suficiente evidencia para rechazar la hipotesis nula.