![Portada_D_Chi.jpg](attachment:Portada_D_Chi.jpg)

# Todo sobre la Distribución Chi-Cuadrado

La distribución Chi-Cuadrado $\chi^2$ es una distribución de una variable aleatoria contínua que surge de la suma de los cuadrados de $k$ variables aleatorias independientes, cada una de las cuales sigue una D. Normal Estándar $N(0,1)$. Es una D. fundamental en la inferencia estadística y se utiliza en varios contextos, como en prueba de hipótesis y en análisis de varianza.

Alguna de las aplicaciones más comunes en Ciencia de Datos son:

- Clasificación de productos.
- Detección de fraudes.
- Análisis de independencia en las respuestas de una encuestas.
- Independencia en la tasa de clics en diferentes anuncios.
- Comparación de campañas de marketing.
- Control de calidad.
- Evaluación de modelos predictivos.

## Deducción de la Distribucion Chi-Cuadrado

La D. Chi-Cuadrado se deriva directamente de la D. Gamma mediante una selección específica de los parámetros de forma y escala. Veamos cómo lograrlo:

La D. Gamma está definida por los parámetros de forma ($\alpha$) y de escala $\beta$ como sigue:

$$\Gamma(x,\alpha,\beta)=\frac{x^{\alpha-1}e^{-x/\beta}}{\beta^\alpha \Gamma(\alpha)}$$

donde:
- $\alpha > 0$
- $\beta > 0$
- $x > 0$
- $\Gamma(\alpha)$ es la función Gamma que generaliza el factorial para números reales.

Para conocer mejor la D. Gamma visita el siguiente [Post](https://github.com/jbernalg/Projects_Data_Science/blob/main/Statistical_Practice_Book/Estadistica_Practica/Dist_Gamma.ipynb) donde encontrarás una explicación detallada junto a ejercicios resueltos en Python.

La D. Chi-Cuadrado con $k$ grados de libertad es un caso especial de la D. Gamma con $\alpha = k/2$ y $\beta = 2$.

$$\Gamma(x,\alpha=\frac{k}{2},\beta = 2)=\chi^{2}(x,k)$$

Entonces, la D. Chi-Cuadrado viene dada por

$$\chi^{2} (x,k) =\frac{x^{\frac{k}{2}-1}e^{-\frac{x}{2}}}{2^\frac{k}{2} \Gamma(\frac{k}{2})}$$


## Función de la Densidad de Probabilidad

La función de la D. Chi-Cuadrado viene dada por:

$$f(x) = \chi^{2}(X=x)=\left\{\begin{matrix}
 \frac{x^{\frac{k}{2}-1}e^{-\frac{x}{2}}}{2^\frac{k}{2} \Gamma(\frac{k}{2})}& si & x \geq 0 \\
 0& si & x<0 \\
\end{matrix}\right.$$

Donde $k>0$ y representa los grados de libertad. 

La D. Chi-Cuadrado surge cuando se suman los cuadrados de $k$ variables aleatorias independientes $X_i$ que siguen una D. Normal Estándar $N(0,1)$, es decir,

$$Z \sim \chi ^{2}(x,k) \Rightarrow Z = \sum_{i=1}^{k} X_{i}^{2}$$

donde $X_{i} \sim N(0,1)$. Por tanto, $k$ representa el número de estas variables aleatorias independientes.

La gráfica de la D. Chi-Cuadrado con $k=3$ viene dada por:

![image.png](attachment:image.png)




## Propiedades de la Distribución Chi-Cuadrado

- La Media ($\mu$) o esperanza matematica $E(x)$ viene dada por

$$E(x) = \alpha*\beta = \frac{n}{2} 2 = n$$

- La varianza ($\sigma^2$) o varianza matematica $V(x)$ viene dada por

$$V(x) = \alpha*\beta^2 = \frac{n}{2}(2)^2 = 2n$$

- Sea $X_1...X_k$ variables independientes e identicamente distribuidas con $N(0,1)$. Entonces la variables $Z$ que viene dada por

$$Z = \sum_{i=1}^{k} X_{i}^{2}$$

Sigue una D. Chi Cuadrado con $k$ grados de libertad.

$$Z \sim \chi^2(k)$$

- Sea $X_1$ una variable que sigue una D. Chi Cuadrado con un grado de libertad, $X_1 \sim \chi^2(k=1)$  y sea $X_2$ una variable que sigue una D. Chi Cuadrado con dos grados de libertad, $X_2 \sim \chi^2(k=2)$. Entonces, la suma de las variables $X_1$ y $X_2$ se distribuye como una Chi Cuadrado que tiene como grado de libertad la suma de los grados de las variables

$$X_1 + X_2 \sim \chi^2 (1+2)$$

- Sea $S^2$ la varianza muestral. Entonces la D. que sigue la varianza muestral viene dada por:

$$\frac{(k-1)S^2}{\sigma^2} \sim \chi^2(k-1)$$


## Prueba de Chi-Cuadrado

El estadístico Chi-Cuadrado compara las frecuencias observadas y las frecuencias esperadas bajo una hipótesis nula. Busca determinar si una diferencia entre los datos observados y los esperados se debe al azar, o si se debe a una relación entre las variables que se están estudiando.

Suponga que tenemos:

- $O_i$: la frecuencia observada en la categoría $i$
- $E_i$: la frecuencia esperada en la categoría $i$ 

La idea básica es que si las frecuencias observadas y esperadas son cercanas, las diferencias ($O_i - E_i$) serán pequeñas. Para evitar la cancelación entre las contribuciones, elevamos al cuadrado las diferencias

$$(O_i - E_i)^2$$

Como los términos anteriores dependen de $E_i$, queremos evitar que se inflen por diferencias grandes de escala por lo que se normaliza dividiendo por la frecuencia esperada $E_i$. Esto ajusta las desviaciones a una escala relativa a la frecuencia esperada.

$$\frac{(O_i - E_i)^2}{E_i}$$

Para obtener una medida total de la desviación entre la frecuencias observadas y esperadas, se suman estas desviaciones cuadradas ajustadas sobre todas las $k$ categorías

$$\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}$$

El valor de Chi-Cuadrado es extremadamente sensible al tamaño de la muestra: cuando el tamaño de la muestra es demasiado grande (aproximadamente 500), casi cualquier pequeña diferencia parecerá estadísticamente significativa.

## Tipos de Prueba de Chi - Cuadrado

### Prueba de Bondad de Ajuste

Se utiliza para comparar una muestra recogida aleatoriamente que contiene una única variable categórica de una población mayor.

### Prueba de Independencia
Busca una asociación entre dos variables categóricas dentro de la misma población. Esta prueba no compara una única variable observada con la población teórica, sino dos variables dentro de un conjunto de muestras entre sí.

### Prueba de Homogeneidad de Chi-Cuadrado

Se ejecuta igual que la prueba de independencia pero con la diferencia que esta busca una asociación entre dos variables categóricas dentro de la misma población, mientras que la prueba de homogeneidad determina si la distribución de una variable es la misma en cada una de varias poblaciones (asignando así la propia población como segunda variable categórica)

### Prueba de Hipótesis de la Varianza
Se utiliza para verificar si la varianza de una población es igual a un valor teórico. Es útil en situaciones donde se desea confirmar si la variabilidad en los datos esta dentro de lo esperado o si ha cambiado significativamente. La prueba se plantea con la siguiente estadística

$$\chi^2 = \frac{(k-1)S^2}{\sigma^2}$$

Las 3 primeras pruebas utilizan el estadístico Chi-Cuadrado que viene dado por:

$$\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}$$


## Ejemplo 1: *Un fabricante de bombillas afirma que la vida útil media de sus bombillas es de 1000 $horas$, con una varianza de 2500 $horas^2$. Para verificar esta afirmación, un investigador selecciona aleatoriamente 15 bombillas y registra sus vidas útiles. El investigador obtiene una muestra con una varianza de 3600 $horas^2$.*

### ¿Existe suficiente evidencia para concluir que la varianza real de la vida útil de las bombillas es mayor que la afirmada por el fabricante? Utiliza un nivel de significancia del 5%.

Nos piden determinar si hay suficiente evidencia para concluir que la varianza real de la vida útil de las bombillas es mayor que la afirmada por el fabricante utilizando un nivel de significancia de 0.05. Para ello, vamos a utilizar la **Prueba de Hipótesis de la Varianza.**

Primero, definamos la hipótesis nula y alternativa

- Hipótesis nula ($H_0$): $\sigma^2 = 2500$ (La varianza de la vida útil dada por el fabricante)

- Hipótesis alternativa ($H_1$): $\sigma^2 > 2500$ (La varianza de la vida útil a probar)

Se trata de un test unilateral en la cola derecha.

Ahora, utilizamos el estadístico de la prueba de hipótesis de varianza, el cual viene dado por

$$\chi^2 = \frac{(n-1)S^{2}}{\sigma^2}$$

donde:

- $n$ es el tamaño de la muestra.
- $S^{2}$ es la varianza muestral.
- $\sigma^2$ es la varianza según la hipótesis nula.
- $n - 1 = df$ son los grados de libertad.


El ejercicio plantea los siguientes valores:

- Media de la vida útil $\mu = 1000$ horas
- Varianza de la vida útil $\sigma = 2500$ horas al cuadrado 
- Número de bombillas $n = 15$
- Varianza obtenida de una muestra $S^{2} = 3600$ horas al cuadrado

Sustituimos los valores en la fórmula anterior:

$$\chi^2 = \frac{(15-1)\cdot 3600}{2500}= \frac{14 \cdot 3600}{2500} = 20.16$$

El valor estadístico de prueba es $\chi^{2} = 20.16$

Vamos a determinar el valor crítico de $\chi^{2}$ en la cola derecha para un nivel de significancia $\alpha=0.05$ y $14$ grados de libertad. Para ello, utilizamos una tabla de la distribución $\chi^2$ con $\alpha=0.05$

In [13]:
import numpy as np
from scipy.stats import chi2

# Nivel de significancia
alpha = 0.05

# tabla de valores críticos de chi-cuadrado para grados de libertad de 1 a 30
df_range = np.arange(1, 31)  # Grados de libertad de 1 a 30
chi2_critical_values = chi2.ppf(1 - alpha, df_range)  # Valores críticos para alpha = 0.05

# Imprimir la tabla
print("Grados de libertad | Valor crítico (alpha = 0.05)")
print("----------------------------------------------")
for df, chi2_crit in zip(df_range, chi2_critical_values):
    print(f"{df:<17} | {chi2_crit:.4f}")

Grados de libertad | Valor crítico (alpha = 0.05)
----------------------------------------------
1                 | 3.8415
2                 | 5.9915
3                 | 7.8147
4                 | 9.4877
5                 | 11.0705
6                 | 12.5916
7                 | 14.0671
8                 | 15.5073
9                 | 16.9190
10                | 18.3070
11                | 19.6751
12                | 21.0261
13                | 22.3620
14                | 23.6848
15                | 24.9958
16                | 26.2962
17                | 27.5871
18                | 28.8693
19                | 30.1435
20                | 31.4104
21                | 32.6706
22                | 33.9244
23                | 35.1725
24                | 36.4150
25                | 37.6525
26                | 38.8851
27                | 40.1133
28                | 41.3371
29                | 42.5570
30                | 43.7730


Al observar la tabla encontramos que el valor crítico para $\alpha=0.05$ y $14$ grados de libertad es

$$\chi_{\alpha=0.05, df=14}^{2} = \chi_{critico}^{2} = 23.68$$

Visualmente, la distribución sigue la forma

![image.png](attachment:image.png)

donde la zona sombreada se conoce como *Zona de Aceptación*. Si el valor de $\chi^2$ cae dentro de esta zona, se acepta la hipótesis nula, es decir, no hay suficiente evidencia para rechazarla. Si cae fuera, se acepta la hipótesis alternativa rechazando la nula. Veamos los valores obtenidos representados en la distribución

![image-2.png](attachment:image-2.png)

> Dado que el valor calculado de $\chi^2 = 20.16$ no excede el valor crítico de $\chi_{critico}^{2} = 23.68$, no rechazamos la hipótesis nula $H_{0}$. Esto indica que no hay suficiente evidencia, al nivel de significancia del 5%, para concluir que la varianza real de la vida útil de las bombillas es mayor que la afirmada por el fabricante.


## Ejemplo 2: *Un estudio médico está investigando si la incidencia de un cierto tipo de enfermedad sigue la distribución esperada en una población de tres grupos diferentes: jóvenes (18-30 años), adultos (31-60 años) y ancianos (61+ años). Los datos observados del estudio son los siguientes:*

### - Jóvenes: 50 personas
### - Adultos: 100 personas
### - Ancianos: 80 personas

## *La distribución esperada de la enfermedad en la población es la siguiente:*

### - Jóvenes: 40 personas
### - Adultos: 110 personas
### - Ancianos: 80 personas

### ¿Existe suficiente evidencia para concluir que la distribución de la incidencia de la enfermedad difiere de la distribución esperada? Utiliza un nivel de significancia del 5%.

Definamos primero las hipótesis:

- Hipótesis nula ($H_0$): La distribución observada sigue la distribución esperada.
- Hipótesis alternativa ($H_1$): la distribución observada no sigue la distribución esperada.

Vamos a aplicar una **Prueba de Bondad de Ajuste Chi-Cuadrado** mediante la siguiente fórmula:

$$\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}$$

Donde:

- $O_i$ son los valores obervados.
- $E_i$ son los valores esperados.


Los grados de libertad para la prueba son:

$$df = k - 1$$

donde $k$ es el número de categorías, que en este caso son 3. Entonces. los grados de libertad son:

$$df = 3 - 1 = 2$$

Vamos a calcular la estadística de prueba $\chi^2$ con Python como sigue:

In [14]:
# librerias a utilizar
import numpy as np
from scipy.stats import chi2

# valores observados y esperados
observados = np.array([50,100,80])
esperados = np.array([40,110,80])

# Calcular la estadistica de prueba
chi_stat = np.sum((observados - esperados)**2 / esperados)

# grados de libertad
df = len(observados) - 1

# valor critico para alpha
alpha = 0.05

# valor critico de chi cuadrado
chi_critico = chi2.ppf(1 - alpha, df)

# p-value
p_value = 1 - chi2.cdf(chi_stat, df)

# resultados
print(f'Chi Cuadrado: {chi_stat:.4f}')
print(f'Chi Cuadrado Critico: {chi_critico:.4f}')
print(f'P-value: {p_value:.4f}')

Chi Cuadrado: 3.4091
Chi Cuadrado Critico: 5.9915
P-value: 0.1819


Al representar los valores tanto el crítico como el de $\chi^2$ en la distribucion obtenemos:

![image.png](attachment:image.png)

> Como el valor de Chi Cuadrado ($3.409$) es menor que el valor de Chi Cuadrado Crítico ($5.991$), no hay suficiente evidencia para rechazar la hipótesis nula por tanto, se sugiere que los valores observados no difieren significativamente de los valores esperados.


> El p-value ($0.1819$) es mayor que el nivel de significancia de $0.05$ lo que significa que no hay suficiente evidencia para rechazar la hipótesis nula.

## Ejemplo 3: *Un investigador quiere determinar si existe una relación entre el tipo de ejercicio que una persona prefiere (correr, nadar, andar en bicicleta) y su género (masculino o femenino). Se encuestaron a 100 personas, y los resultados fueron los siguientes:*

![image.png](attachment:image.png)

### ¿Existe suficiente evidencia para concluir que la preferencia por el tipo de ejercicio depende del género? Utiliza un nivel de significancia del 5%

Primero, planteamos las hipótesis:

- Hipótesis nula ($H_0$): La preferencia por el tipo de ejercicio es independiente del género.
- Hipótesis alternativa ($H_1$): La preferencia por el tipo de ejercicio depende del género.

Vamos a aplicar una **Prueba de Independencia** mediante la siguiente fórmula:

$$\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}$$

Pero antes, debemos calcular las frecuencias esperadas como sigue a continuación:


$$E_{ij} = \frac{(\text{Total de filas}) \cdot (\text{Total de columnas})}{\text{Total general}}$$

- Para el número de hombres que prefieren correr:
$$E_{hombre,correr} = \frac{45\cdot 30}{100} = 13.5$$

- Para el número de mujeres que prefieren correr:
$$E_{mujer,correr} = \frac{55\cdot 30}{100} = 16.5$$

- Para el número de hombres que prefieren nadar:
$$E_{hombre,nadar} = \frac{45\cdot 40}{100} = 18$$

- Para el número de mujeres que prefieren nadar:
$$E_{mujer,nadar} = \frac{55\cdot 40}{100} = 22$$

- Para el número de hombres que prefieren andar en bicicleta:
$$E_{hombre,andar} = \frac{45\cdot 30}{100} = 13.5$$

- Para el número de mujeres que prefieren andar en bicicleta:
$$E_{mujer,andar} = \frac{55\cdot 30}{100} = 16.5$$

La tabla de frecuencia queda como sigue:

![image.png](attachment:image.png)

Ahora, calculamos la contribucion de cada género y actividad al estadístico:

- Para hombres que prefieren correr:

$$\frac{(O_{hombre,correr} - E_{hombre,correr})^2}{E_{hombre,correr}} = \frac{(20 - 13.5)^2}{13.5} = 3.13$$

- Para mujeres que prefieren correr:

$$\frac{(O_{mujer,correr} - E_{mujer,correr})^2}{E_{mujer,correr}} = \frac{(10 - 16.5)^2}{16.5} = 2.56$$

- Para hombres que prefieren nadar:

$$\frac{(O_{hombre,nadar} - E_{hombre,nadar})^2}{E_{hombre,nadar}} = \frac{(15 - 18)^2}{18} = 0.50$$

- Para mujeres que prefieren nadar:

$$\frac{(O_{mujer,nadar} - E_{mujer,nadar})^2}{E_{mujer,nadar}} = \frac{(25 - 22)^2}{22} = 0.41$$

- Para hombres que prefieren andar en bicicleta:

$$\frac{(O_{hombre,andar} - E_{hombre,andar})^2}{E_{hombre,andar}} = \frac{(10 - 13.5)^2}{13.5} = 0.91$$

- Para mujeres que prefieren andar en bicicleta:

$$\frac{(O_{mujer,andar} - E_{mujer,andar})^2}{E_{mujer,andar}} = \frac{(20 - 16.5)^2}{16.5} = 0.74$$




Sumamos todas las contribuciones

$$\chi^2 = 3.13 + 0.50 + 0.91 + 2.56 + 0.41 + 0.74 = 8.25$$

Determinamos los grados de libertad. Para ello, utilizamos la siguiente fórmula:

$$df = (n_{filas} - 1) \cdot (n_{columnas} - 1)$$

$$df = (2 - 1) \cdot (3 - 1) = 1 \cdot 2 = 2$$


Ahora, debemos hallar el valor crítico de Chi-Cuadrado para 2 grados de libertad con un nivel de significancia del 5%. Utilizamos la tabla antes creada

In [15]:
# Nivel de significancia
alpha = 0.05

# tabla de valores críticos de chi-cuadrado para grados de libertad de 1 a 30
df_range = np.arange(1, 31)  # Grados de libertad de 1 a 30
chi2_critical_values = chi2.ppf(1 - alpha, df_range)  # Valores críticos para alpha = 0.05

# Imprimir la tabla
print("Grados de libertad | Valor crítico (alpha = 0.05)")
print("----------------------------------------------")
for df, chi2_crit in zip(df_range, chi2_critical_values):
    print(f"{df:<17} | {chi2_crit:.4f}")

Grados de libertad | Valor crítico (alpha = 0.05)
----------------------------------------------
1                 | 3.8415
2                 | 5.9915
3                 | 7.8147
4                 | 9.4877
5                 | 11.0705
6                 | 12.5916
7                 | 14.0671
8                 | 15.5073
9                 | 16.9190
10                | 18.3070
11                | 19.6751
12                | 21.0261
13                | 22.3620
14                | 23.6848
15                | 24.9958
16                | 26.2962
17                | 27.5871
18                | 28.8693
19                | 30.1435
20                | 31.4104
21                | 32.6706
22                | 33.9244
23                | 35.1725
24                | 36.4150
25                | 37.6525
26                | 38.8851
27                | 40.1133
28                | 41.3371
29                | 42.5570
30                | 43.7730


De la tabla, vemos que el valor crítico corresponde a $5.991$. Vamos a graficar ambos valores en la distribución de Chi Cuadrado

![image.png](attachment:image.png)

> Dado que el valor $\chi^2$ se encuentra fuera de la zona de aceptación, rechazamos la hipótesis nula. Existe suficiente evidencia para concluir que la preferencia por el tipo de ejercicio si depende del género.

## Ejemplo 4: *Un investigador desea saber si la distribución de preferencias de cuatro tipos de bebidas (agua, refresco, jugo, café) es la misma en tres grupos de personas: adolescentes, adultos jóvenes y adultos mayores. Se entrevistaron a 90 personas, y los resultados fueron los siguientes:*

![image.png](attachment:image.png)

### ¿Existe suficiente evidencia para concluir que las preferencias de bebidas no son homogéneas entre los tres grupos? Utiliza un nivel de significancia del 5%.

Primero, planteamos las hipótesis:

- Hipótesis nula ($H_0$): Las distribuciones de preferencias de bebidas son homogéneas entre los grupos de personas.

- Hipótesis alternativa ($H_1$): Las distribuciones de preferencias de bebidas no son homogéneas entre los grupos de personas.

Vamos a resolver este ejercicio utilizando la **Prueba de Homogeneidad de Chi-Cuadrado**, apoyandónos de la librería *Scipy* de Python tal como sigue:

In [16]:
# importar liberias a utilizar
import numpy as np
from scipy.stats import chi2_contingency

# Definimos la tabla observada
Obs = np.array([[15,10,8,7],
               [12,18,5,5],
               [8,12,4,6]])

# calcular la prueba Chi-Cuadrado
chi, p_value, df, Esp = chi2_contingency(Obs)

# mostrar resultados
print(f'Valor Chi-Cuadrado: {chi}')
print(f'p_value: {p_value}')
print(f'Grados de Libertad: {df}')
print(f'Valores Esperados: {Esp}')

Valor Chi-Cuadrado: 4.534547152194212
p_value: 0.6047353284593353
Grados de Libertad: 6
Valores Esperados: [[12.72727273 14.54545455  6.18181818  6.54545455]
 [12.72727273 14.54545455  6.18181818  6.54545455]
 [ 9.54545455 10.90909091  4.63636364  4.90909091]]


> Claramente vemos que el p-value obtenido ($0.604$) es mayor que el nivel de significancia ($0.05$), por tanto, no hay suficiente evidencia para rechaza la hipótesis nula. En otras palabras, no hay suficiente evidencia para concluir que las distribuciones de preferencias de bebidas no son homogéneas entre los grupos de personas.

Ahora, vamos a obtener el valor crítico de Chi-Cuadrado para luego ver su ubicación en la gráfica de la distribución.

In [17]:
# importamos el metodo a utilizar
from scipy.stats import chi2

# Definimos el grado de libertad
df = 6

# definimos el nivel de significancia
alpha = 0.05

# calculamos el valor critico
v_critico = chi2.ppf(1-alpha, df)

# mostrar valor critico
v_critico

12.591587243743977

Tracemos los valores tanto de Chi-Cuadrado como el valor critico en la distribución con 6 grados de libertad y de $\alpha = 0.05$

![image.png](attachment:image.png)

> Como el valor de $\chi^2$ esta dentro de la zona de aceptación, se confirma la conclusión anterior: no hay suficiente evidencia para rechazar la hipótesis nula.

## Ejemplo 5: *Un ingeniero de calidad en una planta de manufactura  nota que el fabricante especifica que la varianza de la resistencia del nuevo material debe ser $\sigma^2 = 16$ N^2. Después de realizar una serie de pruebas, logra recolectar una muestra de 50 mediciones de la resistencia del material, con una varianza muestral de $S^2 = 20$ (N^2).*

### Verifica si la varianza del material es significativamente diferente de la especificada por el fabricante al nivel de significancia del 1%.

Planteamos las hipótesis:

- Hipótesis nula ($H_0$): La varianza del material es igual a 16 ($\sigma^2 = 16$)

- Hipótesis alternativa ($H_1$): La varianza del material no es igual a 16 ($\sigma^2 \neq 16$)

Se trata de una prueba bilateral donde la varianza del material puede ser mayor o menor que el valor de varianza especificado bajo la hipótesis nula. Para cubrir ambas posibilidades, la región de rechazo se divide en dos colas. Veamos la D. Chi-Cuadrado de 49 grados de libertad y nivel de significancia de 0.01 repartido en igual proporción en ambas colas

![image.png](attachment:image.png)

A partir de este planteamiento notamos que se requiere la **Prueba de Hipótesis de la Varianza** para resolver este problema. Vamos a utilizar la librería *Stats* de Python.

In [18]:
# Parametros 
# tamano de la muestra
n = 50 
# varianza muestral
S2 = 20
# varianza bajo la hipotesis nula
sigma2 = 16
# nivel de significancia
alpha = 0.01

Calculamos el estadístico de prueba con la siguiente fórmula:

$$\chi^2 = \frac{(n-1)S^{2}}{\sigma^2}$$


In [26]:
# calculo del valor del estadistico
val_chi2 = (n - 1)*S2 /sigma2

val_chi2


61.25

Ahora, debemos calcular el valor crítico derecho e izquierdo. Esto se realiza dividiendo el nivel de significancia a la mitad y repartiendo dicho valor en ambas colas. Es decir, 

$$\alpha = 0.01$$

*Significancia crítica izquierda*

$$Sign_{izq} = \frac{\alpha}{2} = \frac{0.01}{2} = 0.005$$

*Significancia crítica derecha*

$$Sign_{der} = 1 - \frac{\alpha}{2} = 1 - 0.005 = 0.995$$

Luego, procedemos a calcular los valores críticos a partir de los niveles de significancia anteriores

In [27]:
from scipy.stats import chi2

# grados de libertad
df = n - 1

# calulamos los valores criticos tanto a la izquierda como a la derecha
chi2_critico_izq = chi2.ppf(alpha/2, df)
chi2_critico_der = chi2.ppf(1-alpha/2, df)

# mostrar valores criticos
print(f'Intervalo de Aceptacion: ({chi2_critico_izq}, {chi2_critico_der})')

Intervalo de Aceptacion: (27.24934906956969, 78.23070808668994)


> Como el valor de $\chi^2 = 61.25$ se encuentra dentro del intervalo de aceptación, no se rechaza la hipótesis nula, lo que sugiere que no hay suficiente evidencia para decir que la varianza del material difiere significativamente del valor especificado.

![image.png](attachment:image.png)

-
-
-
-
-
-
.
.
.

## Ejemplo 6: *Una empresa de marketing ha lanzado dos campañas diferentes para promocionar un producto en varias regiones. Cada campaña tiene su propio enfoque y público objetivo. La empresa quiere comparar la efectividad de ambas campañas para verificar si la distribución de respuestas a las campañas se ajusta a una distribución esperada o si hay diferencias significativas en cómo las regiones respondieron a cada campaña. La siguiente tabla muestra los datos de las dos campañas por regiones*

![image.png](attachment:image.png)

### Verificar si las respuestas de las regiones a las campañas siguen la distribución esperada, que es la misma para todas las regiones (uniforme). Considere un nivel de significancia de 5%

Planteamos las hipótesis: 

- Hipótesis nula ($H_0$): Las respuestas a las campañas siguen la distribución esperada (uniforme en todas las regiones).

- Hipótesis alternativa ($H_1$): Las respuestas a las campañas no siguen la distribución esperada.

Vamos aplicar una **Prueba de Bondad de Ajuste Chi-Cuadrado**. Para ello, calculamos los valores esperados tal como sigue:

1. Primero, almacenamos las respuestas observadas por región

In [28]:
# libreria
from scipy.stats import chisquare

# Respuestas observadas para campana A y B en cada region
Obs_A = np.array([50,60,70,40])
Obs_B = np.array([30,40,50,80])

2. Sumamos las respuestas para cada campaña

In [29]:
# sma total de respuestas
total_A = np.sum(Obs_A)
total_B = np.sum(Obs_B)

3. Asumimos que la distribución esperada es uniforme entre las regiones, por lo que cada región debería recibir una cuarta parte del total de respuestas de cada campaña

In [30]:
# divide el total de respuestas por las 4 regiones.
# multiplica por 4 para crear un array de 4 elementos con el mismo valor
Esp_A = np.array([total_A/4]*4)
Esp_B = np.array([total_B/4]*4)

4. Utilizamos la función *chisquare* de *scipy* para realizar la prueba de bondad de ajuste. Esta compara los valores observados con los esperados y devuelve Chi-Cuadrado y el p-value

In [32]:
# bondad de ajuste para la campana A
chi2_A, p_value_A = chisquare(f_obs=Obs_A, f_exp=Esp_A)
# bondad de ajuste para la campana B
chi2_B, p_value_B = chisquare(f_obs=Obs_B, f_exp=Esp_B)

# mostramos resultados
print(f"Prueba Chi-Cuadrado Campaña A: Estadístico Chi2 = {chi2_A:.2f}, p-valor = {p_value_A:.4f}")
print(f"Prueba Chi-Cuadrado Campaña B: Estadístico Chi2 = {chi2_B:.2f}, p-valor = {p_value_B:.4f}")


Prueba Chi-Cuadrado Campaña A: Estadístico Chi2 = 9.09, p-valor = 0.0281
Prueba Chi-Cuadrado Campaña B: Estadístico Chi2 = 28.00, p-valor = 0.0000


> Campaña A: El p-value es de $0.021$ menor al nivel de significancia $\alpha=0.05$. Esto indica que hay suficiente evidencia para rechazar la hipótesis nula. Las respuestas de la campaña A no siguen la distribución uniforme esperada entre las regiones.

> Campaña B: El p-value muy pequeño $0.000$ menor al nivel de significancia. Las respuestas a la campaña B no siguen la distribución uniforme esperada y las diferencias entre las regiones son altamente significativas.

-
-
-
-
-
-
.
.
.

## Ejemplo 7: *Un científico de datos está evaluando el rendimiento de un modelo predictivo de clasificación binaria que predice si un cliente comprará un producto (Compra = Sí) o no (Compra = No). El modelo se ha probado en un conjunto de datos de 1000 clientes. A continuación se muestra la tabla de contingencia con los resultados reales versus las predicciones del modelo:*

![image.png](attachment:image.png)

### Determinar si existe una diferencia significativa entre las predicciones del modelo y los resultados reales utilizando la prueba Chi-Cuadrado con un nivel de significancia del 5%

Planteamos las hipótesis:
- Hipótesis nula ($H_0$): No existe diferencia significativa entre las predicciones del modelo y los resultados reales.
- Hipótesis alternativa ($H_1$): Existe diferencia significativa entre las predicciones del modelo y los resultados reales. (El modelo tiene una discrepancia significativa entre lo predicho y lo real)

Vamos a aplicar una **Prueba de Independencia** utilizando el método 'chi2_contingency' el cual nos ahorra el cálculo de la tabla de frecuencias esperadas y nos devuelve directamente el valor de la prueba junto a otras métricas de interés.

In [1]:
# librerias
import numpy as np
from scipy.stats import chi2_contingency

# definimos la tabla observada
Obs = np.array([[300,100],
               [200,400]])

# calculo de la prueba
val_chi2, p_value, df, Esp = chi2_contingency(Obs)

# resultados
print(f"Chi-Cuadrado: {val_chi2}")
print(f"p-valor: {p_value}")
print(f"Grados de libertad: {df}")
print(f"Frecuencias esperadas: \n{Esp}")

Chi-Cuadrado: 165.00416666666666
p-valor: 9.128507616296589e-38
Grados de libertad: 1
Frecuencias esperadas: 
[[200. 200.]
 [300. 300.]]


> Vemos que el p-value $0.000$ es menor que el nivel de significancia $\alpha = 0.05$ por lo que rechazamos la hipótesis nula y concluimos que el modelo presenta diferencias significativas con los resultados reales.

Vamos a obtener el valor crítico para representarlo luego en la distribución.

In [2]:
# importamos el metodo a utilizar
from scipy.stats import chi2

# Definimos el grado de libertad
df = 1

# definimos el nivel de significancia
alpha = 0.05

# calculamos el valor critico
v_critico = chi2.ppf(1-alpha, df)

# mostrar valor critico
v_critico

3.841458820694124

Al graficar ambos valores en la distribución, observamos la gran diferencia entre ellos y el valor de $\chi^2$ fuera de la zona de aceptación.

![image.png](attachment:image.png)

## Ejemplo 8: *Una compañía de seguros está interesada en identificar patrones de fraude en sus reclamos. Sospechan que hay diferencias significativas entre los tipos de reclamos presentados en diferentes regiones del país. Han recopilado datos de 4 regiones distintas y los han dividido en dos categorías: reclamos legítimos y reclamos fraudulentos. Los datos de la compañía de seguros son los siguientes:*

![image.png](attachment:image.png)

###  Realiza una prueba de homogeneidad para determinar si los patrones de fraude son similares en todas las regiones o si hay una diferencia significativa en los tipos de reclamos presentados en las diferentes áreas.

Planteamos las hipótesis
- Hipótesis nula ($H_0$): Los patrones de reclamos (fraudulentos y legítimos) son homogéneos entre las dierentes regiones.
- Hipótesis alternativa($H_1$): Los patrones de reclamos no son homogéneos entre las diferentes regiones, es decir, hay diferencias entre las regiones en términos de proporciones de reclamos.

Para aplicar la prueba de homogeneidad tambien vamos a utilizar el método *chi2_contingency* de *Stats*.

In [3]:
# librerias
import numpy as np
from scipy.stats import chi2_contingency

# Definimos la tabla observada
Obs = np.array([[130,30],   # region 1
               [150,20],    # region 2
               [130,40],    # region 3
               [160,50]])   # region 4

# aplicamos la prueba de homogeneidad a los valores observados
val_chi2, p_value, df, Esp = chi2_contingency(Obs)

# Mostrar resultados
print(f"Chi-Cuadrado: {val_chi2}")
print(f"p-valor: {p_value}")
print(f"Grados de libertad: {df}")
print(f"Frecuencias esperadas: \n{Esp}")

Chi-Cuadrado: 10.668436234142781
p-valor: 0.013660766758104832
Grados de libertad: 3
Frecuencias esperadas: 
[[128.45070423  31.54929577]
 [136.47887324  33.52112676]
 [136.47887324  33.52112676]
 [168.5915493   41.4084507 ]]


> Como p-value ($0.01$) es menor que el nivel de significancia $\alpha= 0.05$ rechazamos la hipótesis nula. Se concluye que hay diferencias significativas en los patrones de fraude entre las diferentes regiones por lo que se recomienda que el equipo aplique diferentes estrategias en cada región.

Ahora, vamos hallar el valor crítico para representarlo en la distribución.

In [4]:
# importamos el metodo a utilizar
from scipy.stats import chi2

# Definimos el grado de libertad
df = 3

# definimos el nivel de significancia
alpha = 0.05

# calculamos el valor critico
v_critico = chi2.ppf(1-alpha, df)

# mostrar valor critico
v_critico

7.814727903251179

Vemos que el valor de $\chi^2$ se sale de la zona de aceptación, confirmando nuevamente el resultado anterior

![image.png](attachment:image.png)

## Como aplica la D. Chi-Cuadrado sobre datos enteros si esta definida para valores continuos?

Los datos que se utilizan en la prueba de Chi-Cuadrado son generalmente conteos o frecuencias de eventos discretos (numero de veces que aparece un resultado en un experimento).

A partir de las frecuencias observadas y esperadas, calculamos una estadística que representa el desajuste entre las distribuciones que viene dada por:

$$\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}$$

Aunque los datos de entrada sean discretos, el cálculo de $\chi^2$ produce un valor contínuo el cual se compara con la D. Chi-Cuadrado, que es contínua, para determinar el p-value. Con este valor, evaluamos si las diferencias observadas entre los datos y el modelo esperado son significativas. La D. Chi-Cuadrado se utiliza como referencia para establecer los umbrales críticos de la prueba que permitan tomar decisiones estadísticas sobre la hipótesis nula.


## Aproximación de la D. Chi-Cuadrado a la Normal

La D. Chi-Cuadrado con $k$ grados de libertad ($\chi_k^2$) es la distribución de la suma de los cuadrados de $k$ variables normales estándar independientes.

$$\chi_k^2 = Z_1^2 + Z_2^2 + ... + Z_k^2$$

A medida que el número de grados de libertad $k$ aumenta, esta distribución tiende a parecerse cada vez más a una D. Normal. Esto ocurre debido al Teorema del Límite Central. Para un gran número de grados de libertab $k$, la D. Chi-Cuadrado se puede aproximar a una Normal mediante la siguiente parametrización:

$$\chi_k^2 \sim N(\mu = k, \sigma^2 = 2k)$$

Para convertir una D. Chi-Cuadrado con $k$ grados en algo que se asemeje a la D. Normal Estándar $N(0,1)$, se puede centrar y escalar la Chi-Cadrado de la siguiente manera:

$$Z = \frac{\chi_k^{2} - k}{\sqrt{2k}} \sim N(0,1)$$

Esta aproximación convierte la D. Chi-Cuadrado en una distribución que es aproximadamente normal estándar, siempre y cuando $k$ sea lo suficientemente grande.