## Test chi-cuadrado (de Bondad de Ajuste, de Independencia y de Homogenidad)

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
from scipy.optimize import minimize
from scipy.stats import jarque_bera
import cvxpy as cp
from cvxopt import matrix, solvers
import requests
import json
import urllib3
urllib3.disable_warnings()
from datetime import datetime
import pytz

### de Bondad de Ajuste

Se utiliza para determinar si la distribución de frecuencias observada de una variable categórica coincide con una distribución teórica esperada.

Voy a realizar un ejemplo donde supongamos que la distribución esperada de las categorías Bajo y Alto para la variable Accion_Alta sea equitativa, es decir, se espera que el 50% de los valores caigan en cada categoría.

Este código compara las frecuencias observadas con las esperadas bajo la hipótesis de que ambas categorías (Bajo y Alto) deberían tener la misma frecuencia.

In [None]:
import numpy as np
from scipy.stats import chisquare

# Frecuencias observadas para la variable Accion_Alta
observed = contingency_table.sum(axis=1).values

# Frecuencia esperada bajo la hipótesis nula de una distribución equitativa (50-50)
expected = np.array([0.5, 0.5]) * observed.sum()

# Prueba Chi-cuadrado de Bondad de Ajuste
stat, p_value = chisquare(observed, expected)

stat, p_value

La Prueba Chi-cuadrado de Bondad de Ajuste ha arrojado los siguientes resultados:

- Estadístico Chi-cuadrado: 21.78
- P-valor: 3.065 x $10^{−6}$
 
El p-valor es muy bajo, lo que sugiere que las frecuencias observadas para las categorías Bajo y Alto en la variable Accion_Alta difieren significativamente de las frecuencias esperadas bajo la hipótesis de una distribución equitativa (50% para cada categoría).

Esto indica que la distribución observada no coincide con la distribución teórica esperada.

### de Independencia

Este test examina si dos variables categóricas son independientes entre sí. Se utiliza una tabla de contingencia para este análisis.

Vamos a crear una tabla de contingencia con dos variables categóricas y luego aplicaremos el test de independencia.

Supongamos que tienes dos variables categóricas (por ejemplo, Acción_Alta y Acción_Baja), y quieres probar si son independientes entre sí.

In [None]:
from scipy.stats import chi2_contingency

# Crear variables categóricas a partir de las columnas ALUA y GGAL
data['Accion_Alta'] = pd.cut(data['ALUA'], bins=2, labels=['Bajo', 'Alto'])
data['Accion_Baja'] = pd.cut(data['GGAL'], bins=2, labels=['Bajo', 'Alto'])

# Crear tabla de contingencia
contingency_table = pd.crosstab(data['Accion_Alta'], data['Accion_Baja'])

# Test Chi-cuadrado de Independencia
stat, p_value, dof, expected = chi2_contingency(contingency_table)

stat, p_value, dof, expected

La Prueba Chi-cuadrado de Independencia ha arrojado los siguientes resultados:

- Estadístico Chi-cuadrado: 257.59
- P-valor: 5.749 x $10^{−58}$
- Grados de libertad: 1
- Frecuencias Esperadas:

Bajo - Bajo: 233.25

Bajo - Alto: 77.75

Alto - Bajo: 153.75

Alto - Alto: 51.25

El p-valor extremadamente bajo indica que es altamente improbable que las variables categóricas Accion_Alta (derivada de ALUA) y Accion_Baja (derivada de GGAL) sean independientes. Esto sugiere una relación significativa entre estas dos variables.

### de Homogeneidad

Se utiliza para determinar si dos o más grupos independientes tienen la misma distribución para una variable categórica. Es similar a la prueba de independencia, pero en este caso, estamos interesados en saber si diferentes grupos comparten la misma distribución.

Supongamos que queremos comparar si las distribuciones de las categorías Bajo y Alto para la variable Accion_Alta son las mismas en dos periodos de tiempo diferentes.

Voy a crear dos grupos simulados dentro de los datos, por ejemplo, dividiendo el conjunto de datos en dos mitades, y luego aplicar la prueba de homogeneidad.