# **Taller 2**


#   Datos a usar
cu√°ntitativas: 
1. P3094S3 : Cu√°nto ahorro por cultivar
2. P3087S1: Valor mensual por practicas o pasant√≠as
3. P3095S3: Valor ahorra por criar animales
# Cualitativas
4. P3101: ¬øFue a reuniones familiares durante las ultimas 4 semanas? si o no

## Verificaci√≥n del Entorno

Este notebook instalar√° autom√°ticamente las librer√≠as necesarias si no est√°n disponibles en el sistema.

**Librer√≠as requeridas:**
- pandas
- numpy
- matplotlib
- seaborn
- scipy
- statsmodels

**Archivo de datos requerido:**
- `Combinado.csv` (archivo combinado de los datos de los 3 meses)

**Nota:** Si es la primera vez que ejecutas este notebook, la instalaci√≥n de librer√≠as puede tomar unos minutos.


# Pruebas de Hip√≥tesis - Taller 2

En este notebook implementaremos las 11 pruebas de hip√≥tesis requeridas utilizando las variables del dataset combinado:

**Variables cuantitativas:**
- P3094S3: Cu√°nto ahorro por cultivar
- P3087S1: Valor mensual por pr√°cticas o pasant√≠as  
- P3095S3: Valor ahorra por criar animales

**Variable cualitativa:**
- P3101: ¬øFue a reuniones familiares durante las √∫ltimas 4 semanas? (s√≠ o no)


In [None]:
# Instalar librer√≠as necesarias si no est√°n disponibles
import subprocess
import sys

def install_package(package):
    """Instala un paquete si no est√° disponible"""
    try:
        __import__(package)
        print(f"‚úÖ {package} ya est√° instalado")
    except ImportError:
        print(f"üì¶ Instalando {package}...")
        subprocess.check_call([sys.executable, "-m", "pip", "install", package])
        print(f"‚úÖ {package} instalado correctamente")

# Lista de librer√≠as necesarias
librerias = [
    "pandas",
    "numpy", 
    "matplotlib",
    "seaborn",
    "scipy",
    "statsmodels"
]

print("üîç Verificando e instalando librer√≠as necesarias...")
print("=" * 50)

for lib in librerias:
    install_package(lib)

print("=" * 50)
print("‚úÖ Todas las librer√≠as est√°n listas para usar")
print("=" * 50)


In [None]:
# Cargar librer√≠as necesarias
try:
    import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
    import seaborn as sns
    from scipy import stats
    from scipy.stats import norm, t, chi2, binom
    import warnings
    warnings.filterwarnings('ignore')
    
    # Configurar estilo de gr√°ficos
    try:
        plt.style.use('seaborn-v0_8')
    except:
        plt.style.use('default')
        print("‚ö†Ô∏è  Usando estilo por defecto de matplotlib")
    
    sns.set_palette("husl")
    
    print("‚úÖ Todas las librer√≠as se cargaron correctamente")
    
except ImportError as e:
    print(f"‚ùå Error al importar librer√≠as: {e}")
    print("Por favor, ejecuta primero la celda de instalaci√≥n de librer√≠as")
    raise


In [None]:
# Verificaci√≥n final del entorno
print("üîç VERIFICACI√ìN FINAL DEL ENTORNO")
print("=" * 50)

# Verificar que las librer√≠as est√°n disponibles
librerias_verificacion = {
    'pandas': pd.__version__,
    'numpy': np.__version__,
    'matplotlib': plt.matplotlib.__version__,
    'seaborn': sns.__version__,
    'scipy': stats.__version__
}

print("üìö Librer√≠as instaladas:")
for lib, version in librerias_verificacion.items():
    print(f"  ‚úÖ {lib}: {version}")

# Verificar que el dataset se carg√≥ correctamente
print(f"\nüìä Dataset cargado:")
print(f"  ‚úÖ Filas: {df.shape[0]:,}")
print(f"  ‚úÖ Columnas: {df.shape[1]}")
print(f"  ‚úÖ Variables objetivo disponibles: {all(col in df.columns for col in ['P3094S3', 'P3087S1', 'P3095S3', 'P3101'])}")

print("\n" + "=" * 50)
print("üéâ ¬°ENTORNO LISTO! Puedes proceder con las pruebas de hip√≥tesis")
print("=" * 50)


In [None]:
# Cargar y preparar los datos
# Leer el archivo CSV combinado
try:
    # Intentar diferentes rutas posibles para el archivo
    archivos_posibles = [
        'Combinado.csv',
        '../Combinado.csv',
        'Taller 1/Combinado.csv',
        '../Taller 1/Combinado.csv'
    ]
    
    df = None
    archivo_encontrado = None
    
    for archivo in archivos_posibles:
        try:
            df = pd.read_csv(archivo, sep=';', encoding='utf-8')
            archivo_encontrado = archivo
            print(f"‚úÖ Archivo encontrado en: {archivo}")
            break
        except FileNotFoundError:
            continue
    
    if df is None:
        print("‚ùå No se pudo encontrar el archivo 'Combinado.csv'")
        print("Archivos buscados:")
        for archivo in archivos_posibles:
            print(f"  - {archivo}")
        print("\nPor favor, aseg√∫rate de que el archivo 'Combinado.csv' est√© en el directorio correcto")
        raise FileNotFoundError("Archivo Combinado.csv no encontrado")
    
    # Mostrar informaci√≥n b√°sica del dataset
    print("\nInformaci√≥n del dataset:")
    print(f"Dimensiones: {df.shape}")
    print(f"\nColumnas disponibles: {list(df.columns)}")
    print(f"\nPrimeras 5 filas:")
    print(df.head())
    
except Exception as e:
    print(f"‚ùå Error al cargar los datos: {e}")
    print("Por favor, verifica que el archivo 'Combinado.csv' existe y est√° en la ubicaci√≥n correcta")
    raise


In [None]:
# Limpiar y preparar las variables de inter√©s
def clean_numeric(series):
    """Funci√≥n para limpiar variables num√©ricas monetarias"""
    # Convertir a string y limpiar
    series_str = series.astype(str)
    # Eliminar puntos de miles y convertir comas a puntos decimales
    series_str = series_str.str.replace('.', '', regex=False)
    series_str = series_str.str.replace(',', '.', regex=False)
    # Convertir a num√©rico, los valores no v√°lidos se convertir√°n en NaN
    return pd.to_numeric(series_str, errors='coerce')

# Aplicar limpieza a las variables cuantitativas
df['P3094S3_clean'] = clean_numeric(df['P3094S3'])
df['P3087S1_clean'] = clean_numeric(df['P3087S1'])
df['P3095S3_clean'] = clean_numeric(df['P3095S3'])

# Limpiar variable cualitativa
df['P3101_clean'] = df['P3101'].astype(str).str.strip().str.upper()

# Mostrar estad√≠sticas descriptivas
print("Estad√≠sticas descriptivas de las variables cuantitativas:")
print("\nP3094S3 (Ahorro por cultivar):")
print(df['P3094S3_clean'].describe())
print(f"Valores faltantes: {df['P3094S3_clean'].isna().sum()}")

print("\nP3087S1 (Valor mensual por pr√°cticas):")
print(df['P3087S1_clean'].describe())
print(f"Valores faltantes: {df['P3087S1_clean'].isna().sum()}")

print("\nP3095S3 (Ahorro por criar animales):")
print(df['P3095S3_clean'].describe())
print(f"Valores faltantes: {df['P3095S3_clean'].isna().sum()}")

print("\nP3101 (Reuniones familiares):")
print(df['P3101_clean'].value_counts())
print(f"Valores faltantes: {df['P3101_clean'].isna().sum()}")


## Funciones para Pruebas de Hip√≥tesis

Implementaremos las funciones necesarias para realizar las 11 pruebas de hip√≥tesis requeridas.


In [None]:
# 1. Prueba de hip√≥tesis para la media de una muestra con varianza conocida (Z-test)
def z_test_media_conocida(x, mu0, sigma, alternative='two-sided', alpha=0.05):
    """
    Prueba Z para la media con varianza conocida
    
    Par√°metros:
    x: muestra
    mu0: valor hipot√©tico de la media bajo H0
    sigma: desviaci√≥n est√°ndar poblacional conocida
    alternative: 'two-sided', 'greater', 'less'
    alpha: nivel de significancia
    """
    n = len(x)
    x_bar = np.mean(x)
    se = sigma / np.sqrt(n)
    z_stat = (x_bar - mu0) / se
    
    if alternative == 'two-sided':
        p_value = 2 * (1 - norm.cdf(abs(z_stat)))
        critical_value = norm.ppf(1 - alpha/2)
    elif alternative == 'greater':
        p_value = 1 - norm.cdf(z_stat)
        critical_value = norm.ppf(1 - alpha)
    elif alternative == 'less':
        p_value = norm.cdf(z_stat)
        critical_value = norm.ppf(alpha)
    
    # Intervalo de confianza
    z_crit = norm.ppf(1 - alpha/2)
    ci_lower = x_bar - z_crit * se
    ci_upper = x_bar + z_crit * se
    
    return {
        'estadistico_z': z_stat,
        'p_value': p_value,
        'valor_critico': critical_value,
        'media_muestral': x_bar,
        'error_estandar': se,
        'intervalo_confianza': (ci_lower, ci_upper),
        'decision': 'Rechazar H0' if p_value < alpha else 'No rechazar H0'
    }

# 2. Prueba de hip√≥tesis para la proporci√≥n de una muestra
def z_test_proporcion(x, p0, alternative='two-sided', alpha=0.05):
    """
    Prueba Z para una proporci√≥n
    
    Par√°metros:
    x: muestra binaria (0s y 1s) o conteo de √©xitos
    p0: proporci√≥n hipot√©tica bajo H0
    alternative: 'two-sided', 'greater', 'less'
    alpha: nivel de significancia
    """
    if isinstance(x, (list, np.ndarray)) and len(x) > 1:
        # Si es una muestra binaria
        n = len(x)
        x_sum = np.sum(x)
        p_hat = x_sum / n
    else:
        # Si es conteo de √©xitos y tama√±o de muestra
        x_sum = x
        n = len(x) if hasattr(x, '__len__') else x
        p_hat = x_sum / n
    
    se = np.sqrt(p0 * (1 - p0) / n)
    z_stat = (p_hat - p0) / se
    
    if alternative == 'two-sided':
        p_value = 2 * (1 - norm.cdf(abs(z_stat)))
        critical_value = norm.ppf(1 - alpha/2)
    elif alternative == 'greater':
        p_value = 1 - norm.cdf(z_stat)
        critical_value = norm.ppf(1 - alpha)
    elif alternative == 'less':
        p_value = norm.cdf(z_stat)
        critical_value = norm.ppf(alpha)
    
    # Intervalo de confianza
    z_crit = norm.ppf(1 - alpha/2)
    se_ci = np.sqrt(p_hat * (1 - p_hat) / n)
    ci_lower = p_hat - z_crit * se_ci
    ci_upper = p_hat + z_crit * se_ci
    
    return {
        'estadistico_z': z_stat,
        'p_value': p_value,
        'valor_critico': critical_value,
        'proporcion_muestral': p_hat,
        'error_estandar': se,
        'intervalo_confianza': (ci_lower, ci_upper),
        'decision': 'Rechazar H0' if p_value < alpha else 'No rechazar H0'
    }

# 3. Prueba de hip√≥tesis para la media de una muestra con varianza desconocida (t-test)
def t_test_media_desconocida(x, mu0, alternative='two-sided', alpha=0.05):
    """
    Prueba t para la media con varianza desconocida
    
    Par√°metros:
    x: muestra
    mu0: valor hipot√©tico de la media bajo H0
    alternative: 'two-sided', 'greater', 'less'
    alpha: nivel de significancia
    """
    n = len(x)
    x_bar = np.mean(x)
    s = np.std(x, ddof=1)
    se = s / np.sqrt(n)
    t_stat = (x_bar - mu0) / se
    df = n - 1
    
    if alternative == 'two-sided':
        p_value = 2 * (1 - t.cdf(abs(t_stat), df))
        critical_value = t.ppf(1 - alpha/2, df)
    elif alternative == 'greater':
        p_value = 1 - t.cdf(t_stat, df)
        critical_value = t.ppf(1 - alpha, df)
    elif alternative == 'less':
        p_value = t.cdf(t_stat, df)
        critical_value = t.ppf(alpha, df)
    
    # Intervalo de confianza
    t_crit = t.ppf(1 - alpha/2, df)
    ci_lower = x_bar - t_crit * se
    ci_upper = x_bar + t_crit * se
    
    return {
        'estadistico_t': t_stat,
        'p_value': p_value,
        'valor_critico': critical_value,
        'grados_libertad': df,
        'media_muestral': x_bar,
        'desviacion_estandar': s,
        'error_estandar': se,
        'intervalo_confianza': (ci_lower, ci_upper),
        'decision': 'Rechazar H0' if p_value < alpha else 'No rechazar H0'
    }


In [None]:
# 4. Prueba de hip√≥tesis para la diferencia de medias de dos muestras con varianzas conocidas
def z_test_diferencia_medias_conocidas(x1, x2, sigma1, sigma2, mu0=0, alternative='two-sided', alpha=0.05):
    """
    Prueba Z para diferencia de medias con varianzas conocidas
    
    Par√°metros:
    x1, x2: muestras
    sigma1, sigma2: desviaciones est√°ndar poblacionales conocidas
    mu0: diferencia hipot√©tica bajo H0 (por defecto 0)
    alternative: 'two-sided', 'greater', 'less'
    alpha: nivel de significancia
    """
    n1, n2 = len(x1), len(x2)
    x1_bar, x2_bar = np.mean(x1), np.mean(x2)
    se = np.sqrt(sigma1**2/n1 + sigma2**2/n2)
    z_stat = ((x1_bar - x2_bar) - mu0) / se
    
    if alternative == 'two-sided':
        p_value = 2 * (1 - norm.cdf(abs(z_stat)))
        critical_value = norm.ppf(1 - alpha/2)
    elif alternative == 'greater':
        p_value = 1 - norm.cdf(z_stat)
        critical_value = norm.ppf(1 - alpha)
    elif alternative == 'less':
        p_value = norm.cdf(z_stat)
        critical_value = norm.ppf(alpha)
    
    # Intervalo de confianza
    z_crit = norm.ppf(1 - alpha/2)
    ci_lower = (x1_bar - x2_bar) - z_crit * se
    ci_upper = (x1_bar - x2_bar) + z_crit * se
    
    return {
        'estadistico_z': z_stat,
        'p_value': p_value,
        'valor_critico': critical_value,
        'media_muestra1': x1_bar,
        'media_muestra2': x2_bar,
        'diferencia_observada': x1_bar - x2_bar,
        'error_estandar': se,
        'intervalo_confianza': (ci_lower, ci_upper),
        'decision': 'Rechazar H0' if p_value < alpha else 'No rechazar H0'
    }

# 5. Prueba de hip√≥tesis para la diferencia de medias de dos muestras con varianzas iguales y desconocidas
def t_test_diferencia_medias_iguales(x1, x2, mu0=0, alternative='two-sided', alpha=0.05):
    """
    Prueba t para diferencia de medias con varianzas iguales (pooled t-test)
    
    Par√°metros:
    x1, x2: muestras
    mu0: diferencia hipot√©tica bajo H0 (por defecto 0)
    alternative: 'two-sided', 'greater', 'less'
    alpha: nivel de significancia
    """
    n1, n2 = len(x1), len(x2)
    x1_bar, x2_bar = np.mean(x1), np.mean(x2)
    s1, s2 = np.std(x1, ddof=1), np.std(x2, ddof=1)
    
    # Varianza combinada (pooled)
    sp2 = ((n1 - 1) * s1**2 + (n2 - 1) * s2**2) / (n1 + n2 - 2)
    se = np.sqrt(sp2 * (1/n1 + 1/n2))
    t_stat = ((x1_bar - x2_bar) - mu0) / se
    df = n1 + n2 - 2
    
    if alternative == 'two-sided':
        p_value = 2 * (1 - t.cdf(abs(t_stat), df))
        critical_value = t.ppf(1 - alpha/2, df)
    elif alternative == 'greater':
        p_value = 1 - t.cdf(t_stat, df)
        critical_value = t.ppf(1 - alpha, df)
    elif alternative == 'less':
        p_value = t.cdf(t_stat, df)
        critical_value = t.ppf(alpha, df)
    
    # Intervalo de confianza
    t_crit = t.ppf(1 - alpha/2, df)
    ci_lower = (x1_bar - x2_bar) - t_crit * se
    ci_upper = (x1_bar - x2_bar) + t_crit * se
    
    return {
        'estadistico_t': t_stat,
        'p_value': p_value,
        'valor_critico': critical_value,
        'grados_libertad': df,
        'media_muestra1': x1_bar,
        'media_muestra2': x2_bar,
        'diferencia_observada': x1_bar - x2_bar,
        'varianza_combinada': sp2,
        'error_estandar': se,
        'intervalo_confianza': (ci_lower, ci_upper),
        'decision': 'Rechazar H0' if p_value < alpha else 'No rechazar H0'
    }

# 6. Prueba de hip√≥tesis para la diferencia de medias de dos muestras con varianzas desiguales y desconocidas (Welch's t-test)
def t_test_diferencia_medias_desiguales(x1, x2, mu0=0, alternative='two-sided', alpha=0.05):
    """
    Prueba t de Welch para diferencia de medias con varianzas desiguales
    
    Par√°metros:
    x1, x2: muestras
    mu0: diferencia hipot√©tica bajo H0 (por defecto 0)
    alternative: 'two-sided', 'greater', 'less'
    alpha: nivel de significancia
    """
    n1, n2 = len(x1), len(x2)
    x1_bar, x2_bar = np.mean(x1), np.mean(x2)
    s1, s2 = np.std(x1, ddof=1), np.std(x2, ddof=1)
    
    # Error est√°ndar y grados de libertad de Welch
    se = np.sqrt(s1**2/n1 + s2**2/n2)
    df = (s1**2/n1 + s2**2/n2)**2 / ((s1**2/n1)**2/(n1-1) + (s2**2/n2)**2/(n2-1))
    t_stat = ((x1_bar - x2_bar) - mu0) / se
    
    if alternative == 'two-sided':
        p_value = 2 * (1 - t.cdf(abs(t_stat), df))
        critical_value = t.ppf(1 - alpha/2, df)
    elif alternative == 'greater':
        p_value = 1 - t.cdf(t_stat, df)
        critical_value = t.ppf(1 - alpha, df)
    elif alternative == 'less':
        p_value = t.cdf(t_stat, df)
        critical_value = t.ppf(alpha, df)
    
    # Intervalo de confianza
    t_crit = t.ppf(1 - alpha/2, df)
    ci_lower = (x1_bar - x2_bar) - t_crit * se
    ci_upper = (x1_bar - x2_bar) + t_crit * se
    
    return {
        'estadistico_t': t_stat,
        'p_value': p_value,
        'valor_critico': critical_value,
        'grados_libertad': df,
        'media_muestra1': x1_bar,
        'media_muestra2': x2_bar,
        'diferencia_observada': x1_bar - x2_bar,
        'error_estandar': se,
        'intervalo_confianza': (ci_lower, ci_upper),
        'decision': 'Rechazar H0' if p_value < alpha else 'No rechazar H0'
    }


In [None]:
# 7. Prueba de hip√≥tesis para la diferencia de proporciones de dos muestras
def z_test_diferencia_proporciones(x1, n1, x2, n2, p0=0, alternative='two-sided', alpha=0.05):
    """
    Prueba Z para diferencia de proporciones
    
    Par√°metros:
    x1, x2: n√∫mero de √©xitos en cada muestra
    n1, n2: tama√±os de las muestras
    p0: diferencia hipot√©tica bajo H0 (por defecto 0)
    alternative: 'two-sided', 'greater', 'less'
    alpha: nivel de significancia
    """
    p1_hat = x1 / n1
    p2_hat = x2 / n2
    
    # Proporci√≥n combinada bajo H0
    p_comb = (x1 + x2) / (n1 + n2)
    
    # Error est√°ndar
    se = np.sqrt(p_comb * (1 - p_comb) * (1/n1 + 1/n2))
    z_stat = ((p1_hat - p2_hat) - p0) / se
    
    if alternative == 'two-sided':
        p_value = 2 * (1 - norm.cdf(abs(z_stat)))
        critical_value = norm.ppf(1 - alpha/2)
    elif alternative == 'greater':
        p_value = 1 - norm.cdf(z_stat)
        critical_value = norm.ppf(1 - alpha)
    elif alternative == 'less':
        p_value = norm.cdf(z_stat)
        critical_value = norm.ppf(alpha)
    
    # Intervalo de confianza (usando proporciones individuales)
    z_crit = norm.ppf(1 - alpha/2)
    se_ci = np.sqrt(p1_hat*(1-p1_hat)/n1 + p2_hat*(1-p2_hat)/n2)
    ci_lower = (p1_hat - p2_hat) - z_crit * se_ci
    ci_upper = (p1_hat - p2_hat) + z_crit * se_ci
    
    return {
        'estadistico_z': z_stat,
        'p_value': p_value,
        'valor_critico': critical_value,
        'proporcion_muestra1': p1_hat,
        'proporcion_muestra2': p2_hat,
        'diferencia_observada': p1_hat - p2_hat,
        'proporcion_combinada': p_comb,
        'error_estandar': se,
        'intervalo_confianza': (ci_lower, ci_upper),
        'decision': 'Rechazar H0' if p_value < alpha else 'No rechazar H0'
    }

# 8. Prueba de hip√≥tesis para muestras dependientes (t-test pareado)
def t_test_muestras_dependientes(x1, x2, mu0=0, alternative='two-sided', alpha=0.05):
    """
    Prueba t para muestras dependientes (pareadas)
    
    Par√°metros:
    x1, x2: muestras pareadas
    mu0: diferencia hipot√©tica bajo H0 (por defecto 0)
    alternative: 'two-sided', 'greater', 'less'
    alpha: nivel de significancia
    """
    if len(x1) != len(x2):
        raise ValueError("Las muestras deben tener la misma longitud")
    
    # Calcular diferencias
    d = np.array(x1) - np.array(x2)
    n = len(d)
    d_bar = np.mean(d)
    s_d = np.std(d, ddof=1)
    se = s_d / np.sqrt(n)
    t_stat = (d_bar - mu0) / se
    df = n - 1
    
    if alternative == 'two-sided':
        p_value = 2 * (1 - t.cdf(abs(t_stat), df))
        critical_value = t.ppf(1 - alpha/2, df)
    elif alternative == 'greater':
        p_value = 1 - t.cdf(t_stat, df)
        critical_value = t.ppf(1 - alpha, df)
    elif alternative == 'less':
        p_value = t.cdf(t_stat, df)
        critical_value = t.ppf(alpha, df)
    
    # Intervalo de confianza
    t_crit = t.ppf(1 - alpha/2, df)
    ci_lower = d_bar - t_crit * se
    ci_upper = d_bar + t_crit * se
    
    return {
        'estadistico_t': t_stat,
        'p_value': p_value,
        'valor_critico': critical_value,
        'grados_libertad': df,
        'media_diferencias': d_bar,
        'desviacion_diferencias': s_d,
        'error_estandar': se,
        'intervalo_confianza': (ci_lower, ci_upper),
        'decision': 'Rechazar H0' if p_value < alpha else 'No rechazar H0'
    }

# 9. Prueba de bondad de ajuste (Chi-cuadrado)
def chi2_test_bondad_ajuste(x, expected_props=None, alpha=0.05):
    """
    Prueba Chi-cuadrado de bondad de ajuste
    
    Par√°metros:
    x: muestra categ√≥rica
    expected_props: proporciones esperadas (si None, se asume distribuci√≥n uniforme)
    alpha: nivel de significancia
    """
    # Contar frecuencias observadas
    observed = np.bincount(x)
    n = len(x)
    k = len(observed)
    
    if expected_props is None:
        # Distribuci√≥n uniforme
        expected_props = np.ones(k) / k
    else:
        expected_props = np.array(expected_props)
        if len(expected_props) != k:
            raise ValueError("El n√∫mero de proporciones esperadas debe coincidir con el n√∫mero de categor√≠as")
        expected_props = expected_props / np.sum(expected_props)  # Normalizar
    
    # Frecuencias esperadas
    expected = n * expected_props
    
    # Estad√≠stico Chi-cuadrado
    chi2_stat = np.sum((observed - expected)**2 / expected)
    df = k - 1
    p_value = 1 - chi2.cdf(chi2_stat, df)
    critical_value = chi2.ppf(1 - alpha, df)
    
    return {
        'estadistico_chi2': chi2_stat,
        'p_value': p_value,
        'valor_critico': critical_value,
        'grados_libertad': df,
        'frecuencias_observadas': observed,
        'frecuencias_esperadas': expected,
        'decision': 'Rechazar H0' if p_value < alpha else 'No rechazar H0'
    }


In [None]:
# 10. Prueba de independencia (Chi-cuadrado)
def chi2_test_independencia(x, y, alpha=0.05):
    """
    Prueba Chi-cuadrado de independencia
    
    Par√°metros:
    x, y: variables categ√≥ricas
    alpha: nivel de significancia
    """
    # Crear tabla de contingencia
    contingency_table = pd.crosstab(x, y)
    observed = contingency_table.values
    
    # Calcular frecuencias esperadas
    row_totals = observed.sum(axis=1)
    col_totals = observed.sum(axis=0)
    n = observed.sum()
    expected = np.outer(row_totals, col_totals) / n
    
    # Estad√≠stico Chi-cuadrado
    chi2_stat = np.sum((observed - expected)**2 / expected)
    df = (observed.shape[0] - 1) * (observed.shape[1] - 1)
    p_value = 1 - chi2.cdf(chi2_stat, df)
    critical_value = chi2.ppf(1 - alpha, df)
    
    return {
        'estadistico_chi2': chi2_stat,
        'p_value': p_value,
        'valor_critico': critical_value,
        'grados_libertad': df,
        'tabla_contingencia': contingency_table,
        'frecuencias_observadas': observed,
        'frecuencias_esperadas': expected,
        'decision': 'Rechazar H0' if p_value < alpha else 'No rechazar H0'
    }

# 11. Prueba de signos
def prueba_signos(x, y, alternative='two-sided', alpha=0.05):
    """
    Prueba de signos para muestras pareadas
    
    Par√°metros:
    x, y: muestras pareadas
    alternative: 'two-sided', 'greater', 'less'
    alpha: nivel de significancia
    """
    if len(x) != len(y):
        raise ValueError("Las muestras deben tener la misma longitud")
    
    # Calcular diferencias
    d = np.array(x) - np.array(y)
    
    # Contar signos
    positivos = np.sum(d > 0)
    negativos = np.sum(d < 0)
    empates = np.sum(d == 0)
    n = positivos + negativos  # Excluir empates
    
    if n == 0:
        return {
            'estadistico': 0,
            'p_value': 1.0,
            'decision': 'No rechazar H0',
            'positivos': positivos,
            'negativos': negativos,
            'empates': empates,
            'n_valido': n
        }
    
    # Estad√≠stico es el menor de los conteos
    estadistico = min(positivos, negativos)
    
    # Valor-p usando distribuci√≥n binomial
    if alternative == 'two-sided':
        p_value = 2 * binom.cdf(estadistico, n, 0.5)
    elif alternative == 'greater':
        p_value = 1 - binom.cdf(positivos - 1, n, 0.5)
    elif alternative == 'less':
        p_value = binom.cdf(positivos, n, 0.5)
    
    return {
        'estadistico': estadistico,
        'p_value': p_value,
        'positivos': positivos,
        'negativos': negativos,
        'empates': empates,
        'n_valido': n,
        'decision': 'Rechazar H0' if p_value < alpha else 'No rechazar H0'
    }

print("‚úÖ Todas las funciones de pruebas de hip√≥tesis han sido definidas correctamente")


## Aplicaci√≥n de las Pruebas de Hip√≥tesis

Ahora aplicaremos las 11 pruebas de hip√≥tesis utilizando las variables de nuestro dataset.


### 1. Prueba de hip√≥tesis para la media de una muestra con varianza conocida

**Hip√≥tesis:** H‚ÇÄ: Œº = Œº‚ÇÄ vs H‚ÇÅ: Œº ‚â† Œº‚ÇÄ (o >, <)

**Variable:** P3095S3 (Valor ahorra por criar animales)
**Supuesto:** Asumimos una varianza poblacional conocida basada en estudios previos


In [None]:
# 1. Prueba Z para la media con varianza conocida
# Usando P3095S3 (Valor ahorra por criar animales)

# Preparar datos (eliminar valores faltantes)
data_p3095s3 = df['P3095S3_clean'].dropna()
print(f"Tama√±o de muestra: {len(data_p3095s3)}")
print(f"Media muestral: {data_p3095s3.mean():.2f}")
print(f"Desviaci√≥n est√°ndar muestral: {data_p3095s3.std():.2f}")

# Asumir una varianza poblacional conocida (basada en estudios previos)
# Usaremos un valor razonable basado en la desviaci√≥n est√°ndar muestral
sigma_conocida = 500000  # Asumimos una desviaci√≥n est√°ndar poblacional conocida
mu0 = 100000  # Valor hipot√©tico: ¬øla media es igual a 100,000?

# Realizar la prueba
resultado_z1 = z_test_media_conocida(data_p3095s3, mu0, sigma_conocida, alternative='two-sided')

print("\n=== RESULTADOS PRUEBA Z (MEDIA CON VARIANZA CONOCIDA) ===")
print(f"Estad√≠stico Z: {resultado_z1['estadistico_z']:.4f}")
print(f"Valor-p: {resultado_z1['p_value']:.6f}")
print(f"Valor cr√≠tico: ¬±{resultado_z1['valor_critico']:.4f}")
print(f"Media muestral: {resultado_z1['media_muestral']:.2f}")
print(f"Error est√°ndar: {resultado_z1['error_estandar']:.2f}")
print(f"Intervalo de confianza 95%: [{resultado_z1['intervalo_confianza'][0]:.2f}, {resultado_z1['intervalo_confianza'][1]:.2f}]")
print(f"Decisi√≥n: {resultado_z1['decision']}")

# Interpretaci√≥n
if resultado_z1['p_value'] < 0.05:
    print(f"\nInterpretaci√≥n: Rechazamos H‚ÇÄ. La media del ahorro por criar animales ({resultado_z1['media_muestral']:.2f}) es significativamente diferente de {mu0}.")
else:
    print(f"\nInterpretaci√≥n: No rechazamos H‚ÇÄ. No hay evidencia suficiente para concluir que la media del ahorro por criar animales difiere de {mu0}.")


### 2. Prueba de hip√≥tesis para la proporci√≥n de una muestra

**Hip√≥tesis:** H‚ÇÄ: p = p‚ÇÄ vs H‚ÇÅ: p ‚â† p‚ÇÄ (o >, <)

**Variable:** P3101 (¬øFue a reuniones familiares durante las √∫ltimas 4 semanas?)
**Objetivo:** Probar si la proporci√≥n de personas que asistieron a reuniones familiares es diferente a un valor espec√≠fico


In [None]:
# 2. Prueba Z para la proporci√≥n
# Usando P3101 (Reuniones familiares)

# Preparar datos
data_p3101 = df['P3101_clean'].dropna()
print("Distribuci√≥n de respuestas:")
print(data_p3101.value_counts())

# Convertir a binario (1 = S√ç, 0 = NO)
# Asumimos que "S√ç" incluye variaciones como "SI", "S√≠", etc.
data_p3101_binary = (data_p3101.str.contains('S√ç|SI|S√≠|s√≠', case=False, na=False)).astype(int)

print(f"\nTama√±o de muestra: {len(data_p3101_binary)}")
print(f"Proporci√≥n que asisti√≥ a reuniones: {data_p3101_binary.mean():.4f}")
print(f"N√∫mero de √©xitos (asistieron): {data_p3101_binary.sum()}")
print(f"N√∫mero de fracasos (no asistieron): {len(data_p3101_binary) - data_p3101_binary.sum()}")

# Valor hipot√©tico: ¬øla proporci√≥n es igual a 0.5?
p0 = 0.5  # 50% de las personas asisten a reuniones familiares

# Realizar la prueba
resultado_z2 = z_test_proporcion(data_p3101_binary, p0, alternative='two-sided')

print("\n=== RESULTADOS PRUEBA Z (PROPORCI√ìN) ===")
print(f"Estad√≠stico Z: {resultado_z2['estadistico_z']:.4f}")
print(f"Valor-p: {resultado_z2['p_value']:.6f}")
print(f"Valor cr√≠tico: ¬±{resultado_z2['valor_critico']:.4f}")
print(f"Proporci√≥n muestral: {resultado_z2['proporcion_muestral']:.4f}")
print(f"Error est√°ndar: {resultado_z2['error_estandar']:.4f}")
print(f"Intervalo de confianza 95%: [{resultado_z2['intervalo_confianza'][0]:.4f}, {resultado_z2['intervalo_confianza'][1]:.4f}]")
print(f"Decisi√≥n: {resultado_z2['decision']}")

# Interpretaci√≥n
if resultado_z2['p_value'] < 0.05:
    print(f"\nInterpretaci√≥n: Rechazamos H‚ÇÄ. La proporci√≥n de personas que asistieron a reuniones familiares ({resultado_z2['proporcion_muestral']:.4f}) es significativamente diferente de {p0}.")
else:
    print(f"\nInterpretaci√≥n: No rechazamos H‚ÇÄ. No hay evidencia suficiente para concluir que la proporci√≥n de asistencia a reuniones familiares difiere de {p0}.")


### 3. Prueba de hip√≥tesis para la media de una muestra con varianza desconocida

**Hip√≥tesis:** H‚ÇÄ: Œº = Œº‚ÇÄ vs H‚ÇÅ: Œº ‚â† Œº‚ÇÄ (o >, <)

**Variable:** P3087S1 (Valor mensual por pr√°cticas o pasant√≠as)
**M√©todo:** Prueba t de Student (m√°s com√∫n en la pr√°ctica)


In [None]:
# 3. Prueba t para la media con varianza desconocida
# Usando P3087S1 (Valor mensual por pr√°cticas o pasant√≠as)

# Preparar datos (eliminar valores faltantes)
data_p3087s1 = df['P3087S1_clean'].dropna()
print(f"Tama√±o de muestra: {len(data_p3087s1)}")
print(f"Media muestral: {data_p3087s1.mean():.2f}")
print(f"Desviaci√≥n est√°ndar muestral: {data_p3087s1.std():.2f}")

# Valor hipot√©tico: ¬øla media es igual a 200,000?
mu0 = 200000  # Valor hipot√©tico

# Realizar la prueba
resultado_t1 = t_test_media_desconocida(data_p3087s1, mu0, alternative='two-sided')

print("\n=== RESULTADOS PRUEBA T (MEDIA CON VARIANZA DESCONOCIDA) ===")
print(f"Estad√≠stico t: {resultado_t1['estadistico_t']:.4f}")
print(f"Valor-p: {resultado_t1['p_value']:.6f}")
print(f"Valor cr√≠tico: ¬±{resultado_t1['valor_critico']:.4f}")
print(f"Grados de libertad: {resultado_t1['grados_libertad']}")
print(f"Media muestral: {resultado_t1['media_muestral']:.2f}")
print(f"Desviaci√≥n est√°ndar: {resultado_t1['desviacion_estandar']:.2f}")
print(f"Error est√°ndar: {resultado_t1['error_estandar']:.2f}")
print(f"Intervalo de confianza 95%: [{resultado_t1['intervalo_confianza'][0]:.2f}, {resultado_t1['intervalo_confianza'][1]:.2f}]")
print(f"Decisi√≥n: {resultado_t1['decision']}")

# Interpretaci√≥n
if resultado_t1['p_value'] < 0.05:
    print(f"\nInterpretaci√≥n: Rechazamos H‚ÇÄ. La media del valor mensual por pr√°cticas ({resultado_t1['media_muestral']:.2f}) es significativamente diferente de {mu0}.")
else:
    print(f"\nInterpretaci√≥n: No rechazamos H‚ÇÄ. No hay evidencia suficiente para concluir que la media del valor mensual por pr√°cticas difiere de {mu0}.")


### 4. Prueba de hip√≥tesis para la diferencia de medias de dos muestras con varianzas conocidas

**Hip√≥tesis:** H‚ÇÄ: Œº‚ÇÅ - Œº‚ÇÇ = 0 vs H‚ÇÅ: Œº‚ÇÅ - Œº‚ÇÇ ‚â† 0 (o >, <)

**Variables:** P3094S3 (Ahorro por cultivar) vs P3095S3 (Ahorro por criar animales)
**Objetivo:** Comparar si hay diferencia significativa entre los ahorros por cultivar vs criar animales


In [None]:
# 4. Prueba Z para diferencia de medias con varianzas conocidas
# Comparando P3094S3 (Ahorro por cultivar) vs P3095S3 (Ahorro por criar animales)

# Preparar datos (eliminar valores faltantes)
data_p3094s3 = df['P3094S3_clean'].dropna()
data_p3095s3 = df['P3095S3_clean'].dropna()

print(f"Tama√±o muestra P3094S3 (cultivar): {len(data_p3094s3)}")
print(f"Media P3094S3: {data_p3094s3.mean():.2f}")
print(f"Desv. est√°ndar P3094S3: {data_p3094s3.std():.2f}")

print(f"\nTama√±o muestra P3095S3 (criar animales): {len(data_p3095s3)}")
print(f"Media P3095S3: {data_p3095s3.mean():.2f}")
print(f"Desv. est√°ndar P3095S3: {data_p3095s3.std():.2f}")

# Asumir varianzas poblacionales conocidas (basadas en estudios previos)
sigma1_conocida = 300000  # Varianza conocida para cultivar
sigma2_conocida = 500000  # Varianza conocida para criar animales

# Realizar la prueba
resultado_z3 = z_test_diferencia_medias_conocidas(
    data_p3094s3, data_p3095s3, 
    sigma1_conocida, sigma2_conocida, 
    mu0=0, alternative='two-sided'
)

print("\n=== RESULTADOS PRUEBA Z (DIFERENCIA DE MEDIAS CON VARIANZAS CONOCIDAS) ===")
print(f"Estad√≠stico Z: {resultado_z3['estadistico_z']:.4f}")
print(f"Valor-p: {resultado_z3['p_value']:.6f}")
print(f"Valor cr√≠tico: ¬±{resultado_z3['valor_critico']:.4f}")
print(f"Media muestra 1 (cultivar): {resultado_z3['media_muestra1']:.2f}")
print(f"Media muestra 2 (criar animales): {resultado_z3['media_muestra2']:.2f}")
print(f"Diferencia observada: {resultado_z3['diferencia_observada']:.2f}")
print(f"Error est√°ndar: {resultado_z3['error_estandar']:.2f}")
print(f"Intervalo de confianza 95%: [{resultado_z3['intervalo_confianza'][0]:.2f}, {resultado_z3['intervalo_confianza'][1]:.2f}]")
print(f"Decisi√≥n: {resultado_z3['decision']}")

# Interpretaci√≥n
if resultado_z3['p_value'] < 0.05:
    if resultado_z3['diferencia_observada'] > 0:
        print(f"\nInterpretaci√≥n: Rechazamos H‚ÇÄ. El ahorro por cultivar ({resultado_z3['media_muestra1']:.2f}) es significativamente mayor que el ahorro por criar animales ({resultado_z3['media_muestra2']:.2f}).")
    else:
        print(f"\nInterpretaci√≥n: Rechazamos H‚ÇÄ. El ahorro por cultivar ({resultado_z3['media_muestra1']:.2f}) es significativamente menor que el ahorro por criar animales ({resultado_z3['media_muestra2']:.2f}).")
else:
    print(f"\nInterpretaci√≥n: No rechazamos H‚ÇÄ. No hay evidencia suficiente para concluir que existe diferencia significativa entre los ahorros por cultivar y criar animales.")


### 5. Prueba de hip√≥tesis para la diferencia de medias de dos muestras con varianzas iguales y desconocidas

**Hip√≥tesis:** H‚ÇÄ: Œº‚ÇÅ - Œº‚ÇÇ = 0 vs H‚ÇÅ: Œº‚ÇÅ - Œº‚ÇÇ ‚â† 0 (o >, <)

**Variables:** P3087S1 (Valor mensual por pr√°cticas) vs P3094S3 (Ahorro por cultivar)
**M√©todo:** Prueba t con varianzas combinadas (pooled t-test)


In [None]:
# 5. Prueba t para diferencia de medias con varianzas iguales (pooled t-test)
# Comparando P3087S1 (Valor mensual por pr√°cticas) vs P3094S3 (Ahorro por cultivar)

# Preparar datos (eliminar valores faltantes)
data_p3087s1 = df['P3087S1_clean'].dropna()
data_p3094s3 = df['P3094S3_clean'].dropna()

print(f"Tama√±o muestra P3087S1 (pr√°cticas): {len(data_p3087s1)}")
print(f"Media P3087S1: {data_p3087s1.mean():.2f}")
print(f"Desv. est√°ndar P3087S1: {data_p3087s1.std():.2f}")

print(f"\nTama√±o muestra P3094S3 (cultivar): {len(data_p3094s3)}")
print(f"Media P3094S3: {data_p3094s3.mean():.2f}")
print(f"Desv. est√°ndar P3094S3: {data_p3094s3.std():.2f}")

# Verificar si las varianzas son aproximadamente iguales (prueba F)
var1 = data_p3087s1.var()
var2 = data_p3094s3.var()
f_ratio = max(var1, var2) / min(var1, var2)
print(f"\nRaz√≥n de varianzas (F): {f_ratio:.4f}")
if f_ratio < 4:  # Regla pr√°ctica: si F < 4, asumir varianzas iguales
    print("Las varianzas parecen ser aproximadamente iguales (F < 4)")
else:
    print("Las varianzas parecen ser diferentes (F ‚â• 4)")

# Realizar la prueba t con varianzas iguales
resultado_t2 = t_test_diferencia_medias_iguales(
    data_p3087s1, data_p3094s3, 
    mu0=0, alternative='two-sided'
)

print("\n=== RESULTADOS PRUEBA T (DIFERENCIA DE MEDIAS CON VARIANZAS IGUALES) ===")
print(f"Estad√≠stico t: {resultado_t2['estadistico_t']:.4f}")
print(f"Valor-p: {resultado_t2['p_value']:.6f}")
print(f"Valor cr√≠tico: ¬±{resultado_t2['valor_critico']:.4f}")
print(f"Grados de libertad: {resultado_t2['grados_libertad']}")
print(f"Media muestra 1 (pr√°cticas): {resultado_t2['media_muestra1']:.2f}")
print(f"Media muestra 2 (cultivar): {resultado_t2['media_muestra2']:.2f}")
print(f"Diferencia observada: {resultado_t2['diferencia_observada']:.2f}")
print(f"Varianza combinada: {resultado_t2['varianza_combinada']:.2f}")
print(f"Error est√°ndar: {resultado_t2['error_estandar']:.2f}")
print(f"Intervalo de confianza 95%: [{resultado_t2['intervalo_confianza'][0]:.2f}, {resultado_t2['intervalo_confianza'][1]:.2f}]")
print(f"Decisi√≥n: {resultado_t2['decision']}")

# Interpretaci√≥n
if resultado_t2['p_value'] < 0.05:
    if resultado_t2['diferencia_observada'] > 0:
        print(f"\nInterpretaci√≥n: Rechazamos H‚ÇÄ. El valor mensual por pr√°cticas ({resultado_t2['media_muestra1']:.2f}) es significativamente mayor que el ahorro por cultivar ({resultado_t2['media_muestra2']:.2f}).")
    else:
        print(f"\nInterpretaci√≥n: Rechazamos H‚ÇÄ. El valor mensual por pr√°cticas ({resultado_t2['media_muestra1']:.2f}) es significativamente menor que el ahorro por cultivar ({resultado_t2['media_muestra2']:.2f}).")
else:
    print(f"\nInterpretaci√≥n: No rechazamos H‚ÇÄ. No hay evidencia suficiente para concluir que existe diferencia significativa entre el valor mensual por pr√°cticas y el ahorro por cultivar.")


### 6. Prueba de hip√≥tesis para la diferencia de medias de dos muestras con varianzas desiguales y desconocidas

**Hip√≥tesis:** H‚ÇÄ: Œº‚ÇÅ - Œº‚ÇÇ = 0 vs H‚ÇÅ: Œº‚ÇÅ - Œº‚ÇÇ ‚â† 0 (o >, <)

**Variables:** P3087S1 (Valor mensual por pr√°cticas) vs P3095S3 (Ahorro por criar animales)
**M√©todo:** Prueba t de Welch (Welch's t-test)


In [None]:
# 6. Prueba t de Welch para diferencia de medias con varianzas desiguales
# Comparando P3087S1 (Valor mensual por pr√°cticas) vs P3095S3 (Ahorro por criar animales)

# Preparar datos (eliminar valores faltantes)
data_p3087s1 = df['P3087S1_clean'].dropna()
data_p3095s3 = df['P3095S3_clean'].dropna()

print(f"Tama√±o muestra P3087S1 (pr√°cticas): {len(data_p3087s1)}")
print(f"Media P3087S1: {data_p3087s1.mean():.2f}")
print(f"Desv. est√°ndar P3087S1: {data_p3087s1.std():.2f}")

print(f"\nTama√±o muestra P3095S3 (criar animales): {len(data_p3095s3)}")
print(f"Media P3095S3: {data_p3095s3.mean():.2f}")
print(f"Desv. est√°ndar P3095S3: {data_p3095s3.std():.2f}")

# Verificar si las varianzas son diferentes (prueba F)
var1 = data_p3087s1.var()
var2 = data_p3095s3.var()
f_ratio = max(var1, var2) / min(var1, var2)
print(f"\nRaz√≥n de varianzas (F): {f_ratio:.4f}")
if f_ratio >= 4:  # Regla pr√°ctica: si F ‚â• 4, asumir varianzas diferentes
    print("Las varianzas parecen ser diferentes (F ‚â• 4) - Usar Welch's t-test")
else:
    print("Las varianzas parecen ser aproximadamente iguales (F < 4)")

# Realizar la prueba t de Welch
resultado_t3 = t_test_diferencia_medias_desiguales(
    data_p3087s1, data_p3095s3, 
    mu0=0, alternative='two-sided'
)

print("\n=== RESULTADOS PRUEBA T DE WELCH (DIFERENCIA DE MEDIAS CON VARIANZAS DESIGUALES) ===")
print(f"Estad√≠stico t: {resultado_t3['estadistico_t']:.4f}")
print(f"Valor-p: {resultado_t3['p_value']:.6f}")
print(f"Valor cr√≠tico: ¬±{resultado_t3['valor_critico']:.4f}")
print(f"Grados de libertad (Welch): {resultado_t3['grados_libertad']:.1f}")
print(f"Media muestra 1 (pr√°cticas): {resultado_t3['media_muestra1']:.2f}")
print(f"Media muestra 2 (criar animales): {resultado_t3['media_muestra2']:.2f}")
print(f"Diferencia observada: {resultado_t3['diferencia_observada']:.2f}")
print(f"Error est√°ndar: {resultado_t3['error_estandar']:.2f}")
print(f"Intervalo de confianza 95%: [{resultado_t3['intervalo_confianza'][0]:.2f}, {resultado_t3['intervalo_confianza'][1]:.2f}]")
print(f"Decisi√≥n: {resultado_t3['decision']}")

# Interpretaci√≥n
if resultado_t3['p_value'] < 0.05:
    if resultado_t3['diferencia_observada'] > 0:
        print(f"\nInterpretaci√≥n: Rechazamos H‚ÇÄ. El valor mensual por pr√°cticas ({resultado_t3['media_muestra1']:.2f}) es significativamente mayor que el ahorro por criar animales ({resultado_t3['media_muestra2']:.2f}).")
    else:
        print(f"\nInterpretaci√≥n: Rechazamos H‚ÇÄ. El valor mensual por pr√°cticas ({resultado_t3['media_muestra1']:.2f}) es significativamente menor que el ahorro por criar animales ({resultado_t3['media_muestra2']:.2f}).")
else:
    print(f"\nInterpretaci√≥n: No rechazamos H‚ÇÄ. No hay evidencia suficiente para concluir que existe diferencia significativa entre el valor mensual por pr√°cticas y el ahorro por criar animales.")


### 7. Prueba de hip√≥tesis para la diferencia de proporciones de dos muestras

**Hip√≥tesis:** H‚ÇÄ: p‚ÇÅ - p‚ÇÇ = 0 vs H‚ÇÅ: p‚ÇÅ - p‚ÇÇ ‚â† 0 (o >, <)

**Variable:** P3101 (Reuniones familiares) dividida en dos grupos
**Objetivo:** Comparar la proporci√≥n de asistencia a reuniones familiares entre dos grupos diferentes


In [None]:
# 7. Prueba Z para diferencia de proporciones
# Comparando la proporci√≥n de asistencia a reuniones familiares entre dos grupos

# Crear dos grupos basados en alguna variable (por ejemplo, dividir por la mediana de una variable cuantitativa)
# Usaremos P3087S1 (Valor mensual por pr√°cticas) para dividir en dos grupos

# Preparar datos
data_p3101 = df['P3101_clean'].dropna()
data_p3087s1 = df['P3087S1_clean'].dropna()

# Crear un DataFrame con ambas variables para hacer la comparaci√≥n
df_comparacion = pd.DataFrame({
    'P3101': data_p3101,
    'P3087S1': data_p3087s1
}).dropna()

# Dividir en dos grupos basado en la mediana de P3087S1
mediana_practicas = df_comparacion['P3087S1'].median()
print(f"Mediana de valor mensual por pr√°cticas: {mediana_practicas:.2f}")

# Grupo 1: Valor bajo de pr√°cticas (‚â§ mediana)
grupo1 = df_comparacion[df_comparacion['P3087S1'] <= mediana_practicas]
# Grupo 2: Valor alto de pr√°cticas (> mediana)
grupo2 = df_comparacion[df_comparacion['P3087S1'] > mediana_practicas]

print(f"\nTama√±o grupo 1 (pr√°cticas bajas): {len(grupo1)}")
print(f"Tama√±o grupo 2 (pr√°cticas altas): {len(grupo2)}")

# Convertir P3101 a binario para cada grupo
grupo1_binary = (grupo1['P3101'].str.contains('S√ç|SI|S√≠|s√≠', case=False, na=False)).astype(int)
grupo2_binary = (grupo2['P3101'].str.contains('S√ç|SI|S√≠|s√≠', case=False, na=False)).astype(int)

# Calcular estad√≠sticas
n1 = len(grupo1_binary)
x1 = grupo1_binary.sum()
p1_hat = x1 / n1

n2 = len(grupo2_binary)
x2 = grupo2_binary.sum()
p2_hat = x2 / n2

print(f"\nGrupo 1 (pr√°cticas bajas):")
print(f"  - Asistieron a reuniones: {x1} de {n1} ({p1_hat:.4f})")

print(f"\nGrupo 2 (pr√°cticas altas):")
print(f"  - Asistieron a reuniones: {x2} de {n2} ({p2_hat:.4f})")

# Realizar la prueba
resultado_z4 = z_test_diferencia_proporciones(x1, n1, x2, n2, p0=0, alternative='two-sided')

print("\n=== RESULTADOS PRUEBA Z (DIFERENCIA DE PROPORCIONES) ===")
print(f"Estad√≠stico Z: {resultado_z4['estadistico_z']:.4f}")
print(f"Valor-p: {resultado_z4['p_value']:.6f}")
print(f"Valor cr√≠tico: ¬±{resultado_z4['valor_critico']:.4f}")
print(f"Proporci√≥n grupo 1 (pr√°cticas bajas): {resultado_z4['proporcion_muestra1']:.4f}")
print(f"Proporci√≥n grupo 2 (pr√°cticas altas): {resultado_z4['proporcion_muestra2']:.4f}")
print(f"Diferencia observada: {resultado_z4['diferencia_observada']:.4f}")
print(f"Proporci√≥n combinada: {resultado_z4['proporcion_combinada']:.4f}")
print(f"Error est√°ndar: {resultado_z4['error_estandar']:.4f}")
print(f"Intervalo de confianza 95%: [{resultado_z4['intervalo_confianza'][0]:.4f}, {resultado_z4['intervalo_confianza'][1]:.4f}]")
print(f"Decisi√≥n: {resultado_z4['decision']}")

# Interpretaci√≥n
if resultado_z4['p_value'] < 0.05:
    if resultado_z4['diferencia_observada'] > 0:
        print(f"\nInterpretaci√≥n: Rechazamos H‚ÇÄ. La proporci√≥n de asistencia a reuniones familiares es significativamente mayor en el grupo de pr√°cticas bajas ({resultado_z4['proporcion_muestra1']:.4f}) que en el grupo de pr√°cticas altas ({resultado_z4['proporcion_muestra2']:.4f}).")
    else:
        print(f"\nInterpretaci√≥n: Rechazamos H‚ÇÄ. La proporci√≥n de asistencia a reuniones familiares es significativamente menor en el grupo de pr√°cticas bajas ({resultado_z4['proporcion_muestra1']:.4f}) que en el grupo de pr√°cticas altas ({resultado_z4['proporcion_muestra2']:.4f}).")
else:
    print(f"\nInterpretaci√≥n: No rechazamos H‚ÇÄ. No hay evidencia suficiente para concluir que existe diferencia significativa en la proporci√≥n de asistencia a reuniones familiares entre los dos grupos.")


### 8. Prueba de hip√≥tesis para muestras dependientes (t-test pareado)

**Hip√≥tesis:** H‚ÇÄ: Œºd = 0 vs H‚ÇÅ: Œºd ‚â† 0 (o >, <)

**Variables:** Comparaci√≥n pareada entre P3094S3 y P3095S3
**Objetivo:** Probar si hay diferencia significativa entre ahorro por cultivar vs criar animales en los mismos individuos


In [None]:
# 8. Prueba t para muestras dependientes (pareadas)
# Comparando P3094S3 (Ahorro por cultivar) vs P3095S3 (Ahorro por criar animales) pareadas

# Crear un DataFrame con ambas variables para hacer la comparaci√≥n pareada
df_pareado = pd.DataFrame({
    'P3094S3': df['P3094S3_clean'],
    'P3095S3': df['P3095S3_clean']
}).dropna()

print(f"Tama√±o de muestra pareada: {len(df_pareado)}")
print(f"Media P3094S3 (cultivar): {df_pareado['P3094S3'].mean():.2f}")
print(f"Media P3095S3 (criar animales): {df_pareado['P3095S3'].mean():.2f}")

# Calcular diferencias
diferencias = df_pareado['P3094S3'] - df_pareado['P3095S3']
print(f"Media de diferencias: {diferencias.mean():.2f}")
print(f"Desviaci√≥n est√°ndar de diferencias: {diferencias.std():.2f}")

# Realizar la prueba t pareada
resultado_t4 = t_test_muestras_dependientes(
    df_pareado['P3094S3'], df_pareado['P3095S3'], 
    mu0=0, alternative='two-sided'
)

print("\n=== RESULTADOS PRUEBA T PAREADA (MUESTRAS DEPENDIENTES) ===")
print(f"Estad√≠stico t: {resultado_t4['estadistico_t']:.4f}")
print(f"Valor-p: {resultado_t4['p_value']:.6f}")
print(f"Valor cr√≠tico: ¬±{resultado_t4['valor_critico']:.4f}")
print(f"Grados de libertad: {resultado_t4['grados_libertad']}")
print(f"Media de diferencias: {resultado_t4['media_diferencias']:.2f}")
print(f"Desviaci√≥n est√°ndar de diferencias: {resultado_t4['desviacion_diferencias']:.2f}")
print(f"Error est√°ndar: {resultado_t4['error_estandar']:.2f}")
print(f"Intervalo de confianza 95%: [{resultado_t4['intervalo_confianza'][0]:.2f}, {resultado_t4['intervalo_confianza'][1]:.2f}]")
print(f"Decisi√≥n: {resultado_t4['decision']}")

# Interpretaci√≥n
if resultado_t4['p_value'] < 0.05:
    if resultado_t4['media_diferencias'] > 0:
        print(f"\nInterpretaci√≥n: Rechazamos H‚ÇÄ. El ahorro por cultivar es significativamente mayor que el ahorro por criar animales en los mismos individuos (diferencia promedio: {resultado_t4['media_diferencias']:.2f}).")
    else:
        print(f"\nInterpretaci√≥n: Rechazamos H‚ÇÄ. El ahorro por cultivar es significativamente menor que el ahorro por criar animales en los mismos individuos (diferencia promedio: {resultado_t4['media_diferencias']:.2f}).")
else:
    print(f"\nInterpretaci√≥n: No rechazamos H‚ÇÄ. No hay evidencia suficiente para concluir que existe diferencia significativa entre el ahorro por cultivar y criar animales en los mismos individuos.")

# Gr√°fico de las diferencias
plt.figure(figsize=(10, 6))
plt.subplot(1, 2, 1)
plt.hist(diferencias, bins=30, alpha=0.7, color='skyblue', edgecolor='black')
plt.axvline(diferencias.mean(), color='red', linestyle='--', linewidth=2, label=f'Media: {diferencias.mean():.2f}')
plt.axvline(0, color='black', linestyle='-', linewidth=1, label='H‚ÇÄ: Œºd = 0')
plt.xlabel('Diferencias (Cultivar - Criar animales)')
plt.ylabel('Frecuencia')
plt.title('Distribuci√≥n de las Diferencias')
plt.legend()

plt.subplot(1, 2, 2)
plt.scatter(df_pareado['P3094S3'], df_pareado['P3095S3'], alpha=0.6)
plt.plot([0, df_pareado[['P3094S3', 'P3095S3']].max().max()], 
         [0, df_pareado[['P3094S3', 'P3095S3']].max().max()], 
         'r--', label='L√≠nea de igualdad')
plt.xlabel('Ahorro por cultivar (P3094S3)')
plt.ylabel('Ahorro por criar animales (P3095S3)')
plt.title('Comparaci√≥n Pareada')
plt.legend()

plt.tight_layout()
plt.show()


### 9. Prueba de bondad de ajuste (Chi-cuadrado)

**Hip√≥tesis:** H‚ÇÄ: Los datos siguen la distribuci√≥n esperada vs H‚ÇÅ: Los datos no siguen la distribuci√≥n esperada

**Variable:** P3101 (Reuniones familiares)
**Objetivo:** Probar si la distribuci√≥n de respuestas se ajusta a una distribuci√≥n uniforme o espec√≠fica


In [None]:
# 9. Prueba Chi-cuadrado de bondad de ajuste
# Usando P3101 (Reuniones familiares)

# Preparar datos
data_p3101 = df['P3101_clean'].dropna()
print("Distribuci√≥n observada:")
print(data_p3101.value_counts())

# Convertir a c√≥digos num√©ricos para la prueba
# 0 = NO, 1 = S√ç (y variaciones)
data_p3101_coded = (data_p3101.str.contains('S√ç|SI|S√≠|s√≠', case=False, na=False)).astype(int)

print(f"\nDistribuci√≥n codificada:")
print(f"NO (0): {len(data_p3101_coded) - data_p3101_coded.sum()}")
print(f"S√ç (1): {data_p3101_coded.sum()}")

# Realizar la prueba de bondad de ajuste
# Primero con distribuci√≥n uniforme (50-50)
resultado_chi2_1 = chi2_test_bondad_ajuste(data_p3101_coded, expected_props=[0.5, 0.5])

print("\n=== RESULTADOS PRUEBA CHI-CUADRADO (BONDAD DE AJUSTE - UNIFORME) ===")
print(f"Estad√≠stico Chi-cuadrado: {resultado_chi2_1['estadistico_chi2']:.4f}")
print(f"Valor-p: {resultado_chi2_1['p_value']:.6f}")
print(f"Valor cr√≠tico: {resultado_chi2_1['valor_critico']:.4f}")
print(f"Grados de libertad: {resultado_chi2_1['grados_libertad']}")
print(f"Frecuencias observadas: {resultado_chi2_1['frecuencias_observadas']}")
print(f"Frecuencias esperadas: {resultado_chi2_1['frecuencias_esperadas']}")
print(f"Decisi√≥n: {resultado_chi2_1['decision']}")

# Interpretaci√≥n
if resultado_chi2_1['p_value'] < 0.05:
    print(f"\nInterpretaci√≥n: Rechazamos H‚ÇÄ. La distribuci√≥n de respuestas NO se ajusta a una distribuci√≥n uniforme (50-50).")
else:
    print(f"\nInterpretaci√≥n: No rechazamos H‚ÇÄ. La distribuci√≥n de respuestas S√ç se ajusta a una distribuci√≥n uniforme (50-50).")

# Ahora probemos con una distribuci√≥n espec√≠fica (por ejemplo, 60% S√ç, 40% NO)
resultado_chi2_2 = chi2_test_bondad_ajuste(data_p3101_coded, expected_props=[0.4, 0.6])

print("\n=== RESULTADOS PRUEBA CHI-CUADRADO (BONDAD DE AJUSTE - 40% NO, 60% S√ç) ===")
print(f"Estad√≠stico Chi-cuadrado: {resultado_chi2_2['estadistico_chi2']:.4f}")
print(f"Valor-p: {resultado_chi2_2['p_value']:.6f}")
print(f"Valor cr√≠tico: {resultado_chi2_2['valor_critico']:.4f}")
print(f"Grados de libertad: {resultado_chi2_2['grados_libertad']}")
print(f"Frecuencias observadas: {resultado_chi2_2['frecuencias_observadas']}")
print(f"Frecuencias esperadas: {resultado_chi2_2['frecuencias_esperadas']}")
print(f"Decisi√≥n: {resultado_chi2_2['decision']}")

# Interpretaci√≥n
if resultado_chi2_2['p_value'] < 0.05:
    print(f"\nInterpretaci√≥n: Rechazamos H‚ÇÄ. La distribuci√≥n de respuestas NO se ajusta a la distribuci√≥n esperada (40% NO, 60% S√ç).")
else:
    print(f"\nInterpretaci√≥n: No rechazamos H‚ÇÄ. La distribuci√≥n de respuestas S√ç se ajusta a la distribuci√≥n esperada (40% NO, 60% S√ç).")

# Gr√°fico comparativo
plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
categorias = ['NO', 'S√ç']
observadas = resultado_chi2_1['frecuencias_observadas']
esperadas_uni = resultado_chi2_1['frecuencias_esperadas']
x = np.arange(len(categorias))
width = 0.35

plt.bar(x - width/2, observadas, width, label='Observadas', alpha=0.8, color='skyblue')
plt.bar(x + width/2, esperadas_uni, width, label='Esperadas (Uniforme)', alpha=0.8, color='orange')
plt.xlabel('Respuesta')
plt.ylabel('Frecuencia')
plt.title('Bondad de Ajuste - Distribuci√≥n Uniforme')
plt.xticks(x, categorias)
plt.legend()

plt.subplot(1, 2, 2)
esperadas_esp = resultado_chi2_2['frecuencias_esperadas']
plt.bar(x - width/2, observadas, width, label='Observadas', alpha=0.8, color='skyblue')
plt.bar(x + width/2, esperadas_esp, width, label='Esperadas (40-60)', alpha=0.8, color='green')
plt.xlabel('Respuesta')
plt.ylabel('Frecuencia')
plt.title('Bondad de Ajuste - Distribuci√≥n 40-60')
plt.xticks(x, categorias)
plt.legend()

plt.tight_layout()
plt.show()


### 10. Prueba de independencia (Chi-cuadrado)

**Hip√≥tesis:** H‚ÇÄ: Las variables son independientes vs H‚ÇÅ: Las variables no son independientes

**Variables:** P3101 (Reuniones familiares) vs grupos de P3087S1 (Valor mensual por pr√°cticas)
**Objetivo:** Probar si hay asociaci√≥n entre la asistencia a reuniones familiares y el nivel de ingresos por pr√°cticas


In [None]:
# 10. Prueba Chi-cuadrado de independencia
# Comparando P3101 (Reuniones familiares) vs grupos de P3087S1 (Valor mensual por pr√°cticas)

# Preparar datos
data_p3101 = df['P3101_clean'].dropna()
data_p3087s1 = df['P3087S1_clean'].dropna()

# Crear un DataFrame con ambas variables
df_independencia = pd.DataFrame({
    'P3101': data_p3101,
    'P3087S1': data_p3087s1
}).dropna()

# Crear grupos basados en P3087S1 (terciles)
terciles = df_independencia['P3087S1'].quantile([0.33, 0.67])
print(f"Terciles de P3087S1: {terciles[0.33]:.2f}, {terciles[0.67]:.2f}")

# Categorizar P3087S1 en tres grupos
def categorizar_ingresos(valor):
    if valor <= terciles[0.33]:
        return 'Bajo'
    elif valor <= terciles[0.67]:
        return 'Medio'
    else:
        return 'Alto'

df_independencia['Grupo_Ingresos'] = df_independencia['P3087S1'].apply(categorizar_ingresos)

# Convertir P3101 a binario
df_independencia['Asistio_Reuniones'] = (df_independencia['P3101'].str.contains('S√ç|SI|S√≠|s√≠', case=False, na=False)).astype(int)

print("\nDistribuci√≥n por grupos:")
print(df_independencia.groupby('Grupo_Ingresos')['Asistio_Reuniones'].value_counts().unstack(fill_value=0))

# Crear tabla de contingencia
tabla_contingencia = pd.crosstab(df_independencia['Grupo_Ingresos'], df_independencia['Asistio_Reuniones'])
print(f"\nTabla de contingencia:")
print(tabla_contingencia)

# Realizar la prueba de independencia
resultado_chi2_ind = chi2_test_independencia(
    df_independencia['Grupo_Ingresos'], 
    df_independencia['Asistio_Reuniones']
)

print("\n=== RESULTADOS PRUEBA CHI-CUADRADO (INDEPENDENCIA) ===")
print(f"Estad√≠stico Chi-cuadrado: {resultado_chi2_ind['estadistico_chi2']:.4f}")
print(f"Valor-p: {resultado_chi2_ind['p_value']:.6f}")
print(f"Valor cr√≠tico: {resultado_chi2_ind['valor_critico']:.4f}")
print(f"Grados de libertad: {resultado_chi2_ind['grados_libertad']}")
print(f"Decisi√≥n: {resultado_chi2_ind['decision']}")

print(f"\nFrecuencias observadas:")
print(resultado_chi2_ind['frecuencias_observadas'])

print(f"\nFrecuencias esperadas:")
print(resultado_chi2_ind['frecuencias_esperadas'])

# Interpretaci√≥n
if resultado_chi2_ind['p_value'] < 0.05:
    print(f"\nInterpretaci√≥n: Rechazamos H‚ÇÄ. Existe asociaci√≥n significativa entre el grupo de ingresos por pr√°cticas y la asistencia a reuniones familiares.")
else:
    print(f"\nInterpretaci√≥n: No rechazamos H‚ÇÄ. No hay evidencia suficiente para concluir que existe asociaci√≥n entre el grupo de ingresos por pr√°cticas y la asistencia a reuniones familiares.")

# Gr√°fico de la tabla de contingencia
plt.figure(figsize=(10, 6))

# Gr√°fico de barras agrupadas
tabla_plot = tabla_contingencia.T  # Transponer para mejor visualizaci√≥n
tabla_plot.plot(kind='bar', figsize=(10, 6), color=['skyblue', 'lightcoral', 'lightgreen'])
plt.title('Asistencia a Reuniones Familiares por Grupo de Ingresos')
plt.xlabel('Asisti√≥ a Reuniones (0=No, 1=S√≠)')
plt.ylabel('Frecuencia')
plt.legend(title='Grupo de Ingresos', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.xticks(rotation=0)
plt.tight_layout()
plt.show()

# Mosaic plot
plt.figure(figsize=(8, 6))
from statsmodels.graphics.mosaicplot import mosaic
mosaic_data = df_independencia.groupby(['Grupo_Ingresos', 'Asistio_Reuniones']).size().unstack(fill_value=0)
mosaic(mosaic_data.values, title='Mosaic Plot: Independencia entre Variables')
plt.show()


### 11. Prueba de signos

**Hip√≥tesis:** H‚ÇÄ: No hay diferencia sistem√°tica entre las posiciones vs H‚ÇÅ: Hay diferencia sistem√°tica

**Variables:** Comparaci√≥n de rankings entre P3094S3 y P3095S3
**Objetivo:** Probar si hay diferencia sistem√°tica en los rankings de ahorro por cultivar vs criar animales


In [None]:
# 11. Prueba de signos
# Comparando rankings de P3094S3 (Ahorro por cultivar) vs P3095S3 (Ahorro por criar animales)

# Usar los datos pareados que ya tenemos
df_pareado = pd.DataFrame({
    'P3094S3': df['P3094S3_clean'],
    'P3095S3': df['P3095S3_clean']
}).dropna()

print(f"Tama√±o de muestra para prueba de signos: {len(df_pareado)}")

# Crear rankings para cada variable
# Ranking 1 = valor m√°s alto
ranking_p3094s3 = df_pareado['P3094S3'].rank(method='average', ascending=False)
ranking_p3095s3 = df_pareado['P3095S3'].rank(method='average', ascending=False)

print(f"\nEstad√≠sticas de rankings:")
print(f"Ranking P3094S3 - Min: {ranking_p3094s3.min():.1f}, Max: {ranking_p3094s3.max():.1f}, Media: {ranking_p3094s3.mean():.1f}")
print(f"Ranking P3095S3 - Min: {ranking_p3095s3.min():.1f}, Max: {ranking_p3095s3.max():.1f}, Media: {ranking_p3095s3.mean():.1f}")

# Realizar la prueba de signos
resultado_signos = prueba_signos(ranking_p3094s3, ranking_p3095s3, alternative='two-sided')

print("\n=== RESULTADOS PRUEBA DE SIGNOS ===")
print(f"Estad√≠stico: {resultado_signos['estadistico']}")
print(f"Valor-p: {resultado_signos['p_value']:.6f}")
print(f"Signos positivos (P3094S3 > P3095S3): {resultado_signos['signos_positivos']}")
print(f"Signos negativos (P3094S3 < P3095S3): {resultado_signos['signos_negativos']}")
print(f"Empates: {resultado_signos['empates']}")
print(f"N v√°lido (sin empates): {resultado_signos['n_valido']}")
print(f"Decisi√≥n: {resultado_signos['decision']}")

# Interpretaci√≥n
if resultado_signos['p_value'] < 0.05:
    if resultado_signos['signos_positivos'] > resultado_signos['signos_negativos']:
        print(f"\nInterpretaci√≥n: Rechazamos H‚ÇÄ. El ranking de ahorro por cultivar tiende a ser sistem√°ticamente mayor que el ranking de ahorro por criar animales.")
    else:
        print(f"\nInterpretaci√≥n: Rechazamos H‚ÇÄ. El ranking de ahorro por cultivar tiende a ser sistem√°ticamente menor que el ranking de ahorro por criar animales.")
else:
    print(f"\nInterpretaci√≥n: No rechazamos H‚ÇÄ. No hay evidencia suficiente para concluir que existe diferencia sistem√°tica en los rankings.")

# Gr√°fico de la prueba de signos
plt.figure(figsize=(15, 5))

# Subplot 1: Distribuci√≥n de diferencias de rankings
plt.subplot(1, 3, 1)
diferencias_ranking = ranking_p3094s3 - ranking_p3095s3
plt.hist(diferencias_ranking, bins=30, alpha=0.7, color='lightblue', edgecolor='black')
plt.axvline(0, color='red', linestyle='--', linewidth=2, label='H‚ÇÄ: No diferencia')
plt.axvline(diferencias_ranking.mean(), color='green', linestyle='-', linewidth=2, label=f'Media: {diferencias_ranking.mean():.2f}')
plt.xlabel('Diferencia de Rankings (P3094S3 - P3095S3)')
plt.ylabel('Frecuencia')
plt.title('Distribuci√≥n de Diferencias de Rankings')
plt.legend()

# Subplot 2: Conteo de signos
plt.subplot(1, 3, 2)
signos = ['Positivos', 'Negativos', 'Empates']
conteos = [resultado_signos['signos_positivos'], resultado_signos['signos_negativos'], resultado_signos['empates']]
colores = ['lightgreen', 'lightcoral', 'lightgray']
plt.bar(signos, conteos, color=colores, alpha=0.8, edgecolor='black')
plt.ylabel('Frecuencia')
plt.title('Conteo de Signos')
for i, v in enumerate(conteos):
    plt.text(i, v + 0.5, str(v), ha='center', va='bottom', fontweight='bold')

# Subplot 3: Scatter plot de rankings
plt.subplot(1, 3, 3)
plt.scatter(ranking_p3094s3, ranking_p3095s3, alpha=0.6, color='purple')
plt.plot([1, ranking_p3094s3.max()], [1, ranking_p3095s3.max()], 'r--', label='L√≠nea de igualdad')
plt.xlabel('Ranking P3094S3 (Cultivar)')
plt.ylabel('Ranking P3095S3 (Criar animales)')
plt.title('Comparaci√≥n de Rankings')
plt.legend()

plt.tight_layout()
plt.show()

# Resumen de todas las pruebas realizadas
print("\n" + "="*80)
print("RESUMEN DE TODAS LAS PRUEBAS DE HIP√ìTESIS REALIZADAS")
print("="*80)

pruebas_realizadas = [
    ("1. Z-test media (varianza conocida)", "P3095S3", resultado_z1['decision'], resultado_z1['p_value']),
    ("2. Z-test proporci√≥n", "P3101", resultado_z2['decision'], resultado_z2['p_value']),
    ("3. T-test media (varianza desconocida)", "P3087S1", resultado_t1['decision'], resultado_t1['p_value']),
    ("4. Z-test diferencia medias (varianzas conocidas)", "P3094S3 vs P3095S3", resultado_z3['decision'], resultado_z3['p_value']),
    ("5. T-test diferencia medias (varianzas iguales)", "P3087S1 vs P3094S3", resultado_t2['decision'], resultado_t2['p_value']),
    ("6. T-test diferencia medias (varianzas desiguales)", "P3087S1 vs P3095S3", resultado_t3['decision'], resultado_t3['p_value']),
    ("7. Z-test diferencia proporciones", "P3101 por grupos", resultado_z4['decision'], resultado_z4['p_value']),
    ("8. T-test muestras dependientes", "P3094S3 vs P3095S3 pareadas", resultado_t4['decision'], resultado_t4['p_value']),
    ("9. Chi-cuadrado bondad de ajuste", "P3101", resultado_chi2_1['decision'], resultado_chi2_1['p_value']),
    ("10. Chi-cuadrado independencia", "P3101 vs grupos P3087S1", resultado_chi2_ind['decision'], resultado_chi2_ind['p_value']),
    ("11. Prueba de signos", "Rankings P3094S3 vs P3095S3", resultado_signos['decision'], resultado_signos['p_value'])
]

print(f"{'Prueba':<50} {'Variable(s)':<25} {'Decisi√≥n':<15} {'Valor-p':<10}")
print("-" * 100)
for prueba, variable, decision, p_val in pruebas_realizadas:
    print(f"{prueba:<50} {variable:<25} {decision:<15} {p_val:<10.6f}")

print("\n" + "="*80)
print("TODAS LAS 11 PRUEBAS DE HIP√ìTESIS HAN SIDO COMPLETADAS EXITOSAMENTE")
print("="*80)


# 11 pruebas de hipotesis
Se selecciona una variable pertinente para hacer la prueba de hipotesis necesaria. 
las pruebas de hipotesis son:
1. Prueba de hip√≥tesis para la media de una muestra con varianza conocida
2. Prueba de hip√≥tesis para la proporci√≥n de una muestra
3. Prueba de hip√≥tesis para la media de una muestra con varianza desconocida
4. Prueba de hip√≥tesis para la diferencia de medias de dos muestras con varianzas conocidas
5. Prueba de hip√≥tesis para la diferencia de medias de dos muestras con varianzas iguales y desconocidas
6. Prueba de hip√≥tesis para la diferencia de medias de dos muestras con varianzas desiguales y desconocidas
7. Prueba de hip√≥tesis para la diferencia de proporciones de dos muestras
8. Prueba de hip√≥tesis para muestras dependientes
9. Prueba de bondad de ajuste
10. Prueba de independencia
11. Prueba de signos