# **Taller 2**


#   Datos a usar
cuántitativas: 
1. P3094S3 : Cuánto ahorro por cultivar
2. P3087S1: Valor mensual por practicas o pasantías
3. P3095S3: Valor ahorra por criar animales
# Cualitativas
4. P3101: ¿Fue a reuniones familiares durante las ultimas 4 semanas? si o no

## Verificación del Entorno

Este notebook instalará automáticamente las librerías necesarias si no están disponibles en el sistema.

**Librerías requeridas:**
- pandas
- numpy
- matplotlib
- seaborn
- scipy
- statsmodels

**Archivo de datos requerido:**
- `Combinado.csv` (archivo combinado de los datos de los 3 meses)

**Nota:** Si es la primera vez que ejecutas este notebook, la instalación de librerías puede tomar unos minutos.


# Pruebas de Hipótesis - Taller 2

En este notebook implementaremos las 11 pruebas de hipótesis requeridas utilizando las variables del dataset combinado:

**Variables cuantitativas:**
- P3094S3: Cuánto ahorro por cultivar
- P3087S1: Valor mensual por prácticas o pasantías  
- P3095S3: Valor ahorra por criar animales

**Variable cualitativa:**
- P3101: ¿Fue a reuniones familiares durante las últimas 4 semanas? (sí o no)


In [None]:
# Instalar librerías necesarias si no están disponibles
import subprocess
import sys

def install_package(package):
    """Instala un paquete si no está disponible"""
    try:
        __import__(package)
        print(f"✅ {package} ya está instalado")
    except ImportError:
        print(f"📦 Instalando {package}...")
        subprocess.check_call([sys.executable, "-m", "pip", "install", package])
        print(f"✅ {package} instalado correctamente")

# Lista de librerías necesarias
librerias = [
    "pandas",
    "numpy", 
    "matplotlib",
    "seaborn",
    "scipy",
    "statsmodels"
]

print("🔍 Verificando e instalando librerías necesarias...")
print("=" * 50)

for lib in librerias:
    install_package(lib)

print("=" * 50)
print("✅ Todas las librerías están listas para usar")
print("=" * 50)


In [None]:
# Cargar librerías necesarias
try:
    import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
    import seaborn as sns
    from scipy import stats
    from scipy.stats import norm, t, chi2, binom
    import warnings
    warnings.filterwarnings('ignore')
    
    # Configurar estilo de gráficos
    try:
        plt.style.use('seaborn-v0_8')
    except:
        plt.style.use('default')
        print("⚠️  Usando estilo por defecto de matplotlib")
    
    sns.set_palette("husl")
    
    print("✅ Todas las librerías se cargaron correctamente")
    
except ImportError as e:
    print(f"❌ Error al importar librerías: {e}")
    print("Por favor, ejecuta primero la celda de instalación de librerías")
    raise


In [None]:
# Verificación final del entorno
print("🔍 VERIFICACIÓN FINAL DEL ENTORNO")
print("=" * 50)

# Verificar que las librerías están disponibles
librerias_verificacion = {
    'pandas': pd.__version__,
    'numpy': np.__version__,
    'matplotlib': plt.matplotlib.__version__,
    'seaborn': sns.__version__,
    'scipy': stats.__version__
}

print("📚 Librerías instaladas:")
for lib, version in librerias_verificacion.items():
    print(f"  ✅ {lib}: {version}")

# Verificar que el dataset se cargó correctamente
print(f"\n📊 Dataset cargado:")
print(f"  ✅ Filas: {df.shape[0]:,}")
print(f"  ✅ Columnas: {df.shape[1]}")
print(f"  ✅ Variables objetivo disponibles: {all(col in df.columns for col in ['P3094S3', 'P3087S1', 'P3095S3', 'P3101'])}")

print("\n" + "=" * 50)
print("🎉 ¡ENTORNO LISTO! Puedes proceder con las pruebas de hipótesis")
print("=" * 50)


In [None]:
# Cargar y preparar los datos
# Leer el archivo CSV combinado
try:
    # Intentar diferentes rutas posibles para el archivo
    archivos_posibles = [
        'Combinado.csv',
        '../Combinado.csv',
        'Taller 1/Combinado.csv',
        '../Taller 1/Combinado.csv'
    ]
    
    df = None
    archivo_encontrado = None
    
    for archivo in archivos_posibles:
        try:
            df = pd.read_csv(archivo, sep=';', encoding='utf-8')
            archivo_encontrado = archivo
            print(f"✅ Archivo encontrado en: {archivo}")
            break
        except FileNotFoundError:
            continue
    
    if df is None:
        print("❌ No se pudo encontrar el archivo 'Combinado.csv'")
        print("Archivos buscados:")
        for archivo in archivos_posibles:
            print(f"  - {archivo}")
        print("\nPor favor, asegúrate de que el archivo 'Combinado.csv' esté en el directorio correcto")
        raise FileNotFoundError("Archivo Combinado.csv no encontrado")
    
    # Mostrar información básica del dataset
    print("\nInformación del dataset:")
    print(f"Dimensiones: {df.shape}")
    print(f"\nColumnas disponibles: {list(df.columns)}")
    print(f"\nPrimeras 5 filas:")
    print(df.head())
    
except Exception as e:
    print(f"❌ Error al cargar los datos: {e}")
    print("Por favor, verifica que el archivo 'Combinado.csv' existe y está en la ubicación correcta")
    raise


In [None]:
# Limpiar y preparar las variables de interés
def clean_numeric(series):
    """Función para limpiar variables numéricas monetarias"""
    # Convertir a string y limpiar
    series_str = series.astype(str)
    # Eliminar puntos de miles y convertir comas a puntos decimales
    series_str = series_str.str.replace('.', '', regex=False)
    series_str = series_str.str.replace(',', '.', regex=False)
    # Convertir a numérico, los valores no válidos se convertirán en NaN
    return pd.to_numeric(series_str, errors='coerce')

# Aplicar limpieza a las variables cuantitativas
df['P3094S3_clean'] = clean_numeric(df['P3094S3'])
df['P3087S1_clean'] = clean_numeric(df['P3087S1'])
df['P3095S3_clean'] = clean_numeric(df['P3095S3'])

# Limpiar variable cualitativa
df['P3101_clean'] = df['P3101'].astype(str).str.strip().str.upper()

# Mostrar estadísticas descriptivas
print("Estadísticas descriptivas de las variables cuantitativas:")
print("\nP3094S3 (Ahorro por cultivar):")
print(df['P3094S3_clean'].describe())
print(f"Valores faltantes: {df['P3094S3_clean'].isna().sum()}")

print("\nP3087S1 (Valor mensual por prácticas):")
print(df['P3087S1_clean'].describe())
print(f"Valores faltantes: {df['P3087S1_clean'].isna().sum()}")

print("\nP3095S3 (Ahorro por criar animales):")
print(df['P3095S3_clean'].describe())
print(f"Valores faltantes: {df['P3095S3_clean'].isna().sum()}")

print("\nP3101 (Reuniones familiares):")
print(df['P3101_clean'].value_counts())
print(f"Valores faltantes: {df['P3101_clean'].isna().sum()}")


## Funciones para Pruebas de Hipótesis

Implementaremos las funciones necesarias para realizar las 11 pruebas de hipótesis requeridas.


In [None]:
# 1. Prueba de hipótesis para la media de una muestra con varianza conocida (Z-test)
def z_test_media_conocida(x, mu0, sigma, alternative='two-sided', alpha=0.05):
    """
    Prueba Z para la media con varianza conocida
    
    Parámetros:
    x: muestra
    mu0: valor hipotético de la media bajo H0
    sigma: desviación estándar poblacional conocida
    alternative: 'two-sided', 'greater', 'less'
    alpha: nivel de significancia
    """
    n = len(x)
    x_bar = np.mean(x)
    se = sigma / np.sqrt(n)
    z_stat = (x_bar - mu0) / se
    
    if alternative == 'two-sided':
        p_value = 2 * (1 - norm.cdf(abs(z_stat)))
        critical_value = norm.ppf(1 - alpha/2)
    elif alternative == 'greater':
        p_value = 1 - norm.cdf(z_stat)
        critical_value = norm.ppf(1 - alpha)
    elif alternative == 'less':
        p_value = norm.cdf(z_stat)
        critical_value = norm.ppf(alpha)
    
    # Intervalo de confianza
    z_crit = norm.ppf(1 - alpha/2)
    ci_lower = x_bar - z_crit * se
    ci_upper = x_bar + z_crit * se
    
    return {
        'estadistico_z': z_stat,
        'p_value': p_value,
        'valor_critico': critical_value,
        'media_muestral': x_bar,
        'error_estandar': se,
        'intervalo_confianza': (ci_lower, ci_upper),
        'decision': 'Rechazar H0' if p_value < alpha else 'No rechazar H0'
    }

# 2. Prueba de hipótesis para la proporción de una muestra
def z_test_proporcion(x, p0, alternative='two-sided', alpha=0.05):
    """
    Prueba Z para una proporción
    
    Parámetros:
    x: muestra binaria (0s y 1s) o conteo de éxitos
    p0: proporción hipotética bajo H0
    alternative: 'two-sided', 'greater', 'less'
    alpha: nivel de significancia
    """
    if isinstance(x, (list, np.ndarray)) and len(x) > 1:
        # Si es una muestra binaria
        n = len(x)
        x_sum = np.sum(x)
        p_hat = x_sum / n
    else:
        # Si es conteo de éxitos y tamaño de muestra
        x_sum = x
        n = len(x) if hasattr(x, '__len__') else x
        p_hat = x_sum / n
    
    se = np.sqrt(p0 * (1 - p0) / n)
    z_stat = (p_hat - p0) / se
    
    if alternative == 'two-sided':
        p_value = 2 * (1 - norm.cdf(abs(z_stat)))
        critical_value = norm.ppf(1 - alpha/2)
    elif alternative == 'greater':
        p_value = 1 - norm.cdf(z_stat)
        critical_value = norm.ppf(1 - alpha)
    elif alternative == 'less':
        p_value = norm.cdf(z_stat)
        critical_value = norm.ppf(alpha)
    
    # Intervalo de confianza
    z_crit = norm.ppf(1 - alpha/2)
    se_ci = np.sqrt(p_hat * (1 - p_hat) / n)
    ci_lower = p_hat - z_crit * se_ci
    ci_upper = p_hat + z_crit * se_ci
    
    return {
        'estadistico_z': z_stat,
        'p_value': p_value,
        'valor_critico': critical_value,
        'proporcion_muestral': p_hat,
        'error_estandar': se,
        'intervalo_confianza': (ci_lower, ci_upper),
        'decision': 'Rechazar H0' if p_value < alpha else 'No rechazar H0'
    }

# 3. Prueba de hipótesis para la media de una muestra con varianza desconocida (t-test)
def t_test_media_desconocida(x, mu0, alternative='two-sided', alpha=0.05):
    """
    Prueba t para la media con varianza desconocida
    
    Parámetros:
    x: muestra
    mu0: valor hipotético de la media bajo H0
    alternative: 'two-sided', 'greater', 'less'
    alpha: nivel de significancia
    """
    n = len(x)
    x_bar = np.mean(x)
    s = np.std(x, ddof=1)
    se = s / np.sqrt(n)
    t_stat = (x_bar - mu0) / se
    df = n - 1
    
    if alternative == 'two-sided':
        p_value = 2 * (1 - t.cdf(abs(t_stat), df))
        critical_value = t.ppf(1 - alpha/2, df)
    elif alternative == 'greater':
        p_value = 1 - t.cdf(t_stat, df)
        critical_value = t.ppf(1 - alpha, df)
    elif alternative == 'less':
        p_value = t.cdf(t_stat, df)
        critical_value = t.ppf(alpha, df)
    
    # Intervalo de confianza
    t_crit = t.ppf(1 - alpha/2, df)
    ci_lower = x_bar - t_crit * se
    ci_upper = x_bar + t_crit * se
    
    return {
        'estadistico_t': t_stat,
        'p_value': p_value,
        'valor_critico': critical_value,
        'grados_libertad': df,
        'media_muestral': x_bar,
        'desviacion_estandar': s,
        'error_estandar': se,
        'intervalo_confianza': (ci_lower, ci_upper),
        'decision': 'Rechazar H0' if p_value < alpha else 'No rechazar H0'
    }


In [None]:
# 4. Prueba de hipótesis para la diferencia de medias de dos muestras con varianzas conocidas
def z_test_diferencia_medias_conocidas(x1, x2, sigma1, sigma2, mu0=0, alternative='two-sided', alpha=0.05):
    """
    Prueba Z para diferencia de medias con varianzas conocidas
    
    Parámetros:
    x1, x2: muestras
    sigma1, sigma2: desviaciones estándar poblacionales conocidas
    mu0: diferencia hipotética bajo H0 (por defecto 0)
    alternative: 'two-sided', 'greater', 'less'
    alpha: nivel de significancia
    """
    n1, n2 = len(x1), len(x2)
    x1_bar, x2_bar = np.mean(x1), np.mean(x2)
    se = np.sqrt(sigma1**2/n1 + sigma2**2/n2)
    z_stat = ((x1_bar - x2_bar) - mu0) / se
    
    if alternative == 'two-sided':
        p_value = 2 * (1 - norm.cdf(abs(z_stat)))
        critical_value = norm.ppf(1 - alpha/2)
    elif alternative == 'greater':
        p_value = 1 - norm.cdf(z_stat)
        critical_value = norm.ppf(1 - alpha)
    elif alternative == 'less':
        p_value = norm.cdf(z_stat)
        critical_value = norm.ppf(alpha)
    
    # Intervalo de confianza
    z_crit = norm.ppf(1 - alpha/2)
    ci_lower = (x1_bar - x2_bar) - z_crit * se
    ci_upper = (x1_bar - x2_bar) + z_crit * se
    
    return {
        'estadistico_z': z_stat,
        'p_value': p_value,
        'valor_critico': critical_value,
        'media_muestra1': x1_bar,
        'media_muestra2': x2_bar,
        'diferencia_observada': x1_bar - x2_bar,
        'error_estandar': se,
        'intervalo_confianza': (ci_lower, ci_upper),
        'decision': 'Rechazar H0' if p_value < alpha else 'No rechazar H0'
    }

# 5. Prueba de hipótesis para la diferencia de medias de dos muestras con varianzas iguales y desconocidas
def t_test_diferencia_medias_iguales(x1, x2, mu0=0, alternative='two-sided', alpha=0.05):
    """
    Prueba t para diferencia de medias con varianzas iguales (pooled t-test)
    
    Parámetros:
    x1, x2: muestras
    mu0: diferencia hipotética bajo H0 (por defecto 0)
    alternative: 'two-sided', 'greater', 'less'
    alpha: nivel de significancia
    """
    n1, n2 = len(x1), len(x2)
    x1_bar, x2_bar = np.mean(x1), np.mean(x2)
    s1, s2 = np.std(x1, ddof=1), np.std(x2, ddof=1)
    
    # Varianza combinada (pooled)
    sp2 = ((n1 - 1) * s1**2 + (n2 - 1) * s2**2) / (n1 + n2 - 2)
    se = np.sqrt(sp2 * (1/n1 + 1/n2))
    t_stat = ((x1_bar - x2_bar) - mu0) / se
    df = n1 + n2 - 2
    
    if alternative == 'two-sided':
        p_value = 2 * (1 - t.cdf(abs(t_stat), df))
        critical_value = t.ppf(1 - alpha/2, df)
    elif alternative == 'greater':
        p_value = 1 - t.cdf(t_stat, df)
        critical_value = t.ppf(1 - alpha, df)
    elif alternative == 'less':
        p_value = t.cdf(t_stat, df)
        critical_value = t.ppf(alpha, df)
    
    # Intervalo de confianza
    t_crit = t.ppf(1 - alpha/2, df)
    ci_lower = (x1_bar - x2_bar) - t_crit * se
    ci_upper = (x1_bar - x2_bar) + t_crit * se
    
    return {
        'estadistico_t': t_stat,
        'p_value': p_value,
        'valor_critico': critical_value,
        'grados_libertad': df,
        'media_muestra1': x1_bar,
        'media_muestra2': x2_bar,
        'diferencia_observada': x1_bar - x2_bar,
        'varianza_combinada': sp2,
        'error_estandar': se,
        'intervalo_confianza': (ci_lower, ci_upper),
        'decision': 'Rechazar H0' if p_value < alpha else 'No rechazar H0'
    }

# 6. Prueba de hipótesis para la diferencia de medias de dos muestras con varianzas desiguales y desconocidas (Welch's t-test)
def t_test_diferencia_medias_desiguales(x1, x2, mu0=0, alternative='two-sided', alpha=0.05):
    """
    Prueba t de Welch para diferencia de medias con varianzas desiguales
    
    Parámetros:
    x1, x2: muestras
    mu0: diferencia hipotética bajo H0 (por defecto 0)
    alternative: 'two-sided', 'greater', 'less'
    alpha: nivel de significancia
    """
    n1, n2 = len(x1), len(x2)
    x1_bar, x2_bar = np.mean(x1), np.mean(x2)
    s1, s2 = np.std(x1, ddof=1), np.std(x2, ddof=1)
    
    # Error estándar y grados de libertad de Welch
    se = np.sqrt(s1**2/n1 + s2**2/n2)
    df = (s1**2/n1 + s2**2/n2)**2 / ((s1**2/n1)**2/(n1-1) + (s2**2/n2)**2/(n2-1))
    t_stat = ((x1_bar - x2_bar) - mu0) / se
    
    if alternative == 'two-sided':
        p_value = 2 * (1 - t.cdf(abs(t_stat), df))
        critical_value = t.ppf(1 - alpha/2, df)
    elif alternative == 'greater':
        p_value = 1 - t.cdf(t_stat, df)
        critical_value = t.ppf(1 - alpha, df)
    elif alternative == 'less':
        p_value = t.cdf(t_stat, df)
        critical_value = t.ppf(alpha, df)
    
    # Intervalo de confianza
    t_crit = t.ppf(1 - alpha/2, df)
    ci_lower = (x1_bar - x2_bar) - t_crit * se
    ci_upper = (x1_bar - x2_bar) + t_crit * se
    
    return {
        'estadistico_t': t_stat,
        'p_value': p_value,
        'valor_critico': critical_value,
        'grados_libertad': df,
        'media_muestra1': x1_bar,
        'media_muestra2': x2_bar,
        'diferencia_observada': x1_bar - x2_bar,
        'error_estandar': se,
        'intervalo_confianza': (ci_lower, ci_upper),
        'decision': 'Rechazar H0' if p_value < alpha else 'No rechazar H0'
    }


In [None]:
# 7. Prueba de hipótesis para la diferencia de proporciones de dos muestras
def z_test_diferencia_proporciones(x1, n1, x2, n2, p0=0, alternative='two-sided', alpha=0.05):
    """
    Prueba Z para diferencia de proporciones
    
    Parámetros:
    x1, x2: número de éxitos en cada muestra
    n1, n2: tamaños de las muestras
    p0: diferencia hipotética bajo H0 (por defecto 0)
    alternative: 'two-sided', 'greater', 'less'
    alpha: nivel de significancia
    """
    p1_hat = x1 / n1
    p2_hat = x2 / n2
    
    # Proporción combinada bajo H0
    p_comb = (x1 + x2) / (n1 + n2)
    
    # Error estándar
    se = np.sqrt(p_comb * (1 - p_comb) * (1/n1 + 1/n2))
    z_stat = ((p1_hat - p2_hat) - p0) / se
    
    if alternative == 'two-sided':
        p_value = 2 * (1 - norm.cdf(abs(z_stat)))
        critical_value = norm.ppf(1 - alpha/2)
    elif alternative == 'greater':
        p_value = 1 - norm.cdf(z_stat)
        critical_value = norm.ppf(1 - alpha)
    elif alternative == 'less':
        p_value = norm.cdf(z_stat)
        critical_value = norm.ppf(alpha)
    
    # Intervalo de confianza (usando proporciones individuales)
    z_crit = norm.ppf(1 - alpha/2)
    se_ci = np.sqrt(p1_hat*(1-p1_hat)/n1 + p2_hat*(1-p2_hat)/n2)
    ci_lower = (p1_hat - p2_hat) - z_crit * se_ci
    ci_upper = (p1_hat - p2_hat) + z_crit * se_ci
    
    return {
        'estadistico_z': z_stat,
        'p_value': p_value,
        'valor_critico': critical_value,
        'proporcion_muestra1': p1_hat,
        'proporcion_muestra2': p2_hat,
        'diferencia_observada': p1_hat - p2_hat,
        'proporcion_combinada': p_comb,
        'error_estandar': se,
        'intervalo_confianza': (ci_lower, ci_upper),
        'decision': 'Rechazar H0' if p_value < alpha else 'No rechazar H0'
    }

# 8. Prueba de hipótesis para muestras dependientes (t-test pareado)
def t_test_muestras_dependientes(x1, x2, mu0=0, alternative='two-sided', alpha=0.05):
    """
    Prueba t para muestras dependientes (pareadas)
    
    Parámetros:
    x1, x2: muestras pareadas
    mu0: diferencia hipotética bajo H0 (por defecto 0)
    alternative: 'two-sided', 'greater', 'less'
    alpha: nivel de significancia
    """
    if len(x1) != len(x2):
        raise ValueError("Las muestras deben tener la misma longitud")
    
    # Calcular diferencias
    d = np.array(x1) - np.array(x2)
    n = len(d)
    d_bar = np.mean(d)
    s_d = np.std(d, ddof=1)
    se = s_d / np.sqrt(n)
    t_stat = (d_bar - mu0) / se
    df = n - 1
    
    if alternative == 'two-sided':
        p_value = 2 * (1 - t.cdf(abs(t_stat), df))
        critical_value = t.ppf(1 - alpha/2, df)
    elif alternative == 'greater':
        p_value = 1 - t.cdf(t_stat, df)
        critical_value = t.ppf(1 - alpha, df)
    elif alternative == 'less':
        p_value = t.cdf(t_stat, df)
        critical_value = t.ppf(alpha, df)
    
    # Intervalo de confianza
    t_crit = t.ppf(1 - alpha/2, df)
    ci_lower = d_bar - t_crit * se
    ci_upper = d_bar + t_crit * se
    
    return {
        'estadistico_t': t_stat,
        'p_value': p_value,
        'valor_critico': critical_value,
        'grados_libertad': df,
        'media_diferencias': d_bar,
        'desviacion_diferencias': s_d,
        'error_estandar': se,
        'intervalo_confianza': (ci_lower, ci_upper),
        'decision': 'Rechazar H0' if p_value < alpha else 'No rechazar H0'
    }

# 9. Prueba de bondad de ajuste (Chi-cuadrado)
def chi2_test_bondad_ajuste(x, expected_props=None, alpha=0.05):
    """
    Prueba Chi-cuadrado de bondad de ajuste
    
    Parámetros:
    x: muestra categórica
    expected_props: proporciones esperadas (si None, se asume distribución uniforme)
    alpha: nivel de significancia
    """
    # Contar frecuencias observadas
    observed = np.bincount(x)
    n = len(x)
    k = len(observed)
    
    if expected_props is None:
        # Distribución uniforme
        expected_props = np.ones(k) / k
    else:
        expected_props = np.array(expected_props)
        if len(expected_props) != k:
            raise ValueError("El número de proporciones esperadas debe coincidir con el número de categorías")
        expected_props = expected_props / np.sum(expected_props)  # Normalizar
    
    # Frecuencias esperadas
    expected = n * expected_props
    
    # Estadístico Chi-cuadrado
    chi2_stat = np.sum((observed - expected)**2 / expected)
    df = k - 1
    p_value = 1 - chi2.cdf(chi2_stat, df)
    critical_value = chi2.ppf(1 - alpha, df)
    
    return {
        'estadistico_chi2': chi2_stat,
        'p_value': p_value,
        'valor_critico': critical_value,
        'grados_libertad': df,
        'frecuencias_observadas': observed,
        'frecuencias_esperadas': expected,
        'decision': 'Rechazar H0' if p_value < alpha else 'No rechazar H0'
    }


In [None]:
# 10. Prueba de independencia (Chi-cuadrado)
def chi2_test_independencia(x, y, alpha=0.05):
    """
    Prueba Chi-cuadrado de independencia
    
    Parámetros:
    x, y: variables categóricas
    alpha: nivel de significancia
    """
    # Crear tabla de contingencia
    contingency_table = pd.crosstab(x, y)
    observed = contingency_table.values
    
    # Calcular frecuencias esperadas
    row_totals = observed.sum(axis=1)
    col_totals = observed.sum(axis=0)
    n = observed.sum()
    expected = np.outer(row_totals, col_totals) / n
    
    # Estadístico Chi-cuadrado
    chi2_stat = np.sum((observed - expected)**2 / expected)
    df = (observed.shape[0] - 1) * (observed.shape[1] - 1)
    p_value = 1 - chi2.cdf(chi2_stat, df)
    critical_value = chi2.ppf(1 - alpha, df)
    
    return {
        'estadistico_chi2': chi2_stat,
        'p_value': p_value,
        'valor_critico': critical_value,
        'grados_libertad': df,
        'tabla_contingencia': contingency_table,
        'frecuencias_observadas': observed,
        'frecuencias_esperadas': expected,
        'decision': 'Rechazar H0' if p_value < alpha else 'No rechazar H0'
    }

# 11. Prueba de signos
def prueba_signos(x, y, alternative='two-sided', alpha=0.05):
    """
    Prueba de signos para muestras pareadas
    
    Parámetros:
    x, y: muestras pareadas
    alternative: 'two-sided', 'greater', 'less'
    alpha: nivel de significancia
    """
    if len(x) != len(y):
        raise ValueError("Las muestras deben tener la misma longitud")
    
    # Calcular diferencias
    d = np.array(x) - np.array(y)
    
    # Contar signos
    positivos = np.sum(d > 0)
    negativos = np.sum(d < 0)
    empates = np.sum(d == 0)
    n = positivos + negativos  # Excluir empates
    
    if n == 0:
        return {
            'estadistico': 0,
            'p_value': 1.0,
            'decision': 'No rechazar H0',
            'positivos': positivos,
            'negativos': negativos,
            'empates': empates,
            'n_valido': n
        }
    
    # Estadístico es el menor de los conteos
    estadistico = min(positivos, negativos)
    
    # Valor-p usando distribución binomial
    if alternative == 'two-sided':
        p_value = 2 * binom.cdf(estadistico, n, 0.5)
    elif alternative == 'greater':
        p_value = 1 - binom.cdf(positivos - 1, n, 0.5)
    elif alternative == 'less':
        p_value = binom.cdf(positivos, n, 0.5)
    
    return {
        'estadistico': estadistico,
        'p_value': p_value,
        'positivos': positivos,
        'negativos': negativos,
        'empates': empates,
        'n_valido': n,
        'decision': 'Rechazar H0' if p_value < alpha else 'No rechazar H0'
    }

print("✅ Todas las funciones de pruebas de hipótesis han sido definidas correctamente")


## Aplicación de las Pruebas de Hipótesis

Ahora aplicaremos las 11 pruebas de hipótesis utilizando las variables de nuestro dataset.


### 1. Prueba de hipótesis para la media de una muestra con varianza conocida

**Hipótesis:** H₀: μ = μ₀ vs H₁: μ ≠ μ₀ (o >, <)

**Variable:** P3095S3 (Valor ahorra por criar animales)
**Supuesto:** Asumimos una varianza poblacional conocida basada en estudios previos


In [None]:
# 1. Prueba Z para la media con varianza conocida
# Usando P3095S3 (Valor ahorra por criar animales)

# Preparar datos (eliminar valores faltantes)
data_p3095s3 = df['P3095S3_clean'].dropna()
print(f"Tamaño de muestra: {len(data_p3095s3)}")
print(f"Media muestral: {data_p3095s3.mean():.2f}")
print(f"Desviación estándar muestral: {data_p3095s3.std():.2f}")

# Asumir una varianza poblacional conocida (basada en estudios previos)
# Usaremos un valor razonable basado en la desviación estándar muestral
sigma_conocida = 500000  # Asumimos una desviación estándar poblacional conocida
mu0 = 100000  # Valor hipotético: ¿la media es igual a 100,000?

# Realizar la prueba
resultado_z1 = z_test_media_conocida(data_p3095s3, mu0, sigma_conocida, alternative='two-sided')

print("\n=== RESULTADOS PRUEBA Z (MEDIA CON VARIANZA CONOCIDA) ===")
print(f"Estadístico Z: {resultado_z1['estadistico_z']:.4f}")
print(f"Valor-p: {resultado_z1['p_value']:.6f}")
print(f"Valor crítico: ±{resultado_z1['valor_critico']:.4f}")
print(f"Media muestral: {resultado_z1['media_muestral']:.2f}")
print(f"Error estándar: {resultado_z1['error_estandar']:.2f}")
print(f"Intervalo de confianza 95%: [{resultado_z1['intervalo_confianza'][0]:.2f}, {resultado_z1['intervalo_confianza'][1]:.2f}]")
print(f"Decisión: {resultado_z1['decision']}")

# Interpretación
if resultado_z1['p_value'] < 0.05:
    print(f"\nInterpretación: Rechazamos H₀. La media del ahorro por criar animales ({resultado_z1['media_muestral']:.2f}) es significativamente diferente de {mu0}.")
else:
    print(f"\nInterpretación: No rechazamos H₀. No hay evidencia suficiente para concluir que la media del ahorro por criar animales difiere de {mu0}.")


### 2. Prueba de hipótesis para la proporción de una muestra

**Hipótesis:** H₀: p = p₀ vs H₁: p ≠ p₀ (o >, <)

**Variable:** P3101 (¿Fue a reuniones familiares durante las últimas 4 semanas?)
**Objetivo:** Probar si la proporción de personas que asistieron a reuniones familiares es diferente a un valor específico


In [None]:
# 2. Prueba Z para la proporción
# Usando P3101 (Reuniones familiares)

# Preparar datos
data_p3101 = df['P3101_clean'].dropna()
print("Distribución de respuestas:")
print(data_p3101.value_counts())

# Convertir a binario (1 = SÍ, 0 = NO)
# Asumimos que "SÍ" incluye variaciones como "SI", "Sí", etc.
data_p3101_binary = (data_p3101.str.contains('SÍ|SI|Sí|sí', case=False, na=False)).astype(int)

print(f"\nTamaño de muestra: {len(data_p3101_binary)}")
print(f"Proporción que asistió a reuniones: {data_p3101_binary.mean():.4f}")
print(f"Número de éxitos (asistieron): {data_p3101_binary.sum()}")
print(f"Número de fracasos (no asistieron): {len(data_p3101_binary) - data_p3101_binary.sum()}")

# Valor hipotético: ¿la proporción es igual a 0.5?
p0 = 0.5  # 50% de las personas asisten a reuniones familiares

# Realizar la prueba
resultado_z2 = z_test_proporcion(data_p3101_binary, p0, alternative='two-sided')

print("\n=== RESULTADOS PRUEBA Z (PROPORCIÓN) ===")
print(f"Estadístico Z: {resultado_z2['estadistico_z']:.4f}")
print(f"Valor-p: {resultado_z2['p_value']:.6f}")
print(f"Valor crítico: ±{resultado_z2['valor_critico']:.4f}")
print(f"Proporción muestral: {resultado_z2['proporcion_muestral']:.4f}")
print(f"Error estándar: {resultado_z2['error_estandar']:.4f}")
print(f"Intervalo de confianza 95%: [{resultado_z2['intervalo_confianza'][0]:.4f}, {resultado_z2['intervalo_confianza'][1]:.4f}]")
print(f"Decisión: {resultado_z2['decision']}")

# Interpretación
if resultado_z2['p_value'] < 0.05:
    print(f"\nInterpretación: Rechazamos H₀. La proporción de personas que asistieron a reuniones familiares ({resultado_z2['proporcion_muestral']:.4f}) es significativamente diferente de {p0}.")
else:
    print(f"\nInterpretación: No rechazamos H₀. No hay evidencia suficiente para concluir que la proporción de asistencia a reuniones familiares difiere de {p0}.")


### 3. Prueba de hipótesis para la media de una muestra con varianza desconocida

**Hipótesis:** H₀: μ = μ₀ vs H₁: μ ≠ μ₀ (o >, <)

**Variable:** P3087S1 (Valor mensual por prácticas o pasantías)
**Método:** Prueba t de Student (más común en la práctica)


In [None]:
# 3. Prueba t para la media con varianza desconocida
# Usando P3087S1 (Valor mensual por prácticas o pasantías)

# Preparar datos (eliminar valores faltantes)
data_p3087s1 = df['P3087S1_clean'].dropna()
print(f"Tamaño de muestra: {len(data_p3087s1)}")
print(f"Media muestral: {data_p3087s1.mean():.2f}")
print(f"Desviación estándar muestral: {data_p3087s1.std():.2f}")

# Valor hipotético: ¿la media es igual a 200,000?
mu0 = 200000  # Valor hipotético

# Realizar la prueba
resultado_t1 = t_test_media_desconocida(data_p3087s1, mu0, alternative='two-sided')

print("\n=== RESULTADOS PRUEBA T (MEDIA CON VARIANZA DESCONOCIDA) ===")
print(f"Estadístico t: {resultado_t1['estadistico_t']:.4f}")
print(f"Valor-p: {resultado_t1['p_value']:.6f}")
print(f"Valor crítico: ±{resultado_t1['valor_critico']:.4f}")
print(f"Grados de libertad: {resultado_t1['grados_libertad']}")
print(f"Media muestral: {resultado_t1['media_muestral']:.2f}")
print(f"Desviación estándar: {resultado_t1['desviacion_estandar']:.2f}")
print(f"Error estándar: {resultado_t1['error_estandar']:.2f}")
print(f"Intervalo de confianza 95%: [{resultado_t1['intervalo_confianza'][0]:.2f}, {resultado_t1['intervalo_confianza'][1]:.2f}]")
print(f"Decisión: {resultado_t1['decision']}")

# Interpretación
if resultado_t1['p_value'] < 0.05:
    print(f"\nInterpretación: Rechazamos H₀. La media del valor mensual por prácticas ({resultado_t1['media_muestral']:.2f}) es significativamente diferente de {mu0}.")
else:
    print(f"\nInterpretación: No rechazamos H₀. No hay evidencia suficiente para concluir que la media del valor mensual por prácticas difiere de {mu0}.")


### 4. Prueba de hipótesis para la diferencia de medias de dos muestras con varianzas conocidas

**Hipótesis:** H₀: μ₁ - μ₂ = 0 vs H₁: μ₁ - μ₂ ≠ 0 (o >, <)

**Variables:** P3094S3 (Ahorro por cultivar) vs P3095S3 (Ahorro por criar animales)
**Objetivo:** Comparar si hay diferencia significativa entre los ahorros por cultivar vs criar animales


In [None]:
# 4. Prueba Z para diferencia de medias con varianzas conocidas
# Comparando P3094S3 (Ahorro por cultivar) vs P3095S3 (Ahorro por criar animales)

# Preparar datos (eliminar valores faltantes)
data_p3094s3 = df['P3094S3_clean'].dropna()
data_p3095s3 = df['P3095S3_clean'].dropna()

print(f"Tamaño muestra P3094S3 (cultivar): {len(data_p3094s3)}")
print(f"Media P3094S3: {data_p3094s3.mean():.2f}")
print(f"Desv. estándar P3094S3: {data_p3094s3.std():.2f}")

print(f"\nTamaño muestra P3095S3 (criar animales): {len(data_p3095s3)}")
print(f"Media P3095S3: {data_p3095s3.mean():.2f}")
print(f"Desv. estándar P3095S3: {data_p3095s3.std():.2f}")

# Asumir varianzas poblacionales conocidas (basadas en estudios previos)
sigma1_conocida = 300000  # Varianza conocida para cultivar
sigma2_conocida = 500000  # Varianza conocida para criar animales

# Realizar la prueba
resultado_z3 = z_test_diferencia_medias_conocidas(
    data_p3094s3, data_p3095s3, 
    sigma1_conocida, sigma2_conocida, 
    mu0=0, alternative='two-sided'
)

print("\n=== RESULTADOS PRUEBA Z (DIFERENCIA DE MEDIAS CON VARIANZAS CONOCIDAS) ===")
print(f"Estadístico Z: {resultado_z3['estadistico_z']:.4f}")
print(f"Valor-p: {resultado_z3['p_value']:.6f}")
print(f"Valor crítico: ±{resultado_z3['valor_critico']:.4f}")
print(f"Media muestra 1 (cultivar): {resultado_z3['media_muestra1']:.2f}")
print(f"Media muestra 2 (criar animales): {resultado_z3['media_muestra2']:.2f}")
print(f"Diferencia observada: {resultado_z3['diferencia_observada']:.2f}")
print(f"Error estándar: {resultado_z3['error_estandar']:.2f}")
print(f"Intervalo de confianza 95%: [{resultado_z3['intervalo_confianza'][0]:.2f}, {resultado_z3['intervalo_confianza'][1]:.2f}]")
print(f"Decisión: {resultado_z3['decision']}")

# Interpretación
if resultado_z3['p_value'] < 0.05:
    if resultado_z3['diferencia_observada'] > 0:
        print(f"\nInterpretación: Rechazamos H₀. El ahorro por cultivar ({resultado_z3['media_muestra1']:.2f}) es significativamente mayor que el ahorro por criar animales ({resultado_z3['media_muestra2']:.2f}).")
    else:
        print(f"\nInterpretación: Rechazamos H₀. El ahorro por cultivar ({resultado_z3['media_muestra1']:.2f}) es significativamente menor que el ahorro por criar animales ({resultado_z3['media_muestra2']:.2f}).")
else:
    print(f"\nInterpretación: No rechazamos H₀. No hay evidencia suficiente para concluir que existe diferencia significativa entre los ahorros por cultivar y criar animales.")


### 5. Prueba de hipótesis para la diferencia de medias de dos muestras con varianzas iguales y desconocidas

**Hipótesis:** H₀: μ₁ - μ₂ = 0 vs H₁: μ₁ - μ₂ ≠ 0 (o >, <)

**Variables:** P3087S1 (Valor mensual por prácticas) vs P3094S3 (Ahorro por cultivar)
**Método:** Prueba t con varianzas combinadas (pooled t-test)


In [None]:
# 5. Prueba t para diferencia de medias con varianzas iguales (pooled t-test)
# Comparando P3087S1 (Valor mensual por prácticas) vs P3094S3 (Ahorro por cultivar)

# Preparar datos (eliminar valores faltantes)
data_p3087s1 = df['P3087S1_clean'].dropna()
data_p3094s3 = df['P3094S3_clean'].dropna()

print(f"Tamaño muestra P3087S1 (prácticas): {len(data_p3087s1)}")
print(f"Media P3087S1: {data_p3087s1.mean():.2f}")
print(f"Desv. estándar P3087S1: {data_p3087s1.std():.2f}")

print(f"\nTamaño muestra P3094S3 (cultivar): {len(data_p3094s3)}")
print(f"Media P3094S3: {data_p3094s3.mean():.2f}")
print(f"Desv. estándar P3094S3: {data_p3094s3.std():.2f}")

# Verificar si las varianzas son aproximadamente iguales (prueba F)
var1 = data_p3087s1.var()
var2 = data_p3094s3.var()
f_ratio = max(var1, var2) / min(var1, var2)
print(f"\nRazón de varianzas (F): {f_ratio:.4f}")
if f_ratio < 4:  # Regla práctica: si F < 4, asumir varianzas iguales
    print("Las varianzas parecen ser aproximadamente iguales (F < 4)")
else:
    print("Las varianzas parecen ser diferentes (F ≥ 4)")

# Realizar la prueba t con varianzas iguales
resultado_t2 = t_test_diferencia_medias_iguales(
    data_p3087s1, data_p3094s3, 
    mu0=0, alternative='two-sided'
)

print("\n=== RESULTADOS PRUEBA T (DIFERENCIA DE MEDIAS CON VARIANZAS IGUALES) ===")
print(f"Estadístico t: {resultado_t2['estadistico_t']:.4f}")
print(f"Valor-p: {resultado_t2['p_value']:.6f}")
print(f"Valor crítico: ±{resultado_t2['valor_critico']:.4f}")
print(f"Grados de libertad: {resultado_t2['grados_libertad']}")
print(f"Media muestra 1 (prácticas): {resultado_t2['media_muestra1']:.2f}")
print(f"Media muestra 2 (cultivar): {resultado_t2['media_muestra2']:.2f}")
print(f"Diferencia observada: {resultado_t2['diferencia_observada']:.2f}")
print(f"Varianza combinada: {resultado_t2['varianza_combinada']:.2f}")
print(f"Error estándar: {resultado_t2['error_estandar']:.2f}")
print(f"Intervalo de confianza 95%: [{resultado_t2['intervalo_confianza'][0]:.2f}, {resultado_t2['intervalo_confianza'][1]:.2f}]")
print(f"Decisión: {resultado_t2['decision']}")

# Interpretación
if resultado_t2['p_value'] < 0.05:
    if resultado_t2['diferencia_observada'] > 0:
        print(f"\nInterpretación: Rechazamos H₀. El valor mensual por prácticas ({resultado_t2['media_muestra1']:.2f}) es significativamente mayor que el ahorro por cultivar ({resultado_t2['media_muestra2']:.2f}).")
    else:
        print(f"\nInterpretación: Rechazamos H₀. El valor mensual por prácticas ({resultado_t2['media_muestra1']:.2f}) es significativamente menor que el ahorro por cultivar ({resultado_t2['media_muestra2']:.2f}).")
else:
    print(f"\nInterpretación: No rechazamos H₀. No hay evidencia suficiente para concluir que existe diferencia significativa entre el valor mensual por prácticas y el ahorro por cultivar.")


### 6. Prueba de hipótesis para la diferencia de medias de dos muestras con varianzas desiguales y desconocidas

**Hipótesis:** H₀: μ₁ - μ₂ = 0 vs H₁: μ₁ - μ₂ ≠ 0 (o >, <)

**Variables:** P3087S1 (Valor mensual por prácticas) vs P3095S3 (Ahorro por criar animales)
**Método:** Prueba t de Welch (Welch's t-test)


In [None]:
# 6. Prueba t de Welch para diferencia de medias con varianzas desiguales
# Comparando P3087S1 (Valor mensual por prácticas) vs P3095S3 (Ahorro por criar animales)

# Preparar datos (eliminar valores faltantes)
data_p3087s1 = df['P3087S1_clean'].dropna()
data_p3095s3 = df['P3095S3_clean'].dropna()

print(f"Tamaño muestra P3087S1 (prácticas): {len(data_p3087s1)}")
print(f"Media P3087S1: {data_p3087s1.mean():.2f}")
print(f"Desv. estándar P3087S1: {data_p3087s1.std():.2f}")

print(f"\nTamaño muestra P3095S3 (criar animales): {len(data_p3095s3)}")
print(f"Media P3095S3: {data_p3095s3.mean():.2f}")
print(f"Desv. estándar P3095S3: {data_p3095s3.std():.2f}")

# Verificar si las varianzas son diferentes (prueba F)
var1 = data_p3087s1.var()
var2 = data_p3095s3.var()
f_ratio = max(var1, var2) / min(var1, var2)
print(f"\nRazón de varianzas (F): {f_ratio:.4f}")
if f_ratio >= 4:  # Regla práctica: si F ≥ 4, asumir varianzas diferentes
    print("Las varianzas parecen ser diferentes (F ≥ 4) - Usar Welch's t-test")
else:
    print("Las varianzas parecen ser aproximadamente iguales (F < 4)")

# Realizar la prueba t de Welch
resultado_t3 = t_test_diferencia_medias_desiguales(
    data_p3087s1, data_p3095s3, 
    mu0=0, alternative='two-sided'
)

print("\n=== RESULTADOS PRUEBA T DE WELCH (DIFERENCIA DE MEDIAS CON VARIANZAS DESIGUALES) ===")
print(f"Estadístico t: {resultado_t3['estadistico_t']:.4f}")
print(f"Valor-p: {resultado_t3['p_value']:.6f}")
print(f"Valor crítico: ±{resultado_t3['valor_critico']:.4f}")
print(f"Grados de libertad (Welch): {resultado_t3['grados_libertad']:.1f}")
print(f"Media muestra 1 (prácticas): {resultado_t3['media_muestra1']:.2f}")
print(f"Media muestra 2 (criar animales): {resultado_t3['media_muestra2']:.2f}")
print(f"Diferencia observada: {resultado_t3['diferencia_observada']:.2f}")
print(f"Error estándar: {resultado_t3['error_estandar']:.2f}")
print(f"Intervalo de confianza 95%: [{resultado_t3['intervalo_confianza'][0]:.2f}, {resultado_t3['intervalo_confianza'][1]:.2f}]")
print(f"Decisión: {resultado_t3['decision']}")

# Interpretación
if resultado_t3['p_value'] < 0.05:
    if resultado_t3['diferencia_observada'] > 0:
        print(f"\nInterpretación: Rechazamos H₀. El valor mensual por prácticas ({resultado_t3['media_muestra1']:.2f}) es significativamente mayor que el ahorro por criar animales ({resultado_t3['media_muestra2']:.2f}).")
    else:
        print(f"\nInterpretación: Rechazamos H₀. El valor mensual por prácticas ({resultado_t3['media_muestra1']:.2f}) es significativamente menor que el ahorro por criar animales ({resultado_t3['media_muestra2']:.2f}).")
else:
    print(f"\nInterpretación: No rechazamos H₀. No hay evidencia suficiente para concluir que existe diferencia significativa entre el valor mensual por prácticas y el ahorro por criar animales.")


### 7. Prueba de hipótesis para la diferencia de proporciones de dos muestras

**Hipótesis:** H₀: p₁ - p₂ = 0 vs H₁: p₁ - p₂ ≠ 0 (o >, <)

**Variable:** P3101 (Reuniones familiares) dividida en dos grupos
**Objetivo:** Comparar la proporción de asistencia a reuniones familiares entre dos grupos diferentes


In [None]:
# 7. Prueba Z para diferencia de proporciones
# Comparando la proporción de asistencia a reuniones familiares entre dos grupos

# Crear dos grupos basados en alguna variable (por ejemplo, dividir por la mediana de una variable cuantitativa)
# Usaremos P3087S1 (Valor mensual por prácticas) para dividir en dos grupos

# Preparar datos
data_p3101 = df['P3101_clean'].dropna()
data_p3087s1 = df['P3087S1_clean'].dropna()

# Crear un DataFrame con ambas variables para hacer la comparación
df_comparacion = pd.DataFrame({
    'P3101': data_p3101,
    'P3087S1': data_p3087s1
}).dropna()

# Dividir en dos grupos basado en la mediana de P3087S1
mediana_practicas = df_comparacion['P3087S1'].median()
print(f"Mediana de valor mensual por prácticas: {mediana_practicas:.2f}")

# Grupo 1: Valor bajo de prácticas (≤ mediana)
grupo1 = df_comparacion[df_comparacion['P3087S1'] <= mediana_practicas]
# Grupo 2: Valor alto de prácticas (> mediana)
grupo2 = df_comparacion[df_comparacion['P3087S1'] > mediana_practicas]

print(f"\nTamaño grupo 1 (prácticas bajas): {len(grupo1)}")
print(f"Tamaño grupo 2 (prácticas altas): {len(grupo2)}")

# Convertir P3101 a binario para cada grupo
grupo1_binary = (grupo1['P3101'].str.contains('SÍ|SI|Sí|sí', case=False, na=False)).astype(int)
grupo2_binary = (grupo2['P3101'].str.contains('SÍ|SI|Sí|sí', case=False, na=False)).astype(int)

# Calcular estadísticas
n1 = len(grupo1_binary)
x1 = grupo1_binary.sum()
p1_hat = x1 / n1

n2 = len(grupo2_binary)
x2 = grupo2_binary.sum()
p2_hat = x2 / n2

print(f"\nGrupo 1 (prácticas bajas):")
print(f"  - Asistieron a reuniones: {x1} de {n1} ({p1_hat:.4f})")

print(f"\nGrupo 2 (prácticas altas):")
print(f"  - Asistieron a reuniones: {x2} de {n2} ({p2_hat:.4f})")

# Realizar la prueba
resultado_z4 = z_test_diferencia_proporciones(x1, n1, x2, n2, p0=0, alternative='two-sided')

print("\n=== RESULTADOS PRUEBA Z (DIFERENCIA DE PROPORCIONES) ===")
print(f"Estadístico Z: {resultado_z4['estadistico_z']:.4f}")
print(f"Valor-p: {resultado_z4['p_value']:.6f}")
print(f"Valor crítico: ±{resultado_z4['valor_critico']:.4f}")
print(f"Proporción grupo 1 (prácticas bajas): {resultado_z4['proporcion_muestra1']:.4f}")
print(f"Proporción grupo 2 (prácticas altas): {resultado_z4['proporcion_muestra2']:.4f}")
print(f"Diferencia observada: {resultado_z4['diferencia_observada']:.4f}")
print(f"Proporción combinada: {resultado_z4['proporcion_combinada']:.4f}")
print(f"Error estándar: {resultado_z4['error_estandar']:.4f}")
print(f"Intervalo de confianza 95%: [{resultado_z4['intervalo_confianza'][0]:.4f}, {resultado_z4['intervalo_confianza'][1]:.4f}]")
print(f"Decisión: {resultado_z4['decision']}")

# Interpretación
if resultado_z4['p_value'] < 0.05:
    if resultado_z4['diferencia_observada'] > 0:
        print(f"\nInterpretación: Rechazamos H₀. La proporción de asistencia a reuniones familiares es significativamente mayor en el grupo de prácticas bajas ({resultado_z4['proporcion_muestra1']:.4f}) que en el grupo de prácticas altas ({resultado_z4['proporcion_muestra2']:.4f}).")
    else:
        print(f"\nInterpretación: Rechazamos H₀. La proporción de asistencia a reuniones familiares es significativamente menor en el grupo de prácticas bajas ({resultado_z4['proporcion_muestra1']:.4f}) que en el grupo de prácticas altas ({resultado_z4['proporcion_muestra2']:.4f}).")
else:
    print(f"\nInterpretación: No rechazamos H₀. No hay evidencia suficiente para concluir que existe diferencia significativa en la proporción de asistencia a reuniones familiares entre los dos grupos.")


### 8. Prueba de hipótesis para muestras dependientes (t-test pareado)

**Hipótesis:** H₀: μd = 0 vs H₁: μd ≠ 0 (o >, <)

**Variables:** Comparación pareada entre P3094S3 y P3095S3
**Objetivo:** Probar si hay diferencia significativa entre ahorro por cultivar vs criar animales en los mismos individuos


In [None]:
# 8. Prueba t para muestras dependientes (pareadas)
# Comparando P3094S3 (Ahorro por cultivar) vs P3095S3 (Ahorro por criar animales) pareadas

# Crear un DataFrame con ambas variables para hacer la comparación pareada
df_pareado = pd.DataFrame({
    'P3094S3': df['P3094S3_clean'],
    'P3095S3': df['P3095S3_clean']
}).dropna()

print(f"Tamaño de muestra pareada: {len(df_pareado)}")
print(f"Media P3094S3 (cultivar): {df_pareado['P3094S3'].mean():.2f}")
print(f"Media P3095S3 (criar animales): {df_pareado['P3095S3'].mean():.2f}")

# Calcular diferencias
diferencias = df_pareado['P3094S3'] - df_pareado['P3095S3']
print(f"Media de diferencias: {diferencias.mean():.2f}")
print(f"Desviación estándar de diferencias: {diferencias.std():.2f}")

# Realizar la prueba t pareada
resultado_t4 = t_test_muestras_dependientes(
    df_pareado['P3094S3'], df_pareado['P3095S3'], 
    mu0=0, alternative='two-sided'
)

print("\n=== RESULTADOS PRUEBA T PAREADA (MUESTRAS DEPENDIENTES) ===")
print(f"Estadístico t: {resultado_t4['estadistico_t']:.4f}")
print(f"Valor-p: {resultado_t4['p_value']:.6f}")
print(f"Valor crítico: ±{resultado_t4['valor_critico']:.4f}")
print(f"Grados de libertad: {resultado_t4['grados_libertad']}")
print(f"Media de diferencias: {resultado_t4['media_diferencias']:.2f}")
print(f"Desviación estándar de diferencias: {resultado_t4['desviacion_diferencias']:.2f}")
print(f"Error estándar: {resultado_t4['error_estandar']:.2f}")
print(f"Intervalo de confianza 95%: [{resultado_t4['intervalo_confianza'][0]:.2f}, {resultado_t4['intervalo_confianza'][1]:.2f}]")
print(f"Decisión: {resultado_t4['decision']}")

# Interpretación
if resultado_t4['p_value'] < 0.05:
    if resultado_t4['media_diferencias'] > 0:
        print(f"\nInterpretación: Rechazamos H₀. El ahorro por cultivar es significativamente mayor que el ahorro por criar animales en los mismos individuos (diferencia promedio: {resultado_t4['media_diferencias']:.2f}).")
    else:
        print(f"\nInterpretación: Rechazamos H₀. El ahorro por cultivar es significativamente menor que el ahorro por criar animales en los mismos individuos (diferencia promedio: {resultado_t4['media_diferencias']:.2f}).")
else:
    print(f"\nInterpretación: No rechazamos H₀. No hay evidencia suficiente para concluir que existe diferencia significativa entre el ahorro por cultivar y criar animales en los mismos individuos.")

# Gráfico de las diferencias
plt.figure(figsize=(10, 6))
plt.subplot(1, 2, 1)
plt.hist(diferencias, bins=30, alpha=0.7, color='skyblue', edgecolor='black')
plt.axvline(diferencias.mean(), color='red', linestyle='--', linewidth=2, label=f'Media: {diferencias.mean():.2f}')
plt.axvline(0, color='black', linestyle='-', linewidth=1, label='H₀: μd = 0')
plt.xlabel('Diferencias (Cultivar - Criar animales)')
plt.ylabel('Frecuencia')
plt.title('Distribución de las Diferencias')
plt.legend()

plt.subplot(1, 2, 2)
plt.scatter(df_pareado['P3094S3'], df_pareado['P3095S3'], alpha=0.6)
plt.plot([0, df_pareado[['P3094S3', 'P3095S3']].max().max()], 
         [0, df_pareado[['P3094S3', 'P3095S3']].max().max()], 
         'r--', label='Línea de igualdad')
plt.xlabel('Ahorro por cultivar (P3094S3)')
plt.ylabel('Ahorro por criar animales (P3095S3)')
plt.title('Comparación Pareada')
plt.legend()

plt.tight_layout()
plt.show()


### 9. Prueba de bondad de ajuste (Chi-cuadrado)

**Hipótesis:** H₀: Los datos siguen la distribución esperada vs H₁: Los datos no siguen la distribución esperada

**Variable:** P3101 (Reuniones familiares)
**Objetivo:** Probar si la distribución de respuestas se ajusta a una distribución uniforme o específica


In [None]:
# 9. Prueba Chi-cuadrado de bondad de ajuste
# Usando P3101 (Reuniones familiares)

# Preparar datos
data_p3101 = df['P3101_clean'].dropna()
print("Distribución observada:")
print(data_p3101.value_counts())

# Convertir a códigos numéricos para la prueba
# 0 = NO, 1 = SÍ (y variaciones)
data_p3101_coded = (data_p3101.str.contains('SÍ|SI|Sí|sí', case=False, na=False)).astype(int)

print(f"\nDistribución codificada:")
print(f"NO (0): {len(data_p3101_coded) - data_p3101_coded.sum()}")
print(f"SÍ (1): {data_p3101_coded.sum()}")

# Realizar la prueba de bondad de ajuste
# Primero con distribución uniforme (50-50)
resultado_chi2_1 = chi2_test_bondad_ajuste(data_p3101_coded, expected_props=[0.5, 0.5])

print("\n=== RESULTADOS PRUEBA CHI-CUADRADO (BONDAD DE AJUSTE - UNIFORME) ===")
print(f"Estadístico Chi-cuadrado: {resultado_chi2_1['estadistico_chi2']:.4f}")
print(f"Valor-p: {resultado_chi2_1['p_value']:.6f}")
print(f"Valor crítico: {resultado_chi2_1['valor_critico']:.4f}")
print(f"Grados de libertad: {resultado_chi2_1['grados_libertad']}")
print(f"Frecuencias observadas: {resultado_chi2_1['frecuencias_observadas']}")
print(f"Frecuencias esperadas: {resultado_chi2_1['frecuencias_esperadas']}")
print(f"Decisión: {resultado_chi2_1['decision']}")

# Interpretación
if resultado_chi2_1['p_value'] < 0.05:
    print(f"\nInterpretación: Rechazamos H₀. La distribución de respuestas NO se ajusta a una distribución uniforme (50-50).")
else:
    print(f"\nInterpretación: No rechazamos H₀. La distribución de respuestas SÍ se ajusta a una distribución uniforme (50-50).")

# Ahora probemos con una distribución específica (por ejemplo, 60% SÍ, 40% NO)
resultado_chi2_2 = chi2_test_bondad_ajuste(data_p3101_coded, expected_props=[0.4, 0.6])

print("\n=== RESULTADOS PRUEBA CHI-CUADRADO (BONDAD DE AJUSTE - 40% NO, 60% SÍ) ===")
print(f"Estadístico Chi-cuadrado: {resultado_chi2_2['estadistico_chi2']:.4f}")
print(f"Valor-p: {resultado_chi2_2['p_value']:.6f}")
print(f"Valor crítico: {resultado_chi2_2['valor_critico']:.4f}")
print(f"Grados de libertad: {resultado_chi2_2['grados_libertad']}")
print(f"Frecuencias observadas: {resultado_chi2_2['frecuencias_observadas']}")
print(f"Frecuencias esperadas: {resultado_chi2_2['frecuencias_esperadas']}")
print(f"Decisión: {resultado_chi2_2['decision']}")

# Interpretación
if resultado_chi2_2['p_value'] < 0.05:
    print(f"\nInterpretación: Rechazamos H₀. La distribución de respuestas NO se ajusta a la distribución esperada (40% NO, 60% SÍ).")
else:
    print(f"\nInterpretación: No rechazamos H₀. La distribución de respuestas SÍ se ajusta a la distribución esperada (40% NO, 60% SÍ).")

# Gráfico comparativo
plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
categorias = ['NO', 'SÍ']
observadas = resultado_chi2_1['frecuencias_observadas']
esperadas_uni = resultado_chi2_1['frecuencias_esperadas']
x = np.arange(len(categorias))
width = 0.35

plt.bar(x - width/2, observadas, width, label='Observadas', alpha=0.8, color='skyblue')
plt.bar(x + width/2, esperadas_uni, width, label='Esperadas (Uniforme)', alpha=0.8, color='orange')
plt.xlabel('Respuesta')
plt.ylabel('Frecuencia')
plt.title('Bondad de Ajuste - Distribución Uniforme')
plt.xticks(x, categorias)
plt.legend()

plt.subplot(1, 2, 2)
esperadas_esp = resultado_chi2_2['frecuencias_esperadas']
plt.bar(x - width/2, observadas, width, label='Observadas', alpha=0.8, color='skyblue')
plt.bar(x + width/2, esperadas_esp, width, label='Esperadas (40-60)', alpha=0.8, color='green')
plt.xlabel('Respuesta')
plt.ylabel('Frecuencia')
plt.title('Bondad de Ajuste - Distribución 40-60')
plt.xticks(x, categorias)
plt.legend()

plt.tight_layout()
plt.show()


### 10. Prueba de independencia (Chi-cuadrado)

**Hipótesis:** H₀: Las variables son independientes vs H₁: Las variables no son independientes

**Variables:** P3101 (Reuniones familiares) vs grupos de P3087S1 (Valor mensual por prácticas)
**Objetivo:** Probar si hay asociación entre la asistencia a reuniones familiares y el nivel de ingresos por prácticas


In [None]:
# 10. Prueba Chi-cuadrado de independencia
# Comparando P3101 (Reuniones familiares) vs grupos de P3087S1 (Valor mensual por prácticas)

# Preparar datos
data_p3101 = df['P3101_clean'].dropna()
data_p3087s1 = df['P3087S1_clean'].dropna()

# Crear un DataFrame con ambas variables
df_independencia = pd.DataFrame({
    'P3101': data_p3101,
    'P3087S1': data_p3087s1
}).dropna()

# Crear grupos basados en P3087S1 (terciles)
terciles = df_independencia['P3087S1'].quantile([0.33, 0.67])
print(f"Terciles de P3087S1: {terciles[0.33]:.2f}, {terciles[0.67]:.2f}")

# Categorizar P3087S1 en tres grupos
def categorizar_ingresos(valor):
    if valor <= terciles[0.33]:
        return 'Bajo'
    elif valor <= terciles[0.67]:
        return 'Medio'
    else:
        return 'Alto'

df_independencia['Grupo_Ingresos'] = df_independencia['P3087S1'].apply(categorizar_ingresos)

# Convertir P3101 a binario
df_independencia['Asistio_Reuniones'] = (df_independencia['P3101'].str.contains('SÍ|SI|Sí|sí', case=False, na=False)).astype(int)

print("\nDistribución por grupos:")
print(df_independencia.groupby('Grupo_Ingresos')['Asistio_Reuniones'].value_counts().unstack(fill_value=0))

# Crear tabla de contingencia
tabla_contingencia = pd.crosstab(df_independencia['Grupo_Ingresos'], df_independencia['Asistio_Reuniones'])
print(f"\nTabla de contingencia:")
print(tabla_contingencia)

# Realizar la prueba de independencia
resultado_chi2_ind = chi2_test_independencia(
    df_independencia['Grupo_Ingresos'], 
    df_independencia['Asistio_Reuniones']
)

print("\n=== RESULTADOS PRUEBA CHI-CUADRADO (INDEPENDENCIA) ===")
print(f"Estadístico Chi-cuadrado: {resultado_chi2_ind['estadistico_chi2']:.4f}")
print(f"Valor-p: {resultado_chi2_ind['p_value']:.6f}")
print(f"Valor crítico: {resultado_chi2_ind['valor_critico']:.4f}")
print(f"Grados de libertad: {resultado_chi2_ind['grados_libertad']}")
print(f"Decisión: {resultado_chi2_ind['decision']}")

print(f"\nFrecuencias observadas:")
print(resultado_chi2_ind['frecuencias_observadas'])

print(f"\nFrecuencias esperadas:")
print(resultado_chi2_ind['frecuencias_esperadas'])

# Interpretación
if resultado_chi2_ind['p_value'] < 0.05:
    print(f"\nInterpretación: Rechazamos H₀. Existe asociación significativa entre el grupo de ingresos por prácticas y la asistencia a reuniones familiares.")
else:
    print(f"\nInterpretación: No rechazamos H₀. No hay evidencia suficiente para concluir que existe asociación entre el grupo de ingresos por prácticas y la asistencia a reuniones familiares.")

# Gráfico de la tabla de contingencia
plt.figure(figsize=(10, 6))

# Gráfico de barras agrupadas
tabla_plot = tabla_contingencia.T  # Transponer para mejor visualización
tabla_plot.plot(kind='bar', figsize=(10, 6), color=['skyblue', 'lightcoral', 'lightgreen'])
plt.title('Asistencia a Reuniones Familiares por Grupo de Ingresos')
plt.xlabel('Asistió a Reuniones (0=No, 1=Sí)')
plt.ylabel('Frecuencia')
plt.legend(title='Grupo de Ingresos', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.xticks(rotation=0)
plt.tight_layout()
plt.show()

# Mosaic plot
plt.figure(figsize=(8, 6))
from statsmodels.graphics.mosaicplot import mosaic
mosaic_data = df_independencia.groupby(['Grupo_Ingresos', 'Asistio_Reuniones']).size().unstack(fill_value=0)
mosaic(mosaic_data.values, title='Mosaic Plot: Independencia entre Variables')
plt.show()


### 11. Prueba de signos

**Hipótesis:** H₀: No hay diferencia sistemática entre las posiciones vs H₁: Hay diferencia sistemática

**Variables:** Comparación de rankings entre P3094S3 y P3095S3
**Objetivo:** Probar si hay diferencia sistemática en los rankings de ahorro por cultivar vs criar animales


In [None]:
# 11. Prueba de signos
# Comparando rankings de P3094S3 (Ahorro por cultivar) vs P3095S3 (Ahorro por criar animales)

# Usar los datos pareados que ya tenemos
df_pareado = pd.DataFrame({
    'P3094S3': df['P3094S3_clean'],
    'P3095S3': df['P3095S3_clean']
}).dropna()

print(f"Tamaño de muestra para prueba de signos: {len(df_pareado)}")

# Crear rankings para cada variable
# Ranking 1 = valor más alto
ranking_p3094s3 = df_pareado['P3094S3'].rank(method='average', ascending=False)
ranking_p3095s3 = df_pareado['P3095S3'].rank(method='average', ascending=False)

print(f"\nEstadísticas de rankings:")
print(f"Ranking P3094S3 - Min: {ranking_p3094s3.min():.1f}, Max: {ranking_p3094s3.max():.1f}, Media: {ranking_p3094s3.mean():.1f}")
print(f"Ranking P3095S3 - Min: {ranking_p3095s3.min():.1f}, Max: {ranking_p3095s3.max():.1f}, Media: {ranking_p3095s3.mean():.1f}")

# Realizar la prueba de signos
resultado_signos = prueba_signos(ranking_p3094s3, ranking_p3095s3, alternative='two-sided')

print("\n=== RESULTADOS PRUEBA DE SIGNOS ===")
print(f"Estadístico: {resultado_signos['estadistico']}")
print(f"Valor-p: {resultado_signos['p_value']:.6f}")
print(f"Signos positivos (P3094S3 > P3095S3): {resultado_signos['signos_positivos']}")
print(f"Signos negativos (P3094S3 < P3095S3): {resultado_signos['signos_negativos']}")
print(f"Empates: {resultado_signos['empates']}")
print(f"N válido (sin empates): {resultado_signos['n_valido']}")
print(f"Decisión: {resultado_signos['decision']}")

# Interpretación
if resultado_signos['p_value'] < 0.05:
    if resultado_signos['signos_positivos'] > resultado_signos['signos_negativos']:
        print(f"\nInterpretación: Rechazamos H₀. El ranking de ahorro por cultivar tiende a ser sistemáticamente mayor que el ranking de ahorro por criar animales.")
    else:
        print(f"\nInterpretación: Rechazamos H₀. El ranking de ahorro por cultivar tiende a ser sistemáticamente menor que el ranking de ahorro por criar animales.")
else:
    print(f"\nInterpretación: No rechazamos H₀. No hay evidencia suficiente para concluir que existe diferencia sistemática en los rankings.")

# Gráfico de la prueba de signos
plt.figure(figsize=(15, 5))

# Subplot 1: Distribución de diferencias de rankings
plt.subplot(1, 3, 1)
diferencias_ranking = ranking_p3094s3 - ranking_p3095s3
plt.hist(diferencias_ranking, bins=30, alpha=0.7, color='lightblue', edgecolor='black')
plt.axvline(0, color='red', linestyle='--', linewidth=2, label='H₀: No diferencia')
plt.axvline(diferencias_ranking.mean(), color='green', linestyle='-', linewidth=2, label=f'Media: {diferencias_ranking.mean():.2f}')
plt.xlabel('Diferencia de Rankings (P3094S3 - P3095S3)')
plt.ylabel('Frecuencia')
plt.title('Distribución de Diferencias de Rankings')
plt.legend()

# Subplot 2: Conteo de signos
plt.subplot(1, 3, 2)
signos = ['Positivos', 'Negativos', 'Empates']
conteos = [resultado_signos['signos_positivos'], resultado_signos['signos_negativos'], resultado_signos['empates']]
colores = ['lightgreen', 'lightcoral', 'lightgray']
plt.bar(signos, conteos, color=colores, alpha=0.8, edgecolor='black')
plt.ylabel('Frecuencia')
plt.title('Conteo de Signos')
for i, v in enumerate(conteos):
    plt.text(i, v + 0.5, str(v), ha='center', va='bottom', fontweight='bold')

# Subplot 3: Scatter plot de rankings
plt.subplot(1, 3, 3)
plt.scatter(ranking_p3094s3, ranking_p3095s3, alpha=0.6, color='purple')
plt.plot([1, ranking_p3094s3.max()], [1, ranking_p3095s3.max()], 'r--', label='Línea de igualdad')
plt.xlabel('Ranking P3094S3 (Cultivar)')
plt.ylabel('Ranking P3095S3 (Criar animales)')
plt.title('Comparación de Rankings')
plt.legend()

plt.tight_layout()
plt.show()

# Resumen de todas las pruebas realizadas
print("\n" + "="*80)
print("RESUMEN DE TODAS LAS PRUEBAS DE HIPÓTESIS REALIZADAS")
print("="*80)

pruebas_realizadas = [
    ("1. Z-test media (varianza conocida)", "P3095S3", resultado_z1['decision'], resultado_z1['p_value']),
    ("2. Z-test proporción", "P3101", resultado_z2['decision'], resultado_z2['p_value']),
    ("3. T-test media (varianza desconocida)", "P3087S1", resultado_t1['decision'], resultado_t1['p_value']),
    ("4. Z-test diferencia medias (varianzas conocidas)", "P3094S3 vs P3095S3", resultado_z3['decision'], resultado_z3['p_value']),
    ("5. T-test diferencia medias (varianzas iguales)", "P3087S1 vs P3094S3", resultado_t2['decision'], resultado_t2['p_value']),
    ("6. T-test diferencia medias (varianzas desiguales)", "P3087S1 vs P3095S3", resultado_t3['decision'], resultado_t3['p_value']),
    ("7. Z-test diferencia proporciones", "P3101 por grupos", resultado_z4['decision'], resultado_z4['p_value']),
    ("8. T-test muestras dependientes", "P3094S3 vs P3095S3 pareadas", resultado_t4['decision'], resultado_t4['p_value']),
    ("9. Chi-cuadrado bondad de ajuste", "P3101", resultado_chi2_1['decision'], resultado_chi2_1['p_value']),
    ("10. Chi-cuadrado independencia", "P3101 vs grupos P3087S1", resultado_chi2_ind['decision'], resultado_chi2_ind['p_value']),
    ("11. Prueba de signos", "Rankings P3094S3 vs P3095S3", resultado_signos['decision'], resultado_signos['p_value'])
]

print(f"{'Prueba':<50} {'Variable(s)':<25} {'Decisión':<15} {'Valor-p':<10}")
print("-" * 100)
for prueba, variable, decision, p_val in pruebas_realizadas:
    print(f"{prueba:<50} {variable:<25} {decision:<15} {p_val:<10.6f}")

print("\n" + "="*80)
print("TODAS LAS 11 PRUEBAS DE HIPÓTESIS HAN SIDO COMPLETADAS EXITOSAMENTE")
print("="*80)


# 11 pruebas de hipotesis
Se selecciona una variable pertinente para hacer la prueba de hipotesis necesaria. 
las pruebas de hipotesis son:
1. Prueba de hipótesis para la media de una muestra con varianza conocida
2. Prueba de hipótesis para la proporción de una muestra
3. Prueba de hipótesis para la media de una muestra con varianza desconocida
4. Prueba de hipótesis para la diferencia de medias de dos muestras con varianzas conocidas
5. Prueba de hipótesis para la diferencia de medias de dos muestras con varianzas iguales y desconocidas
6. Prueba de hipótesis para la diferencia de medias de dos muestras con varianzas desiguales y desconocidas
7. Prueba de hipótesis para la diferencia de proporciones de dos muestras
8. Prueba de hipótesis para muestras dependientes
9. Prueba de bondad de ajuste
10. Prueba de independencia
11. Prueba de signos