In [5]:
import numpy as np
import pandas as pd

# Настройка генератора случайных чисел для воспроизводимости
np.random.seed(42)

def generate_sample(n=100, diff_strength=0):
    """
    Генерация выборки на n строк.
    diff_strength: сила различия между группами (влияет на корреляцию)
    """
    # 1. Генерируем пол (0 - М, 1 - Ж)
    # Сделаем примерно поровну, но с небольшим перекосом, как бывает в жизни
    sex_binary = np.random.choice(['M', 'F'], size=n, p=[0.45, 0.55])

    # 2. Генерируем количественный признак (0-24 балла)
    # Базовое распределение (нормальное)
    scores = []
    for sex in sex_binary:
        noise = np.random.normal(0, 4) # Случайный разброс
        if sex == 'M':
            # У мужчин база 12 + сдвиг
            val = 12 + diff_strength + noise
        else:
            # У женщин база 12 - сдвиг
            val = 12 - diff_strength + noise

        # Ограничиваем рамками теста (0-24) и округляем
        val = int(max(0, min(24, round(val))))
        scores.append(val)

    return pd.DataFrame({'Sex': sex_binary, 'Score': scores})

# === ГЕНЕРАЦИЯ ДАННЫХ ===

# Вариант 9: Делаем сильное различие (diff=4.0), связь будет сильной
df_var4 = generate_sample(n=100, diff_strength=4.0)

print("Генерация завершена.")
print(f"Вариант 9: {len(df_var4)} строк.")
print("\nПример данных Вариант 4 (первые 5 строк):")

Генерация завершена.
Вариант 9: 100 строк.

Пример данных Вариант 4 (первые 5 строк):


In [6]:
import numpy as np
import pandas as pd
from scipy.stats import chi2

# === ДАННЫЕ ДЛЯ ЗАДАНИЙ 7 и 9 (Таблица А.10) ===
# Вариант 4: Признаки 1 (Гипертимность) и 7 (Демонстративность)
raw_data = [
    {'Sex': 'M', 'Trait1': 21, 'Trait7': 16}, {'Sex': 'M', 'Trait1': 0,  'Trait7': 10},
    {'Sex': 'M', 'Trait1': 12, 'Trait7': 3},  {'Sex': 'M', 'Trait1': 12, 'Trait7': 21},
    {'Sex': 'M', 'Trait1': 21, 'Trait7': 12}, {'Sex': 'M', 'Trait1': 12, 'Trait7': 10},
    {'Sex': 'M', 'Trait1': 15, 'Trait7': 18}, {'Sex': 'M', 'Trait1': 21, 'Trait7': 21},
    {'Sex': 'M', 'Trait1': 24, 'Trait7': 12},
    {'Sex': 'F', 'Trait1': 3,  'Trait7': 12}, {'Sex': 'F', 'Trait1': 0,  'Trait7': 9},
    {'Sex': 'F', 'Trait1': 21, 'Trait7': 6},  {'Sex': 'F', 'Trait1': 21, 'Trait7': 6},
    {'Sex': 'F', 'Trait1': 24, 'Trait7': 3},  {'Sex': 'F', 'Trait1': 6,  'Trait7': 15},
    {'Sex': 'F', 'Trait1': 18, 'Trait7': 15}, {'Sex': 'F', 'Trait1': 12, 'Trait7': 12},
    {'Sex': 'F', 'Trait1': 21, 'Trait7': 9},  {'Sex': 'F', 'Trait1': 6,  'Trait7': 18},
    {'Sex': 'F', 'Trait1': 6,  'Trait7': 15}, {'Sex': 'F', 'Trait1': 9,  'Trait7': 15},
    {'Sex': 'F', 'Trait1': 15, 'Trait7': 6},  {'Sex': 'F', 'Trait1': 9,  'Trait7': 12},
    {'Sex': 'F', 'Trait1': 18, 'Trait7': 12}, {'Sex': 'F', 'Trait1': 9,  'Trait7': 12},
    {'Sex': 'F', 'Trait1': 3,  'Trait7': 21}, {'Sex': 'F', 'Trait1': 24, 'Trait7': 6}
]
df = pd.DataFrame(raw_data)

# === ДАННЫЕ ДЛЯ ЗАДАНИЯ 8 (Таблица сопряженности) ===
# Вариант 4 (i=4)
i_val = 4
matrix_base = np.array([
    [18212, 1914, 147, 8, 4],
    [5574, 6677, 1112, 85, 18],
    [498, 2171, 2595, 419, 43],
    [98, 368, 1177, 1280, 308],
    [19, 75, 271, 840, 1701]
])
# Умножаем на номер варианта
n_matrix = matrix_base * i_val

print("Данные успешно загружены.")

Данные успешно загружены.


In [7]:
print(f"{'='*20} ЗАДАНИЕ 7: Подготовка таблицы {'='*20}")

# 1. Расчет медиан
med1 = df['Trait1'].median()
med7 = df['Trait7'].median()
print(f"Медиана (Признак 1): {med1}")
print(f"Медиана (Признак 7): {med7}")

# 2. Формирование таблицы 2x2
# 1 группа (>= Медианы), 2 группа (< Медианы)
# a (1,1), b (1,2), c (2,1), d (2,2)
a = len(df[(df['Trait1'] >= med1) & (df['Trait7'] >= med7)])
b = len(df[(df['Trait1'] >= med1) & (df['Trait7'] < med7)])
c = len(df[(df['Trait1'] < med1) & (df['Trait7'] >= med7)])
d = len(df[(df['Trait1'] < med1) & (df['Trait7'] < med7)])

print("\nТаблица сопряженности (a, b, c, d):")
print(f"{a}\t{b}")
print(f"{c}\t{d}")

Медиана (Признак 1): 12.0
Медиана (Признак 7): 12.0

Таблица сопряженности (a, b, c, d):
9	8
8	2


In [8]:
print(f"{'='*20} ЗАДАНИЕ 7: Расчет коэффициентов {'='*20}")

# Коэффициент ассоциации (K_a)
# Формула: (ad - bc) / (ad + bc)
numerator = a*d - b*c
denominator_a = a*d + b*c
Ka = numerator / denominator_a

# Коэффициент контингенции (K_k)
# Формула: (ad - bc) / sqrt((a+b)(b+d)(d+c)(c+a))
denominator_k = np.sqrt((a+b)*(b+d)*(d+c)*(c+a))
Kk = numerator / denominator_k

print(f"Коэффициент ассоциации Ka = {Ka:.4f}")
print(f"Коэффициент контингенции Kk = {Kk:.4f}")

# Вывод
if abs(Ka) >= 0.5 and abs(Kk) >= 0.3:
    print(">> Вывод: Связь между признаками подтверждается.")
else:
    print(">> Вывод: Связь не подтверждается.")

Коэффициент ассоциации Ka = -0.5610
Коэффициент контингенции Kk = -0.2706
>> Вывод: Связь не подтверждается.


In [9]:
print(f"{'='*20} ЗАДАНИЕ 8: Предварительные расчеты {'='*20}")

n = np.sum(n_matrix)           # Общая сумма n
ni_row = np.sum(n_matrix, axis=1) # Суммы по строкам (n_i.)
nj_col = np.sum(n_matrix, axis=0) # Суммы по столбцам (n_.j)
m1, m2 = n_matrix.shape        # Размеры таблицы (5x5)

print(f"Размер таблицы: {m1}x{m2}")
print(f"Общий объем выборки n = {n}")

Размер таблицы: 5x5
Общий объем выборки n = 182456


In [10]:

print(f"{'='*20} ЗАДАНИЕ 8: Хи-квадрат и Интервал {'='*20}")

# 1. Расчет Хи-квадрат
sum_term = 0
for r in range(m1):
    for c_ in range(m2):
        nij = n_matrix[r, c_]
        if nij > 0:
            sum_term += (nij**2) / (ni_row[r] * nj_col[c_])

chi2_st = n * (sum_term - 1)

# 2. Критическое значение
df_chi = (m1 - 1) * (m2 - 1)
chi2_crit = chi2.ppf(0.95, df_chi)

print(f"X^2 расчетное = {chi2_st:.2f}")
print(f"X^2 критическое (df={df_chi}) = {chi2_crit:.2f}")

if chi2_st > chi2_crit:
    print(">> Связь статистически значима.")
else:
    print(">> Связь не значима.")

# 3. Доверительный интервал для Хи-квадрат
# Методика: Скриншот 266 и пример на Скриншоте 255.
# Используем грубую оценку дисперсии: sigma^2 ~ 4 * chi2_st
sigma_chi = np.sqrt(4 * chi2_st)

# Квантиль u для 95% (в примере используется 1.64)
u_val = 1.64
# Или точно: u_val = norm.ppf(0.95) # ~1.64485

lower_bound = chi2_st - u_val * sigma_chi
upper_bound = chi2_st + u_val * sigma_chi

print(f"\nДоверительный интервал для X^2 (95%):")
print(f"[{lower_bound:.2f}; {upper_bound:.2f}]")

X^2 расчетное = 232017.72
X^2 критическое (df=16) = 26.30
>> Связь статистически значима.

Доверительный интервал для X^2 (95%):
[230437.81; 233597.64]


In [14]:
print(f"{'='*20} ЗАДАНИЕ 8: Коэффициент Крамера {'='*20}")

# Формула: C = sqrt( X^2 / (n * min(m1-1, m2-1)) )
min_m = min(m1 - 1, m2 - 1)
C_val = np.sqrt(chi2_st / (n * min_m))

print(f"Коэффициент Крамера C = {C_val:.4f}")

Коэффициент Крамера C = 0.5638


In [15]:
print(f"{'='*20} ЗАДАНИЕ 8: Информационная характеристика {'='*20}")

# Формула: Y^2 = 2 * ( Sum(nij*ln(nij)) - Sum(ni.*ln(ni.)) - Sum(n.j*ln(n.j)) + n*ln(n) )
# Используем натуральный логарифм np.log()

def sum_x_ln_x(arr):
    arr_f = np.array(arr, dtype=float)
    # Считаем только там, где значение > 0, чтобы избежать log(0)
    mask = arr_f > 0
    return np.sum(arr_f[mask] * np.log(arr_f[mask]))

term1 = sum_x_ln_x(n_matrix) # Sum(nij * ln(nij))
term2 = sum_x_ln_x(ni_row)   # Sum(ni. * ln(ni.))
term3 = sum_x_ln_x(nj_col)   # Sum(n.j * ln(n.j))
term4 = n * np.log(n)

Y2 = 2 * (term1 - term2 - term3 + term4)

print(f"Информационная характеристика Y^2 = {Y2:.2f}")
# Сравнение с тем же критическим значением Хи-квадрат
if Y2 > chi2_crit:
    print(">> По критерию Y^2 связь значима.")

Информационная характеристика Y^2 = 177679.88
>> По критерию Y^2 связь значима.


In [16]:
print(f"{'='*20} ЗАДАНИЕ 8: Пирсон и Чупров {'='*20}")

# Показатель взаимной сопряженности phi^2 (фи квадрат)
phi2 = chi2_st / n

# Коэффициент Пирсона (K_Pi)
# Формула: sqrt( phi^2 / (1 + phi^2) )
Kp = np.sqrt(phi2 / (1 + phi2))

# Коэффициент Чупрова (K_u)
# Формула: sqrt( phi^2 / sqrt((m1-1)(m2-1)) )
denom_Ku = np.sqrt((m1 - 1) * (m2 - 1))
Ku = np.sqrt(phi2 / denom_Ku)

print(f"Коэффициент Пирсона Kп = {Kp:.4f}")
print(f"Коэффициент Чупрова Kч = {Ku:.4f}")

Коэффициент Пирсона Kп = 0.7482
Коэффициент Чупрова Kч = 0.5638


In [28]:
def calculate_biserial_strict(df, variant_name):
    print(f"{'='*20} ЗАДАНИЕ 9: БИСЕРИАЛЬНЫЙ КОЭФФИЦИЕНТ {'='*20}")
    print(f"\n{'='*10} РАСЧЕТ ДЛЯ {variant_name} {'='*10}")

    # 1. Разделение на группы
    group_M = df[df['Sex'] == 'M']['Score'].values
    group_F = df[df['Sex'] == 'F']['Score'].values

    n1 = len(group_M)
    n2 = len(group_F)
    n_total = n1 + n2

    # 2. Средние значения (Y1_bar, Y2_bar)
    y1_bar = np.mean(group_M)
    y2_bar = np.mean(group_F)

    # Общее среднее (Y_bar)
    y_total_bar = df['Score'].mean()

    print(f"Количество М (n1): {n1}")
    print(f"Количество Ж (n2): {n2}")
    print(f"Всего (n): {n_total}")
    print(f"Среднее М: {y1_bar:.2f}")
    print(f"Среднее Ж: {y2_bar:.2f}")

    # 3. Среднеквадратичное отклонение (Sigma)
    # В примере 3.4 (скриншот 260) формула включает (n - 1) в знаменателе
    # sigma = sqrt( sum((yi - y_avg)^2) / (n - 1) )

    sum_squared_diff = np.sum((df['Score'] - y_total_bar)**2)
    sigma_y = np.sqrt(sum_squared_diff / (n_total - 1))

    print(f"Стандартное отклонение (sigma): {sigma_y:.4f}")

    # 4. Формула бисериального коэффициента
    # rb = ( |y1 - y2| / sigma ) * sqrt( (n1 * n2) / (n * (n - 1)) )
    # Примечание: n * (n - 1) под корнем взято из скриншота 260

    term1 = abs(y1_bar - y2_bar) / sigma_y
    term2 = np.sqrt( (n1 * n2) / (n_total * (n_total - 1)) )

    rb = term1 * term2

    print(f"Бисериальный коэффициент (rb): {rb:.4f}")

    # Вывод
    if rb < 0.3:
        conclusion = "Связь слабая."
    elif rb < 0.7:
        conclusion = "Связь средней силы."
    else:
        conclusion = "Связь сильная."
    print(f"ВЫВОД: {conclusion}")

In [30]:
# Расчет для Варианта 9
calculate_biserial_strict(df_var4, "ВАРИАНТА 4")


Количество М (n1): 49
Количество Ж (n2): 51
Всего (n): 100
Среднее М: 16.55
Среднее Ж: 7.35
Стандартное отклонение (sigma): 5.8414
Бисериальный коэффициент (rb): 0.7911
ВЫВОД: Связь сильная.
