In [1]:
import numpy as np
from scipy.stats import shapiro

In [4]:
# Колмогоров-Смирнов
def ks_2samp(data1, data2):
    # Сортируем данные в порядке возрастания
    data1 = np.sort(data1)
    data2 = np.sort(data2)
    
    # Вычисляем кумулятивные функции распределения
    n1 = data1.shape[0]
    n2 = data2.shape[0]
    n = n1 + n2
    cdf1 = np.searchsorted(data1, data1, side='right') / n1
    cdf2 = np.searchsorted(data2, data1, side='right') / n2
    
    # Вычисляем максимальное абсолютное отклонение
    max_diff = np.max(np.abs(cdf1 - cdf2))
    
    # Вычисляем статистику KS
    ks_statistic = max_diff * np.sqrt(n / (n1 * n2 / n))
    
    return ks_statistic

In [3]:
# Неравенство Чебышева
def chebyshev_inequality(data, k):
    mean = np.mean(data)
    std = np.std(data)
    
    # Вычисляем вероятность с помощью неравенства Чебышева
    probability = 1 - 1 / (k**2)
    
    # Вычисляем интервал с помощью неравенства Чебышева
    interval = [mean - k * std, mean + k * std]
    
    return probability, interval


In [5]:
# PSI
def calculate_psi(actual, expected, bins=10):
    # Разбиваем данные на корзины (bins) на основе ожидаемого распределения
    expected_bins = np.histogram(expected, bins=bins)[0]
    expected_bins = np.where(expected_bins == 0, 0.0001, expected_bins)  # Избегаем деления на ноль
    
    # Разбиваем фактические данные на корзины на основе ожидаемого распределения
    actual_bins = np.histogram(actual, bins=bins)[0]
    
    # Вычисляем относительные частоты для фактических и ожидаемых данных
    actual_freq = actual_bins / actual.size
    expected_freq = expected_bins / expected.size
    
    # Вычисляем показатель PSI
    psi = np.sum((expected_freq - actual_freq) * np.log(expected_freq / actual_freq))
    
    return psi

In [6]:
# расстояние Вассерштейна
def wasserstein_distance(data1, data2):
    sorted_data1 = np.sort(data1)
    sorted_data2 = np.sort(data2)
    n1 = sorted_data1.shape[0]
    n2 = sorted_data2.shape[0]
    cdf1 = np.linspace(1/n1, 1, n1)
    cdf2 = np.linspace(1/n2, 1, n2)
    wasserstein_dist = np.sum(np.abs(cdf1 - cdf2)) / n1
    return wasserstein_dist

def wasserstein_stat_test(data1, data2):
    # Вычисляем расстояние Вассерштейна между распределениями
    wasserstein_dist = wasserstein_distance(data1, data2)
    
    # Вычисляем статистику теста
    stat_test = wasserstein_dist
    
    return stat_test

In [None]:
def shapiro_wilk_test(ref_samples, curr_samples):
    _, p_value = shapiro(curr_samples)

    threshold = 0.05
    drift_detected = p_value < threshold

    return drift_detected, p_value


In [None]:
def cramers_v(confusion_matrix):
    chi2 = np.sum(confusion_matrix)
    n = confusion_matrix.shape[0]
    m = confusion_matrix.shape[1]
    
    chi2corr = chi2 / (n * min(m - 1, n - 1))
    phi2 = chi2corr / min(m - 1, n - 1)
    v = np.sqrt(phi2)
    
    return v