In [1]:
import numpy as np  # Импорт библиотеки NumPy для работы с массивами и математическими функциями.
import pandas as pd  # Импорт библиотеки Pandas для работы с данными в форме таблицы (DataFrame).
from scipy.stats import f  # Импорт функции f из библиотеки SciPy для работы с распределением F.
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis  # Импорт класса LinearDiscriminantAnalysis из библиотеки scikit-learn для выполнения анализа дискриминантной функции.
from scipy.spatial.distance import mahalanobis  # Импорт функции mahalanobis из библиотеки SciPy для вычисления расстояния Махаланобиса.

In [2]:
FEATURES = ["X1", "X2", "X3", "X4", "X5", "X6", "X7", "X8", "X9"]
# Определение списка FEATURES, содержащего названия признаков, которые будут использоваться в анализе.

TRAIN_SAMPLES = {
    1: [3, 5, 7, 9, 13,14,16,17,23,24,26],
    2: [32, 82],
    3: [0, 4,20,25,28,34],
    4: [10, 15, 19, 30, 43],
    5: [1, 2,6,8,11,12]
}
# Определение словаря TRAIN_SAMPLES, где ключи - номера классов, а значения - индексы обучающих примеров для каждого класса.

data = pd.read_excel(r'lab2_data.xlsx', usecols=[0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
# Загрузка данных из Excel-файла в объект DataFrame библиотеки Pandas, используя только указанные столбцы.

data = data.loc[range(0, 85)]
# Выборка первых 85 строк из данных, чтобы оставить только нужное количество образцов.

print("Данные")
print(data.head())
# Вывод первых нескольких строк данных для визуального ознакомления с ними.

data_to_excel = data[FEATURES]
# Выборка только тех столбцов данных, которые соответствуют признакам из списка FEATURES.

Данные
                    Регион        X1        X2        X3        X4        X5  \
0  Республика Башкортостан -0.358860  1.046662 -0.024135 -0.925109  1.108921   
1      Вологодская область  0.732542  0.152726  1.493990  0.505787 -0.675489   
2          Приморский край  1.213320  0.431885  0.657885 -0.079579 -0.394043   
3      Ульяновская область -0.404481  0.220163 -0.531442 -0.014539 -0.572209   
4       Смоленская область -0.014946  0.934528  0.457704  0.115543  1.480501   

         X6        X7        X8        X9  
0 -0.419513  0.043384 -0.222082  0.089137  
1 -0.282279  0.282664 -0.269168 -0.647999  
2 -0.191350 -0.072765  0.280705  0.014490  
3 -0.460731 -0.228032 -0.575047  0.574341  
4 -0.356004 -0.121853 -0.337658  0.210438  


In [3]:
def get_train_data(data, features, train_samples=None):
    # Определение функции get_train_data, которая принимает три параметра: data (таблица с данными),
    # features (список признаков) и train_samples (словарь с обучающими выборками для каждого класса).

    train_data = pd.DataFrame()
    # Создание нового пустого DataFrame под название train_data для хранения обучающих данных.

    for cls, samples in train_samples.items():
        # Итерация по элементам словаря train_samples, где cls - номер класса, samples - список индексов строк.

        train_samps = data[features].loc[samples]
        # Выборка строк из исходных данных (data) по указанным признакам (features) и номерам строк (samples).

        train_samps["Class"] = cls
        # Добавление новой колонки "Class" с номером класса к выбранным обучающим данным.

        train_data = pd.concat([train_data, train_samps])
        # Объединение текущих обучающих данных с предыдущими в DataFrame train_data.

    train_data = train_data.astype({"Class": 'int32'})
    # Приведение типа данных в колонке "Class" к целочисленному (int32).

    return train_data
    # Возвращение итоговой обучающей выборки.

train_data = get_train_data(data, FEATURES, TRAIN_SAMPLES)
# Вызов функции get_train_data с передачей исходных данных, признаков и обучающих выборок.

print("Обучающая выборка")
print(train_data)
# Вывод на экран обучающей выборки.

data_to_excel["Train sample"] = train_data.Class
# Добавление новой колонки "Train sample" с номерами классов в DataFrame data_to_excel.


Обучающая выборка
          X1        X2        X3        X4        X5        X6        X7  \
3  -0.404481  0.220163 -0.531442 -0.014539 -0.572209 -0.460731 -0.228032   
5  -0.169356  0.071174 -0.518682  0.115543 -0.757220 -0.249657 -0.685495   
7  -0.004418 -0.052723 -0.157175  0.570828 -0.301720 -0.525390  0.257490   
9   0.237726  0.279759  0.376950 -0.144620 -0.058421 -0.388520  0.058677   
13 -0.229015  0.302499 -0.458052  0.050502 -0.157032 -0.326353 -0.597239   
14  0.097353 -0.503612 -0.666108 -0.274702 -0.707612 -0.359749 -0.375588   
16 -0.204449 -0.350702 -0.881749 -0.144620 -0.454377 -0.492329 -0.288642   
17  0.279838  0.152726 -0.303873 -0.339742 -0.391579 -0.404677  0.468514   
23 -0.597494  0.057059 -0.607321  0.440747 -0.853039 -0.339016 -0.627050   
24 -0.246561 -0.238568 -0.251461  0.180584  0.636843 -0.276508 -0.289557   
26  0.111390  0.006873  0.364296  0.115543  0.566475 -0.430189 -0.290844   
32 -1.643275  0.306420  1.614578 -0.404783  2.632094  4.957725  1.7300

In [4]:
def scatter_matrix(samples):
    # Функция для вычисления матрицы рассеивания.
    if isinstance(samples, pd.Series):
        # Проверка, является ли samples объектом pd.Series (одномерным массивом).
        samples = samples.to_frame()
        # Преобразование pd.Series в pd.DataFrame, если необходимо.

    d = samples - samples.mean()
    # Вычисление отклонений значений признаков от их средних значений.

    res = np.zeros((d.shape[1], d.shape[1]))
    # Создание матрицы нулей размерности (число признаков) x (число признаков).

    for _, row in d.iterrows():
        # Итерация по строкам DataFrame d.
        col = row.to_frame()
        # Преобразование строки в pd.DataFrame.
        res += col @ col.T
        # Накапливание в res произведения строки на транспонированную версию этой строки.
    return res
    # Возвращение рассеивающей матрицы.

def classes_scatter_matrix(samples, labels):
    # Функция для вычисления классовой матрицы рассеивания.

    A = np.zeros((samples.shape[1], samples.shape[1]))
    # Создание матрицы нулей размерности (число признаков) x (число признаков).

    for cls in labels.unique():
        # Итерация по уникальным классам в labels.

        A += scatter_matrix(samples[labels == cls])
        # Накапливание в A матриц рассеивания для каждого класса.

    return A
    # Возвращение классовой матрицы рассеивания.

cov = pd.DataFrame(
    classes_scatter_matrix(train_data[FEATURES], train_data.Class) / (train_data.shape[0] - train_data.Class.unique().size),
    index=FEATURES,
    columns=FEATURES
)
# Вычисление ковариационной матрицы как отношение классовой матрицы рассеивания к числу степеней свободы.

print("Ковариационная матрица")
print(cov)
# Вывод ковариационной матрицы.

Ковариационная матрица
          X1        X2        X3        X4        X5        X6        X7  \
X1  0.181661  0.004324  0.008779 -0.108256  0.067262  0.001045  0.046240   
X2  0.004324  0.337157  0.069779  0.051813 -0.032060  0.013827  0.052053   
X3  0.008779  0.069779  0.218107  0.034740  0.089734  0.025628  0.115954   
X4 -0.108256  0.051813  0.034740  0.218515 -0.069425  0.001306 -0.049241   
X5  0.067262 -0.032060  0.089734 -0.069425  0.433285  0.003242  0.007033   
X6  0.001045  0.013827  0.025628  0.001306  0.003242  0.022690  0.039366   
X7  0.046240  0.052053  0.115954 -0.049241  0.007033  0.039366  0.307051   
X8 -0.048223  0.070117  0.036325  0.062271 -0.069991  0.003450 -0.000296   
X9  0.006715  0.112670  0.024192 -0.010606  0.033524  0.007528 -0.047733   

          X8        X9  
X1 -0.048223  0.006715  
X2  0.070117  0.112670  
X3  0.036325  0.024192  
X4  0.062271 -0.010606  
X5 -0.069991  0.033524  
X6  0.003450  0.007528  
X7 -0.000296 -0.047733  
X8  0.103085  0.

In [5]:
lda = LinearDiscriminantAnalysis().fit(train_data[FEATURES], train_data.Class)
# Создание и обучение модели линейного дискриминантного анализа (LDA) на обучающей выборке. 
# Результаты обучения (модель) присваиваются переменной lda.

means = pd.DataFrame(lda.means_, index=lda.classes_, columns=FEATURES)
# Извлечение средних значений признаков для каждого класса из обученной модели LDA.
# Создание DataFrame means, где строки - классы, столбцы - признаки, и значения - средние значения.

print("Средние значения")  # Вывод заголовка для вывода средних значений.
print(means)
# Вывод на экран средних значений, представленных в виде DataFrame.


Средние значения
         X1        X2        X3        X4        X5        X6        X7  \
1 -0.102679 -0.005032 -0.330420  0.050502 -0.277263 -0.386647 -0.236161   
2 -1.867872  1.196044  1.592584  0.180584  1.098622  4.880008  2.028344   
3  0.148823  0.953478 -0.212692 -0.545705  1.268362 -0.304821  0.203389   
4 -0.897893 -1.601272 -1.505144 -0.365759 -0.417260 -0.473374 -1.216846   
5  0.873500  0.388364  1.064465  0.093863 -0.208609 -0.182360  0.544842   

         X8        X9  
1 -0.440798  0.499694  
2  3.480449 -2.084949  
3 -0.416135 -0.214115  
4 -0.423893 -0.006038  
5 -0.218117 -0.377405  


In [6]:
def find_mahl_sqr_dist(centers, samples, covr):
    # Функция для вычисления квадрата махаланобисовского расстояния между центральными точками (centers) и образцами (samples).
    # Принимает центральные точки (centers), образцы (samples) и матрицу ковариации (covr).

    res = pd.DataFrame(index=samples.index, columns=centers.index)
    # Создание нового DataFrame с номерами образцов в индексах и номерами центральных точек в столбцах.

    for i in centers.index:
        # Внешний цикл: итерация по номерам центральных точек.

        for j in samples.index:
            # Внутренний цикл: итерация по номерам образцов.

            res[i][j] = mahalanobis(centers.loc[i], samples.loc[j], np.linalg.inv(covr)) ** 2
            # Вычисление квадрата махаланобисовского расстояния между центральной точкой и образцом.
            # mahalanobis - функция для вычисления расстояния Махаланобиса.
            # np.linalg.inv(covr) - обратная матрица к матрице ковариации.

    return res
    # Возвращение DataFrame с квадратами махаланобисовских расстояний.

cen_dis = find_mahl_sqr_dist(means, means, cov)
# Вызов функции средних значений и матрицы ковариации для вычисления расстояний Махаланобиса.

print("Расстояние Махаланобиса (обучающая выборка)")
print(cen_dis)
# Вывод на экран расстояний Махаланобиса для обучающей выборки.

Расстояние Махаланобиса (обучающая выборка)
             1            2            3            4            5
1          0.0  2109.473511    27.006252    19.438055    26.146941
2  2109.473511          0.0  1915.552604  2003.434185  1974.660445
3    27.006252  1915.552604          0.0    42.400077    35.303561
4    19.438055  2003.434185    42.400077          0.0    64.286199
5    26.146941  1974.660445    35.303561    64.286199          0.0


In [7]:
def get_def_coef(lda, features):
    # Функция для получения дискриминантных коэффициентов.
    # Принимает обученную модель LDA (lda) и список признаков (features).

    return pd.DataFrame(
        np.vstack([lda.intercept_, lda.coef_.T]),
        # Создание DataFrame из массива, содержащего результаты дискриминантного анализа:
        # np.vstack объединяет массивы, lda.intercept_ - свободный член, lda.coef_.T - транспонированные коэффициенты при признаках.
        # Интерпретация: строки - "Const" и признаки, столбцы - номера классов из модели LDA.

        index=["Const"] + features,
        # Установка индекса DataFrame: первая строка - "Const", затем идут названия признаков.

        columns=lda.classes_
        # Установка столбцов DataFrame: номера классов из обученной модели LDA.
    )

df_coef = get_def_coef(lda, FEATURES)
# Получение дискриминантных коэффициентов для обученной модели LDA и признаков из списка FEATURES.

print("Функции Фишера")
print(df_coef)
# Вывод на экран дискриминантных коэффициентов (функций Фишера).

print("Pi: ", lda.priors_)
# Вывод на экран априорных вероятностей классов, полученных из обученной модели LDA.

Функции Фишера
               1           2          3          4          5
Const  -9.463106 -883.362229 -11.246590 -15.047315 -11.237278
X1     -0.006032   -3.036954  -1.731631  -5.457422   7.302860
X2     -2.231984   10.342525   5.214524  -5.380512  -0.086301
X3      0.884354  -17.422424  -1.805371  -3.338163   8.773333
X4      4.383918  -27.349974  -1.689419  -0.751414   3.395072
X5     -2.402583   16.128704   3.459737  -0.912346  -3.670948
X6    -27.037372  304.897414 -17.998959 -19.615652 -17.718619
X7      4.869425  -40.220391   2.271270   2.414541   0.196130
X8     -8.048628   67.285779  -1.667115  -2.095782  -4.259176
X9      8.760000  -53.674466  -2.703127   6.143015  -0.584564
Pi:  [0.36666667 0.06666667 0.2        0.16666667 0.2       ]


In [8]:
def LDA_predict(lda, x):
    # Функция для предсказания классов объектов с использованием обученной модели LDA.
    # Принимает модель LDA (lda) и значения признаков объектов (x).

    return pd.DataFrame(
        lda.predict(x),
        # Применение метода predict модели LDA к значениям признаков объектов.
        # Полученные предсказанные классы оборачиваются в DataFrame.

        columns=["Class"],
        # Установка названия столбца в DataFrame: "Class".

        index=x.index
        # Установка индекса DataFrame: индексы объектов из исходной таблицы x.
    )

lda_predict = LDA_predict(lda, data[FEATURES])
# Применение функции предсказания для всех объектов в исходной таблице признаков data.

print("Распределение по классам")
print(lda_predict)
# Вывод на экран предсказанных классов для каждого объекта.

data_to_excel["Result Lda"] = lda_predict
# Добавление предсказанных классов в исходную таблицу data_to_excel.

Распределение по классам
    Class
0       3
1       5
2       5
3       1
4       3
..    ...
80      1
81      3
82      2
83      2
84      4

[85 rows x 1 columns]


In [9]:
samp_dist = find_mahl_sqr_dist(means, data[FEATURES], cov)
# Вычисление квадрата махаланобисовского расстояния для каждого образца в исходных данных.
# Используются средние значения (means) и матрица ковариации (cov), вычисленные на основе обучающей выборки.

print("Расстояние Махланобиса")
print(samp_dist)
# Вывод на экран квадратов махаланобисовских расстояний для каждого образца в исходных данных.

Расстояние Махланобиса
              1            2            3            4            5
0     33.424341  1975.623082     7.270964    42.234347    49.451984
1     41.187882  2070.540041    61.047235    84.943521     5.707424
2     36.435201  1890.943842     43.56814    67.104718     8.674358
3      2.612685  2183.499996     31.61648    21.820347    38.369075
4     17.384371   2009.90347     7.213183    43.144658    24.679108
..          ...          ...          ...          ...          ...
80   170.320268  2417.409352   267.979411   176.675981   235.555432
81   229.722763   1347.82224   200.855363   244.944911   239.323815
82  2020.956288      9.00024  1837.818346  1926.668605  1886.081092
83  1384.968853   199.330189  1230.644935  1263.019131   1269.31602
84   156.251404  1781.006798   223.311443   148.278774   238.353581

[85 rows x 5 columns]


In [10]:
def LDA_predict_probab(lda, x):
    # Функция для предсказания апостериорных вероятностей классификации объектов с использованием обученной модели LDA.
    # Принимает модель LDA (lda) и значения признаков объектов (x).

    return pd.DataFrame(
        lda.predict_proba(x),
        # функция возвращает результат в виде объекта DataFrame 
        # Применение метода predict_proba модели LDA к значениям признаков объектов.
        # Полученные апостериорные вероятности классификации оборачиваются в DataFrame.

        columns=lda.classes_,
        # Установка названий столбцов в DataFrame: номера классов из обученной модели LDA.

        index=x.index
        # Установка индекса DataFrame: индексы объектов из исходной таблицы x.
    )

lda_post_prob = LDA_predict_probab(lda, data[FEATURES])
# Применение функции предсказания апостериорных вероятностей для всех объектов в исходной таблице признаков data.

print("Probabilities")
print(lda_post_prob)
# Вывод на экран апостериорных вероятностей классификации для каждого объекта.

Probabilities
                1              2              3              4              5
0    3.838011e-06   0.000000e+00   9.999961e-01   2.131155e-08   6.926379e-10
1    3.620412e-08   0.000000e+00   9.618621e-13   5.187033e-18   1.000000e+00
2    1.718107e-06   0.000000e+00   2.647956e-08   1.709332e-13   9.999983e-01
3    9.999690e-01   0.000000e+00   2.745687e-07   3.066712e-05   9.383044e-09
4    1.121062e-02   0.000000e+00   9.886300e-01   1.298470e-08   1.593516e-04
..            ...            ...            ...            ...            ...
80   9.814090e-01   0.000000e+00   3.328091e-22   1.859097e-02   3.655719e-15
81   9.880175e-07  2.898581e-250   9.999990e-01   2.222770e-10   4.432831e-09
82   0.000000e+00   1.000000e+00   0.000000e+00   0.000000e+00   0.000000e+00
83  1.915129e-257   1.000000e+00  3.388204e-224  2.635245e-231  1.357219e-232
84   3.924642e-02   0.000000e+00   5.870244e-17   9.607536e-01   3.179049e-20

[85 rows x 5 columns]


In [11]:
def wilks_lambda(samples, labels):
    # Функция для вычисления критерия Вилкса.
    # Принимает samples - значения признаков в обучающей выборке и labels - номера классов.
    if isinstance(samples, pd.Series):
        samples = samples.to_frame()
    # Проверка, если samples - это pd.Series (одномерный массив), преобразует в pd.DataFrame.
    # Вычисление определителей матриц рассеивания.
    dT = np.linalg.det(scatter_matrix(samples))
    dE = np.linalg.det(classes_scatter_matrix(samples, labels))
    return dE / dT
    # Возвращение отношения определителей.
def f_p_value(lmbd, n_obj, n_sign, n_cls):
    # Функция для вычисления F-статистики и p-значения.
    # Принимает lmbd - значение лямбды, n_obj - число объектов в обучающей выборке,
    # n_sign - число признаков в модели, n_cls - число классов в обучающей выборке.
    num = (1 - lmbd) * (n_obj - n_cls - n_sign)
    den = lmbd * (n_cls - 1)
    f_value = num / den
    p = f.sf(f_value, n_cls - 1, n_obj - n_cls - n_sign)
    return f_value, p
    # Возвращение значения F-статистики и p-значения.
def forward(samples, labels, f_in=1e-4):
    # Функция для выполнения пошагового вперёд метода.
    # Принимает samples - значения признаков в обучающей выборке, labels - номера классов, f_in - точность.
    st_columns = ["Wilk's lmbd", "Partial lmbd", "F to enter", "P value"]
    # Создание списка названий колонок для таблицы результатов.
    n_cls = labels.unique().size
    n_obj = samples.shape[0]
    # Получение числа уникальных классов и числа объектов в обучающей выборке.
    out = {0: pd.DataFrame(columns=st_columns, index=samples.columns, dtype=float)}
    into = {0: pd.DataFrame(columns=st_columns, dtype=float)}
    # Создание словарей для хранения результатов внутри и вне модели.
    step = 0
    # Инициализация переменной для отслеживания шага.
    while True:
        model_lmbd = wilks_lambda(samples[into[step].index], labels)
        # Расчёт характеристик элементов вне модели.
        for el in out[step].index:
            lmbda = wilks_lambda(samples[into[step].index.tolist() + [el]], labels)
            partial_lmbd = lmbda / model_lmbd
            f_lmbd, p_value = f_p_value(partial_lmbd, n_obj, into[step].index.size, n_cls)
            out[step].loc[el] = lmbda, partial_lmbd, f_lmbd, p_value
        # Расчёт характеристик элементов в модели.
        for el in into[step].index:
            lmbda = wilks_lambda(samples[into[step].index.drop(el)], labels)
            partial_lmbd = model_lmbd / lmbda
            f_lmbd, p_value = f_p_value(partial_lmbd, n_obj, into[step].index.size - 1, n_cls)
            into[step].loc[el] = lmbda, partial_lmbd, f_lmbd, p_value

        if out[step].index.size == 0 or out[step]["F to enter"].max() < f_in:
            break
        # Добавление нового элемента.
        el_to_enter = out[step]["F to enter"].idxmax()
        into[step + 1] = into[step].append(out[step].loc[el_to_enter])
        out[step + 1] = out[step].drop(index=el_to_enter)
        step += 1
    return into, out
    # Возвращение результатов внутри и вне модели.
into, out = forward(train_data[FEATURES], train_data.Class)
print("Forward stepwise")
for i, tab in into.items():
    print("Step: ", i)
    print(tab, end="\n\n")

  into[step + 1] = into[step].append(out[step].loc[el_to_enter])
  into[step + 1] = into[step].append(out[step].loc[el_to_enter])
  into[step + 1] = into[step].append(out[step].loc[el_to_enter])
  into[step + 1] = into[step].append(out[step].loc[el_to_enter])
  into[step + 1] = into[step].append(out[step].loc[el_to_enter])
  into[step + 1] = into[step].append(out[step].loc[el_to_enter])
  into[step + 1] = into[step].append(out[step].loc[el_to_enter])
  into[step + 1] = into[step].append(out[step].loc[el_to_enter])
  into[step + 1] = into[step].append(out[step].loc[el_to_enter])


Forward stepwise
Step:  0
Empty DataFrame
Columns: [Wilk's lmbd, Partial lmbd, F to enter, P value]
Index: []

Step:  1
    Wilk's lmbd  Partial lmbd  F to enter       P value
X6          1.0      0.010968  563.567943  4.243256e-24

Step:  2
    Wilk's lmbd  Partial lmbd  F to enter       P value
X6     0.182669      0.013022  454.749142  3.054442e-22
X3     0.010968      0.216875   21.665769  1.125722e-07

Step:  3
    Wilk's lmbd  Partial lmbd  F to enter       P value
X6     0.079690      0.012962  437.848549  2.440584e-21
X3     0.003378      0.305751   13.056141  1.084419e-05
X2     0.002379      0.434242    7.491472  5.120760e-04

Step:  4
    Wilk's lmbd  Partial lmbd  F to enter       P value
X6     0.022380      0.022444  239.549371  8.557618e-18
X3     0.001556      0.322827   11.536989  3.353272e-05
X2     0.001354      0.371027    9.323724  1.452490e-04
X9     0.001033      0.486279    5.810376  2.391247e-03

Step:  5
    Wilk's lmbd  Partial lmbd  F to enter       P value


In [12]:
forw_stepwise = into[len(into) - 5].index.tolist()
# Выбираем признаки, которые были включены в модель на пятом предыдущем шаге (назад) метода пошагового вперёдного отбора.

forw_stepwise_lda = LinearDiscriminantAnalysis().fit(train_data[forw_stepwise], train_data.Class)
# Обучаем модель линейного дискриминантного анализа (LDA) на выбранных признаках.

forw_stepwise_coef = get_def_coef(forw_stepwise_lda, forw_stepwise)
# Получаем коэффициенты функции Фишера для выбранных признаков.

print("Функции Фишера")
print(forw_stepwise_coef)
# Выводим коэффициенты функции Фишера.

print("Pi: ", forw_stepwise_lda.priors_)
# Выводим априорные вероятности классов в модели LDA.

forw_stepwise_pred = LDA_predict(forw_stepwise_lda, data[forw_stepwise])
# Получаем прогнозы модели LDA для выбранных признаков.

print("Распределение")
print(forw_stepwise_pred.head())
# Выводим распределение классов для первых нескольких объектов.

data_to_excel["Result forward"] = forw_stepwise_pred
# Записываем результаты прогнозирования в таблицу data_to_excel под именем "Result forward".


Функции Фишера
               1           2          3          4          5
Const  -5.490569 -614.493150  -9.785350 -11.993173  -7.706877
X6    -19.928106  243.915734 -14.335540 -16.091511 -17.025251
X3      1.920231  -23.603277  -1.631986  -2.814443   8.324691
X2     -1.626621    6.540954   5.119666  -5.519199   0.281486
X9      4.904824  -22.819841  -3.717785   4.943243  -1.787148
X5     -1.651412    7.585311   3.775958  -1.313661  -2.182089
Pi:  [0.36666667 0.06666667 0.2        0.16666667 0.2       ]
Распределение
   Class
0      3
1      5
2      5
3      1
4      3


In [13]:
def backward(samples, labels, f_r=10.00):
    # Определение списка названий столбцов для выходных таблиц
    st_columns = ["Wilk's lmbd", "Partial lmbd", "F to remove", "P value"]
    # Получение количества уникальных классов в метках
    n_cls = labels.unique().size
    # Получение количества объектов в выборке
    n_obj = samples.shape[0]
    
    # Инициализация словарей для хранения переменных внутри и вне модели
    into = {0: pd.DataFrame(columns=st_columns, index=samples.columns, dtype=float)}
    out = {0: pd.DataFrame(columns=st_columns, dtype=float)}
    # Инициализация счетчика шагов
    step = 0

    # Запуск цикла, который выполняется до достижения условия выхода
    while True:
        # Расчет значения лямбда Уилкса для текущей модели
        model_lmbd = wilks_lambda(samples[into[step].index], labels)
        
        # Расчет характеристик для элементов вне модели
        for el in out[step].index:
            lmbda = wilks_lambda(samples[into[step].index.tolist() + [el]], labels)
            partial_lmbd = lmbda / model_lmbd
            f_lmbd, p_value = f_p_value(partial_lmbd, n_obj, into[step].index.size, n_cls)
            out[step].loc[el] = lmbda, partial_lmbd, f_lmbd, p_value
        
        # Расчет характеристик для элементов внутри модели
        for el in into[step].index:
            lmbda = wilks_lambda(samples[into[step].index.drop(el)], labels)
            partial_lmbd = model_lmbd / lmbda
            f_lmbd, p_value = f_p_value(partial_lmbd, n_obj, into[step].index.size - 1, n_cls)
            into[step].loc[el] = lmbda, partial_lmbd, f_lmbd, p_value

        # Проверка условия выхода
        if into[step].index.size == 0 or into[step]["F to remove"].min() > f_r:
            break
        
        # Удаление элемента с минимальным значением F
        el_to_remove = into[step]["F to remove"].idxmin()
        out[step + 1] = out[step].append(into[step].loc[el_to_remove])
        into[step + 1] = into[step].drop(index=el_to_remove)

        # Инкремент счетчика шагов
        step += 1
    
    # Возвращение окончательных словарей, содержащих переменные внутри и вне модели
    return into, out


# Вызов функции backward с указанными аргументами
into, out = backward(train_data[FEATURES], train_data.Class)

# Вывод результатов для каждого шага
print("Backward stepwise")
for i, tab in into.items():
    print("Step: ", i)
    print(tab, end="\n\n")


  out[step + 1] = out[step].append(into[step].loc[el_to_remove])
  out[step + 1] = out[step].append(into[step].loc[el_to_remove])
  out[step + 1] = out[step].append(into[step].loc[el_to_remove])
  out[step + 1] = out[step].append(into[step].loc[el_to_remove])
  out[step + 1] = out[step].append(into[step].loc[el_to_remove])
  out[step + 1] = out[step].append(into[step].loc[el_to_remove])
  out[step + 1] = out[step].append(into[step].loc[el_to_remove])


Backward stepwise
Step:  0
    Wilk's lmbd  Partial lmbd  F to remove       P value
X1     0.000123      0.701010     1.812685  1.729142e-01
X2     0.000171      0.505038     4.165215  1.566225e-02
X3     0.000137      0.633030     2.463741  8.451321e-02
X4     0.000109      0.790827     1.124121  3.779379e-01
X5     0.000145      0.594321     2.901023  5.337870e-02
X6     0.000668      0.129421    28.588470  2.378626e-07
X7     0.000110      0.787490     1.146896  3.683166e-01
X8     0.000109      0.791578     1.119021  3.801244e-01
X9     0.000206      0.419783     5.874274  3.705975e-03

Step:  1
    Wilk's lmbd  Partial lmbd  F to remove       P value
X1     0.000170      0.641654     2.513125  7.790170e-02
X2     0.000239      0.456797     5.351200  5.099635e-03
X3     0.000175      0.624640     2.704144  6.338262e-02
X4     0.000135      0.808143     1.068320  4.008982e-01
X5     0.000180      0.605414     2.932935  4.972825e-02
X6     0.002162      0.050499    84.610139  2.03876

In [14]:
# Выбор индексов переменных, оставшихся после шага обратного пошагового отбора
back_stepwise = into[len(into) - 4].index.tolist()
print(back_stepwise)

# Обучение модели LDA на выбранных переменных
back_stepwise_lda = LinearDiscriminantAnalysis().fit(train_data[back_stepwise], train_data.Class)

# Получение коэффициентов дискриминантных функций
back_stepwise_coef = get_def_coef(back_stepwise_lda, back_stepwise)
print("Функции Фишера")
print(back_stepwise_coef)

# Вывод априорных вероятностей классов
print("Pi: ", back_stepwise_lda.priors_)

# Предсказание классов на основе обученной модели LDA и выбранных переменных
back_stepwise_pred = LDA_predict(back_stepwise_lda, data[back_stepwise])

# Вывод распределения классов для первых нескольких записей
print("Распределение")
print(back_stepwise_pred.head())

# Добавление предсказанных результатов в DataFrame "data_to_excel"
data_to_excel["Result backward"] = back_stepwise_pred


['X2', 'X3', 'X5', 'X6', 'X9']
Функции Фишера
               1           2          3          4          5
Const  -5.490569 -614.493150  -9.785350 -11.993173  -7.706877
X2     -1.626621    6.540954   5.119666  -5.519199   0.281486
X3      1.920231  -23.603277  -1.631986  -2.814443   8.324691
X5     -1.651412    7.585311   3.775958  -1.313661  -2.182089
X6    -19.928106  243.915734 -14.335540 -16.091511 -17.025251
X9      4.904824  -22.819841  -3.717785   4.943243  -1.787148
Pi:  [0.36666667 0.06666667 0.2        0.16666667 0.2       ]
Распределение
   Class
0      3
1      5
2      5
3      1
4      3


In [15]:
data_to_excel.to_excel(r'Train sample.xlsx')