# Задание 2.2

В таблице приведены данные о содержании иммуноглобина $Ig A$ в сыворотке крови у больных пяти возрастных групп.

### Подключение библиотек и инициализация констант для реализации

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import scipy as sp
import math

LOW_INDEX = ['₀', '₁', '₂', '₃', '₄', '₅', '₆', '₇', '₈', '₉']

### Линейная регрессия

In [3]:
class LinearRegression:
    def __init__(self, Psi, Y):
        self.Psi = Psi
        self.Y = Y
    
    def beta_est(self):
        return np.linalg.inv(self.Psi.T@self.Psi)@self.Psi.T@self.Y
    
    def RSS(self):
        beta_est = self.beta_est()
        return (self.Y - self.Psi@beta_est).T@(self.Y - self.Psi@beta_est)
    
    def TSS(self):
        return np.sum([ (self.Y[i] - np.mean(self.Y))**2 for i in range(len(self.Y)) ])
    
    def e(self):
        return self.Y - self.Psi @ self.beta_est()
    
    def R2(self):
        RSS = self.RSS()
        TSS = self.TSS()
        return (TSS - RSS) / TSS
    
    def F(self):
        return self.Psi.T@self.Psi

### Плотности нормального распределения и распределений Фишера и Стьюдента

In [4]:
def student_dist(n, x):
    return sp.special.gamma((n+1)/2) * (np.pi*n)**(-0.5) * (sp.special.gamma(n/2))**(-1) * (1 + x**2 / n)**(-(n+1)/2)

def fisher_dist(d1, d2, x):
    return np.sqrt( ((d1*x)**d1 * d2**d2) / (d1*x + d2)**(d1+d2) ) / (x*sp.special.gamma(d1/2)*sp.special.gamma(d2/2)/sp.special.gamma(d1/2+d2/2))

def normal_dist(a, std2, x):
    return 1 / np.sqrt(2*np.pi*std2) * np.exp( -(x - a)**2 / (2*std2) )

### Параметры задачи

In [9]:
data = {
    1: np.array([83, 85]),
    2: np.array([84, 85, 85, 86, 86, 87]),
    3: np.array([86, 87, 87, 87, 88, 88, 88, 88, 88, 89, 90]),
    4: np.array([89, 90, 90, 91]),
    5: np.array([90, 92])
}

p = k = 5
n = np.sum([len(data[i]) for i in range(1, k+1)])

### a) Определить влияние возраста на содержание иммуноглобина в крови с помощью регрессионного анализа.

In [27]:
Psi = np.zeros((n, k))
Y = np.zeros((n,))

i = 0
for k, v in data.items():
    for j in range(len(data[k])):
        Psi[i, k-1] = 1.0
        Y[i] = data[k][j]
        i += 1

In [35]:
lr = LinearRegression(Psi, Y)
beta_est = lr.beta_est()

print(f"𝜂 = ", end='')
for i in range(k):
    if i != 0:
        print(f" + ", end='')
    print(f"{round(beta_est[i], 4)}·𝜉{LOW_INDEX[i]}", end='')
print()

𝜂 = 84.0·𝜉₀ + 85.5·𝜉₁ + 87.8182·𝜉₂ + 90.0·𝜉₃ + 91.0·𝜉₄


### b) Провести попарное сравнение средних в рамках регрессионной модели.