### Задача №1.
Дана матрица объект-признак $X$ и значения целевой переменной $y$:

In [1]:
import numpy as np

In [2]:
X = np.array([[ 1.22401313,  2.30868478,  3.03636353,  2.69287214],
              [-0.18757272,  1.30337355,  5.12093014,  3.46363202],
              [-0.81094525,  1.82463398,  5.79686488,  1.86159445],
              [ 0.75129018,  2.67392052,  3.65529809,  1.66746094],
              [ 0.00972362,  1.97367255,  2.50594319,  1.69755173],
              [-0.62972637,  0.77750764,  2.84124027,  4.54410559],
              [ 2.29536229,  1.81206697,  1.95026215,  1.51874636],
              [ 0.0920418 ,  2.26971361,  7.47708735,  2.61081203],
              [ 2.39252799,  3.17563985,  3.61420599,  5.10773362],
              [ 0.54983815,  2.87988651,  1.65752765,  1.59635987]])

y = np.array([9.26193358, 9.700363  ,  8.67214805,  8.74796974,  6.18689108,
              7.53312713, 7.57643777, 12.44965478, 14.29010746,  6.68361218])

Подберите два признака (из четырёх) так, чтобы уровень линейной зависимости целевой переменной от значений этих признаков был максимальным. Другими словами, модель линейной регрессии на этих признаках должна давать наилучший результат. В качестве ответа запишите значение коэффициента детерминации для модели на этих признаках.

__Решение:__

Решим задачу методом наименьших квадратов в матричной форме.
Общий вид уравнения линейной регрессии в матричной форме:

$$\normalsize Y=X\cdot b+E,$$

где $Y$ - вектор значений переменной $y$,$\,\,\,X$ - матрица объект-признак,$\,\,\,b$ - вектор коэффициентов модели,$\,\,\,E$ - вектор ошибок модели на каждом объекте.

Для нахождения вектора коэффициентов $b$ воспользуемся формулой:

$$\normalsize b = (X^T\cdot X)^{-1}\cdot X^T\cdot Y,$$

где $X^T$ - транспонированная матрица от $X$,$\,\,\,(X^T\cdot X)^{-1}$ - обратная матрица от $X^T\cdot X$

Для оценки и сравнения качества полученных моделей будем использовать коэффициент детерминации, полученный по формуле:

$$\normalsize R^2 = 1 - \frac{SS_{res}}{SS_y},$$

где $\displaystyle SS_{y} = \sum_{i = 1}^n \left( y_i - \overline{Y} \right)^2$ — сумма квадратов отклонений значений массива $Y$ от среднего, $\displaystyle SS_{res} = \sum_{i = 1}^n \left( e_i - \overline{E} \right)^2$ — _остаточная сумма квадратов_, т.е. сумма квадратов отклонений значений массива $E$ от их среднего.

In [3]:
from itertools import combinations

def sum_of_squares(samples: np.ndarray) -> float:
    return ((samples - samples.mean()) ** 2).sum()

# Используем combinations() библиотеки itertools для перебора всех комбинаций двух признаков из четырех
for pair in combinations(range(4), 2):
    x = X[:, pair]
    
    # Добавляем столбец единиц, соответствующий нулевому признаку
    x = np.hstack((np.ones((x.shape[0], 1)), x))
    
    # Находим вектор коэффициентов
    b = np.linalg.inv(x.T.dot(x)).dot(x.T).dot(y)
    
    # Считаем вектор ошибок
    e = y - x.dot(b)
    
    # Вычисляем коэффициент детерминации
    R2 = 1 - sum_of_squares(e) / sum_of_squares(y)
    
    print(f'{pair[0]+1} и {pair[1]+1} признаки: R2 = {R2}, b = {b}\n')

1 и 2 признаки: R2 = 0.18113594742585204, b = [6.70781579 0.40786841 1.03360247]

1 и 3 признаки: R2 = 0.7634246238793152, b = [3.62455695 1.62531203 1.21134979]

1 и 4 признаки: R2 = 0.45329667831440745, b = [5.70686123 0.68359949 1.12650707]

2 и 3 признаки: R2 = 0.5479482734039012, b = [2.48896193 1.60611956 0.86269915]

2 и 4 признаки: R2 = 0.6062055761129932, b = [1.91685221 1.74373667 1.31971882]

3 и 4 признаки: R2 = 0.6224419876505322, b = [3.64001086 0.70753914 1.04851745]



__Ответ:__   
Максимальный уровень линейной зависимости наблюдается у __1__-го и __3__-го признаков с коэффициентами $b = [3.62455695,\,1.62531203,\,1.21134979]$.   
Коэффициент детерминации $R^2 = 0.7634246238793152$
___

### Задание №2.
Является ли значимым уравнение регрессии, полученное в предыдущей задаче? В качестве ответа запишите 1, если является, и 0 иначе.

__Решение:__

Для решения этой задачи используем F-тест Фишера. Формула F-статистики имеет вид:

$$\normalsize F = \frac{R^2/m}{(1-R^2)/(n-m-1)},$$

где $R^2$ - коэффициент детерминации модели, $m$ - число факторов, $n$ - число наблюдений.

Распределение Фишера имеет один хвост, поэтому рассматривается правосторонняя критическая область $\Omega_\alpha = \left( t_{1 - \alpha, \: k_1, k_2}, \infty \right)$, где $t_{1 - \alpha, \: k_1, k_2}$ — квантиль порядка $1 - \alpha$ для распределения Фишера с параметрами $k_1 = m$, $k_2 = n-m-1$.

Найдем значение F-статистики для предыдущей задачи:

In [4]:
m = 2
n = 10
R2 = 0.7634246238793152

F = R2 / m / ((1 - R2) / (n - m - 1))
F

11.29443912292265

Найдем границы критической области распределения Фишера с уровнем значимости $\alpha = 0.05$:

In [5]:
from scipy import stats

k1 = m
k2 = n - m - 1
alpha = 0.05

t = stats.f.ppf(1 - alpha, k1, k2)
t

4.73741412777588

Получаем критическую область: $\normalsize \Omega_\alpha = (4.74, +\infty)$

__Ответ:__

Так как значение F-статистики в предположении о том, что теоретический коэффициент детерминации равен  0, находится далеко в критической области, мы можем утверждать, что нулевая гипотеза не верна, и уравнение регрессии, полученное в предыдущей задаче, __значимо__.
___

### Задача №3.
Для проведения A/B-тестирования сайта интернет-магазина были получены следующие данные: страница __A__ была посещена 2509 раз, из них 77 закончились совершением покупки, страница __B__ была посещена 1465 раз, 60 из них закончились совершением покупки. Является ли значимым отличие конверсии на страницах __A__ и __B__? В качестве ответа запишите 1, если является, и 0 иначе.

__Решение:__

Для использования двухвыборочного t-теста представим выборки меток совершения покупок __А__ и __B__ и найдем их параметры:

In [6]:
# Размеры выборок
n_A = 2509
n_B = 1465

# Количества совершений покупки
A_1 = 77
B_1 = 60

# Выборочные средние
A_mean = A_1 / n_A
B_mean = B_1 / n_B

# Несмещенная оценка дисперсий выборок
A_var = (A_1 * (1 - A_mean) ** 2 + (n_A - A_1) * A_mean ** 2) / (n_A - 1)
B_var = (B_1 * (1 - B_mean) ** 2 + (n_B - B_1) * B_mean ** 2) / (n_B - 1)

Тогда $\normalsize\displaystyle \sigma_\Delta = \sqrt{\frac{\sigma_A^2}{n_A}+\frac{\sigma_B^2}{n_B}}$

In [7]:
s_delta = np.sqrt(A_var / n_A + B_var / n_B)
s_delta

0.006220171278295827

Найдем значение t-статистики: $\normalsize\displaystyle t = \frac{\overline{A}-\overline{B}}{\sigma_\Delta}$

In [8]:
t_stat = (A_mean - B_mean) / s_delta
t_stat

-1.6504551408398205

Для нахождения квантилей порядка $\alpha/2$ и $1-\alpha/2$ посчитаем количество степеней свободы: $\Large\displaystyle df = \frac{\left(\frac{\sigma_A^2}{n_A}+\frac{\sigma_B^2}{n_B}\right)^2}{\frac{\left(\frac{\sigma_A^2}{n_A}\right)^2}{n_A}+\frac{\left(\frac{\sigma_B^2}{n_B}\right)^2}{n_B}}$

In [9]:
df = (A_var / n_A + B_var / n_B) ** 2 / \
     ((A_var / n_A) ** 2 / (n_A - 1) + (B_var / n_B) ** 2 / (n_B - 1))
df

2732.802564435212

In [10]:
t1 = stats.t.ppf(alpha / 2, df=df)
t2 = stats.t.ppf(1 - alpha / 2, df=df)

t1, t2

(-1.9608324352746576, 1.9608324352746571)

Таким образом критическая область получилась: $\Omega_\alpha = (-\infty, -1.96)\cup(1.96, +\infty)$, в которую значение статистики $t = -1.65$ не попало.

__Ответ:__

Нулевая гипотеза о равенстве мат.ожиданий конверсий A и B страниц верна, следовательно отличие этих конверсий __не является значимым__.