In [89]:
import numpy as np
import datetime as dt
import random as rand
from pprint import pprint

### Признаки
- числовые
- номинальные (классификация) (в т.ч. бинарные)
- порядковые

In [90]:
# среднее - арифметическое (\overline{p})
np.array([-1,0,4,2,1,2]).mean()

# медиана - число, с которым колво чисел меньших и больших этого числа равны
np.median(np.array([-1,0,4,2,1,2]))

np.float64(1.5)

### Отклонение
основная формула
$$s_p = \sqrt{\frac{1}{n-1}\sum^n_{i=1}{(p_i-\overline{p})^2}}$$

In [96]:
def get_deviation(array: np.ndarray):
    return ((1/(array.size-1))*((array - array.mean())**2).sum())**(1/2)

In [97]:
get_deviation(np.array([-1,0,4,2,1,2]))

np.float64(1.7511900715418263)

### Коэффициент корреляции
формула для нахождения коэффициента корреляции
Пусть $P=(p_1, p_2, \cdots, p_n)$, $Q=(q_1, q_2, \cdots, q_n)$
$$r(P, Q) = \frac{\sum^{n}_{i=1}{p_i q_i - n\overline{p}\overline{q}}}{(n-1)s_p s_q}$$

In [94]:
def get_coef_correlation(feature_1: np.ndarray, feature_2: np.ndarray):
    feature_1_mean = feature_1.mean()
    feature_2_mean = feature_2.mean()
    feature_1_deviation = get_deviation(feature_1)
    feature_2_deviation = get_deviation(feature_2)
    return (
        ((feature_1 * feature_2).sum() - feature_1.size * feature_1_mean * feature_2_mean)
        /
        ((feature_1.size - 1) * feature_1_deviation * feature_2_deviation)
    )



In [95]:
get_coef_correlation(np.array([10000000,3,2,1]), np.array([12,9,-10000000000000,3]))

np.float64(0.3333333333338623)

### Задача
Однажды я попросил, чтобы студенты ответили на два вопроса анкеты «ваш год рождения» и «ваш возраст».

Из их ответов я сформировал таблицу, в которой был столбец Р=«год рождения студента» и Q=«возраст студента».

Оказывается, значение коэффициента корреляции признаков P и Q зависит от месяца, в котором проводилось анкетирование (это не шутка!). Укажите два месяца, которым соответствует наименьшее (по модулю) значение коэффициента корреляции признаков P и Q.

In [93]:

months = list(range(13))

for i in range(1, 13):
    months[i] = [
        (
            birth_year := rand.randint(1900, 2024),
            (
                dt.date(year=2025, month=i, day=1) - dt.date(year=birth_year, month=j, day=1)
            ).days // 365
        )
        for j in range(1, 13)
    ]
statistics = []

for i in range(1, 13):
    features = months[i]
    birth_years = np.array([features[j][0] for j in range(12)])
    ages = np.array([features[j][1] for j in range(12)])
    coef = get_coef_correlation(birth_years, ages)
    # print(f"month - {i}, coef - {coef}")
    statistics.append((i, coef))

sorted(statistics, key=lambda x: abs(x[1]))


[(8, np.float64(-0.9998718518587216)),
 (6, np.float64(-0.9998720388316207)),
 (3, np.float64(-0.9998883969644732)),
 (5, np.float64(-0.9998957196870302)),
 (4, np.float64(-0.999913204538522)),
 (7, np.float64(-0.9999152373758428)),
 (10, np.float64(-0.999948525842287)),
 (9, np.float64(-0.9999500046838518)),
 (11, np.float64(-0.9999623555917477)),
 (2, np.float64(-0.9999659083676344)),
 (1, np.float64(-0.9999765598418047)),
 (12, np.float64(-1.000000000000006))]