# Теория

Линейная регрессия - регрессионная модель зависимости одной переменной от другой или других переменных с линейной функцией зависимости.

В общем виде модель выглядит как y = f<x, w> + e,         где w - веса модели, а e - случайная ошибка

f<x, w> = w0 + x1w1 + x2w2...     

w0 - свободный коэффициент

Оценка параметров модели происходит с помощью метода наименьших квадратов - обощения метода максимального правдоподобия на задачу регрессии. Целью задачи является минимизация квадратов отклонений

Нахождение минимума этой функции и оценку весов можно делать по разному, например аналитически. Но с точки зрения расчетов это неэффективно, так как требует вычисления обратной матрицы. Можно оценивать параметры с помощью градиентого спуска и его разновидностей.

При построении линейной регрессии важно не допускать корреляции между признаками, так как это приводит к проблеме мультиколлинеарности и почти-вырожденности матрицы ХтХ. Для борьбы с этим используют отбор признаков и регуляризацию - накладывания ограничения на веса (l1 и l2 нормы)

Линейные модели в настоящий момент используются не так часто, так как они не слишком точные. Но такие модели являются полностью интерпритируемыми, что является большим плюсом, например в банках. Так же эти модели являются несмещенными.

Парной регрессией называется модель зависимости только от одного фактора y = x1w1 + w0

В такой модели можно вычислять статистическую значимость для признаков, а так же их доверительные интервалы.
Так же, в таких моделях можно оценивать стат значимость самой модели
 

# Комбинаторика

In [1]:
first_name = 'александр'
last_name = 'шальнов'
full_name = 'александрашальнов'

In [7]:
from collections import Counter
from math import factorial

По формуле числа перестановок с повторениями вычислю

In [4]:
Counter(first_name)

Counter({'а': 2, 'л': 1, 'е': 1, 'к': 1, 'с': 1, 'н': 1, 'д': 1, 'р': 1})

In [11]:
p1 = factorial(len(first_name)) / 2
print(p1)

181440.0


Для имени ответ = 181440

In [5]:
Counter(last_name)

Counter({'ш': 1, 'а': 1, 'л': 1, 'ь': 1, 'н': 1, 'о': 1, 'в': 1})

In [12]:
p2 = factorial(len(last_name))
print(p2)

5040


Для фамилии ответ = 5040

In [6]:
Counter(full_name)

Counter({'а': 4,
         'л': 2,
         'н': 2,
         'е': 1,
         'к': 1,
         'с': 1,
         'д': 1,
         'р': 1,
         'ш': 1,
         'ь': 1,
         'о': 1,
         'в': 1})

In [13]:
p3 = factorial(len(full_name)) / (factorial(4) * factorial(2) * factorial(2))
print(p3)

3705077376000.0


Для полного имени ответ = 3705077376000

# Стат обработка

In [39]:
import numpy as np
from scipy.stats import mode
from scipy.ndimage import median
from scipy.stats import t

In [18]:
df = np.random.uniform(-38, 39, 100)

Среднее

In [21]:
print(df.mean())

1.4637825482952584


Дисперсия

In [23]:
 df.var()

467.1950417419552

Стандартное отклонение

In [24]:
df.std()

21.614695041613594

Мода (плохо подходит как описательная статистика для данного распределения)

In [36]:
mode(df).mode

-36.2495022510539

Медиана

In [37]:
median(df)

-1.4344228992201256

Максимум

In [28]:
df.max()

38.983719654975

Минимум

In [29]:
df.min()

-36.2495022510539

Доверительные интервалы

In [41]:
from scipy import stats

def calculate_confidence_interval(data, confidence=0.95):
    mean = np.mean(data)
    std_err = stats.sem(data)
    ci = stats.t.interval(confidence, len(data)-1, loc=mean, scale=std_err)
    return ci

Доверительный интервал 0.95

In [42]:
calculate_confidence_interval(df, confidence = 0.95)

(-2.846648187189956, 5.7742132837804725)

Доверительный интервал 0.99

In [44]:
calculate_confidence_interval(df, confidence = 0.99)

(-4.241711901009288, 7.1692769975998045)