# Домашняя работа к уроку 5

## Взаимосвязь величин. Параметрические и непараметрические показатели корреляции. Корреляционный анализ

In [1]:
import numpy as np
import pandas as pd
import math
from scipy import stats
from itertools import combinations

#### Задача 1

Даны значения величины заработной платы заемщиков банка (`salary`) и значения их поведенческого кредитного скоринга (`scoring`):
```
salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]
```
Используя только встроенные питоновские функции и структуры данных (т.е. без библиотек `numpy`, `pandas` и др.) найдите:
1. ковариацию (смещённую и несмещённую) этих двух величин,
2. коэффициент корреляции Пирсона,
3. коэффициент корреляции Кендалла.

Можно затем посчитать те же значения с использованием библиотек, чтобы проверить себя.

In [2]:
salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

In [3]:
salary_s = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
scoring_s = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

Математическое ожидание (улучшенная и упрощенная версия)

In [4]:
def mean(value):
    return sum(value) / len(value)

In [5]:
mean(salary), salary_s.mean()

(101.4, 101.4)

In [6]:
mean(scoring), scoring_s.mean()

(709.9, 709.9)

Ковариация

In [7]:
def cov(X, Y):
    result = []
    for i in range(len(X)):
        result.append(X[i] * Y[i])
    return mean(result) - mean(X) * mean(Y)

In [8]:
cov(salary, scoring), np.cov(salary_s, scoring_s)

(9157.839999999997, array([[ 3882.93333333, 10175.37777778],
        [10175.37777778, 33854.32222222]]))

Несмещенная ковариация

In [9]:
def ucov(X, Y):
    result = []
    for i in range(len(X)):
        result.append(X[i] * Y[i])
    return (mean(result) - mean(X) * mean(Y)) / (len(X) - 1)

In [10]:
ucov(salary, scoring), np.cov(salary_s, scoring_s)

(1017.5377777777774, array([[ 3882.93333333, 10175.37777778],
        [10175.37777778, 33854.32222222]]))

Дисперсия

In [11]:
def std(value):
    avr = mean(value)
    result = 0
    for i in range(len(value)):
        result += (value[i] - avr)**2
    return math.sqrt(result / len(value))

In [12]:
std(salary), salary_s.std()

(59.115480206118605, 59.115480206118605)

In [13]:
std(scoring), scoring_s.std()

(174.55340157098058, 174.55340157098058)

Несмещенная дисперсия

In [14]:
def ustd(value):
    avr = mean(value)
    result = 0
    for i in range(len(value)):
        result += (value[i] - avr)**2
    return math.sqrt(result / (len(value) - 1))

In [15]:
ustd(salary), salary_s.std(ddof=1)

(62.31318747531162, 62.31318747531162)

In [16]:
ustd(scoring), scoring_s.std(ddof=1)

(183.99544076477068, 183.99544076477068)

Корреляция Пирсона

In [17]:
def corr(X, Y):
    return cov(X, Y) / (std(X) * std(Y))

In [18]:
corr(salary, scoring), np.corrcoef(salary_s, scoring_s)

(0.8874900920739158, array([[1.        , 0.88749009],
        [0.88749009, 1.        ]]))

Корреляция Кендалла

In [19]:
def is_concordant(pair1, pair2):
    return (pair1[0] - pair2[0]) * (pair1[1] - pair2[1]) > 0

In [20]:
def kcorr(X, Y):
    P = 0
    Q = 0
    for pair1, pair2 in combinations(zip(X, Y), r=2):
        if is_concordant(pair1, pair2):
            P += 1
        else:
            Q += 1
    return (P - Q) / (P + Q)

In [21]:
kcorr(salary, scoring), pd.DataFrame({'x': salary_s, 'y': scoring_s}).corr(method='kendall')

(0.9111111111111111,           x         y
 x  1.000000  0.911111
 y  0.911111  1.000000)

#### Задача 2

Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:
```
131, 125, 115, 122, 131, 115, 107, 99, 125, 111
```
Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью 0.99.

In [22]:
mean([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])

118.1

In [23]:
ustd([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])

10.54566788359614

Величина выборки $n = 10$

 Среднеквадратичное отклонение $\sigma = 10,5457$

Выборочное среднее $\overline{X} = 118,1$

Доверительная вероятность $0,99$, откуда $\alpha = 0,01$

Поскольку распределение нормальное, то

In [24]:
stats.norm.ppf(1 - 0.01 / 2)

2.5758293035489004

$$t_{1-\alpha/2} = 2,5758$$

$$t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} = 2,5758 \cdot \dfrac{10,5457}{\sqrt{10}} = 8,5899$$

$$P \left(118,1 - 8,5899 \leq a \leq 118,1 + 8,5899 \right) = P \left(109,5101 \leq a \leq 126,6899 \right)$$

Доверительный интервал
$$P \left(109,5101 \leq a \leq 126,6899 \right)$$

#### Задача 3

Известно, что рост футболистов в сборной распределён нормально с известной дисперсией $25$. На выборке объёма $27$ выборочное среднее составило $174.2$. Найдите доверительный интервал для математического ожидания с надёжностью $0.95$.

Величина выборки $n = 27$

 Среднеквадратичное отклонение $\sigma = 5$

Выборочное среднее $\overline{X} = 174,2$

Доверительная вероятность $0,95$, откуда $\alpha = 0,05$

Используем распределение Стьюдента

In [25]:
stats.t.ppf(1 - 0.05 / 2, df=26)

2.055529438642871

$$t_{1-\alpha/2} = 2,0555$$

$$t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} = 2,0555 \cdot \dfrac{5}{\sqrt{27}} = 1,9779$$

$$P \left(174,2 - 1,9779 \leq a \leq 174,2 + 1,9779 \right) = P \left(172,2221 \leq a \leq 176,1779 \right)$$

Доверительный интервал
$$P \left(172,2221 \leq a \leq 176,1779 \right)$$

#### Задача 4

Выберите тему для проектной работы по курсу Теории вероятностей и математической статистики и напишите ее в комментарии к Практическому заданию.

Исследовать корреляционную зависимость и выявить методами парной регрессии зависимость для динамической вязкости нефтяной эмульсии от обводненности при различных плотностях нефти и различных значениях температуры и давления для различных степеней деспергирования нефти в воде или воды в нефти. Исследовать инверсию фаз.

Для исследования желательно следующие данные:
- вязкость эмульсии,
- обводненность эмульсии,
- плотность нефти,
- плотность воды,
- вязкость воды,
- вязкость чистой нефти,
- температура эмульсии,
- давление при котором происходить измерение,
- размер зерна несомой фазы (воды в нефти или нефти в воде).