Даны значения величины заработной платы заемщиков банка (salary) и значения их поведенческого кредитного скоринга (scoring):

salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

Используя только встроенные питоновские функции и структуры данных (т.е. без библиотек numpy, pandas и др.) найдите:
1. ковариацию (смещённую и несмещённую) этих двух величин,
2. коэффициент корреляции Пирсона.

Можно затем посчитать те же значения с использованием библиотек, чтобы проверить себя.

In [2]:
salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

In [3]:
def mean(arr):
  sum = 0
  for elem in arr:
    sum += elem
  return sum/len(arr)

In [4]:
def std(arr, ddof=0):
  ma = mean(arr)
  sum = 0
  for elem in arr:
    sum += (elem-ma)**2
  if ddof:
    return (sum/(len(arr)-1))**(1/2)
  else:
    return (sum/len(arr))**(1/2)

In [5]:
def covar(arr1, arr2, ddof=0):
  ma1 = mean(arr1)
  ma2 = mean(arr2)
  sum = 0
  for i in range(len(arr1)):
    sum += (arr1[i]-ma1)*(arr2[i]-ma2)
  if ddof:
    return sum/(len(arr1)-1)
  else:
    return sum/len(arr1)

In [6]:
def corelP(arr1, arr2):
  cov = covar(arr1, arr2, 1)
  stda1 = std(arr1, 1)
  stda2 = std(arr2, 1)
  return cov/(stda1*stda2)

In [7]:
print('Смещенная оценка: ', covar(salary, scoring))
print('Несмещенная оценка: ', covar(salary, scoring, 1))
print('Смещенная оценка дисперсии ', std(salary, 1))
print('Смещенная оценка дисперсии ', std(scoring, 1))
print('Несмещенная оценка дисперсии ', std(salary, 0))
print('Несмещенная оценка дисперсии ', std(scoring, 0))
print('Пирсон: ', corelP(salary, scoring))
r = corelP(salary, scoring)

Смещенная оценка:  9157.84
Несмещенная оценка:  10175.377777777778
Смещенная оценка дисперсии  62.31318747531162
Смещенная оценка дисперсии  183.99544076477068
Несмещенная оценка дисперсии  59.115480206118605
Несмещенная оценка дисперсии  174.55340157098058
Пирсон:  0.8874900920739162


In [8]:
import numpy as np
print(np.cov(salary, scoring, ddof=1))
print(np.corrcoef(salary, scoring))

[[ 3882.93333333 10175.37777778]
 [10175.37777778 33854.32222222]]
[[1.         0.88749009]
 [0.88749009 1.        ]]


## Задача 2

Проведите тест на значимость коэффициента корреляции Пирсона, найденного в предыдущей задаче. Что для этого нужно знать:
* Нулевая гипотеза: реальный коэффициент корреляции равен 0. Альтернативная гипотеза двухсторонняя.
* Статистика: `t = r * sqrt(n - 2) / sqrt(1 - r ** 2)`, где `r` - коэффициент корреляции Пирсона, посчитанный по выборке.
* В предположении верности нулевой гипотезы эта статистика имеет распределение Стьюдента с параметром `df = n - 2`.

In [11]:
t = r*(8)**(1/2)/((1-r**2)**(1/2))
t

5.447168150485575

In [13]:
from scipy import stats

In [18]:
p_left = stats.t.cdf(t, df=8)
p_right = 1 - stats.t.cdf(t, df=8)

pvalue = 2 * min(p_left, p_right)

print('Уровень значимости: ', pvalue)

Уровень значимости:  0.0006107546587257318


## Задание 3

Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:

131, 125, 115, 122, 131, 115, 107, 99, 125, 111

Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

In [23]:
samples = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])

mean = samples.mean()
std = samples.std(ddof=1)

In [20]:
p = 0.95
alpha = 1 - p

t1 = stats.t.ppf(alpha / 2, df=9)
t2 = stats.t.ppf(1 - alpha / 2, df=9)

t1, t2

(-2.2621571627409915, 2.2621571627409915)

In [24]:
(mean + t1 * std / np.sqrt(9), mean + t2 * std / np.sqrt(9))

(110.1480139537451, 126.05198604625488)